Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 1911

 
Maxim Dmitrievsky:
Du denkst dir das aus, während du es tust). 24 Spalten, nicht 100. Sie haben die Datei selbst angefordert. Es gibt keine Fehler (ich habe es erklärt). 300 und viele Zeilen, weil ich Ihnen ein Jahr, so dass Ihre "Generator" nicht kacken zu zählen))) Aber fahren Sie fort. Ich hatte keine Zeit, ihn zu Ende zu sehen, aber der Anfang ist vielversprechend. Ich werde später eine vollständige Bewertung abgeben. Es sieht so aus, als müsste ich im Videoformat antworten.
Ja, Maxim, tut mir leid, es war nicht Ihre Trainingsdatei, aber ich denke, die Bedeutung der Nachricht ist klar. Nun, 24 Spalten können nicht 2000 Vektoren ohne Wiederholung erklären. Es ist einfach physisch nicht möglich....
 
Mihail Marchukajtes:

Ich habe eine schmutzige Datei mit 7700 Spalten, in der ich 24 Ligen anführe, also gehen Sie nicht weiter, sondern schauen Sie lieber hier. Hier ist Ihre Datei.

Und hier ist meine.

Was ist der Unterschied???? Ich will Sie nicht länger auf die Folter spannen. Bei der Hauptkomponentenanalyse, bei der jede Spalte ein eigenes Koordinatensystem darstellt, ist es wichtig, dass sie geclustert werden können, damit Punkte aus verschiedenen Spalten auf demselben Koordinatensystem aufgetragen werden können. Das Dolmetschen ist einfach. Je mehr vertikale und horizontale Vektoren, desto kühler ist es. Es handelt sich um einen stumpfen, einheitlichen Fleck.

Die Winkel zwischen den Vektoren sind im Wesentlichen korreliert (90g = 0 Korrelation). Wenn ich die inkrementellen Verzögerungen einführe, wird es keine Korrelation geben, es ist wie weißes Rauschen.

Dass Sie mit 50 Trainingsbeispielen (50 Zeilen) auskommen, ist erstaunlich, so flach muss das Raster sein. Sie brauchen viele Beispiele, um unnötige Funktionen zu eliminieren (idealerweise bis zu einer), die Daten beschreiben können.

 
Mihail Marchukajtes:
Ja, Maxim, tut mir leid, das war nicht Ihre Ausbildungsakte, aber ich denke, die Botschaft ist klar. Nun, 24 Spalten können nicht 2000 Vektoren ohne Wiederholungen erklären. Es ist einfach physisch unmöglich....


Nächstes Mal werde ich einen Tanz aufführen.

 
Maxim Dmitrievsky:

Das nächste Mal werde ich tanzen.

vtreet verwendet kein RSA, darum geht es überhaupt nicht. Ich selbst verstehe nicht, was sie tun,

sie verarbeiten fehlende Zeichen vor und so weiter + sie erstellen neue Merkmale, positionieren sie aber nicht als Merkmalsinduktion, und sie zählen sie als Merkmal, positionieren sie aber nicht als Merkmalsauswahl, ich weiß also nicht, was es ist oder wie es funktioniert.



In Bezug auf "PCA ist linear und was Sie dort ptsashil haben, können Sie einfach in den Papierkorb werfen.

Ich wette, ich kann einen Preis aus einer PCA-Zerlegung auf neue Daten mit einer Genauigkeit von +-98 % ermitteln.

Ich kann es beweisen, also liegst du hier falsch, vielleicht sogar cool, dass es linear ist, sonst hätte ich es nicht gesammelt.

 
Maxim Dmitrievsky:


Das nächste Mal werde ich tanzen

Im Allgemeinen stimme ich mit der Terminologie überein, bei der die Spalten die Inputs (erklärende Variablen) und die Zeilen die Trainingsvektoren oder Beispiele sind. Es ist möglich, dass dies für einige Lernalgorithmen kritisch ist, wenn es weniger Zeilen als Spalten gibt, aber wenn es mehr Zeilen als Spalten gibt, erhält man fast identische Beispiele, die das Modell in den Bereich des Überlernens ziehen. Es ist nicht möglich, 350 Beispiele (Zeilen) mit 24 erklärenden Variablen (Spalten) zu beschreiben und Wiederholungen zu vermeiden.

Ich verwende PCA im Allgemeinen nicht, es war nur ein Beispiel für einen anderen Benutzer. Sie können damit die Ergebnismenge so weit auswerten, wie sie aufteilbar ist.


P.S. Die Schote...fick mit dem Song ist gutgeschrieben. Gut gemacht!

 
Theoretisch ist also eine quadratische Matrix am einfachsten zu lernen, wenn die Anzahl der Spalten und Zeilen gleich ist.... HMM... Das hat mich übrigens auf die Idee gebracht, für das Training so viele Beispiele zu nehmen, dass nach der Vorverarbeitung die gleiche Anzahl von Spalten übrig bleibt: .... Das ist eine Überlegung wert... so ist es.... Die quadratische Matrix hat 100% keine Wiederholungen....
 
Mihail Marchukajtes:

Im Allgemeinen stimme ich mit der Terminologie überein, bei der die Spalten die Inputs (erklärende Variablen) und die Zeilen die Trainingsvektoren oder Beispiele sind. Es ist möglich, dass dies für einige Lernalgorithmen kritisch ist, wenn es weniger Zeilen als Spalten gibt, aber wenn es mehr Zeilen als Spalten gibt, erhält man fast identische Beispiele, die das Modell in den Bereich des Überlernens ziehen. Es ist nicht möglich, 350 Beispiele (Zeilen) mit 24 erklärenden Variablen (Spalten) zu beschreiben und Wiederholungen zu vermeiden.

Ich verwende PCA im Allgemeinen nicht, es war nur ein Beispiel für einen anderen Benutzer. Sie können damit die Ergebnismenge so weit auswerten, wie sie aufteilbar ist.


P.S. Die Schote...fick mit dem Song wird gutgeschrieben. Gut gemacht!

Nur wenn die Bezeichnungen der Klassen sehr unterschiedlich sind (Klassen sind nicht ausgeglichen)

Ich habe dich umsonst gequält. berühmtester Magier und Zauberer ))))

 
Mihail Marchukajtes:

Man kommt nahe an identische Beispiele heran, die das Modell in den Bereich des Überlernens ziehen.

diese "ähnlichen Beispiele" schaffen statistisch signifikante Strukturen - was ist Statistik? das ist, wenn sich etwas wiederholt und man daraus Schlüsse ziehen kann

Mihail Marchukajtes:

Es ist nicht möglich, 350 Beispiele (Zeilen) mit 24 erklärenden Variablen (Spalten) zu beschreiben und Wiederholungen zu vermeiden.

Was ist falsch an Wiederholungen ????

 
mytarmailS:

diese "gleichen Beispiele" sind genau das, was statistisch signifikante Strukturen schafft - was ist Statistik? das ist, wenn sich etwas wiederholt und man daraus Schlüsse ziehen kann

Was ist Ihr Problem mit Wiederholungen? ????

Es gibt drei Arten von Lügen: Lügen, eklatante Lügen und Statistiken. - Mark Twain.

Wiederholungen führen zu Auswendiglernen, wir müssen das Netz verallgemeinern. Das heißt, wir müssen einen eindeutigen Vektor einspeisen, damit das Netz beim Auftreten eines neuen Vektors wie erwartet reagiert. Enthält ein Satz eine Gruppe nahe beieinander liegender Vektoren, so speichert das Netz diese nicht....

Mit anderen Worten, der Algorithmus wird diesen beiden nahen Vektoren einen unangemessen hohen Gewichtungsfaktor zuweisen....

 
Maxim Dmitrievsky:

nur wenn die Klassenbezeichnungen eine sehr unterschiedliche Anzahl haben (die Klassen sind nicht ausgeglichen)

Ich habe mich umsonst mit dir abgemüht... der berühmteste Magier und Zauberer ))))

Ich spreche ursprünglich von zwei Klassen und nicht mehr. Wenn es drei oder mehr Klassen gibt, ist es erlaubt, eine Tabelle mit eindeutigen Vektoren zu erstellen, in der die Zeilen mehr als die Spalten sind, aber ihre Eindeutigkeit wird ausschließlich durch das Ziel definiert.