Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3168

 
Vladimir Perervenko #:

Vladimir, welche maximale "ehrliche" Akurasi haben Sie auf den neuen Daten erhalten?

Und mit welchem MO-Algorithmus?

 
Aleksey Nikolayev #:

Die Idee ist, Beispiele in Gruppen aufzuteilen, die sich voneinander unterscheiden und innerhalb derer Homogenität besteht. Es ist keineswegs sicher, dass bestimmte Merkmale dies ermöglichen. In der Tat ist es nicht sicher, dass einige von ihnen dies tun, z. B. wegen der Nicht-Stationarität.

Ich habe nicht vor, diesen Artikel im Detail zu studieren, da er nur das Thema berührt, an dem ich interessiert bin. CHAID ist ein bisschen näher dran, aber nicht ganz dasselbe.

Genau das ist es, ich möchte eine gewisse Regelmäßigkeit in der Dynamik von Änderungen der Sequenzreihenfolge finden oder zumindest eine Schätzung der Verschiebung mit der Identifizierung eines Bruchpunkts. Und ich spreche von trivialen binären Prädiktoren. Man könnte zum Beispiel 5 Sequenzen identifizieren, die in den letzten fünf Jahren aufgetreten sind, ihre Stabilität der Prädisposition für den Zielwert untersuchen, und wenn es signifikante Änderungen sowohl bei den Sequenzen als auch bei der Prädisposition gibt, dann entweder den Prädiktor aus dem Training oder aus dem Modell ausschließen. Ich habe im letzten halben Jahr viele Methoden gelesen/angesehen, aber es ist für mich einfach nicht realistisch, sie alle für das Testen zu kodieren - es gibt eine Menge Arbeit zu tun. Das Traurigste ist, wenn man an etwas arbeitet und dann feststellt, dass das Ergebnis nicht den Erwartungen entspricht.

Worin sehen Sie den Vorteil von CHAID?

 

Eine solche Trainingsmethode ist die Erkennung von Linien, die für den Ausschluss aus der Stichprobe günstig sind (Zeroing), durch Quantensegmente.

Jeder Schritt ist eine Hinzufügung einer Regel. Die Regeln sehen so aus: if( arr_Q[n0][i]==1 || arr_Q [n1][i]==1 || arr_Q[nn][i ]==1 ) Propusk=true;

Dies ist ein Gif - Sie müssen darauf klicken, damit es funktioniert.

Bilanz - Gewinn in Pips - fünfstellig.

Ja, dies ist nur ein Beispiel für das Training, ich habe noch nicht weiter gemacht - ich experimentiere.

Hinzugefügt: Und hier ist ein weiteres Kriterium für die Bewertung der Wahl der Quantum-Segment, durch die das Signal ausgeschlossen werden - es scheint, dass hier die Entfernung von unrentablen Linien war mehr fröhlich.


 
Aleksey Vyazmikin #:

Genau das ist es, ich möchte eine gewisse Regelmäßigkeit in der Dynamik der Änderungen der Sequenzreihenfolge finden oder zumindest eine Schätzung der Verschiebung mit der Identifizierung des Bruchpunkts. Und ich spreche von trivialen binären Prädiktoren. Man könnte zum Beispiel 5 Sequenzen identifizieren, die in den letzten fünf Jahren aufgetreten sind, ihre Stabilität der Prädisposition für den Zielwert untersuchen, und wenn es signifikante Veränderungen sowohl bei den Sequenzen als auch bei der Prädisposition gibt, dann entweder den Prädiktor aus dem Training oder aus dem Modell ausschließen. Ich habe im letzten halben Jahr viele Methoden gelesen/angesehen, aber es ist für mich einfach nicht realistisch, sie alle für das Testen zu kodieren - es gibt eine Menge Arbeit zu tun. Das Traurigste ist, wenn man an etwas arbeitet und dann feststellt, dass das Ergebnis nicht den Erwartungen entspricht.

IMHO ist es ein schlechter Ansatz im kombinatorischen Sinne. Eine zu große Anzahl von Sequenzen kann zu Übertraining führen - es wird immer zufällige "gute" Sequenzen geben.

Aleksey Vyazmikin #:

Was ist Ihrer Meinung nach der Vorteil von CHAID?

In erster Linie die Nachdenklichkeit aus der Sicht von Matstat. Das bedeutet, dass die Baumbildung gestoppt wird, wenn ein bestimmtes Signifikanzniveau erreicht ist, und nicht irgendeine linke Regel. Und die Verwendung der Bonferoni-Korrektur, usw. Es ist einfach ästhetisch ansprechend, ein so gut durchdachtes Modell zu betrachten.) Obwohl mir natürlich die Verwendung von nur nominalen Merkmalen überhaupt nicht zusagt, so dass ich nach einem anderen Modell suche (und versuche, es zu erstellen).

 
Aleksey Vyazmikin #:

Genau das ist es, ich möchte eine gewisse Regelmäßigkeit in der Dynamik der Änderungen der Sequenzreihenfolge finden oder zumindest eine Schätzung der Verschiebung mit der Identifizierung des Bruchpunkts. Und ich spreche von trivialen binären Prädiktoren. Man könnte zum Beispiel 5 Sequenzen identifizieren, die in den letzten fünf Jahren aufgetreten sind, ihre Stabilität der Prädisposition für den Zielwert untersuchen, und wenn es signifikante Veränderungen sowohl bei den Sequenzen als auch bei der Prädisposition gibt, dann entweder den Prädiktor aus dem Training oder aus dem Modell ausschließen. Ich habe im letzten halben Jahr viele Methoden gelesen/angesehen, aber es ist für mich einfach nicht realistisch, sie alle für das Testen zu kodieren - es gibt eine Menge Arbeit zu tun. Das Traurigste ist, wenn man an etwas arbeitet und dann feststellt, dass das Ergebnis nicht den Erwartungen entspricht.

Worin sehen Sie den Vorteil von CHAID?

1) Wenn wir wie folgt vorgehen - erhalten wir dann das gleiche Ergebnis wie Sie (in Bezug auf die Bedeutung)?
Wir nehmen ein Blatt (nach 5 Splits), sortieren alle Beispiele darin nach Zeit, wenn es zuerst ein Wachstum und dann einen Rückgang über einen bestimmten Wert gibt - entfernen das Blatt aus der Verwendung.

2) Haben Sie OOS in Ihren Diagrammen?

3) Die Regeln/Blätter werden auf der Grundlage von Daten aus der Ausbildung oder Validierung/Test gesichtet.

 
Aleksey Nikolayev #:

IMHO ist dies ein schlechter Ansatz im kombinatorischen Sinne. Eine zu große Anzahl von Sequenzen kann durchaus zu Übertraining führen - es wird immer zufällig auftretende "gute" Sequenzen geben.

Hier geht es darum, Stabilität zu erkennen. Wenn es sie in der Historie gibt, dann gibt es zumindest einen Grund, sie bei der tatsächlichen Verwendung von Merkmalen im Modell zu erwarten. Und die Methode zur Erkennung dieser Stabilität kann unterschiedlich sein. Aber die Schätzung der Verteilung reicht nicht aus, sie erlaubt es nicht, die Stabilität zu schätzen. Entweder muss sie bereinigt werden. Und ich bin auch darauf gestoßen, dass, wenn man Intervalle, sagen wir einen Monat, nimmt, es nicht genug Signale für irgendwelche statistischen Schlussfolgerungen gibt. Bisher habe ich das mit einem Satzzeichen versehen.... Auf jeden Fall ist es wichtig, die Verteilung der Ereignisse über die Zeit zu bewerten.

Aleksey Nikolayev #:

Nachdenklichkeit in Bezug auf Matstat, zuallererst. Dies bedeutet, dass die Baumbildung bei Erreichen eines bestimmten Signifikanzniveaus gestoppt wird, anstatt einer Regel für die linke Hand. Und die Verwendung der Bonferoni-Korrektur, usw. Es ist einfach ästhetisch ansprechend, ein so gut durchdachtes Modell zu betrachten.) Obwohl mir die Verwendung von nur nominalen Merkmalen natürlich überhaupt nicht zusagt, weshalb ich nach einem anderen Modell suche (und versuche, es zu erstellen).

Ich werde es ausprobieren müssen. Haben Sie Vergleiche mit anderen Baumerstellungsoptionen angestellt, ist das Ergebnis wirklich besser?

 
Forester #:

1) Wenn wir wie folgt vorgehen - erhalten wir das gleiche Ergebnis wie Sie (in Bezug auf die Bedeutung)?
Wir nehmen ein Blatt (nach 5 Splits), sortieren alle Beispiele darin nach Zeit, wenn es zuerst ein Wachstum und dann einen Rückgang über einen bestimmten Wert gibt - löschen das Blatt aus der Verwendung.

2) Haben Sie OOS in Ihren Diagrammen?

3) Die Regeln/Blätter werden auf der Grundlage von Daten aus der Ausbildung oder Validierung/Test gesichtet.

1) Ablehnung ist normal, das Problem hier ist die Zyklizität, wenn es sich um ein Blatt handelt (ich habe ein Quantensegment - buchstäblich ein Blatt mit zwei Splits F>=X1 && F<X2 ). D.h. wenn es sich um Oszillationen handelt, die sogar gegen Null gehen, ist das nicht schlecht, aber sie sollten nicht sehr hoch in einer Richtung sein (zur Abschätzung nehme ich 10 Probenintervalle). Oder wörtlich, wie du schreibst, am Anfang gab es Wachstum, und dann meist Rückgang - das ist sofort im Eimer. Aber das ist alles über Blätter, und wenn Quantum Abschnitt, es die Auswahl durch Wahrscheinlichkeit Bias von 5% des Mittelwerts für die Klasse als eine der ersten Auswahlkriterien.

2. Nein, natürlich nicht, ich schrieb, dass dies eine Trainingsstichprobe ist. Es wird kein Modell selbst trainiert - ich nehme an, dass es noch mehr zu trainieren gibt.

3. auf das Training im Beispiel. Aber nicht das Screening, sondern nur die Auswahl derjenigen, die als Filter dienen sollen, d.h. die Antwort des Modells auf Null bringen sollen. Nun, und schließen Sie Strings/Beispiele vom Training aus, offensichtlich.

Und wenn wir uns auf die Identifizierung stabiler Quantensegmente konzentrieren (z. B. binäre Prädiktoren), dann wird ein solches "Modell" auch ohne Training durch einen Klassifikator funktionieren. Und solange das nicht möglich ist, macht es wenig Sinn, Klassifikatoren zu verwenden. Natürlich hebt niemand die Zufälligkeit auf, und man kann einige erfolgreiche Modelle finden, aber es wird schwierig sein, eine solche Methode vernünftig zu betrachten.

Zu den Nachteilen der Methode gehört der Abfall des Recalls, der aber nicht stärker ist als der des CatBoost-Modells - im Beispiel etwa bis zu 0,5.

 
Aleksey Vyazmikin #:

Und haben Sie Vergleiche mit anderen Baumbauoptionen angestellt, ist das Ergebnis wirklich besser?

Das, was ich an fertiger Form gefunden habe, ist nicht sehr markttauglich, und das selbstgemachte ist nicht fertig. Aber ich mache mir keine großen Hoffnungen, also habe ich es nicht eilig.

 

Das ist die Art von Dingen, die passieren. Auf der linken Seite geht OOS vorbei, auf der rechten Seite - nicht. Und die rechte Seite taucht buchstäblich sofort ab.


Das passiert die meiste Zeit.

D.h. buchstäblich sofort deutliches Abtauchen. Die Art des Tauchgangs ist unklar. Es scheint, dass es etwas in der Nähe von SB sein sollte, aber ich sehe ein solches Bild zu oft.


Ich habe das Gefühl, dass ich, wenn ich nach der Optimierung einen umgekehrten TS laufen lasse, vielleicht nicht einmal verliere.

 
fxsaber #:

Das ist die Art von Dingen, die passieren. Auf der linken Seite passiert OOS, auf der rechten - nicht. Und auf der rechten Seite, es buchstäblich "taucht" sofort.


Das passiert die meiste Zeit.

Das heißt, buchstäblich sofort signifikanten Tauchgang. Die Art des Tauchgangs ist unklar. Ich denke, es sollte etwas in der Nähe von SB sein, aber ich sehe ein solches Bild zu oft.


Es scheint, dass man, wenn man nach der Optimierung einen invertierten TS laufen lässt, nicht einmal verlieren kann.

Vor etwa zwei Jahren habe ich diesen Effekt hier beschrieben