Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3009

 
СанСаныч Фоменко #:
Vor allem aber muss theoretisch nachgewiesen werden, dass sich die Vorhersagekraft der verfügbaren Merkmale in Zukunft nicht oder nur geringfügig ändert. In der ganzen Dampfwalze ist dies der wichtigste Punkt.

Leider hat das niemand gefunden, sonst wäre er nicht hier, sondern auf tropischen Inseln))))

SanSanych Fomenko #: Meiner Meinung nach spielt das Modell eine extrem kleine Rolle, denn es hat keinen Bezug zur Stabilität der Vorhersagefähigkeit von Merkmalen: Die Stabilität der Vorhersagefähigkeit ist eine Eigenschaft des Paares "Lehrer-Merkmal".

Ja. Selbst ein Baum oder eine Regression kann ein Muster finden, wenn es vorhanden ist und sich nicht ändert.

SanSanych Fomenko #:

1. Hat noch jemand ein Lehrer-Eigenschafts-Paar mit weniger als 20% Klassifikationsfehler?

Ganz einfach. Ich kann Dutzende von Datensätzen ungeneriert erzeugen. Ich bin gerade dabei, TP=50 und SL=500 zu untersuchen. Der durchschnittliche Fehler bei der Bewertung des Lehrers liegt bei 10%. Wenn er 20% beträgt, ist es ein Pflaumenmodell.
Der springende Punkt ist also nicht der Klassifikationsfehler, sondern das Ergebnis der Addition aller Gewinne und Verluste.

Wie Sie sehen, hat das beste Modell einen Fehler von 9,1 %, und Sie können mit einem Fehler von 8,3 % etwas verdienen.
Die Diagramme zeigen nur die OOS, die durch Walking Forward mit wöchentlicher Umschulung erzielt wurden, insgesamt 264 Umschulungen über 5 Jahre.
Es ist interessant, dass das Modell bei 0 mit einem Klassifizierungsfehler von 9,1 % arbeitete, und 50/500 = 0,1, d. h. 10 % sein sollte. Es stellt sich heraus, dass 1% die Streuung gefressen hat (Minimum pro Balken, der reale Wert wird größer sein).

 

Zuerst muss man erkennen, dass das Modell im Inneren voller Müll ist...

Wenn man ein trainiertes Holzmodell in die darin enthaltenen Regeln und die Statistiken über diese Regeln zerlegt.

zum Beispiel:

     len  freq   err                                                                                 condition pred
315    3 0.002 0.417    X[,1]>7.49999999999362e-05 & X[,2]<=-0.00026499999999996 & X[,4]<=0.000495000000000023    1
483    3 0.000 0.000     X[,1]<=0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000685000000000047    1
484    3 0.002 0.273      X[,1]>0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000685000000000047   -1
555    3 0.001 0.333   X[,5]<=0.000329999999999941 & X[,7]>0.000309999999999921 & X[,8]<=-0.000144999999999951   -1
687    3 0.001 0.250 X[,2]<=-0.00348499999999996 & X[,7]<=-0.000854999999999939 & X[,9]<=-4.99999999999945e-05    1
734    3 0.003 0.000    X[,7]>-0.000854999999999939 & X[,8]>0.000724999999999865 & X[,9]<=0.000214999999999965    1
1045   3 0.003 0.231   X[,1]<=-0.000310000000000032 & X[,4]>0.000105000000000022 & X[,4]<=0.000164999999999971   -1
1708   3 0.000 0.000    X[,3]>0.00102499999999994 & X[,6]<=0.000105000000000022 & X[,7]<=-0.000650000000000039    1
1709   3 0.002 0.250     X[,3]>0.00102499999999994 & X[,6]<=0.000105000000000022 & X[,7]>-0.000650000000000039   -1
1984   3 0.001 0.000     X[,1]<=0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000674999999999981    1
2654   3 0.003 0.000        X[,4]<=0.00205000000000011 & X[,5]>0.0014550000000001 & X[,9]<=0.00132999999999994    1
2655   3 0.000 0.000         X[,4]<=0.00205000000000011 & X[,5]>0.0014550000000001 & X[,9]>0.00132999999999994   -1
2656   3 0.001 0.200         X[,3]<=0.00245499999999998 & X[,4]>0.00205000000000011 & X[,5]>0.0014550000000001   -1
2657   3 0.000 0.000          X[,3]>0.00245499999999998 & X[,4]>0.00205000000000011 & X[,5]>0.0014550000000001    1
2852   3 0.000 0.000                X[,2]<=-0.001135 & X[,8]>-0.000130000000000075 & X[,8]>0.00128499999999998   -1
2979   3 0.001 0.200     X[,1]>0.000930000000000097 & X[,1]>0.00129000000000012 & X[,8]<=-0.000275000000000025   -1


und analysiert die Abhängigkeit des Fehlers der Regel err von der Häufigkeit ihres Auftretens in der Stichprobe.


erhalten wir


Dann sind wir an diesem Bereich interessiert


Wo die Regeln sehr gut funktionieren, aber so selten sind, dass es Sinn macht, die Echtheit der Statistik über sie anzuzweifeln, denn 10-30 Beobachtungen sind keine Statistik

 
mytarmailS #:

Zuerst muss man feststellen, dass das Modell innen voller Müll ist...

Wenn man ein trainiertes Holzmodell in die darin enthaltenen Regeln und die Statistiken über diese Regeln zerlegt.

zum Beispiel:

und analysieren Sie die Abhängigkeit des Fehlers der Regel err von der Häufigkeit ihres Auftretens in der Stichprobe

erhalten wir

Ein kleiner Lichtblick in der Dunkelheit der letzten Beiträge
Wenn Sie die Fehler des Modells richtig analysieren, können Sie etwas Interessantes finden. Wir werden sehr schnell und ohne gpu, sms und Registrierungen zu akzeptieren.
 
Maxim Dmitrievsky #:
Nur ein Lichtblick in der Dunkelheit der letzten Beiträge
Wenn Sie die Modellfehler richtig analysieren, können Sie etwas Interessantes finden. Wir werden sehr schnell und ohne gpu, sms und Registrierungen akzeptieren.

Es wird einen Artikel darüber geben, wenn es einen gibt.

 
mytarmailS #:

wird es einen Artikel darüber geben, wenn es einen gibt.

Norm, mein letzter Artikel handelte von der gleichen Sache. Aber wenn Ihr Weg schneller ist, ist das ein Pluspunkt.
 
Maxim Dmitrievsky #:
Norm, in meinem letzten Artikel ging es um die gleiche Sache. Aber wenn Ihr Weg schneller ist, ist das ein Pluspunkt.

Was meinen Sie mit "schneller"?

 
mytarmailS #:

Was meinen Sie mit "schneller"?

In Bezug auf die Geschwindigkeit.
 
Maxim Dmitrievsky #:
In Bezug auf die Geschwindigkeit.

etwa 5-15 Sekunden bei einer 5k-Probe

 
mytarmailS #:

etwa 5-15 Sekunden bei einer 5k-Probe.

Ich meine den gesamten Prozess von Anfang an bis zum Erhalt des TC.

Ich habe 2 Modelle, die mehrmals neu trainiert werden, also ist es nicht sehr schnell, aber es ist akzeptabel.

Und am Ende weiß ich nicht, was genau sie herausgefiltert haben.

 
Maxim Dmitrievsky #:

Ich meine den gesamten Prozess von Anfang an bis zur Erteilung der Genehmigung.

Ich habe 2 Modelle, die mehrmals neu trainiert werden, also nicht sehr schnell, aber akzeptabel

und am Ende weiß ich nicht, was genau sie aussortiert haben.

Trainieren 5k.

Gültig 60k.


Modelltraining - 1-3 Sekunden

Regelextraktion - 5-10 Sekunden

Überprüfung jeder Regel (20-30k Regeln) auf Gültigkeit 60k 1-2 Minuten


Natürlich ist alles nur ein Näherungswert und hängt von der Anzahl der Merkmale und Daten ab.