Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2382

 
Evgeni Gavrilovi:

zufällig? d.h. wie hier angegeben? an einer Zufallsstichprobe von 50% testen

ja, Sie können es in der Sklearn-Dokumentation nachlesen

habe dasselbe (wie im Video) mit der saisonalen Version getestet... scheint nicht viel zu verbessern

 
elibrarius:

Sie sprechen von einer Art Standard-/Antik-Kreuzvalidierung.
Erstens brauchen Sie die Zeilen nicht zu mischen, sondern nehmen Sie sie in Blöcken, wie es 0-90 Training 90-100 Test, dann 10-100 Training, 0-10 Test, dann 20-100-10 Training 10-20 Test, etc.
Zweitens müssen Sie, dem Rat von Prado folgend, einen gewissen Abstand (Pruning) zwischen Train und Test lassen, um zu vermeiden, dass benachbarte Beispiele aus Train und Test in Ihre Arbeit einfließen. Ein Beispiel aus dem Zug, das an 10-100 Beispiele aus dem Test angrenzt, wird ihr Hinweis/Sucher sein. Lesen Sie hier mehr https://dou.ua/lenta/articles/ml-vs-financial-math/
Oder hier ist ein Bild:

Sie können 20 % oder so viel wie Sie möchten.

Und schließlich kann man anstelle der Kreuzvalidierung auch einen Rolling Forward anwenden. Dabei wird die Testfläche nicht um den Kreis herum aufgenommen, sondern nur die Vorderseite.

Alles, was Sie hier sagen, habe ich bereits in meinen Experimenten verwendet.

Der Zweck dieser Tricks besteht darin, durch die Aufteilung der Stichprobe in Abschnitte den Abschnitt zu finden, in dem das der gesamten Stichprobe innewohnende Muster weniger verrauscht ist. Je weniger Rauschen bzw. je ausgeprägter die Regeln sind, die zur Klassifizierung beitragen, desto besser wird das Modell sein. Ja, diese Methode hat ihre Daseinsberechtigung, aber sie ist gut zu gebrauchen, wenn man weiß, dass es mehr Prädiktoren gibt, die mit dem Ziel verbunden sind, je mehr zufällige, und wenn der Stichprobenumfang groß genug ist, um so viele Kombinationen von Prädiktoren wie möglich unterzubringen, und je mehr Prädiktoren, desto größer muss die Stichprobe sein. Mein Stichprobenumfang übersteigt selten 20k Zeilen (100 %) und die Prädiktoren liegen über 2k, und natürlich passen nicht alle Kombinationen in die Stichprobe selbst und werden vom Modell nicht berücksichtigt, so dass immer ein Recall von höchstens +-50 % erreicht wird.

Meine Binarisierungsmethode basiert also auf einem anderen Ansatz - jedes Prädiktor-Gitterquant wird auf seine zeitliche Stabilität und seine Prädisposition für das Ziel bewertet, dann werden die ausgewählten Prädiktorquanten zu einem binären Prädiktor zusammengefasst, um so von verrauschten Prädiktorquanten/Splits zu befreien, die meisten Prädiktoren bestehen die Auswahl einfach nicht. Basierend auf den Ergebnissen der Auswahl solcher Binarisierungsstichproben haben wir bereits ein ähnliches Verhalten der Prädiktoren an allen Trainingsstandorten, was die Stabilität des Modells im Falle des Auftretens ähnlicher Ereignisse, die auch in der Vergangenheit aufgetreten sind, unterstützen sollte.

 
Aleksey Vyazmikin:

Alles, was Sie hier sagen, verwende ich bereits in meinen Experimenten.

Der Zweck dieser Tricks besteht darin, durch die Aufteilung der Stichprobe in Abschnitte den Abschnitt zu finden, in dem das der gesamten Stichprobe innewohnende Muster weniger verrauscht ist.

Nein - Ermittlung der Modell-Durchschnittswerte (Fehler usw.) für alle Testchunks. Oder die Summe der Salden.

Die Kreuzvalidierung ist für Sie in Ordnung, wenn es akzeptabel ist, frühe Zeilen als Test zu verwenden.
Vorwärts gehen ist wahrscheinlich nicht mehr. 20000 Zeilen sind schwer in viele Teile zu unterteilen, um sie zu testen.

Ihr Schema ist untypisch, also kein guter Rat)
 
elibrarius:

Nein - Ermittlung von Modelldurchschnittswerten (Fehler usw.) über alle Testchunks. Oder die Summe der Salden.

Sie müssen also herausfinden, wo die Beziehungen vorherrschen, die in der Zukunft stabil sein werden, welche Prädiktoren signifikant sind und welches das Ziel ist.

elibrarius:

Die Kreuzvalidierung eignet sich für Sie, wenn es akzeptabel ist, frühe Linien als Test zu verwenden.

Vorwärts gehen, vielleicht nicht mehr. 20000 Zeilen lassen sich nur schwer in mehrere Abschnitte unterteilen, um sie im Voraus zu testen.

Sie haben ein atypisches Schema, also nicht viel Rat)

Die Verwendung der frühen Saiten ist aus dem Grund inakzeptabel, weil sie zur Bewertung der Quanten verwendet wurden - bei 60 % der Stichprobe. Hier ist das ganze Auswerteverfahren nach einzelnen Chunks zu machen - aber was bringt das - global gesehen gibt es keine.

Methode Lasso zeigte bessere Ergebnisse, CatBoost - ich werde sicherlich auf andere Proben später zu vergleichen, aber anscheinend erlaubt es zu verallgemeinern stark entladen binären Prädiktoren, wo Einheiten 10-20%. Die Frage ist jedoch, wie man es für die Gewinnung von Einnahmen nutzen kann.

 
Aleksey Vyazmikin:

Die Verringerung der L2-Regularisierung brachte keine Verbesserung. Lasso fällt also besser aus.

Es ist besser... beide sind schlecht, und es gibt ein paar Prozent Unterschied.

 
Maxim Dmitrievsky:

Wie kann es besser sein... was da ist, ist schlecht, und es gibt einen Unterschied von ein paar Prozent

Eine Genauigkeit von 4 % ist in finanzieller Hinsicht viel - sie wird Ihre Rentabilität und Ihre Erwartungen erhöhen!

 
Wer hat die eur 5 min für 10 Jahre senden Sie uns bitte eine txt oder csv.
 
Ich habe im Browser Prognosen für neuronale Netze erstellt. Habe Indikatoren + versucht, Einstiegspunkte anzugeben.
Der Link befindet sich in meinem Profil.
 
mytarmailS:
Wer den eur 5min in 10 Jahren hat, schicke mir bitte eine txt oder csv.

Können Sie das Terminal nicht herunterladen?

 
Maxim Dmitrievsky:

Können Sie das Terminal nicht herunterladen?

Tests auf der M5 zitiert seit 10 Jahren ... Sie müssen das Terminal vor ihnen verstecken, bevor sie das Familienbudget belasten.