Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 1354

 
Yuriy Asaulenko:

Bewahren Sie die Archive auf. Siehe Anhang.

Learn.csv - Eingaben. Die allererste Ziffer in jeder Zeile ist historisch verbindlich, sie sollte entfernt werden.

Zelle.scv - Ziel.

Das Training mit diesen Daten sollte das folgende Diagramm ergeben.

Der Filter entspricht ungefähr dem EMA(16) und die Vorhersage beträgt 5 Minuten.

Ich werde den Test später durchführen, wenn ich ihn brauche.

Ich bin mir nicht sicher, ob es sich bei diesem Diagramm um ein Trainings- oder ein Testdiagramm handelt.

Hier ist der CatBoost im Test - die letzten 100 Werte.

Histogramm der Abweichungen.

Ich habe 4000 für das Training, 2000 für die Validierung und 100 Zeilen für den Test genommen. Ich habe 1000 Bäume der Tiefe 6 trainiert, RMSE-Formel (ersetzt durchPoisson).

Beispiel und Einstellungen im Anhang, für die Wiedergabe müssen Sie CB herunterladen und in das Setup-Verzeichnis legen.

Bei der Trainingsstichprobe sieht die gleiche Verteilung anders aus als bei Ihnen

Hinzugefügt: Falsche Anwendung des Modells - die Wahrscheinlichkeitsdiagramme wurden zu...

Dateien:
Setup.zip  587 kb
 
Aleksey Vyazmikin:

Es ist nicht ganz klar, bei welcher Probe Sie dieses Diagramm erhalten haben - beim Training oder bei der Prüfung?

Hier ist der CatBoost im Test - die letzten 100 Werte.

Histogramm der Abweichungen.

Ich habe 4000 für das Training, 2000 für die Validierung und 100 Zeilen für den Test genommen. Ich habe 1000 Bäume mit einer Tiefe von 6 trainiert, RMSE-Formel.

Beispiel und Einstellungen im Anhang, für die Wiedergabe müssen Sie CB herunterladen und in das Setup-Verzeichnis legen.

Auch bei der Trainingsstichprobe sieht die Verteilung nicht so aus wie bei Ihnen

Meine Grafik bezieht sich nur auf die gesamte Stichprobe. Ich habe keinen Test gemacht. Wird in etwa mit der Ausbildung identisch sein.
Wohin sind die negativen Werte auf der x-Achse verschwunden? Und der Bereich der x-Werte ist nicht derselbe wie der von y? Wie das?
Ich habe ein Diagramm, in dem ich die prognostizierten und die tatsächlichen Werte (Ziel) miteinander vergleiche. Keine Ausschüttungen.
 
Yuriy Asaulenko:
Meine Grafik bezieht sich nur auf die gesamte Stichprobe. Ich habe keine Tests dazu durchgeführt. Wird in etwa identisch mit der Ausbildung sein.
Wo befinden sich die negativen Werte auf der x-Achse in der Grafik? Und der Bereich der x-Werte ist nicht derselbe wie der von y? Wie das?
Ich habe ein Diagramm, in dem ich die Vorhersage mit den tatsächlichen Werten vergleiche.

Ja, ich habe noch nie eine Regression durchgeführt, es gibt eine Menge obskurer Fitnessfunktionen, die im Gegensatz zur Klassifizierung unterschiedliche Ergebnisse liefern, und ich habe den falschen Wert genommen.

Hier ist das Testmuster.

Und hier ist das Übungsbeispiel - 4.000 Zeilen.

Histogramm der Abweichungen für die Stichprobe

Hier ist das Gesamtdiagramm für die 3 Proben.

Die Metrik, die für das Training der Teststichprobe verwendet wurde

Er sagt, wir hätten das Training bei 250 Iterationen abbrechen können, und das Modell wird neu trainiert.

 
Aleksey Vyazmikin:

Ja, ich habe noch nie eine Regression durchgeführt, es gibt viele unklare Fitnessfunktionen, die im Gegensatz zur Klassifizierung unterschiedliche Ergebnisse liefern, und ich habe den falschen Wert genommen.

Hier ist das Testmuster.

Und hier ist das Trainingsbeispiel - 4000 Zeilen.

Histogramm der Abweichungen für die Stichprobe

Hier ist ein allgemeines Diagramm für 3 Proben

Scheint in Ordnung zu sein. Auch im Test. obwohl umgeschult).
 
Yuriy Asaulenko:
Scheint OK zu sein.

Nun, ja, Sie können sich verbessern, wenn Sie wollen - ich habe nur keine Erfahrung mit Regressionsmodellen.

Die wichtigsten Prädiktoren sind also Arbeitsmittel :)

Ich habe die endgültige Version mit Einstellungen angehängt - es werden 10 Modelle mit verschiedenen Samen trainiert

Dateien:
Setup.zip  588 kb
 
Aleksey Vyazmikin:

Nun, ja, man kann sich verbessern, wenn man will - ich habe nur keine Erfahrung mit Regressionsmodellen.

Die wichtigsten Prädiktoren sind also Arbeitsmittel :)
Es gibt eine skalierte Preisreihe als Input. - 20 enge Werte und das war's. Es geht nicht um Prädiktoren, sondern um die Formulierung des Problems - es ist lösbar. Und Ihr Wald wird die Prädiktoren selbst finden).
 
Yuriy Asaulenko:
Am Eingang gibt es eine skalierte Preisreihe. - Es gibt 20 enge Werte und das war's. Es geht nicht um Prädiktoren, sondern um die Formulierung des Problems - es kann gelöst werden. Und Ihr Wald denkt sich selbständig Prädiktoren aus).

Ja, es geht um die Problemstellung, da stimme ich zu. Es ist nur so, dass ich den Preis nicht als einen Teig sehe, aus dem Kuchen geformt wird, und dass man Prädiktoren braucht, um diese Kuchen zu formen.

 
Maxim Dmitrievsky:

Eine der klassischen Techniken, die ein Modell verbessern kann. Oder besser gesagt, finden Sie die optimale Lösung. Die ursprüngliche Anwendung von Monte Carlo.

https://en.wikipedia.org/wiki/Importance_sampling

Haben Sie diese Methode in Ihrem Artikel nicht angewandt?

 
Maxim Dmitrievsky:

Für außerpolizeiliche RL (Policengradient)

https://medium.com/@jonathan_hui/rl-wichtiges-sampling-ebfb28b4a8c6

Können Sie mit Ihren eigenen Worten auf Russisch erklären, worum es dabei geht? Auf Englisch, sozusagen.)

 
Yuriy Asaulenko:

Das LPF-Filter haben wir recht erfolgreich vorhergesagt. Sogar jetzt sind wir beide, nicht einmal nur der NS, sondern der Wald. Versuchen wir nun, den Preis vorherzusagen (eine völlig sinnlose Übung). Wir würden lieber die RF-Komponente der erwarteten Änderung der Preiserwartung vorhersagen, die (Erwartung) derzeit unbekannt ist. Und zwar im Zusammenhang mit allen möglichen Bewegungen, HF-Schwingungen und allem anderen.

Daraus ergibt sich Folgendes: Die Vorhersagezeit beträgt 5 m bei 1 m TF.

Wie üblich gilt: x ist die Prognose, y ist der tatsächliche Wert. Mit einem Neigungswinkel von 45 Grad sieht es wie ein Rechteck aus, danke, dass es kein Kreis ist. Bewegt man sich bei x ein wenig nach rechts-links von der Null, kann man sogar mit einer Wahrscheinlichkeit von etwas über 50 % spielen (siehe Bereiche).

Natürlich wäre es schön, alle möglichen Regressionsgeraden und Verteilungen zu erstellen, aber es ist notwendig, zumindest ein paar Schnitte zu machen - das ist für später.

PS Nun, und eine Vorhersage mit einem leicht veränderten Algorithmus. Gleiche 5 Minuten bei Zeitrahmen 1m.

Es ist schon viel besser.) Ausgehend von der Vorhersage >2 und < -2 durch х sind Geschäfte mit Verlusten kaum zu erwarten, wenn wir einfach in 5 min schließen.

Das zweite Bild ist wirklich gut! Welche Änderungen am Algorithmus machten dies möglich?