Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3176

 
fxsaber #:

Das ist natürlich unterschiedlich. Aber sehr oft kann man direkt nach der Probe einen Zusammenbruch feststellen. Vielleicht ist es eine kognitive Verzerrung, wenn man einer Sache mehr Aufmerksamkeit schenkt und den Eindruck hat, dass sie zu oft vorkommt.

Wenn es oft vorkommt, dann sollte es keine Frage sein, dass sich die globalen Muster ändern, sonst wäre der Bruchpunkt um das gleiche Datum herum.

Aber vielleicht ändert sich rein statistisch gesehen die Häufigkeit ihres Auftretens. Das heißt, dass die alten Muster weiterhin funktionieren, aber es gibt auch neue für das Modell, die vorher aus verschiedenen Gründen nicht auftraten - am wichtigsten ist, dass sie beim Training nicht vorhanden waren. Zum Beispiel hat sich die Volatilität erheblich verändert, und der Code (bedingte Prädiktoren) hat einige feste Werte, oder es gibt nur wenige Beobachtungen für diese Volatilität - sie war während des Trainings oder in anderen Bereichen immer stabil. Mit anderen Worten, es kommen neue Beobachtungen in die Stichprobe (wenn neue Daten gesammelt werden) - hier brauchen wir einen Mechanismus, um das Auftreten solcher Ereignisse zu erkennen.

Auch das Gegenteil kann passieren - wenn eine Strategie auf seltenen Ereignissen aufbaut und der Trend länger als ein Jahr anhält. Kürzlich wurde mir ein solches Wunderwerk der EA-Konstruktion vorgeführt.

Die Person hatte zunächst nur die Historie des Verhaltens des EA seit 2016 gesehen (Goldwachstum) und beklagte sich, dass etwas kaputt sei und es notwendig sei, die richtige Chartaufteilung mit Hilfe von MO zu optimieren.

Unter der Haube stellte sich heraus, dass ein Dutzend Indikatoren, von denen jeder durchschnittlich 100 Signale lieferte, d.h. es wurden tatsächlich Emissionen gefunden, die von verschiedenen Indikatoren in der Historie erkannt und zu einer gemeinsamen Gruppe zusammengefasst wurden. Werden sich diese Ausreißer in der Historie mit dem gleichen Wahrscheinlichkeitsergebnis wiederholen?

Ja, es gibt Ausreißer, die keine Ausreißer sind, obwohl sie statistisch gesehen Ausreißer sind, aber es stellt sich die Frage, wie man sie von den anderen trennt.

fxsaber #:

Das Diagramm zeigt drei Jahre täglichen Handels.

Für Ticks scheint das viel zu sein, aber ich verwende einen größeren Bereich - ab 10 Jahren auf die Minuten und die Signale sind zunächst nicht so häufig - es gibt ein Basissignal.

fxsaber #:

Was ich nicht gemacht habe, war, für jeden Bereich ein Diagramm zu erstellen. Ich habe die statistischen Daten gezählt, mir aber nicht den Chart selbst angesehen.

Schauen Sie sich die Dynamik der Muster an - oft kann es sich um Klumpen handeln, die in einem relativ kurzen Zeitintervall aufgetreten sind - im Verhältnis zur Stichprobe ist es gut, wenn die Beobachtungen des Musters dazu neigen, sich über das gesamte Intervall zu wiederholen.

Eine weitere Nuance, mit dem gleichen CatBoost - dort sterben etwa 50% der Blätter bei neuen Daten ab, d.h. es treten keine Muster mehr auf, auf denen das Modell aufgebaut wurde.

fxsaber #:

Ich habe die Hervorhebung nicht verstanden.

Die anderen beiden Stichproben sind Test und Prüfung, die auf die Stichprobe folgen, auf der das Training durchgeführt wurde.

Dann hast du gefragt, warum sie verwendet werden - ursprünglich wurde test verwendet, um das Übertraining in CatBoost zu kontrollieren, d.h. wenn neue Muster keine Verbesserungen auf der Testprobe ergeben - werden die Iterationen zur Verbesserung gestoppt. Und Prüfung - nur schon unabhängige Prüfung des Modells. Idealerweise sollte man lernen, ein Modell auszuwählen, das in der Prüfung durch Trainieren und Testen erfolgreich ist - das ist ein separates Thema.

Und wenn die Aufgabe der Modellauswahl gelöst ist, kann man natürlich die Stichprobe für das Training bei Bedarf vergrößern oder zumindest die Zug- und Teststichproben näher an das aktuelle Datum verschieben.

 
Aleksey Vyazmikin #:

Welche Signifikanztests schlagen Sie vor? Ich behaupte nicht, dass der Algorithmus für die Auswahl von Quantensegmenten perfekt ist, im Gegenteil - es kommt eine Menge Müll hinein, und ich möchte ihn verbessern.

Ich verstehe nicht, aufgrund welcher Anzeichen Sie entschieden haben, dass es sich um eine Art "Pi-Hacking" handelt - und welchen Teil genau, die Auswahl von Quantensegmenten oder das Screening von Strings, die gut und ohne Training durch Quantensegmente (d.h. Graphen, die ich gebaut habe) ausgesiebt werden? Ja, die Methode unterscheidet sich ein wenig von der üblichen Vorgehensweise beim Bau von Holzmodellen, aber nicht wirklich viel, das Konzept bleibt.

Was das Beispiel auf SB betrifft, so gibt es zwei Überlegungen:

1. Wenn der Prozess unbekannt ist und es nur Daten gibt, dann kann man davon ausgehen, dass es eine beste Handelsstunde gibt. Oder gibt es eine Überlegung, die diese Hypothese widerlegt?

2. Wenn diese Beobachtungen relativ gleichmäßig über die Zeit verteilt waren (Ereignisverlauf), dann handelt es sich eher um einen Fehler des Zufallszahlengenerators.

Beim Training verwende ich Stichproben über einen langen Zeitraum - normalerweise mindestens 10 Jahre.

Ich kann vorschlagen, mein Experiment zu modifizieren. Nehmen wir an, es gibt zehn Kästchen mit Zahlen von 1 bis 10, einhundert weiße Kugeln und einhundert schwarze Kugeln (die Zahlen 10 und 100 werden zufällig genommen). Die Kugeln werden irgendwie in den Kisten angeordnet, dann schaut man sich an, wie viele Kugeln in jeder Kiste sind und versucht zu verstehen, ob es eine Regelmäßigkeit im Algorithmus der Anordnung gibt - in den Kisten mit den Zahlen überwiegen die Kugeln einer bestimmten Farbe.

Wenn also jede Kugel (beider Farben) zufällig und mit der gleichen Wahrscheinlichkeit 0,1 in eine der Schubladen gelegt wird, dann wird es am Ende keine Gleichmäßigkeit im Verhältnis der Farben geben! Es wird fast immer ein Kästchen geben, in dem fast alles weiß ist, und eines, in dem fast alles schwarz ist. Und es geht überhaupt nicht um die Qualität des DSP, Sie können einen echten Quanten-DSP nehmen und alles wird gleich sein. Es geht um die eigentliche Natur des probabilistischen Zufalls. Es wird immer Unregelmäßigkeiten geben, aber die Anzahl der Kästchen, in denen sie bei der nächsten Anordnung zu finden sind, ist absolut unvorhersehbar. Dasselbe gilt für das vorherige Beispiel mit der Wochenstunde (die Wochenstunde ist das Analogon zur Kistennummer).

Es gibt zwei Möglichkeiten, dies zu tun. Entweder man versucht zu zeigen, dass die Ungleichheit in der Praxis viel größer ist, als sie es bei gleicher Wahrscheinlichkeit wäre. Dies geschieht durch eine Art statistischer Tests. Oder man kann sich einfach sicher sein, dass die Ungleichmäßigkeit, auch wenn sie gering ist, auf eine Regelmäßigkeit zurückzuführen ist, die sich aufgrund von Rauschen nur schwach manifestiert. Aber das ist eine Frage des Glaubens und der Praxis, und wenn es funktioniert, ist es gut.

Ich hoffe, es ist klar, dass die Chiffre (Wochenstunden) eine Analogie zu Ihren Quanten ist.

 
Aleksey Nikolayev #:

Ich kann vorschlagen, mein Experiment zu ändern. Nehmen wir an, es gibt zehn Kästchen mit Zahlen von 1 bis 10, hundert weiße Kugeln und hundert schwarze Kugeln (die Zahlen 10 und 100 werden konventionell genommen). Die Kugeln werden irgendwie in den Kisten angeordnet, dann schaut man sich an, wie viele Kugeln in jeder Kiste sind und versucht zu verstehen, ob es eine Regelmäßigkeit im Algorithmus der Anordnung gibt - in den Kisten mit den Zahlen überwiegen die Kugeln einer bestimmten Farbe.

Wenn also jede Kugel (beider Farben) zufällig und mit der gleichen Wahrscheinlichkeit 0,1 in eine der Schubladen gelegt wird, dann wird es am Ende keine Gleichmäßigkeit im Verhältnis der Farben geben! Es wird fast immer ein Kästchen geben, in dem fast alles weiß ist, und eines, in dem fast alles schwarz ist. Und es geht überhaupt nicht um die Qualität des DSP, Sie können einen echten Quanten-DSP nehmen und alles wird gleich sein. Es geht um die eigentliche Natur des probabilistischen Zufalls. Es wird immer Unregelmäßigkeiten geben, aber die Anzahl der Kästchen, in denen sie bei der nächsten Anordnung zu finden sind, ist absolut unvorhersehbar. Dasselbe gilt für das vorherige Beispiel mit der Wochenstunde (die Wochenstunde ist ein Analogon der Kästchennummer).

Es gibt zwei Möglichkeiten, dies zu tun. Entweder man versucht zu zeigen, dass die Ungleichheit in der Praxis viel größer ist, als sie es bei gleicher Wahrscheinlichkeit wäre. Dies geschieht durch eine Art statistischer Tests. Oder man kann sich einfach sicher sein, dass die Ungleichmäßigkeit, auch wenn sie gering ist, auf eine Regelmäßigkeit zurückzuführen ist, die sich aufgrund von Rauschen nur schwach manifestiert. Aber das ist bereits eine Sache des Glaubens und der Praxis, und wenn es funktioniert, ist es in Ordnung.

Ich hoffe, es ist klar, dass die Chiffre (Wochenstunden) eine Analogie zu Ihren Quanten ist.

Wenn wir über SB sprechen, über welche Art von Modellen können wir dann sprechen, denn das Wesen von Modellen (hölzern oder neural) besteht darin, Muster in den Daten zu finden.

Was die Tatsache angeht, dass sich in einer Kiste eine Mehrheit gleichfarbiger Kugeln befinden kann, so führe ich das Experiment zehnmal durch und erhalte jedes Mal die Ergebnisse (ich teile die Stichprobe in zehn Teile auf), und nur wenn die meisten davon ein ähnliches Ergebnis haben, wähle ich ein Quantensegment aus. Wie hoch ist die Wahrscheinlichkeit, dass wir nach 10 Versuchen mehr Kugeln einer bestimmten Farbe in derselben Kiste finden als in anderen Kisten?

Kennen Sie einen zusätzlichen statistischen Test, der für diesen Fall geeignet wäre?

Man kann sich auf nichts verlassen, auch nicht auf SB tho....

Ich bin auf der Suche nach Methoden, die die Sicherheit erhöhen.

Außerdem gehe ich davon aus, dass das ausgewählte Quantensegment immer noch mehr Potenzial für eine nicht zufällige Aufspaltung hat als der andere Teil des Prädiktors - ich weiß nicht, wie ich das in einer Formel oder einer Art Schätzung ausdrücken soll. Ich stelle mir ein solches Segment abstrakt als eine Ader eines wertvollen Minerals/Metalls im Inneren eines Kopfsteinpflasters vor.....

 

Ich weiß nicht, wie ich es deutlicher machen kann, also zeige ich zwei Baumaufteilungen schematisch.

Zwei Balken stehen für zwei Prädiktoren - die vertikalen Balken symbolisieren die Zeit (ich habe sie aber nicht genau nachgebildet).

Die dicke Linie ist die Standardstelle für die Aufteilung der Prädiktoren durch das Baummodell.

Der zweite Prädiktor (links in der Abbildung) zeigt, dass der Bereich von 2 bis einschließlich 3 die größte Ansammlung von Einheiten aufweist, was ich farblich hervorgehoben habe.

Nach der ersten Aufteilung habe ich die Zahlen, die von der ersten Aufteilung übrig geblieben sind, bläulich hervorgehoben (sagen wir, es ist der rechte Teil, wo die Einheiten entlang des Zweiges gegangen sind).

Wenn wir also die Gesamteinheiten zählen, die nach der ersten Aufteilung übrig geblieben sind, sollte die Aufteilung genau in der Mitte erfolgen und von 1 bis einschließlich 2 aufgeteilt werden, aber die erste Spalte enthält die absolut gesehen schwächsten statistischen Indizes zu den Antworten, sowie 4 - nur jeweils 8, während die mittleren 10 und 12 enthalten. Der Quanten-Cutoff kann die Spalten 1 und 4 auf die eine Seite und die Spalten 2 und 3 auf die andere Seite verschieben, was insgesamt nur eine Einheit weniger ist als ohne den Quanten-Cutoff, aber es werden zunächst 8 Einheiten mehr in diesem Bereich beobachtet, was signifikant erscheint. Das heißt, es ist zu erwarten, dass dieser Bereich weiterhin mehr Einheiten enthält als die beiden benachbarten Bereiche.

Ist es Ihnen gelungen, das Wesen der Idee der Quantensegmentauswahl zu erklären?

Ich sollte hinzufügen: Dies ist eine Konvention - unter Berücksichtigung von Rechenfehlern - was hier zählt, sind Text und Logik, nicht Zahlen.
 

Nun, in alltäglichen Begriffen - wir haben einen Prädiktor mit einem Bereich von -162 und +162 - der Signale sendet.

Mit Hilfe der Quantensegmentdetektion können wir die Bereiche der Niveaus finden, bei denen ein Treffer häufiger vorkommt, z. B. auf die darunter liegenden Niveaus springen. Die übrigen Abschnitte, die sich nicht in der Nähe eines Niveaus befinden, können einfach der Reihe nach kategorisiert werden. Und es stellt sich heraus, dass ein Prädiktor, aber es gibt zwei Möglichkeiten der Darstellung der Daten für unterschiedliche Zwecke - als eine Option.


 
Aleksey Vyazmikin #:

Kennen Sie einen zusätzlichen statistischen Test, der für diesen Fall geeignet wäre?

Der universellste Test ist wahrscheinlich Monte Carlo. Simulieren Sie wiederholt die Situation von offensichtlich untrennbaren Klassen und sehen Sie, wie sich Ihre Quanten im Durchschnitt verhalten. Wenn sie etwas finden, dann ist es selbstzerstörerisch.

Plausibel unteilbare Klassen erhält man, indem man Stichproben nimmt, die mit der gleichen Verteilung wie die Merkmale erzeugt werden.

 
Aleksey Nikolayev #:

Die universellste Methode ist wahrscheinlich Monte Carlo. Simulieren Sie wiederholt die Situation von offensichtlich untrennbaren Klassen und sehen Sie, wie sich Ihre Quanten im Durchschnitt verhalten. Wenn sie etwas finden, dann ist es Selbstbetrug.

Plausibel unteilbare Klassen erhält man, indem man Stichproben nimmt, die mit der gleichen Verteilung wie die Merkmale erzeugt werden.

Bei Monte Carlo geht es darum, Sequenzen zu mischen und nach dem Zufallsprinzip Strings zu erhalten - wie soll das helfen? Und es ist wahrscheinlich nicht korrekt, Sequenzen zu mischen, wenn man davon ausgeht, dass sie nicht zufällig sind..... und bei Zeitreihen ist es nicht zufällig. Ich verstehe die Idee nicht, wenn du sie genauer beschreiben könntest.

Können Sie eine solche Probe für den Test in csv erstellen? Ich denke, das geht in R schnell genug. Andernfalls werde ich einen weiteren Tag mit dem Schreiben von Code verbringen, und ich weiß nicht, ob ich es richtig machen werde.

 
Aleksey Vyazmikin #:

Bei der Monte-Carlo-Methode geht es darum, Sequenzen zu mischen und Strings nach dem Zufallsprinzip zu erhalten - wie soll das helfen? Und es ist wahrscheinlich nicht korrekt, Sequenzen zu mischen, wenn wir davon ausgehen, dass sie nicht zufällig sind.... und bei Zeitreihen ist es nicht zufällig. Ich verstehe die Ideen nicht, wenn Sie sie ausführlicher beschreiben können.

Können Sie eine solche Probe für den Test in csv erstellen? Ich denke, das geht in R schnell genug. Ansonsten werde ich einen weiteren Tag mit dem Schreiben von Code verbringen, und ich weiß nicht, ob ich es richtig hinbekomme.

Sie können es in MT5 machen, die statistische Bibliothek hat Funktionen zur Erzeugung von Stichproben für verschiedene Verteilungen. Sie können zum Beispiel eine normale Stichprobe von 200 als Vorzeichen in der ersten Spalte erzeugen, und in der zweiten Spalte können Sie Markierungen durch Zufallsauswahl mit einer Wahrscheinlichkeit von 0,5 vornehmen.

Es wäre besser, wenn Sie das in Ihrem Paket irgendwie automatisieren, denn Sie müssen das viele Male machen und jedes Mal etwas berechnen - Sie allein wissen, was.

 
Aleksey Nikolayev #:

Sie können es in MT5 tun, die statistische Bibliothek hat Funktionen zur Erzeugung von Stichproben für verschiedene Verteilungen. Erzeugen Sie z.B. eine normale Stichprobe von 200 als Vorzeichen in der ersten Spalte, und in der zweiten Spalte machen Sie Markierungen durch Zufallsauswahl mit einer Wahrscheinlichkeit von jeweils 0,5.

Es wäre besser, wenn Sie das in Ihrem Paket irgendwie automatisieren, denn Sie müssen das viele Male machen und jedes Mal etwas berechnen - Sie allein wissen, was.

Ich habe diese Funktion noch nie benutzt.

Geht es um diese Funktion?

Генерирует псевдослучайные величины, распределенные по нормальному закону с параметрами mu и sigmа. В случае ошибки возвращает false. Аналог rnorm() в R. 



bool  MathRandomNormal( 
   const double  mu,             // математическое ожидание 
   const double  sigma,          // среднеквадратическое отклонение 
   const int     data_count,     // количество необходимых значений 
   double&       result[]        // массив для получения псевдослучайных величин 
   );
 
 
Aleksey Vyazmikin #:

Ich habe ja bereits geschrieben, dass ein zufälliges Überschießen unproduktiv ist.

Ich verwende Oversampling mit dem Zufallselement der Prädiktorenauswahl, wenn ich das Stichprobenpotenzial teste, und ich verwende es schon seit vielen Jahren in CatBoost.

Die Randomisierung rechtfertigt nicht die Erwartung, dass das Modell weiterhin funktioniert, weil die Prädiktoren in das Modell randomisiert worden sind.

Es besteht die Gefahr, dass wir uns wieder in sinnlosen Streitereien verzetteln. Worin besteht der Unterschied zwischen einem zufällig gefundenen Satz, der bei oos funktioniert, und einem, der unter größten mentalen Qualen, aber auch ohne grundlegende Rechtfertigung erfunden wurde? Wenn die Methode der Validierung die gleiche ist. Rhetorische Frage.

Was ist der Unterschied zwischen einer zufälligen Suche und einer Suche mit einem Element der Zufälligkeit der Wahl? ))