Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 1277
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Ich habe diese Methode anders verstanden.
Auf jeden Fall sind die Ergebnisse des Artikels beeindruckend. Es ist notwendig, dies in der Praxis zu erproben.Für den untersuchten Prädiktor wollen Sie keine normalverteilten Zufallswerte eingeben, sondern einfach die Zeilen in dieser Spalte mischen.
was macht das für einen Unterschied?
Alglib geht alle verbleibenden 50% Prädiktoren durch, unterteilt jeden in 4 Teile nach Quartilen und wählt die Division mit dem besten Fehler aus allen Auswahlen.
Zufällige Spaltungen sind im Prinzip nicht schwer zu finden.
Ich habe noch keine einzelnen Bäume mit guten Testergebnissen gesehen (45-50%), aber ein Wald von ihnen ist interessanter).
Verstehe, das habe ich mir auch gedacht. Es besteht also eine gute Chance, dass die Wurzelaufteilung bei den meisten Bäumen gleich ist, was wiederum andere Optionen ausschließt.
Ich gehe davon aus, dass alle Blätter nur ein Versuch sind, ein Muster zu beschreiben, und wir können nicht von vornherein wissen, ob die Beschreibung richtig ist oder ob es sich um einen zufälligen Zufall in der Stichprobe handelt. Deshalb rekrutiere ich verschiedene und einzigartige (sich nicht wiederholende) Blätter und prüfe sie einzeln, anstatt den ganzen Baum.
Alglib hat exzessive Verzweigungen, es geht also nicht ums Lernen, sondern ums Erinnern. Ich denke, dass die Gerüstbildung eine gute Idee ist, aber sie wird richtig funktionieren, wenn jeder Baum eindeutige Regeln (Blätter) enthält und die Anzahl der Splits nicht sehr groß ist - 4-10.
In Bezug auf die Bedeutung der untersuchten Prädiktoren:
Die Pakete xgboost und lightGBM verfügten über integrierte Methoden zur Schätzung der Merkmalsbedeutung für "Holzmodelle":
Dieses Maß zeigt den relativen Beitrag jedes Merkmals zum Modell. Um dies zu berechnen, gehen wir zu jedem Baumknoten und schauen, welches Merkmal zur Aufteilung des Knotens führt und wie stark die Unsicherheit des Modells je nach Metrik (Gini-Verunreinigung, Informationsgewinn) reduziert wird.
Für jedes Merkmal wird sein Beitrag über alle Bäume summiert.
Zeigt die Anzahl der Beobachtungen für jedes Merkmal an. Ein Beispiel: Sie haben 4 Merkmale, 3 Bäume. Angenommen, fich 1 hat 10, 5 und 2 Beobachtungen in den Baumknoten 1, 2 bzw. 3. Dann wäre die Wichtigkeit für diesen fich 17 (10 + 5 + 2).
Zeigt an, wie oft ein bestimmtes Merkmal in Baumknoten vorkommt, d.h. es wird die Gesamtzahl der geteilten Baumknoten für jedes Merkmal in jedem Baum gezählt.
Ich habe einen Wald trainiert für 5 Bars gibt bessere Ergebnisse im Test als bei 100. Aber wenn man mit 100 trainiert, werden die ersten 5 nicht als wichtig eingestuft, sondern als etwas weiter entfernt.
Wenn mit 100 trainiert wird, ist der Fehler einzelner Bäume und Wälder geringer - offensichtlich aufgrund von Übertraining und der Gewichtung von 30-100 Balken. Aber offensichtlich sind sie nicht nach herkömmlicher Logik wichtig, sondern aufgrund der Tatsache, dass der Wald bei 5 Balken bessere Ergebnisse liefert.
Ja, bei der Einschätzung der Bedeutung sind die Standardansätze nicht sehr effektiv. Ich möchte eine Art Einzigartigkeitsscore ausprobieren, d.h. wenn es bereits fertige Blätter gibt, und wir versuchen, jeden Prädiktor der Reihe nach durch einen anderen zu ersetzen (unter Berücksichtigung der Gitteraufteilung), Statistiken zu sammeln und die beste Ersatzvariante mit der Standardvariante zu vergleichen, die Genauigkeit oder einen anderen Score zu berücksichtigen (das Konzept ist wichtig) und so Scores für jeden Prädiktor für das gesamte Modell zu sammeln.
Nach einem flüchtigen Blick auf den Code sah ich eine genetische Auswahl von Merkmalen zur Erstellung eines Baums aus dem rpart-Paket. Das heißt, jedem Baum wurde ein anderer Satz von Merkmalen zum Lernen angeboten. Aufgrund der Genetik ist ein solcher Funktionssatz schneller als eine komplette Brute-Force-Lösung.
Aber der Baum ist kein magischer Baum, sondern der von rpart angebotene. Ich glaube, das ist dort Standard.
Der Baum selbst ist völlig normal, die ursprüngliche Idee des Skripts ist es, die signifikantesten Prädiktoren zu finden, und die Genetik scheint dazu beizutragen.
Ich verstehe nicht, wie man die Entropie durch einen anderen Indikator (Genauigkeit oder Vollständigkeit oder was auch immer) ersetzen kann, um eine neue Generation zu schaffen.
Ich habe mir vor nicht allzu langer Zeit eine Vorlesung über ME angesehen, und es ging um eine Situation, in der ein Modell in einem engen Wahrscheinlichkeitsbereich operiert, und bei Boosting-Modellen wird dies fast als die Norm angesehen, da das Modell im Wesentlichen keine reine Wahrscheinlichkeit ausgibt, und aus diesem Grund gibt es das Konzept der Kalibrierung eines solchen Modells für die korrekte Interpretation der Vorhersagen. Und genau so eine Situation hatte ich letztes Jahr, als die Modelle ihre Ergebnisse im Bereich von 40 bis 60 ausgaben und man mir versicherte, dass es sich um eine sehr schlechte Variante handele... Ich hatte meine Zweifel, denn die Modelle waren stabil und lieferten gute finanzielle Ergebnisse.
Ich habe mir vor nicht allzu langer Zeit eine Vorlesung über ME angesehen, und es ging um eine Situation, in der ein Modell in einem engen Wahrscheinlichkeitsbereich operiert, aber bei Boosting-Modellen wird dies fast als die Norm angesehen, da das Modell im Wesentlichen keine reine Wahrscheinlichkeit ausgibt, und in Verbindung mit dieser Tatsache gibt es ein Konzept der Kalibrierung eines solchen Modells für korrekte Vorhersagen. Und genau so eine Situation hatte ich letztes Jahr, als die Modelle ihre Ergebnisse im Bereich von 40 bis 60 ausgaben und man mir versicherte, dass es sich um eine sehr schlechte Variante handelte... Ich hatte meine Zweifel, denn die Modelle waren stabil und lieferten gute finanzielle Ergebnisse.
Alexey, nehmen wir an, die Fehlerwahrscheinlichkeit beträgt 99 % - ist das gut oder schlecht?
Ich verstehe, dass das verbleibende eine Prozent die Erfolgswahrscheinlichkeit ist.
Nicht viel, aber es ist gut, denn wir wissen bereits, wo der Fehler liegt und wie wir ihn vermeiden können.
Das heißt, das Verhältnis beträgt 99k1Alexej, nehmen wir an, die Fehlerwahrscheinlichkeit liegt bei 99 % - ist das gut oder schlecht?
Ich gehe davon aus, dass das verbleibende eine Prozent die Erfolgswahrscheinlichkeit ist.
Das ist klein, aber fein, denn wir wissen bereits, wo der Fehler liegt und wie wir ihn vermeiden können.
Eine so hohe Irrtumswahrscheinlichkeit sagt uns, dass wir nicht viel darüber wissen, was vor sich geht.
Es ist genau genug, und das ist gut, aber es ist weit von einem Erfolg entfernt - 1 % könnte nur ein Zufall sein.
Und das nur, wenn wir speziell über die Wahrscheinlichkeit sprechen.
Verstehe, das habe ich mir auch gedacht. Es besteht also eine gute Chance, dass die Wurzelaufteilung bei den meisten Bäumen gleich ist, was wiederum die anderen Optionen ausschließt.
Etwa 50%. Aber dieser Parameter kann jederzeit in anderen Waldaufruf-Funktionen geändert werden.
Ich möchte versuchen, als eine Art von Einzigartigkeitsindikator zu bewerten, d.h. wenn es bereits fertige Blätter gibt und wir versuchen, jeden Prädiktor einen nach dem anderen durch einen anderen zu ersetzen (unter Berücksichtigung der Gitteraufteilung), Statistiken zu sammeln und die beste Variante der Ersetzung mit der Standardvariante zu vergleichen, die Genauigkeit oder einen anderen Indikator zu berücksichtigen (das Konzept ist wichtig), und so sammeln wir Punkte für jeden Prädiktor für das gesamte Modell.
Etwas Ähnliches wie die Permutation, die Maxim gefunden hat. Aber ist es sinnvoll, einen Prädiktor mit einer Variation von 0,1 bis 0,2 durch eine Variation von 800 bis 300000 zu ersetzen, anstatt einen Prädiktor mit einer Variation von 0,1 bis 0,2? Nein!
Aber das Mischen der Zeilen schon. Der Zahlenbereich und die Wahrscheinlichkeitsverteilung bleiben erhalten, aber die Werte in jedem Beispiel werden zufällig.
Was ich nicht verstehe, ist, wie man die Entropie in einen anderen Wert (Genauigkeit oder Vollständigkeit oder was auch immer) ändern kann, um eine neue Generation zu schaffen.
Einige R-Pakete erlauben die Verwendung ihrer Fehlerfunktion. Xgboost kann das, aber da musst du eine Formel für die Ableitung deines f-fi finden und sie mit ihm zusammen füttern. Für mich ist die Ableitung ein Problem. Schauen Sie sich die Beschreibung des Pakets rpart an, vielleicht können Sie Ihre Funktionen auch dort verwenden, oder sogar ohne Derivat.
Ähnlich verhält es sich mit der Permutation, die Maxim gefunden hat. Aber ist es sinnvoll, einen Prädiktor mit einer Änderung von 0,1 auf 0,2 durch einen Prädiktor mit einer Änderung von 800 auf 300000 zu ersetzen? Nein!
Aber das Mischen der Reihen schon. Der Zahlenbereich und die Wahrscheinlichkeitsverteilung bleiben erhalten, aber die Werte in jedem Beispiel werden zufällig.
Ich habe geschrieben: "Sagen wirn. Streuung". Finde den Mittelwert und die Varianz und fahre fort. Es ist besser, durch Geräusche zu randomisieren als einfach zu mischen.
Es gibt hier eine Menge Dummköpfe, die gerne Worte verdrehen und Screenshots machen, um sich später zu beweisen.
Ich schrieb: "Gehen wir voneiner n-Verteilung aus". Bei normalisierten Merkmalen ist es natürlich sinnvoll, den Mittelwert und die Varianz zu ermitteln und weiterzumachen.
Es gibt hier eine Menge Dummköpfe, die gerne Wörter verdrehen und Screenshots machen, um sich damit später zu behauptenDie Wahrscheinlichkeitsverteilung einer Normalverteilung wird jedoch in der Mitte liegen (etwa 0,5), während der tatsächliche Prädiktor seitlich verschoben sein kann, z. B. um 0,8. Oder eine Art Sattel zwischen 0,2 und 0,8, oder etwas anderes...
Durch Umrühren bleibt auch die Verteilung erhalten.
Die Normalisierung wird bei der Reichweite helfen - das ist ein Ja.
Die Wahrscheinlichkeitsverteilung einer Normalverteilung liegt jedoch in der Mitte (etwa 0,5), und der tatsächliche Prädiktor kann seitlich verschoben sein, z. B. um 0,8. Oder eine Art Sattel zwischen 0,2 und 0,8, oder etwas anderes...
Durch Umrühren bleibt auch die Verteilung erhalten.
Nehmen Sie den Durchschnitt und die Varianz, lol, und machen Sie sich keine Gedanken darüber.
Nehmen Sie den Durchschnitt und die Varianz, lol, und machen Sie sich keine Gedanken darüber.
es ist einfacher zu mischen)
Und für den Link zu der interessanten Methode (Permutation) - danke!