Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3336

 
СанСаныч Фоменко #:

Etiketten (Lehrer, Zielvariable) können per definitionem NICHT unsinnig sein.

Sanych, blamieren Sie sich nicht.

Sie haben noch nicht einmal mit dem Studium begonnen, um Ihre Meinung zu äußern.

 

Eine weitere lustige Tatsache, ich dachte, anscheinend ist dies nur die Umschulung, und beschlossen, um zu sehen, auf welchen Indizes die Klasse ändern aufgetreten - ich dachte, dass in der Nähe von Ende und das ist nur eine gute Illustration der Umschulung.

In der Tat sah es so aus


Bei der Teststichprobe

Es stellt sich heraus, dass diese ersten tausend Blätter (in der nächsten Sequenz des Hinzufügens zum Modell) meist instabil sind!

Erstaunlich.

Bei der Prüfungsprobe

 
Aleksey Vyazmikin #:

Ein weiterer lustiger Fakt: Ich dachte mir, dass dies anscheinend nur die Umschulung ist, und beschloss, nachzusehen, auf welchen Indizes der Klassenwechsel stattfand - ich dachte, es sei kurz vor dem Ende und dies sei nur eine gute Illustration der Umschulung.

In Wirklichkeit sah es so aus


Auf dem Testmuster

Es stellt sich heraus, dass es die ersten tausend Blätter (in der nächsten Reihenfolge des Hinzufügens zum Modell) sind, die am instabilsten sind!

Überrascht.

Bei einer Probe

Du zählst nach dem Bousting, richtig? Dabei wird nur der erste Baum auf den Etiketten des ursprünglichen Lehrers trainiert.
Für alle anderen Bäume ist der Lehrer der Vorhersagefehler, d.h. (Y - Pred). Und selbst bei eta = 0.1...0.001 ist der Einfluss der Blätter dieser Bäume unbedeutend, sie korrigieren nur. Was Sie gezeigt haben (ihre Unbedeutsamkeit).
 

GPT zu lehren)

Ok, fügen wir unserer Analyse den Hüllkurven-Indikator hinzu. Der Hüllkurvenindikator stellt Linien über und unter einem gleitenden Durchschnitt dar. Sie befinden sich in der Regel in einem festen prozentualen Abstand zu diesem gleitenden Durchschnitt.

  1. Hüllkurven für den letzten Monat (November 2023):

    • Wählen wir einen prozentualen Abstand zum gleitenden Durchschnitt.
    • Berechnen wir die obere und untere Linie der Hüllkurve.
  2. Gesamttrend anhand von RSI, Bollinger Bands und Hüllkurven:

    • Vergleichen wir die von verschiedenen Indikatoren erhaltenen Signale.

Bedenken Sie auch, dass die Signale verschiedener Indikatoren widersprüchlich sein können und es wichtig ist, sie gemeinsam zu analysieren.

Fahren wir mit den Berechnungen und Analysen fort.

 
Yuriy Vasilyev Hüllkurven-Indikator hinzu. Der Hüllkurvenindikator stellt Linien über und unter einem gleitenden Durchschnitt dar. Sie befinden sich in der Regel in einem festen prozentualen Abstand zu diesem gleitenden Durchschnitt.
  1. Hüllkurven für den letzten Monat (November 2023):

    • Wählen wir einen prozentualen Abstand zum gleitenden Durchschnitt.
    • Berechnen wir die obere und untere Linie der Hüllkurve.
  2. Gesamttrend anhand von RSI, Bollinger Bands und Hüllkurven:

    • Vergleichen wir die von den verschiedenen Indikatoren erhaltenen Signale.

Berücksichtigen wir auch, dass die Signale verschiedener Indikatoren widersprüchlich sein können und es wichtig ist, sie gemeinsam zu analysieren.

Fahren wir mit den Berechnungen und Analysen fort.

Haben Sie schon einmal versucht, Preise zu übermitteln, um eine Prognose zu erhalten? So etwas wird auf dem Markt praktiziert, jemand hat den Algorithmus anscheinend geleakt
 
Forester #:
Du zählst Boosten, nicht wahr?

Du hast recht, wir sprechen von CatBoost!

Forester #:
Dort wird nur der erste Baum mit den Etiketten des anfänglichen Lehrers trainiert.
Für alle anderen Bäume ist der Lehrer der Vorhersagefehler, d.h. (Y - Pred).

Das ist in der Tat das, was die Theorie vorschlägt.

Förster #:
Ja, auch mit dem Koeffizienten eta = 0.1...0.001

Der Koeffizient "Lernrate" ist, zumindest in CatBoost, für alle Bäume festgelegt.

Forester #:
Der Einfluss der Blätter dieser Bäume ist unbedeutend, sie korrigieren nur. Genau das haben Sie gezeigt (ihre Unwichtigkeit).

Können Sie eigentlich erklären, wie die Blattkoeffizienten in CatBoost angeordnet sind?

Es gibt Punkte, die ich nicht gut verstehe.

Ich habe jedoch eine Änderung der "Klasse" der Blätter nachgewiesen, d.h. 40% der Blätter schienen bei den neuen Daten die Summen in die falsche Richtung zu ziehen.

 
Aleksey Vyazmikin #:

Können Sie eigentlich erklären, wie die Koeffizienten in CatBoost zu den Blättern angeordnet sind?

Möchten Sie, dass ich den CatBoost-Code durchforste und Ihnen die genaue Antwort gebe? Ich grabe nur aus, was mich interessiert. Ich benutze CatBoost nicht.
Das ist das erste Mal, dass ich von Blattkoeffizienten höre - was sind sie?

Tutorial und einfacher Boost-Code hier https://habr.com/ru/companies/vk/articles/438562/
Пишем XGBoost с нуля — часть 2: градиентный бустинг
Пишем XGBoost с нуля — часть 2: градиентный бустинг
  • 2019.02.07
  • habr.com
Всем привет! В прошлой статье мы разбирались, как устроены решающие деревья, и с нуля реализовали алгоритм построения, попутно оптимизируя и улучшая его. В этой статье мы реализуем алгоритм градиентного бустинга и в конце создадим свой собственный XGBoost. Повествование будет идти по той же схеме: пишем алгоритм, описываем его, в заверешение...
 
Aleksey Vyazmikin #:

Ich berichte, dass auf einer separaten Probe-Test - 7467, und auf der Prüfung - 7177, aber es gibt nicht eine kleine Anzahl von Blättern mit keine Aktivierungen überhaupt - ich habe nicht auf einmal zu zählen.


Dies ist die Verteilung der Blätter, die Klasse durch ihren Wert für die Teststichprobe geändert


und dies ist die Prüfung.

Und dies ist die Aufschlüsselung in Klassen - es gibt drei davon, die dritte ist "-1" - keine Aktivierung.


Für den Beispielzug


Für die Testprobe


Für Prüfungsmuster

Generell ist zu erkennen, dass die Blattgewichte nicht mehr der Klassenlogik entsprechen - unten ist der Graph des Prüfungsmusters zu sehen - es gibt keinen klaren Vektor.


Im Allgemeinen ist diese Methode eine gute Annäherung, aber sie garantiert nicht die Qualität der Prädiktoren.

Im Allgemeinen gehe ich davon aus, dass die verschiedenen "Balken" im obigen Diagramm sehr ähnliche Blätter nach Ort und Häufigkeit der Aktivierung sind.


Es ist schwierig, über etwas zu diskutieren, das man nicht kennt. Daher kann ich mich nur über Ihren Erfolg freuen. Wenn ich eine solche Methode hätte, würde ich sie anwenden :)

Meine Methode liefert noch nicht solche qualitativen Ergebnisse, aber sie weist genügend Parallelen auf.

Haben Sie sich jemals gefragt, warum das so ist?

 

Testgeschwindigkeit des in naiven Code exportierten Modells (catbust)

EURUSD,H1: total time from login to stop testing 0:00:04.143 (including 0:00:00.031 for history data synchronization)

Und exportiert nach ONNX

EURUSD,H1: total time from login to stop testing 0:00:09.539 (including 0:00:00.025 for history data synchronization)

Die Interna der beiden Versionen des Bots sind fast gleich, die Ergebnisse sind die gleichen.

 
Forester #:
Möchten Sie, dass ich den Catbust-Code für Sie durchforste und Ihnen eine genaue Antwort gebe? Ich untersuche nur das, was mich interessiert. Ich benutze catbust nicht.

Ich nahm an, Sie wüssten es, aber das tun Sie nicht - ich habe nicht daran gedacht, Sie zu belasten.

Forester #:
Das ist das erste Mal, dass ich von Blattkoeffizienten höre - was sind sie?

Blattwerte, die addiert werden, um die Y-Koordinate einer Funktion zu bilden.


Größer als oder gleich 0,5 in X bedeutet, dass die Standardklasse in CatBoost "1" ist.