Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3142

 
Maxim Dmitrievsky #:

ein paar OCD-Diagramme, oder?

Nicht für einen neuen Lehrer.

Ich versuche, das Problem der Vergröberung von Prädiktorwerten zu lösen. Ich habe den Eindruck, dass ein Klassifizierungsfehler auftreten kann, wenn der Prädiktorwert leicht von dem Wert abweicht, auf dem das Modell trainiert wurde. Ich habe einmal versucht, alle Prädiktoren mit demselben Lehrer in die nominale Form umzuwandeln, aber das hat zu keinem Ergebnis geführt. Die Anzahl der Werte der nominalen Variablen war jedoch eins. Vielleicht brauchen wir mehrere hundert? Ich arbeite daran, aber viele andere interessante Fragen stehen mir im Weg.

 
Forester #:

Das ist eine lange Suche, vor allem, wenn man nur ein paar Sekunden lang sucht.

Ja, lang, wirklich nicht eilig, aber trotzdem lang.

Das Problem ist, dass die Vorhersagekraft der Prädiktoren nur einer der Chips ist. Und es gibt viele davon in meiner Vorverarbeitung, und jeder erfordert eine Reihe von Statistiken, um ihn zu rechtfertigen.

Ich habe oben noch ein weiteres Problem erwähnt, für das ich lange Zeit keine Lösung finden konnte.

 
СанСаныч Фоменко #:

Für einen neuen Lehrer, nein.

Ich versuche, das Problem der Vergröberung der Prädiktorwerte zu lösen. Ich habe den Eindruck, dass ein Klassifizierungsfehler auftreten kann, wenn sich der Prädiktorwert geringfügig von dem Wert unterscheidet, mit dem das Modell trainiert wurde. Ich habe einmal versucht, alle Prädiktoren mit demselben Lehrer in die nominale Form umzuwandeln, aber das hat zu keinem Ergebnis geführt. Die Anzahl der Werte der nominalen Variablen war jedoch eins. Vielleicht brauchen wir mehrere hundert? Ich arbeite daran, aber viele andere interessante Fragen stehen mir im Weg.

"

Ein ideales Modell sollte eine geringe Verzerrung und eine geringe Varianz aufweisen. In der Realität gibt es jedoch einen sogenannten "Kompromiss" zwischen Verzerrung und Varianz. Eine Erhöhung der Komplexität des Modells (z. B. durch Hinzufügen weiterer Parameter) kann die Verzerrung verringern, aber die Varianz erhöhen. Umgekehrt kann eine Vereinfachung des Modells die Varianz verringern, aber die Verzerrung erhöhen.


"

Hypothetisch kann man die Kurbelwelle auf ein zufriedenstellendes Niveau biegen und das Spiel schärfen, aber das wird nicht weit führen, weil es nicht mehr "by design" ist.
 
Maxim Dmitrievsky #:

"

Ein ideales Modell sollte eine geringe Verzerrung und eine geringe Varianz aufweisen. In der Realität gibt es jedoch einen sogenannten "Kompromiss" zwischen Verzerrung und Varianz. Eine Erhöhung der Komplexität des Modells (z. B. durch Hinzufügen weiterer Parameter) kann die Verzerrung verringern, aber die Varianz erhöhen. Umgekehrt kann eine Vereinfachung des Modells die Varianz verringern, aber die Verzerrung erhöhen.


"

Hypothetisch kann man die Kurbelwelle auf ein zufriedenstellendes Niveau biegen und die Spielräume schärfen, aber das wird nicht weit führen, weil es nicht mehr "by design" ist.

Aus irgendeinem Grund wird die dritte Komponente oft vergessen: der nicht behebbare Fehler. Wenn er groß genug ist (und ich habe den Eindruck, dass wir aufgrund der Nähe der Preise zu SB viel davon haben), kann er wichtiger sein als die ersten beiden.

In jedem Fall sind dies sehr wichtige Dinge, die sich in einer Frage zusammenfassen lassen: Wie viel Information kann aus der uns vorliegenden Preisstichprobe (und anderen verfügbaren Daten) maximal gewonnen werden?

 
Aleksey Nikolayev #:

Aus irgendeinem Grund vergessen die Leute oft die dritte Komponente - den nicht behebbaren Fehler. Wenn er groß genug ist (und mir scheint, dass er in unserem Land aufgrund der Nähe der Preise zur SB nicht unbedeutend ist), kann er wichtiger sein als die ersten beiden.

Auf jeden Fall sind dies sehr wichtige Dinge, die sich in einer Frage zusammenfassen lassen: Wie viele Informationen lassen sich aus der uns zur Verfügung stehenden Preisstichprobe (und anderen verfügbaren Daten) maximal extrahieren?

Wir sollten also nicht versuchen, alle Fälle vorherzusagen, sondern die Fälle herausziehen, die sich mit Hilfe von Mo

Dies wird als "heterogener Zerreibungseffekt" bezeichnet, der nicht mit dem Biegen einer Kurbelwelle verglichen werden kann, sondern damit, funktionierende Teile zu finden und nicht funktionierende auszusortieren.

dann werden die Eigenschaften von X kontextabhängig und sind keine "Prädiktoren" für Y im klassischen Sinne. Deshalb werden sie in Kozul als "Kovariaten" bezeichnet.

Das Ergebnis wird Ihre Frage nach der maximalen Information beantworten (je nachdem, was man messen will). Normalerweise wird sie in ATE oder CATE gemessen.


 
Aleksey Nikolayev #:

Eine Frage: Wie viele Informationen können aus der verfügbaren Preisstichprobe (und anderen verfügbaren Daten) maximal extrahiert werden?

Ich denke, dass wir die Aufgabe richtig stellen müssen.

Definieren Sie Informationen

Definieren Sie "maximale Informationen" (zumindest um zu verstehen, wann man aufhören muss).

Man muss sich darüber im Klaren sein, dass jedes Ziel eine andere Menge haben wird, also muss man das Ziel angeben.


Aber es ist eine interessante Frage, ich mag sie.
 
Aleksey Nikolayev #:

Aus irgendeinem Grund vergessen die Leute oft die dritte Komponente - den nicht behebbaren Fehler. Wenn er groß genug ist (und mir scheint, dass er in unserem Land wegen der Nähe der Preise zur SB nicht unbedeutend ist), kann er wichtiger sein als die ersten beiden.

In jedem Fall handelt es sich um sehr wichtige Dinge, die sich in einer Frage zusammenfassen lassen: Wie viele Informationen lassen sich aus der uns zur Verfügung stehenden Preisstichprobe (und anderen verfügbaren Daten) maximal extrahieren?

Das ist eine Frage der Dissertationsforschung, nicht des Baus eines Roboters, der Knete mäht.

Wir brauchen nicht ein Maximum an Informationen, sondern ein ausreichendes Minimum. Daher können wir uns auf Folgendes beschränken:

1. Erstellen eines Modells, das in der Klassifizierungsphase einen Klassifizierungsfehler von weniger als 20 % aufweist. Dabei ist zu beachten, dass das "Modell" eine vollständige Vorverarbeitung der Prädiktoren sowie Werkzeuge zur Modellbewertung umfasst.

2. Fügen Sie das Modell in einen Expert Advisor ein, der mindestens das gleiche Verhältnis von Verlusten und Gewinnen aufweist. Wenn der Gewinnfaktor über 4 liegt, ist noch ein weiterer Schritt zu tun.

3. Vergewissern Sie sich am OOS, dass sich nichts geändert hat, und verstehen Sie die Gründe für eine solche Stabilität am OOS, die in der Vorverarbeitung und nicht im Modell liegen.

Und welche Fehler sind in die 20% gekommen - ist das interessant?

 

Wäre es nicht einfacher, Fehler zu klassifizieren?

Je mehr Fehler wir finden, desto besser bleibt das Modell. Es geht nicht um die Maximierung von Informationen, sondern um Qualität (entschuldigen Sie das Wortspiel).

 
mytarmailS #:
Ich denke, dass Snalo die Aufgabe richtig stellen muss.

Definieren Sie Informationen

Definieren Sie "maximale Informationen" (zumindest um zu verstehen, wann Sie aufhören müssen).

Man muss sich darüber im Klaren sein, dass jedes Ziel eine andere Menge hat, also muss man das Ziel angeben.


Aber es ist eine interessante Frage, ich mag sie.

Meiner Meinung nach ist die obige Option von Maxim sehr gut. Wie San Sanych richtig bemerkte, ist nicht die Information selbst wichtig, sondern wie sie hilft, die Einlage zu multiplizieren).

Wenn wir der Einfachheit halber eine Handelsstrategie als Tritent und Y als Gewinn betrachten, dann wird die Definition (TS Maximierung der Gewinnerwartung) ziemlich banal.

 
СанСаныч Фоменко #:

Es geht um eine Dissertation und nicht um die Entwicklung eines Roboters, der den Teig mäht.

Wir brauchen nicht das Maximum an Informationen, sondern ein ausreichendes Minimum. Wir können uns also auf das Folgende beschränken:

1. Erstellung eines Modells, das in der Klassifizierungsphase einen Klassifizierungsfehler von weniger als 20 % ergibt. Dabei ist zu beachten, dass das "Modell" eine vollständige Vorverarbeitung der Prädiktoren sowie Werkzeuge für die Modellbewertung umfasst.

2. Fügen Sie das Modell in einen Expert Advisor ein, der mindestens das gleiche Verhältnis von Verlusten und Gewinnen aufweist. Wenn der Gewinnfaktor über 4 liegt, ist noch ein weiterer Schritt erforderlich.

3. Überprüfen Sie am OOS, dass sich nichts geändert hat, und verstehen Sie die Gründe für diese Stabilität am OOS, die in der Vorverarbeitung und nicht im Modell liegen.

Und welche Fehler sind in die 20% gekommen - ist das interessant?

Das eine beeinträchtigt das andere in keiner Weise. Natürlich ist das Maximum nicht nur unerreichbar, sondern sogar unmöglich zu berechnen, aber wir können versuchen, es irgendwie zu schätzen und es zumindest grob mit der Streuung zu vergleichen, zum Beispiel. Ich meine eine Variante des Maximums, wie sie von Maxim vorgeschlagen wurde.