Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 29

 
Dr. Trader:

Ich habe ein Diagramm von R^2 und dem Prozentsatz der erfolgreichen Fälle in Abhängigkeit von der Anzahl der verwendeten Komponenten erstellt. Das beste Ergebnis beim Fronttest wurde mit 41 Komponenten erzielt (Gewinn von etwa 70 %, sehr gut). Aber das kann man aus den Backtest-Charts nicht ablesen, sie steigen einfach immer weiter. Wenn wir uns auf die Bedeutung der Komponenten verlassen, hätten wir 73 nehmen müssen, was nicht das beste Ergebnis im Fronttest ist.

R^2 des Fronttests kann selbst bei einem Gewinn von >50% negativ sein, da die erforderlichen Ergebnisse unausgewogen sind, die Anzahl der Klassen "0" unterscheidet sich von "1", so dass ihr Durchschnitt nicht 0,5 beträgt und R^2 dadurch etwas schlechter ausfällt.

Verwenden Sie die Kreuzvalidierung, um die Anzahl der Komponenten zu ermitteln. Der beste Wert aus der Kreuzvalidierung wird dann in der Validierungsmenge überprüft.
 

Wenn das der Fall ist, füge ich meinen Datensatz bei (binäre Klassifizierung).

Es gibt neun Eingabeparameter (am Anfang) - alle informativ - und einen Ausgabeparameter (in der Spalte ganz rechts).

Wenn die Ausgabe 1 ist, dann ist die Preisdifferenz bei der Eröffnung des nächsten Balkens positiv, wenn 0, dann ist sie negativ.

Die Frage, die mich interessiert, lautet: Welcher Algorithmus hat eine bessere Verallgemeinerungsfähigkeit als mein Algorithmus?

Dateien:
datasets.zip  21 kb
 
Yury Reshetov:

Da es das erste Mal ist, füge ich meinen Datensatz bei.

Es gibt neun Eingabeparameter (am Anfang) - alle informativ - und einen Ausgabeparameter (in der Spalte ganz rechts).

Wenn die Ausgabe 1 ist, dann ist die Preisdifferenz bei der Eröffnung des nächsten Balkens positiv, wenn sie 0 ist, dann ist sie negativ.

Mich interessiert die Frage, wer eine bessere Verallgemeinerungsfähigkeit hat als mein Algorithmus?

1. Wie wird die "Informativität der Prädiktoren" nachgewiesen?

2. Was bedeutet "Verallgemeinerbarkeit"?

 
SanSanych Fomenko:

1. Wie wird die "Informativität der Prädiktoren" nachgewiesen?

2. Was bedeutet "Verallgemeinerbarkeit"?

1. Eine deutliche Verschlechterung der Verallgemeinerungsfähigkeit, wenn mindestens ein informativer Prädiktor aus der Stichprobe entfernt wird

2. Siehe Video:


 
Yury Reshetov:

1. Deutliche Verschlechterung der Generalisierbarkeit, wenn mindestens ein informativer Prädiktor aus der Stichprobe entfernt wird

2. Siehe Video:


Yury, hallo. Ich werde versuchen, Ihre Daten zu sehen.
 
Alexey Burnakov:
Yuri, hallo. Ich werde versuchen, Ihre Daten durchzusehen.

Grüße!

Wenn Sie an den Daten interessiert sind, kann ich ein Skript erstellen, das Informationen aus Diagrammen sammelt und in eine Datei schreibt.

 
Yury Reshetov:

1. Deutliche Verschlechterung der Generalisierbarkeit, wenn mindestens ein informativer Prädiktor aus der Stichprobe entfernt wird

2. Siehe Video:


2. Siehe Video:

Tut mir leid, aber das ist der übliche Unsinn eines ungebildeten Doktoranden, dem noch nicht erklärt wurde, dass es außer ihm noch viele andere Leute gibt, die nicht nur alles wissen, nicht nur viel weiter fortgeschritten sind, sondern es auch in Algorithmen umgesetzt haben, die von Millionen von Menschen genutzt werden (wenn man hier die Studenten mitzählt)

1. Eine spürbare Verschlechterung der Verallgemeinerbarkeit, wenn man mindestens einen informativen Prädiktor aus der Stichprobe entfernt

Glauben Sie mir, das beweist leider nichts. Wenn die Menge der Prädiktoren schlecht ist (viel Rauschen), ist dieser Effekt umso stärker, je mehr Rauschen vorhanden ist. Dies lässt sich ganz einfach erklären: Je mehr Rauschen, desto einfacher ist es für den Algorithmus, einen "günstigen" Wert zu finden.

Was das Problem im Allgemeinen betrifft.

Es gibt eine ganze Reihe von Algorithmen, die die Bedeutung der Prädiktoren für eine bestimmte Zielvariable bestimmen. Diese Algorithmen lassen sich in zwei Gruppen einteilen: solche, die in den Algorithmus zur Modellerstellung integriert sind, und solche, die eigenständig existieren. Meiner Meinung nach und nach Meinung der Leute in der Branche und auf dem Link, den ich hier zitiert habe, haben alle diese Algorithmen einen gemeinsamen Fehler: Wenn es eine bestimmte kritische Anzahl von verrauschten Prädiktoren unter den Prädiktoren gibt, hört der Algorithmus auf zu funktionieren und fängt darüber hinaus an, Prädiktoren zu verwerfen, die für die Zielvariable relevant sind.

Deshalb versuchen wir hier in der Branche, den ersten Satz von Prädiktoren vorab zu bereinigen und dann mit den restlichen Prädiktoren mit Standardmethoden zu arbeiten.

Bezüglich Ihrer Akte.

1. Ich war nicht in der Lage, 6 Klassifizierungsmodelle für Ihre Daten zu erstellen: Fehler von über 50 %. Wenn Sie möchten, kann ich die Ergebnisse hier veröffentlichen

2. Der Grund für dieses Ergebnis ist, dass Sie einen sehr schlechten Satz von Prädiktoren haben - Rauschen, d. h. Prädiktoren, die für die Zielvariable nicht relevant sind. Die Prädiktoren 6, 7 und 8 haben eine gewisse, aber sehr geringe Vorhersagekraft. Ich arbeite nicht mit solchen Prädiktoren. Die anderen sind nur Lärm.

PS.

Wenn Sie wirklich an dem Thema interessiert sind, sollten Sie sich kümmern. Wenn du es einmal beherrschst, wirst du es dem cleveren Kerl aus dem Video beibringen. Caret verfügt über fast 200 Modelle + sehr nützliche Prepping-Funktionen + zwei sehr gute Algorithmen zur Prädiktorenauswahl.

PPSS.

Ich habe einmal in einem Forum meine Vorstellung davon gepostet, was "Prädiktor ist relevant für die Zielvariable" bedeutet

Also.

Nehmen wir die Zielvariable: männlich/weiblich.

Prädiktor: Kleidung.

Wenn der Prädiktor (Kleidung) nur Röcke und Hosen enthält, dann ist dieser Prädiktor für die Bevölkerung einer Reihe von Ländern zu 100 % relevant für die Zielvariable - inter-ambiguous. Aber Kleidung gibt es in verschiedenen Varianten und in einer größeren Vielfalt. Also nicht 100 %, sondern weniger. D.h. wir erhalten, dass eine bestimmte Menge von Kleidungsstücken eine Beziehung zur Zielvariablen haben kann, während eine andere Menge im Prinzip überhaupt keine Beziehung haben kann. D.h. Lärm. Das Problem ist also, wie man solche NICHT-Rausch-Prädiktoren findet, die in einem Fenster Rauschen sind und in einem anderen nicht. Und was ist das Maß dieses "Lärms"?

 
Yury Reshetov:

Grüße!

Wenn Sie an den Daten interessiert sind, kann ich ein Skript bereitstellen, das Informationen aus den Diagrammen sammelt und in eine Datei schreibt.

Ich habe auch eine Frage. Müssen Sie einen Prädiktor für einen Zug erstellen und den Fehler bei einem Test messen? Und wir können es mit Ihrem Ergebnis vergleichen, richtig?
 
Alexey Burnakov:
Ich habe auch eine Frage. Sollte ich einen Prädiktor für den Zug erstellen und den Fehler im Test messen? Und wir können es mit Ihrem Ergebnis vergleichen, richtig?
Mm-hmm.
 

Liebe Kolleginnen und Kollegen, wenn Sie Zeit haben, können Sie mir unter diesem Artikel Fragen stellen. https://habrahabr.ru/company/aligntechnology/blog/303750/

Habr ist überhaupt nicht zu hören!

Методические заметки об отборе информативных признаков (feature selection)
Методические заметки об отборе информативных признаков (feature selection)
  • habrahabr.ru
Всем привет! Меня зовут Алексей Бурнаков. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных. В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением...