Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3145

 
Aleksey Nikolayev Splitpunkten mit der Erkennung von Änderungspunkten einer Zeitreihe sein. In beiden Fällen wird in der Regel die Aufteilung einer einzelnen Stichprobe in zwei maximal unterschiedliche Teilstichproben angestrebt.

Hinzufügen. Blank, Zeit ist praktisch ein Nullmerkmal

 
Maxim Dmitrievsky #:
Ich verstehe das, man könnte sich auch mit dem Kausalwald beschäftigen. Übrigens habe ich mich damit noch nicht beschäftigt, aber wenn das jemand herausfindet, wäre es interessant, über Experimente damit zu lesen.
Ich verstehe den Ansatz von Sanych nicht :) er betrachtet den RMS-Fehler. Oder RMS in einem gleitenden Fenster.

Nein. Mein Ansatz sind die Abweichungen bei der "Vorhersagefähigkeit". Das hat nichts mit der Schätzung des Modells selbst zu tun.

 
СанСаныч Фоменко #:

Nein. Meine Kritik bezieht sich auf Abweichungen in der "Vorhersagefähigkeit". Sie hat nichts mit der Bewertung des Modells selbst zu tun.

Es ist nicht nur Ihre, sondern die eines jeden MOSH-Mitarbeiters :)
Kreuzvalidierung ist üblich.
Aus irgendeinem Grund denken Sie, dass Sie etwas anderes tun.

Wenn Sie durch MO schätzen, werden Sie vergleichbare Schätzungen erhalten. Weil es gut funktioniert, nicht schlechter als selbstgemachte Schätzungen.

Meine Schlussfolgerung basiert auf Ihrer Beschreibung.
 

Im Rahmen eines ähnlichen Experiments zur Auswahl informativer Merkmale habe ich alle Möglichkeiten ausprobiert. Das ist nicht schwer. Angefangen bei Korrelation, gegenseitiger Information und knn, über OLS und SVM bis hin zu Forest, Bousting und neuronalen Netzen (tiefe Netze habe ich nicht ausprobiert). Es stellte sich heraus, dass Bousting am besten ist. OLS liegt an zweiter Stelle.

Die Argumentation ist sehr einfach: Wenn Bousting auf einen Baum mit einem Split reduziert wird, ist es möglich, die gegenseitige Information, die Stichproben- oder Permutationsentropie und teilweise OLS zu bewerten.
 
СанСаныч Фоменко #:

Nein. Meine Kritik bezieht sich auf Abweichungen in der "Vorhersagefähigkeit". Das hat nichts mit der Bewertung des Modells selbst zu tun.

Ist es möglich, dass die Parameter des Modells von Schritt zu Schritt sehr stark springen? Das heißt, trotz guter "Vorhersagekraft" in jedem Schritt ist die gewünschte Abhängigkeit sehr unterschiedlich angeordnet und ändert sich ständig. Wenn dies der Fall ist, kann es sich durchaus um eine Form des Übertrainings handeln.

 
Maxim Dmitrievsky #:
Ich verstehe das, man könnte sich auch mit dem Kausalwald beschäftigen. Ich habe es übrigens nicht studiert, aber wenn jemand es versteht, wäre es interessant, über Experimente damit zu lesen

Es scheint sich um denselben Random Forest zu handeln, nur mit einer kausalen Interpretation. Sie haben also als Popularisierer von Wäldern und nun auch von Kausalwäldern die Karten in der Hand).

Dennoch verstehe ich die Anwendung von Kausalforsten für den Handel noch nicht. Ein kurzes Googeln hat nicht geholfen, direkte Anwendungen zu finden, nur indirekte - wie die Untersuchung des Einflusses von Aktien auf den Forex.

 
Aleksey Nikolayev #:

Es scheint sich um denselben Zufallsforst zu handeln, allerdings mit einer kausalen Interpretation. So haben Sie als Popularisierer von Wäldern und kausaler Interpretation unter uns die Karten in der Hand).

Dennoch verstehe ich die Anwendung der Kausalanalyse für den Handel noch nicht. Ein kurzes Googeln hat nicht geholfen, direkte Anwendungen zu finden, nur indirekte - wie die Untersuchung des Einflusses von Aktien auf den Forex.

Es erfordert viel geistige Anstrengung, sich mit dem Unbekannten zu befassen :) es gibt nichts dergleichen auf Google, und bis vor kurzem gab es auch keine klaren allgemeinen Anleitungen.
 
Aleksey Nikolayev #:

Ist es möglich, dass von Schritt zu Schritt die Parameter des Modells sehr stark springen? Das heißt, trotz guter "Vorhersagbarkeit" bei jedem Schritt ist die gewünschte Abhängigkeit sehr unterschiedlich angeordnet und ändert sich ständig. Wenn dies der Fall ist, kann es sich durchaus um eine Art von Übertraining handeln.

In meinem Fall ist es unmöglich, Ihre Frage zu beantworten: Das Modell wird in jedem Schritt neu trainiert, und natürlich kann die Merkmalsmenge in den verschiedenen Schritten unterschiedlich sein.

Der Klassifizierungsfehler schwankt zwischen 20% und 10%. 25 % sind noch nie vorgekommen.

 
Maxim Dmitrievsky #:

Im Rahmen eines ähnlichen Experiments zur Auswahl informativer Merkmale habe ich alle Möglichkeiten ausprobiert. Das ist nicht schwer. Angefangen bei Korrelation, gegenseitiger Information und knn, über OLS und SVM bis hin zu Forest, Bousting und neuronalen Netzen (tiefe Netze habe ich nicht ausprobiert). Es stellte sich heraus, dass Bousting am besten ist. OLS liegt an zweiter Stelle.

Die Argumentation ist sehr einfach: Wenn Bousting auf einen Baum mit einem Split reduziert wird, ist es möglich, die gegenseitige Information, die Stichproben- oder Permutationsentropie und teilweise OLS zu bewerten.

Keiner der oben genannten Algorithmen hat eine Vorhersagekraft, ebenso wenig wie Hunderte von MO-Algorithmen, die dummerweise die Wichtigkeit berechnen, die angibt, wie oft der Algorithmus ein Merkmal verwendet: Wenn man einen MO-Algorithmus mit Müll füttert, wird jeder MO-Algorithmus die Wichtigkeit dieses Mülls errechnen.

 
СанСаныч Фоменко #:

Keiner der oben genannten Algorithmen hat eine Vorhersagekraft, auch nicht Hunderte von MO-Algorithmen, die dummerweise die Wichtigkeit berechnen, die angibt, wie oft ein Merkmal vom Algorithmus verwendet wird: Wenn man einen MO-Algorithmus mit Müll füttert, wird jeder MO-Algorithmus die Wichtigkeit dieses Mülls berechnen.

Das ergibt den Klassifikations-/Regressionsfehler. Ich denke, es reicht, diese seltsamen Spiele zu spielen, man dreht sich im Kreis :) Und es gibt so eine Tür, um herauszukommen.