Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 1203

 
Aleksey Vyazmikin:

Ich danke Ihnen. Randomisierung mit denselben Werten wie der Prädiktor in der Stichprobe, richtig?

Im Allgemeinen ist der Ansatz klar, danke, ich muss darüber nachdenken, wie ich ihn umsetzen und ausprobieren kann.

Leider kann ich sie nicht bewältigen, also werde ich mir bei dieser Gelegenheit eine Nacherzählung aus Ihrem Munde anhören.

Nein, um überhaupt zu randomisieren, d. h. die Prädiktorwerte vollständig zu entfernen und weißes Rauschen hineinzuschieben

und schieben Sie dann die ursprünglichen Werte wieder hinein, wenn Sie die nächste Prüfung vornehmen wollen.

Grob gesagt, schieben Sie weißes Rauschen an die Stelle jedes Prädiktors, einen nach dem anderen. Das ist wahrscheinlich einfacher zu verstehen.

Eine wichtige Bedingung: Die Prädiktoren dürfen nicht korrelieren, sonst erhalten Sie Kauderwelsch mit Fehlern... Hierfür habe ich zunächst eine PCA-Transformation durchgeführt, aber es ist auch möglich, eine Korrelationsmatrix zu erstellen und alle stark korrelierten Daten zu entfernen. Es gibt noch einen anderen Mechanismus, aber der ist kompliziert
 
Maxim Dmitrievsky:

Nein, randomisieren Sie überhaupt nach Linkshändigkeit, d. h. entfernen Sie die Prädiktorwerte vollständig und schieben Sie weißes Rauschen hinein.

und schieben Sie die ursprünglichen Werte zurück, wenn Sie die nächste Prüfung durchführen

Wenn nur Rauschen, dann unterbrechen wir die Aufteilung überhaupt, z.B. gibt es eine Aufteilung mit "über 100"-Regel, aber wir fügen zufällige von 0 bis 99 hinzu, dann wird die weitere Aufteilung nicht mehr aktiv sein. Es ist wahrscheinlich wichtig zu sehen, wie die weitere Aufteilung funktioniert, wenn eine der Listenregeln ausfällt...

 
Maxim Dmitrievsky:


Eine wichtige Bedingung: Die Prädiktoren dürfen nicht korrelieren, sonst erhält man Kauderwelsch mit Fehlern... Hierfür habe ich zunächst eine PCA-Transformation durchgeführt, aber es ist auch möglich, eine Korrelationsmatrix zu erstellen und alle stark korrelierten Daten zu entfernen. Es gibt noch einen anderen Mechanismus, aber der ist kompliziert

Welche Art von Korrelation ist akzeptabel? Schließlich sollten gute Prädiktoren mit dem Ziel korrelieren, was bedeutet, dass sie bis zu einem gewissen Grad auch miteinander korrelieren...

 
Aleksey Vyazmikin:

Wenn es nur Rauschen ist, dann brechen wir die Aufteilung überhaupt, zum Beispiel gibt es eine Aufteilung mit der Regel "über 100", und wir setzen einen Zufallswert von 0 bis 99 ein, dann wird die weitere Aufteilung nicht mehr aktiv sein, und es ist wahrscheinlich wichtig zu sehen, wie die weitere Aufteilung funktionieren wird, wenn eine der Blattregeln herausfällt...

so dass der Fehler stark abnimmt und alles in Ordnung ist, die Bedeutung ist gering. Lassen Sie sich nicht auf Modelle ein, woher wissen Sie, wie die Bäume aufgeteilt sind, und jeder ist anders und hat eine unterschiedliche Anzahl von Merkmalen. Sie sehen immer aus wie der Durchschnitt der Krankenhäuser.

 
Aleksey Vyazmikin:

Welche Art von Korrelation ist akzeptabel? Schließlich müssen gute Prädiktoren mit dem Ziel korrelieren, was bedeutet, dass sie bis zu einem gewissen Grad auch miteinander korrelieren...

Dies ist eine Ketzerei für die lineare Regression mit einem Prädiktor, bei nicht linearen Modellen darf nichts mit dem Ziel korrelieren, insbesondere wenn es sich um eine Klassifizierung handelt.

Ich weiß nicht, was davon akzeptabel ist, es ist schwer... oder experimentell. In diesem Sinne ist es natürlich einfacher, die PCA zu verwenden.
 
Maxim Dmitrievsky:

Der Fehler wird also drastisch sinken und alles wird gut, die Einfuhren sind gering. Lassen Sie sich nicht auf Modelle ein, woher wissen Sie, wie die Bäume aufgeteilt sind, und jeder ist anders und hat eine andere Anzahl von Merkmalen. Man schaut immer auf den Krankenhausdurchschnitt.

Dann können Sie den Wert einfach nullen oder durch einen anderen Wert ersetzen - derselbe Zufall, aber das erscheint mir nicht logisch... Wie auch immer, wenn ich es umsetzen kann, werde ich zwei Varianten ausprobieren.

Maxim Dmitrievsky:

dies ist bei der linearen Regression ketzerisch, bei nicht-linearen Modellen sollte nichts mit dem Ziel korrelieren

Was ist das Argument, dass der Prädiktor schlecht ist, wenn es eine Korrelation mit dem Ziel gibt?

 
Aleksey Vyazmikin:

Dann könnte man den Wert einfach nullen oder durch einen anderen Wert ersetzen - derselbe Zufall, aber das erscheint mir nicht logisch... Wie auch immer, wenn ich es umsetzen kann, werde ich zwei Optionen ausprobieren.

Welches Argument kann es geben, dass, wenn es eine Korrelation mit dem Ziel gibt, der Prädiktor schlecht ist?

Es ist mir egal, wie man es macht, Hauptsache, man ordnet die Fiches neu an, das scheint mir eher eine Kleinigkeit zu sein.

Ich spreche nicht von einem, sondern von vielen, und die Importe sind in etwa gleich, weil es eine starke Korrelation zwischen ihnen gibt. Es stellt sich heraus, dass das Entfernen eines starken Merkmals während der Umordnung nicht zu einer Verringerung des Modellfehlers führt, da es ähnliche Merkmale mit der gleichen Bedeutung gibt und keines der starken Merkmale erkannt wird. Deshalb sollte man entweder alle korrelierten Merkmale auf einmal randomisieren (was schwieriger zu implementieren ist) oder darauf achten, dass nichts stark korreliert wird

 
Maxim Dmitrievsky:

Machen Sie, was Sie wollen, die Hauptsache ist das Prinzip der Neuanordnung des Chips, ich denke, es ist eher eine Kleinigkeit

Ich spreche nicht von einem, sondern von vielen, und die Bedeutung ist ungefähr die gleiche, denn die Korrelation ist stark. Das Entfernen eines starken Merkmals in der Neuordnung führt also nicht zu einer Verringerung des Modellfehlers, da es ähnliche Merkmale mit der gleichen Bedeutung gibt und keines der starken Merkmale erkannt wird.

Auf diese Weise sollte das Modell Prädiktoren erstellen, um symmetrische Bäume zu bilden - ohne erneutes Training ist dies unwahrscheinlich, wie mir scheint, so dass es bei der Erstellung des Modells keinen Sinn hat.

Welche Korrelation ist also akzeptabel?
 
Aleksey Vyazmikin:

Es ist immer noch Aufgabe des Modells, die Prädiktoren dazu zu bringen, symmetrische Bäume zu bilden - denn ohne erneutes Lernen ist dies unwahrscheinlich, wie mir scheint, da es bei der Erstellung des Modells keinen Sinn ergibt.

im Falle von Wald funktioniert es gut, im Falle von Katstrophe muss man lesen, ich kann mich nicht erinnern, wie es funktioniert. Vielleicht hat es selbst eine gute Einfuhr, wegen der Struktur des Modells selbst

Ich weiß nicht, was akzeptabel ist, legen Sie eine Schwelle fest und sehen Sie nach. +- Am Modell wird sich wenig ändern. Das Boosten funktioniert nicht auf die gleiche Weise wie bei RF, vielleicht gibt es eine klare Bedeutung von Anfang an.

oder wenn Sie sicher sind, dass die Merkmale heterogen sind und nicht miteinander korrelieren, dann vergessen Sie diesen Schritt.

Das sind alles wichtige Dinge, vor allem, wenn Sie viele Merkmale haben und das Rauschen aus dem Modell herausschneiden müssen, aber nicht so sehr, dass Sie sich um jeden Prozentpunkt der Korrelation sorgen müssen, denke ich. im Bereich von -0,5; 0,5 ist wahrscheinlich normal.

Ich werde später selbst eine solche Variante erstellen und sie überprüfen.

 
Maxim Dmitrievsky:

Bei Wald funktioniert es gut, bei Catbust muss man lesen, ich weiß nicht mehr, wie es funktioniert. Vielleicht hat es aufgrund der Struktur des Modells selbst gute Importe

Ich weiß nicht, was akzeptabel ist, legen Sie eine Schwelle fest und sehen Sie nach. +- Am Modell wird sich wenig ändern. Das Boosten funktioniert nicht auf die gleiche Weise wie bei RF, vielleicht gibt es eine klare Bedeutung von Anfang an.

oder wenn Sie sicher sind, dass die Merkmale heterogen sind und nicht miteinander korrelieren, dann vergessen Sie diesen Schritt.

Das sind alles wichtige Dinge, vor allem, wenn Sie viele Merkmale haben und das Rauschen aus dem Modell herausschneiden müssen, aber nicht so sehr, dass Sie sich um jeden Prozentpunkt der Korrelation sorgen müssen, denke ich. im Bereich von -0,5; 0,5 ist wahrscheinlich normal.

Ich werde später selbst eine solche Variante erstellen und sie mir ansehen.

Verstehe, das muss ich ausprobieren. Ich möchte nur die Blätter für die Korrelation und vielleicht für die Catbust-Modelle sehen. Ich weiß sicher, dass die Paarung von Modellen möglich ist - eine einfache Suche hat es gezeigt, aber ich sollte alles vernünftig machen, und die entdeckte Korrelation wird es erlauben, die Anzahl der Iterationen während der Paarung von Modellen zu verringern.