Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2804
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Wozu also dieser Overkill?
Um Merkmale mit Korrelationen von mehr als 0,9 herauszufiltern.
um Merkmale mit einer Korrelation von mehr als 0,8 auszusieben.
Merkmale mit einer Korrelation von mehr als 0,7 auszufiltern
Merkmale mit einer Korrelation von mehr als 0,6 auszusondern
....
..
Ich verstehe nicht, wozu das gut sein soll, man muss es nur einmal durchlaufen lassen und ist fertig.
Was meinen Sie mit "einmal und alles" - es gibt eine Menge von Proben, so dass ein systematischer Ansatz erforderlich ist. Wenn es nützlich ist, werde ich es in MQL5 machen, so dass es sofort funktioniert und hoffentlich schneller geht.
========================================
Außerdem ist bekannt, dass Holz sich nicht um korrelierte Zeichen kümmert.
Nehmen Sie, trainieren Sie das Modell, wählen Sie wichtige Merkmale aus dem Modell und machen Sie sich keine Sorgen....
machen Sie keinen Unsinn, verschwenden Sie nicht Ihre Zeit und die Zeit anderer Leute.
CatBoost wählt die Anzahl der Prädiktoren bei jeder Iteration des Splittings oder der Baumbildung nach dem Zufallsprinzip aus - das hängt von den Einstellungen ab, und es bedeutet, dass stark korrelierte Prädiktoren eine größere Chance haben, in den Zufall zu geraten, d.h. nicht auf sie, sondern auf die Informationen, die sie tragen.
Ich mache das jetzt, auch für den Forumsthread, um zu sehen, ob es für diese Stichprobe Sinn macht.
Zumindest erwarte ich, dass dieser Ansatz es erlaubt, die Modelle vielfältiger zu gestalten, was es erlaubt, mehr Situationen in der Stichprobe zu beschreiben (Recall wird mehr sein) und das Paket der Modelle weiter zu nutzen.
Ich machedas jetzt, auch für einen Forumsthread, um zu sehen, ob es für diese Probesinnvoll ist.
Das tut es nicht
Es hat keinen Sinn
Sie glauben, dass diese Probe hoffnungslos ist?
CatBoost wählt die Anzahl der Prädiktoren bei jeder Iteration des Splittings oder der Baumbildung nach dem Zufallsprinzip aus - dies hängt von den Einstellungen ab und bedeutet, dass stark korrelierte Prädiktoren eine größere Chance haben, in den Zufall zu geraten, d.h. nicht in sie, sondern in die Informationen, die sie tragen.
Ja, und das wissen die Erfinder von Boosts nicht...
Sie wissen auch nicht, dass es möglich ist, Vorzeichen durch Korrelation herauszufiltern))) woher sollten sie das auch wissen, die Methode ist erst 50 Jahre alt))))
Glauben Sie wirklich, dass Sie mehr wissen als die anderen?
Glauben Sie, dass die Probe hoffnungslos ist?
Sicher... Boost berücksichtigt das alles.
Und machen Sie mir keine Vorwürfe, ich bin wahrscheinlich jünger als Sie).
Sie denken, dass diese Probe hoffnungslos ist?
https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself
Entscheidungsbäume sind von Natur aus immun gegen Multikollinearität. Wenn Sie zum Beispiel 2 Funktionen haben, die zu 99% korreliert sind, wird der Baum nur eine davon auswählen, wenn er eine Partitionsentscheidung trifft,
die zu 99 % korreliert sind, wählt der Baum bei einer Partitionsentscheidung nur eine der beiden Funktionen aus. Andere Modelle,
wie die logistische Regression, verwenden beide Funktionen.
Da Bousting-Bäume separate Entscheidungsbäume verwenden, sind sie auch nicht von Multikollinearität betroffen.
========
können Sie diesen Ansatz verwenden, die Bedeutung jeder Funktion bewerten und nur die besten Funktionen für Ihr endgültiges Modell behalten.
Das ist eigentlich das, was ich Ihnen vorhin gesagt habe
Ja, und die Schöpfer solcher Boosts wissen das nicht....
Sie wissen auch nicht, dass es möglich ist, Zeichen durch Korrelation herauszufiltern)) wie könnten sie es auch wissen, die Methode ist erst 50 Jahre alt)))
Glauben Sie wirklich, dass Sie mehr wissen als die anderen?
Ich weiß es. Boost berücksichtigt das alles.
Und kommen Sie mir nicht mit diesem Scheiß, ich bin wahrscheinlich jünger als Sie).
Ich analysiere die Ergebnisse der Modelle und sehe, dass sie hoch korrelierte Prädiktoren nehmen, zum Beispiel Prädiktoren, die auf der Zeit basieren - selbst wenn sie eine kleine Zeitverzögerung haben.
Ich denke, sie wissen alles ganz genau, aber auch sie sollten Ihnen keine Plattitüden erzählen, die Jahrzehnte alt sind....
Zum Thema "Du" oder "Sie" - ich denke, es ist für jeden besser, den Gesprächspartner so zu nennen, wie es für ihn bequem ist, wenn es keine beleidigende Botschaft enthält und einen konstruktiven Dialog nicht verhindert.
https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself
Entscheidungsbäume sind von Natur aus immun gegen Multikollinearität. Zum Beispiel, wenn Sie 2 Funktionen haben,
die zu 99 % korreliert sind, wählt der Baum nur eine von ihnen aus, wenn er entscheidet, ob er geteilt werden soll. Andere Modelle,
wie die logistische Regression, verwenden beide Funktionen.
Da Bousting-Bäume separate Entscheidungsbäume verwenden, sind sie auch nicht von Multikollinearität betroffen.
========
können Sie diesen Ansatz verwenden, die Bedeutung jedes Merkmals bewerten und nur die besten Merkmale für Ihr endgültiges Modell behalten.
Das ist genau das, was ich Ihnen vorhin gesagt habe
Das ist die Sache, es wird wählen - ja eine, aber wie oft wird diese Wahl durch.... gehen.
Außerdem hat CatBoost einige Unterschiede zu xgboost, und es gibt unterschiedliche Ergebnisse bei verschiedenen Proben, im Durchschnitt ist CatBoost schneller und sogar besser, aber nicht immer.
Außerdem habe ich meine eigene Methode, um ähnliche Prädiktoren zu gruppieren und daraus die beste Option auszuwählen, und ich brauche eine Kontrollgruppe in Form einer Korrelation...
CatBoost wählt die Anzahl der Prädiktoren bei jeder Iteration des Splittings oder der Baumbildung nach dem Zufallsprinzip aus - dies hängt von den Einstellungen ab und bedeutet, dass stark korrelierte Prädiktoren eine größere Chance haben, in den Zufall zu geraten, d.h. nicht in sie, sondern in die Informationen, die sie tragen.
Sind Sie sicher, dass es Prädiktoren nach dem Zufallsprinzip auswählt? Ich habe nicht gecatcht, ich habe mir den Code der grundlegenden Bousting-Beispiele angesehen. Dort werden alle Prädiktoren verwendet. Das heißt, es wird der beste Prädiktor genommen. Der korrelierte Prädiktor liegt daneben, ist aber etwas schlechter. Aber auf anderen Split-Ebenen oder in Korrekturbäumen kann ein anderer der korrelierten Prädiktoren besser sein.