Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2804

 
mytarmailS #:

Wozu also dieser Overkill?

Um Merkmale mit Korrelationen von mehr als 0,9 herauszufiltern.

um Merkmale mit einer Korrelation von mehr als 0,8 auszusieben.

Merkmale mit einer Korrelation von mehr als 0,7 auszufiltern

Merkmale mit einer Korrelation von mehr als 0,6 auszusondern

....

..

Ich verstehe nicht, wozu das gut sein soll, man muss es nur einmal durchlaufen lassen und ist fertig.

Was meinen Sie mit "einmal und alles" - es gibt eine Menge von Proben, so dass ein systematischer Ansatz erforderlich ist. Wenn es nützlich ist, werde ich es in MQL5 machen, so dass es sofort funktioniert und hoffentlich schneller geht.

mytarmailS #:

========================================

Außerdem ist bekannt, dass Holz sich nicht um korrelierte Zeichen kümmert.

Nehmen Sie, trainieren Sie das Modell, wählen Sie wichtige Merkmale aus dem Modell und machen Sie sich keine Sorgen....

machen Sie keinen Unsinn, verschwenden Sie nicht Ihre Zeit und die Zeit anderer Leute.

CatBoost wählt die Anzahl der Prädiktoren bei jeder Iteration des Splittings oder der Baumbildung nach dem Zufallsprinzip aus - das hängt von den Einstellungen ab, und es bedeutet, dass stark korrelierte Prädiktoren eine größere Chance haben, in den Zufall zu geraten, d.h. nicht auf sie, sondern auf die Informationen, die sie tragen.

Ich mache das jetzt, auch für den Forumsthread, um zu sehen, ob es für diese Stichprobe Sinn macht.

Zumindest erwarte ich, dass dieser Ansatz es erlaubt, die Modelle vielfältiger zu gestalten, was es erlaubt, mehr Situationen in der Stichprobe zu beschreiben (Recall wird mehr sein) und das Paket der Modelle weiter zu nutzen.

 
Aleksey Vyazmikin #:

Ich machedas jetzt, auch für einen Forumsthread, um zu sehen, ob es für diese Probesinnvoll ist.

Das tut es nicht

 
mytarmailS #:

Es hat keinen Sinn

Sie glauben, dass diese Probe hoffnungslos ist?

 
Aleksey Vyazmikin #:

CatBoost wählt die Anzahl der Prädiktoren bei jeder Iteration des Splittings oder der Baumbildung nach dem Zufallsprinzip aus - dies hängt von den Einstellungen ab und bedeutet, dass stark korrelierte Prädiktoren eine größere Chance haben, in den Zufall zu geraten, d.h. nicht in sie, sondern in die Informationen, die sie tragen.

Ja, und das wissen die Erfinder von Boosts nicht...

Sie wissen auch nicht, dass es möglich ist, Vorzeichen durch Korrelation herauszufiltern))) woher sollten sie das auch wissen, die Methode ist erst 50 Jahre alt))))

Glauben Sie wirklich, dass Sie mehr wissen als die anderen?

Aleksey Vyazmikin #:

Glauben Sie, dass die Probe hoffnungslos ist?

Sicher... Boost berücksichtigt das alles.

Und machen Sie mir keine Vorwürfe, ich bin wahrscheinlich jünger als Sie).

 
Aleksey Vyazmikin #:

Sie denken, dass diese Probe hoffnungslos ist?

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself


Entscheidungsbäume sind von Natur aus immun gegen Multikollinearität. Wenn Sie zum Beispiel 2 Funktionen haben, die zu 99% korreliert sind, wird der Baum nur eine davon auswählen, wenn er eine Partitionsentscheidung trifft,

die zu 99 % korreliert sind, wählt der Baum bei einer Partitionsentscheidung nur eine der beiden Funktionen aus. Andere Modelle,

wie die logistische Regression, verwenden beide Funktionen.

Da Bousting-Bäume separate Entscheidungsbäume verwenden, sind sie auch nicht von Multikollinearität betroffen.

========

können Sie diesen Ansatz verwenden, die Bedeutung jeder Funktion bewerten und nur die besten Funktionen für Ihr endgültiges Modell behalten.


Das ist eigentlich das, was ich Ihnen vorhin gesagt habe

Does XGBoost handle multicollinearity by itself?
Does XGBoost handle multicollinearity by itself?
  • 2016.07.02
  • ope ope 1,653 3 3 gold badges 16 16 silver badges 27 27 bronze badges
  • datascience.stackexchange.com
I'm currently using XGBoost on a data-set with 21 features (selected from list of some 150 features), then one-hot coded them to obtain ~98 features. A few of these 98 features are somewhat redundant, for example: a variable (feature) $A$ also appears as $\frac{B}{A}$ and $\frac{C}{A}$. My questions are : From what I understand, the model is...
 
mytarmailS #:

Ja, und die Schöpfer solcher Boosts wissen das nicht....

Sie wissen auch nicht, dass es möglich ist, Zeichen durch Korrelation herauszufiltern)) wie könnten sie es auch wissen, die Methode ist erst 50 Jahre alt)))

Glauben Sie wirklich, dass Sie mehr wissen als die anderen?

Ich weiß es. Boost berücksichtigt das alles.

Und kommen Sie mir nicht mit diesem Scheiß, ich bin wahrscheinlich jünger als Sie).

Ich analysiere die Ergebnisse der Modelle und sehe, dass sie hoch korrelierte Prädiktoren nehmen, zum Beispiel Prädiktoren, die auf der Zeit basieren - selbst wenn sie eine kleine Zeitverzögerung haben.

Ich denke, sie wissen alles ganz genau, aber auch sie sollten Ihnen keine Plattitüden erzählen, die Jahrzehnte alt sind....

Zum Thema "Du" oder "Sie" - ich denke, es ist für jeden besser, den Gesprächspartner so zu nennen, wie es für ihn bequem ist, wenn es keine beleidigende Botschaft enthält und einen konstruktiven Dialog nicht verhindert.


mytarmailS #:

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself


Entscheidungsbäume sind von Natur aus immun gegen Multikollinearität. Zum Beispiel, wenn Sie 2 Funktionen haben,

die zu 99 % korreliert sind, wählt der Baum nur eine von ihnen aus, wenn er entscheidet, ob er geteilt werden soll. Andere Modelle,

wie die logistische Regression, verwenden beide Funktionen.

Da Bousting-Bäume separate Entscheidungsbäume verwenden, sind sie auch nicht von Multikollinearität betroffen.

========

können Sie diesen Ansatz verwenden, die Bedeutung jedes Merkmals bewerten und nur die besten Merkmale für Ihr endgültiges Modell behalten.


Das ist genau das, was ich Ihnen vorhin gesagt habe

Das ist die Sache, es wird wählen - ja eine, aber wie oft wird diese Wahl durch.... gehen.

Außerdem hat CatBoost einige Unterschiede zu xgboost, und es gibt unterschiedliche Ergebnisse bei verschiedenen Proben, im Durchschnitt ist CatBoost schneller und sogar besser, aber nicht immer.

 

Außerdem habe ich meine eigene Methode, um ähnliche Prädiktoren zu gruppieren und daraus die beste Option auszuwählen, und ich brauche eine Kontrollgruppe in Form einer Korrelation...

 
Das Skript funktioniert - ich werde es wohl über Nacht lassen müssen....
 
Aleksey Vyazmikin #:

CatBoost wählt die Anzahl der Prädiktoren bei jeder Iteration des Splittings oder der Baumbildung nach dem Zufallsprinzip aus - dies hängt von den Einstellungen ab und bedeutet, dass stark korrelierte Prädiktoren eine größere Chance haben, in den Zufall zu geraten, d.h. nicht in sie, sondern in die Informationen, die sie tragen.

Sind Sie sicher, dass es Prädiktoren nach dem Zufallsprinzip auswählt? Ich habe nicht gecatcht, ich habe mir den Code der grundlegenden Bousting-Beispiele angesehen. Dort werden alle Prädiktoren verwendet. Das heißt, es wird der beste Prädiktor genommen. Der korrelierte Prädiktor liegt daneben, ist aber etwas schlechter. Aber auf anderen Split-Ebenen oder in Korrekturbäumen kann ein anderer der korrelierten Prädiktoren besser sein.

 
Aleksey Vyazmikin zu gruppieren und daraus die beste Variante auszuwählen, und ich brauche eine Kontrollgruppe in Form der Korrelation....
Geben Sie mir also ein paar informative Formeln zum Ausprobieren.