Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2799

 
elibrarius #:

Busting sucht nach den besten Splits aus allen Spalten und allen Beispielen. D.h. es verwendet die besten Fiches.
Schuch. forest nimmt die Hälfte der Fiches und die Hälfte der Beispiele (der Anteil ist konfigurierbar) für jeden Baum und findet dann aus 20-100 Bäumen den Durchschnitt. Wenn es nur 5 informative Chips von 200 Chips gibt, dann werden einige der Bäume keine informativen Chips enthalten (im Durchschnitt 2,5 informative Chips pro Baum). Und wir werden einen Teil der informativen Bäume mit Rauschbäumen mitteln. Das Ergebnis wird ebenfalls sehr verrauscht sein.
Ein sporadischer Wald funktioniert gut, wenn es viele informative Chips gibt (wie in klassischen Beispielen/ MO-Problemen).

Busting wird die informativsten Chips finden und verwenden, da es sie alle überprüft. Nach der Logik von Bousting wird es also die besten Fiches selbst auswählen. Aber Bousting hat auch seine eigenen Probleme.

Ich kann dir bei Bousting nicht zustimmen.

Busting wird Merkmale finden, die eine starke Korrelation (Vorhersagekraft) haben - glauben Sie mir. Alles ist in Ordnung, wenn die Größe der Korrelation konstant ist. Wenn wir die Schätzung des Merkmals selbst aufgeben, können wir beim Bousting die Variabilität der Größe der Assoziation nicht verfolgen, und nach meinen Daten kann die SD der Assoziationsschätzung von 10 % bis 120 (bei meinen Merkmalen) variieren. Was wird uns das Bousting bringen? Schließlich müssen wir die Merkmale beproben, die eine größere Variabilität aufweisen.

 
СанСаныч Фоменко #:

Die Bewertung selbst ist eine relative Sache.

Ich werde die Bilder wiederholen.

Es ist schlecht, es ist hoffnungslos.


Besser ist es, wenn es mehrere von ihnen gibt, dann können wir von 30 % Vorhersagefehler sprechen.


Und der Müll muss entfernt werden, denn auf der Trainingsmenge kann der Chip zugunsten des Mülls liegen, es ist einfacher, den Wert zu finden, der zum Optimum führt.

Je mehr gegenseitige Information bei der Klassenaufteilung, desto weniger überschneiden sich die Verteilungen, was logisch ist.

Die Verteilungen werden sich bei neuen Daten immer noch überschneiden.

Ich würde mich nicht zu sehr auf solche Manipulationen verlassen, es ist nur eine Idee, die man ausprobieren kann.
 
elibrarius #:

Busting sucht nach den besten Splits aus allen Spalten und allen Beispielen. D.h. es verwendet die besten Fiches.
Schuch. forest nimmt die Hälfte der Fiches und die Hälfte der Beispiele (der Anteil ist konfigurierbar) für jeden Baum und findet dann aus 20-100 Bäumen den Durchschnitt. Wenn es nur 5 informative Chips von 200 Chips gibt, dann werden einige der Bäume keine informativen Chips enthalten (im Durchschnitt 2,5 informative Chips pro Baum). Und wir werden einen Teil der informativen Bäume mit verrauschten Bäumen mitteln. Das Ergebnis wird ebenfalls sehr verrauscht sein.
Ein sporadischer Wald funktioniert gut, wenn es viele informative Chips gibt (wie in klassischen Beispielen/ MO-Problemen).

Busting wird die informativsten Chips finden und verwenden, da es sie alle überprüft. Nach der Logik von Bousting wird es also die besten Fiches selbst auswählen. Aber Bousting hat auch seine eigenen Probleme.

Logischerweise
 
Maxim Dmitrievsky #:
je mehr gegenseitige Information bei der Einteilung in Klassen, desto weniger überschneiden sich die Verteilungen, was logisch ist

Die Verteilungen überschneiden sich auch mit den neuen Daten.

Ich würde mich nicht zu sehr auf eine solche Manipulation verlassen, es ist nur eine Idee, die man ausprobieren kann.

Sie haben die Variabilität von sd nicht bemerkt

 
СанСаныч Фоменко #:

Das mit dem Bousting kann ich nicht bestätigen.

Bousting findet Merkmale, die eine starke Korrelation (Vorhersagekraft) haben - glauben Sie daran. Alles ist in Ordnung, wenn das Ausmaß der Beziehung konstant ist. Wenn wir die Schätzung des Merkmals selbst aufgeben, können wir beim Bousting die Variabilität des Ausmaßes der Assoziation nicht verfolgen, und nach meinen Daten kann die SD der Assoziationsschätzung zwischen 10 % und 120 (bei meinen Merkmalen) variieren. Was wird uns das Bousting bringen? Schließlich müssen wir die Merkmale beproben, die eine größere Variabilität aufweisen.

Alle MO-Modelle suchen nach Mustern. Bousting wählt automatisch die besten Merkmale in der Ausbildung aus.

Wenn es Variabilität gibt (z. B. bei Marktdaten), müssen wir etwas Zusätzliches tun. Ich habe mit Walking Forward experimentiert. Aber es zeigt nur das Ergebnis an, es hat keinen Einfluss auf die Auswahl der Merkmale. Und nichts kann vorhersagen, welche Merkmale in Zukunft funktionieren werden, wenn es keine Muster gibt oder sie sich ändern. Die einzige Chance ist, dass sie sich nicht sofort ändern und das Muster eine Zeit lang funktioniert.

 
Aleksey Vyazmikin #:

Ich habe einen Thread mit einem Beispiel erstellt, das das Gegenteil beweist - Bousting ist nicht omnipotent, vor allem nicht aus der Box heraus.

Ich denke, es ist kein Boosting-Problem, sondern ein Problem der Datenvariabilität. Ich werde versuchen, mit Ihren Daten zu trainieren.
 
elibrarius #:
Ich denke, dass es sich nicht um ein Boost-Problem handelt, sondern um ein Problem der Datenvariabilität. Ich werde versuchen, mit Ihren Daten zu trainieren.

Natürlich liegt es nicht am Algorithmus an sich, sondern an den Daten.

Probieren Sie es aus und sehen Sie, was Sie herausfinden!

Die Stichprobe ist insofern relativ einzigartig, als es schwierig ist, sie so zu trainieren, dass etwas außerhalb des Trainings funktioniert.

Ich experimentiere noch damit.

 
Aleksey Vyazmikin #:

Die Probe ist relativ einzigartig, da es schwierig ist, etwas zu trainieren, das auch außerhalb des Trainings funktioniert.

Warum ist das so einzigartig? Marktdaten funktionieren normalerweise nicht außerhalb von Schulungen. Ich habe Ihnen hier ein paar Fragen gestellt

 
elibrarius #:

Ist das ein Alleinstellungsmerkmal? Außerhalb der Ausbildung funktionieren die Marktdaten normalerweise nicht. Ich habe Ihnen dort ein paar Fragen gestellt

Nun, sie funktionieren nicht, sie funktionieren normalerweise, aber nicht sehr gut.

Die Besonderheit hier ist, dass das CatBoost-Modell es vorzieht, allen Beispielen eine Wahrscheinlichkeit von weniger als 0,5 zuzuordnen - es klassifiziert also nicht das Ziel "1", und was zwischen 0 und 0,5 liegt, ist auch nicht sehr gut verteilt - es gibt Screenshots des Modells im Thread.

 
Aleksey Vyazmikin #:

Die Besonderheit dabei ist, dass das CatBoost-Modell allen Beispielen eine Wahrscheinlichkeit von weniger als 0,5 zuordnet - es klassifiziert also nicht das Ziel "1", und was zwischen 0 und 0,5 liegt, ist auch sehr schlecht verteilt - es gibt Screenshots des Modells im Thread.

Die Besonderheit hier ist, dass es ein starkes Ungleichgewicht der Klassen zu geben scheint, wenn es für 100 Beispiele 5 Labels einer Klasse und 95 Labels einer anderen Klasse gibt, wie kann das Modell mehr als 0,5 Wahrscheinlichkeit für die erste Klasse geben? Das ist keine Frage an das Modell, sondern an den Autor des Datensatzes...?