Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2387

 
Aleksey Vyazmikin:

Wenn Sie aus der Beschreibung nicht schlau werden, stellen Sie Fragen zu Unklarheiten - ich werde versuchen, es besser zu erklären.

Ich habe das vor ein paar Jahren auch gemacht und habe es wegen der Arbeit aufgegeben, nicht wegen der Sinnlosigkeit.

Nachfolgend finden Sie eine Tabelle mit den Ergebnissen des alten Experiments, das folgendermaßen funktioniert:

1. Die Anzahl der Prädiktoren wird in 9 Teile zerlegt.

2. Kombinationen zwischen Chunks werden erstellt - 512

3. Anschließend wird geschätzt, wie sich die Proben im Durchschnitt bei Vorhandensein bzw. Fehlen der einzelnen Chunks verhalten.

4. Es wird eine Annahme über die Bedeutung des Chunks (positiv/negativ) getroffen.

5. Die wichtigen Teile werden in kleinere Teile zerlegt, und die weniger wichtigen Teile werden zu einem Teil zusammengefasst (sie müssen nicht unbedingt in der richtigen Reihenfolge auftreten).

6. Neue 512 Kombinationen werden gebildet

7. Wird ein kleines Stück gefunden, das sich negativ auf die Probe auswirkt, wird es von der weiteren Auszählung ausgeschlossen, bis sich das Ergebnis nicht mehr verbessert; dann kann man versuchen, die ausgeschlossenen Stücke hinzuzufügen und das Ergebnis auf dieselbe Weise zu analysieren. Positive Einflüsse hingegen werden in einer Gruppe zusammengefasst.

Hier ist ein Beispiel für die Veränderung der Indikatoren bei 32 solchen Iterationen.



Die Methode kann natürlich verbessert werden, aber dazu sind Experimente und Ergebnisse erforderlich.

Ja, die Verbesserung ist nicht um ein Vielfaches höher, aber die Ergebnisse erlauben es auch, darüber nachzudenken, welche Prädiktoren besser oder schlechter für das Ergebnis sind und warum.

Außerdem möchte ich versuchen, speziell mit CatBoost-Statistiken zu arbeiten und Prädiktoren (und ihre Gruppen) zu entfernen/hinzufügen, und zwar genau aus dem Grund, dass dies schneller sein könnte als die Suche, die ich bisher verwendet habe.

Ein weiterer Pluspunkt ist, dass zu viele Prädiktoren zu seltenen Splits führen und die Aktivierung von Blättern in der Stichprobe außerhalb des Trainings sehr selten sein kann (wie auf dem Screenshot zu sehen), was die Qualität des Trainings und seiner Auswertung absichtlich verringert.

Das ist ein bisschen knifflig.
Inwiefern ist das besser, als einfach alle Merkmale zu testen, indem man 1 hinzufügt?
Trainieren Sie zunächst 1000 Mal (mit 1000 zu testenden Merkmalen) auf 1 Merkmal, und finden Sie das beste Merkmal. Dann 999 Mal auf den besten Chip und 999 Mal auf den Rest, wähle den zweitbesten. Dann auf die ersten 2 und das dritte der 998 verbleibenden, usw.
Insgesamt 2 verschachtelte Zyklen.
Modelle mit einer geringen Anzahl von Merkmalen lernen sehr schnell. In einer angemessenen Zeitspanne erhalten Sie 20-30 davon. Und nach 10-20 ausgewählten Merkmalen hören die Modelle in der Regel auf, sich zu verbessern, und das Hinzufügen neuer Merkmale verschlechtert das Ergebnis nur noch.
 
Maxim Dmitrievsky:

Eine sinnlose Zeitverschwendung

Es ist klar, dass es keine konstruktive Diskussion geben wird - es besteht kein Wunsch, der Sache auf den Grund zu gehen.

 
Aleksey Vyazmikin:

Es ist klar, dass es keine konstruktive Diskussion geben wird - es besteht kein Wunsch, die Sache zu verstehen.

Es gibt keinen Wunsch zu leiden Bullshit, der Punkt ist klar (Leiden Bullshit)

 
elibrarius:
Etwas kompliziert.
Inwiefern ist das besser, als einfach alle Merkmale zu testen, indem man 1 hinzufügt?
Trainieren Sie zunächst 1000 Mal (mit 1000 zu testenden Merkmalen) auf 1 Merkmal, und finden Sie das beste Merkmal. Dann 999 Mal auf den besten Chip und 999 Mal auf die übrigen, wähle den zweitbesten. Dann auf die ersten 2 und das dritte der 998 verbleibenden, usw.
Insgesamt 2 verschachtelte Zyklen.
Modelle mit einer geringen Anzahl von Merkmalen lernen sehr schnell. In einer angemessenen Zeitspanne erhalten Sie 20-30 davon. Und nach 10-20 ausgewählten Merkmalen hören die Modelle in der Regel auf, sich zu verbessern, und das Hinzufügen neuer Merkmale verschlechtert das Ergebnis nur noch.

Wir suchen nicht nach dem besten, sondern nach einer Kombination von Merkmalen, und genau das ist das Problem. Das Problem liegt darin, dass es unmöglich ist, alle Kombinationen auszuprobieren, weshalb eine eurestische Methode erforderlich ist. Ein weiteres Problem ist die potenziell starke Ähnlichkeit der verschiedenen Prädiktoren nach ihrer Aufteilung, die in Ensembles zu einer Überschätzung der Wahrscheinlichkeit führt, da es viele inhärent korrelierte Blätter gibt.

 

der Mann hat beschlossen, das Boosten mit Boosten neu zu erfinden, wir sollten ihn nicht aufhalten

Appelle an den gesunden Menschenverstand halfen nicht

 
Maxim Dmitrievsky:

keine Lust zu leiden Bullshit, der Punkt ist klar (Leiden Bullshit)

Warum Blödsinn?

Macht es einen Unterschied - ja, es macht einen Unterschied.

Es gibt eine theoretische Rechtfertigung - ja, die gibt es.

Natürlich ist dies keine Verbesserung um eine Größenordnung.

Und ja, es mag für Ihre Prädiktoren wenig effektiv sein - hier kann ich die Gründe für die Ablehnung zugeben.

 
neuro is on fire ))
Vergessen Sie den Handel, machen Sie das neuronale Netz zu einem Indikator

 
Aleksey Vyazmikin:

Warum Blödsinn?

Macht es einen Unterschied - ja, es macht einen Unterschied.

Es gibt eine theoretische Rechtfertigung - ja, die gibt es.

Natürlich ist das keine Verbesserung um eine Größenordnung.

Und ja, es mag für Ihre Prädiktoren geringfügig wirksam sein - hier kann ich eine Begründung für die Ablehnung zulassen.

Ich habe schon alles gesagt, ich werde mich nicht einmischen und zu viel von dem ausprobieren, was man sich nicht aussuchen kann.

 
Aleksey Vyazmikin:

Man muss nicht nach dem besten suchen, sondern nach einer Kombination aus beiden - das ist das Problem. Das Problem liegt darin, dass es unmöglich ist, alle Kombinationen auszuprobieren, deshalb brauchen wir eine eurestische Methode. Ein weiteres Problem ist die potenziell starke Ähnlichkeit der verschiedenen Prädiktoren nach der Aufteilung, die in Ensembles zu einer Überschätzung der Wahrscheinlichkeit führt, da es viele im Wesentlichen korrelierte Blätter gibt.

Sobald der erste beste Chip ausgewählt wurde, wird der zweite mit der besten Interaktion mit dem ersten ausgewählt usw. Sobald Sie 10 erreicht haben, wird der nächste mit der besten Interaktion mit demjenigen von 10 ausgewählt, der zuvor ausgewählt wurde, aber höchstwahrscheinlich mit allen.
 
elibrarius:
Nachdem Sie das erste beste Merkmal ausgewählt haben, wird das zweite Merkmal dasjenige sein, das am besten mit dem ersten interagiert, und so weiter, wenn Sie 10 erreicht haben. Der nächste wird derjenige sein, der die beste Wechselwirkung mit dem zuvor ausgewählten hat, wahrscheinlich aber mit allen.

so funktioniert das nicht

die unwichtigen Merkmale aus dem Modell herausnehmen und es zerbrechen, dann den Hintern mit dem Daumen vergleichen und so weiter