Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3334
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Nein, es wird derselbe relative Ort sein - die Anzahl der Teiler (Splits) - für alle festgelegt.
Sie haben viele binäre Prädiktoren mit 0 und 1. Sie werden nicht in 32 geteilt. Aber wenn Sie sie normalisieren, erhalten Sie vielleicht etwas mit Uniform Quantisation. Wenn die Quanten nicht einheitlich sind, dann werden einfach alle Abstände durch die Zahlen verzerrt, du musst die Werte nach der Normalisierung absuchen.
Der Fehler liegt in der Vorhersage, wenn man das Rauschen nicht wie beim Training beseitigen kann.
Busting ist da noch lustiger - unsichere Blätter in der Summe können die Wahrscheinlichkeit in die eine oder andere Richtung verschieben - ich möchte immer wieder ein Diagramm erstellen, um zu zeigen, wie die Gewichte in Abhängigkeit von der Wahrscheinlichkeitsverschiebung verteilt sind, aber ich schiebe es immer wieder auf. Drei Tage lang berücksichtigt der Computer die Ähnlichkeit der Modellblätter - ich denke über eine Optimierung des Algorithmus nach - zu lang....
Es spielt keine Rolle, ob es sich um einen Baum, einen Wald oder einen Busch handelt. Wenn die Modellvorhersage 50 % beträgt, dann gibt es in der Vorhersage 50 % 0 und 50 % 1.
Sie haben viele binäre Prädiktoren mit 0 und 1. Sie lassen sich nicht durch 32 teilen. Aber wenn Sie sie normalisieren, erhalten Sie vielleicht etwas mit einheitlicher Quantisierung. Wenn die Quanten nicht einheitlich sind, werden alle Entfernungen durch die Zahlen verzerrt, Sie müssen die Werte nach der Normalisierung abziehen.
Ja, mit binären Werten ist es komplizierter. Aber ich verstehe nicht, wie eine Normalisierung hier helfen kann.
Im Allgemeinen ist es wohl notwendig, die Dimensionalität zu reduzieren. Aber dann ist es nicht genau das, was die Autoren beabsichtigt haben. Bis jetzt bin ich noch weit von der Erkenntnis entfernt.
Es gibt einen Fehler in der Vorhersage, wenn man das Rauschen nicht loswerden kann, wie beim Training.
Es ist ein anderes Konzept - die Daten werden in zwei Teile geteilt - wie "kann vorhersagen" und "kann nicht vorhersagen" - ein Modell ist dafür verantwortlich. Wenn neue Daten hinzukommen, wird geprüft, ob eine Vorhersage gemacht werden soll oder nicht. Vorhersagen werden also nur für Daten gemacht, die während des Trainings "leicht" trennbar und eng geclustert waren, d.h. ein Zeichen von Gültigkeit hatten.
Es spielt keine Rolle, ob es sich um einen Baum, Wald oder Busch handelt. Wenn die Modellvorhersage 50% beträgt, bedeutet das, dass 50% 0 und 50% 1 in der Vorhersage enthalten sind.
Das ist überhaupt nicht der Punkt. Wald und Busch haben eine erzwungene Baumkonstruktion, d. h. es gibt keinen Algorithmus, der verworfen wird, wenn der Baum schlecht ist. In beiden Fällen wird der Baum mit Gewichten versehen. Er kann aufgrund der übermäßigen Zufälligkeit des Algorithmus sowohl bei der Auswahl der Merkmale als auch bei der Auswahl der Beispiele (Teilstichproben) miserabel sein.
Nein, das habe ich nicht. Ich werde heute Abend nachsehen, was es ist.
Das ist richtig - es ist eine Möglichkeit, Beispiele zu isolieren, die das Lernen beeinträchtigen - so die Theorie.
Die Idee ist, 100 Modelle zu trainieren und zu sehen, welche Beispiele im Durchschnitt eine zuverlässige Klassifizierung "behindern", und dann zu versuchen, sie mit einem anderen Modell zu erkennen.
Also habe ich das Modell genommen und mir die Blattzahl angesehen. Das Modell ist unausgewogen mit nur 12,2% Einheiten. 17k Blätter.
Ich habe eine Einteilung der Blätter in Klassen vorgenommen - wenn die Stichprobe der Antworten mit dem Ziel "1" mehr als der Ausgangswert - 12,2 % - beträgt, dann ist die Klasse "1", andernfalls ist sie "0". Die Idee der Klasse ist hier, nützliche Informationen zur Verbesserung der Klassifizierung zu erhalten.
Im Histogramm sehen wir die Werte in den Blättern des Modells (X) und ihren Prozentsatz im Modell (Y) - ohne sie zu klassifizieren.
Und hier ist es dasselbe, aber die Klasse ist nur "0".
Die Klasse ist nur "1".
Diese Koeffizienten in den Blättern werden summiert und über Logit transformiert, was bedeutet, dass ein "+"-Zeichen die Wahrscheinlichkeit der Klasse "1" erhöht und ein "-" sie verringert. Insgesamt sieht die Aufschlüsselung nach Klassen stimmig aus, aber das Modell weist eine Verzerrung auf.
Nun können wir uns die prozentuale Verteilung (in Bezug auf die Klassifizierungsgenauigkeit) ansehen - getrennt für Blätter mit "1" und mit "0".
Das Histogramm für "0" zeigt eine große Anzahl von Blättern mit einer Genauigkeit nahe "100%".
Und hier gibt es einen größeren Cluster in der Nähe des anfänglichen Trennungswerts, d.h. es gibt viele Blätter mit geringer Aussagekraft, aber gleichzeitig auch solche, die nahe bei 100% liegen.
Betrachtet man den Recall, so wird deutlich, dass es sich bei diesen Blättern um Blätter mit einer geringen Anzahl von Aktivierungen handelt - weniger als 5% ihrer Klasse.
Rückruf für die Klasse "0
Rückruf für die Klasse "1".
Als Nächstes können wir uns die Abhängigkeit der Gewichtung des Blattes von seiner Klassifizierungsgenauigkeit ansehen - ebenfalls getrennt für jede Klasse.
Für Ziel "0"
Für das Ziel "1".
Das Vorhandensein von Linearität, wenn auch in einem so großen Bereich, ist bemerkenswert. Aber die "Säule" mit einer Wahrscheinlichkeit von 100 ist unlogisch, da sie sich sehr weit über den Bereich des Blattwerts erstreckt.
Vielleicht sollte diese Hässlichkeit entfernt werden?
Wenn wir uns außerdem den Wert in den Blättern in Abhängigkeit vom Recall-Indikator ansehen, sehen wir ein kleines Gewicht in den Blättern (nahe 0), das manchmal einen sehr großen Wert von Antworten hat. Diese Situation zeigt, dass das Blatt nicht gut ist, aber das Gewicht ist an ihm befestigt. Können diese Blätter also auch als Rauschen betrachtet und auf Null gesetzt werden?
Für Ziel "0".
Für das Ziel "1".
Ich frage mich, wie viel Prozent der Blätter in der neuen Stichprobe (nicht train) ihre Klasse "ändern" werden?
Und dazu noch ein Klassiker - die gegenseitige Abhängigkeit von Vollständigkeit und Genauigkeit.
Klasse 0.
Klasse 1.
Wie auch immer, ich denke darüber nach, wie man das....
Und so sieht das Modell in Form von Wahrscheinlichkeiten aus.
Bei der Zugstichprobe werden bis zu 35% Gewinn gemacht - wie im Märchen!
Bei der Teststichprobe - im Bereich von 0,2 bis 0,25 verlieren wir einen fetten Batzen Gewinn - die Punkte der Klassenmaxima sind durcheinander.
Auf der Prüfungsprobe - es wird noch verdient, aber es zersetzt bereits das Modell.
Ich frage mich, wie viel Prozent der Blätter einer neuen Probe (nicht des Zuges) ihre Klasse "wechseln" werden?
Das ist richtig - es ist eine Möglichkeit, Beispiele hervorzuheben, die das Lernen beeinträchtigen - das ist die Theorie.
Die Idee ist, 100 Modelle zu trainieren und zu sehen, welche Beispiele im Durchschnitt eine zuverlässige Klassifizierung "stören", und dann zu versuchen, sie mit einem anderen Modell zu erkennen.