Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3334

 
Aleksey Vyazmikin #:

Nein, es wird derselbe relative Ort sein - die Anzahl der Teiler (Splits) - für alle festgelegt.

Sie haben viele binäre Prädiktoren mit 0 und 1. Sie werden nicht in 32 geteilt. Aber wenn Sie sie normalisieren, erhalten Sie vielleicht etwas mit Uniform Quantisation. Wenn die Quanten nicht einheitlich sind, dann werden einfach alle Abstände durch die Zahlen verzerrt, du musst die Werte nach der Normalisierung absuchen.

Aleksey Vyazmikin #: Es kann viele verschiedene Methoden geben. Ich interessiere mich für die Variante der Verarbeitung vor der Modellbildung - wie es mir scheint, gibt es weniger Varianten von Gebäudekombinationen, die den Fehler in der endgültigen Schlussfolgerung reduziert - ob das endgültige Modell erfolgreich trainiert wurde oder nicht, im Allgemeinen.

Der Fehler liegt in der Vorhersage, wenn man das Rauschen nicht wie beim Training beseitigen kann.

Aleksey Vyazmikin #:

Busting ist da noch lustiger - unsichere Blätter in der Summe können die Wahrscheinlichkeit in die eine oder andere Richtung verschieben - ich möchte immer wieder ein Diagramm erstellen, um zu zeigen, wie die Gewichte in Abhängigkeit von der Wahrscheinlichkeitsverschiebung verteilt sind, aber ich schiebe es immer wieder auf. Drei Tage lang berücksichtigt der Computer die Ähnlichkeit der Modellblätter - ich denke über eine Optimierung des Algorithmus nach - zu lang....

Es spielt keine Rolle, ob es sich um einen Baum, einen Wald oder einen Busch handelt. Wenn die Modellvorhersage 50 % beträgt, dann gibt es in der Vorhersage 50 % 0 und 50 % 1.

 
Das Problem besteht also an beiden Enden gleichzeitig. Auf der einen Seite kennen Sie Ihre Zielfunktion nicht, auf der anderen Seite wissen Sie nicht, welche Fehler bei der Annäherung durch ein bestimmtes Modell auftreten. Sie müssen die f- und die Fehler finden. Mit nur einer Teilstichprobe, die oft verzerrt ist.

Und das alles kann man ohne multiple Oos-Tests machen. Aber es gibt keine Hemmungen innerhalb der Teilstichprobe.
 
Forester #:

Sie haben viele binäre Prädiktoren mit 0 und 1. Sie lassen sich nicht durch 32 teilen. Aber wenn Sie sie normalisieren, erhalten Sie vielleicht etwas mit einheitlicher Quantisierung. Wenn die Quanten nicht einheitlich sind, werden alle Entfernungen durch die Zahlen verzerrt, Sie müssen die Werte nach der Normalisierung abziehen.


Ja, mit binären Werten ist es komplizierter. Aber ich verstehe nicht, wie eine Normalisierung hier helfen kann.

Im Allgemeinen ist es wohl notwendig, die Dimensionalität zu reduzieren. Aber dann ist es nicht genau das, was die Autoren beabsichtigt haben. Bis jetzt bin ich noch weit von der Erkenntnis entfernt.

Förster #:

Es gibt einen Fehler in der Vorhersage, wenn man das Rauschen nicht loswerden kann, wie beim Training.

Es ist ein anderes Konzept - die Daten werden in zwei Teile geteilt - wie "kann vorhersagen" und "kann nicht vorhersagen" - ein Modell ist dafür verantwortlich. Wenn neue Daten hinzukommen, wird geprüft, ob eine Vorhersage gemacht werden soll oder nicht. Vorhersagen werden also nur für Daten gemacht, die während des Trainings "leicht" trennbar und eng geclustert waren, d.h. ein Zeichen von Gültigkeit hatten.

Förster #:
Es spielt keine Rolle, ob es sich um einen Baum, Wald oder Busch handelt. Wenn die Modellvorhersage 50% beträgt, bedeutet das, dass 50% 0 und 50% 1 in der Vorhersage enthalten sind.

Das ist überhaupt nicht der Punkt. Wald und Busch haben eine erzwungene Baumkonstruktion, d. h. es gibt keinen Algorithmus, der verworfen wird, wenn der Baum schlecht ist. In beiden Fällen wird der Baum mit Gewichten versehen. Er kann aufgrund der übermäßigen Zufälligkeit des Algorithmus sowohl bei der Auswahl der Merkmale als auch bei der Auswahl der Beispiele (Teilstichproben) miserabel sein.

 
Maxim Dmitrievsky #:
Nein, das habe ich nicht. Ich werde heute Abend nachsehen, was es ist.
Diese Methoden sind modellabhängig. Die Daten selbst werden nicht aufgeteilt oder getrennt. Ich weiß nicht, wie ich das erklären soll. Ich habe es einmal ausprobiert und wieder Ärger mit den Optimierern bekommen. Es steht in den Büchern.
Wenn Sie hier nach links gehen, verlieren Sie ein Pferd. Wenn du nach rechts gehst, verlierst du den zweiköpfigen Drachen.

Das ist richtig - es ist eine Möglichkeit, Beispiele zu isolieren, die das Lernen beeinträchtigen - so die Theorie.

Die Idee ist, 100 Modelle zu trainieren und zu sehen, welche Beispiele im Durchschnitt eine zuverlässige Klassifizierung "behindern", und dann zu versuchen, sie mit einem anderen Modell zu erkennen.

 

Also habe ich das Modell genommen und mir die Blattzahl angesehen. Das Modell ist unausgewogen mit nur 12,2% Einheiten. 17k Blätter.

Ich habe eine Einteilung der Blätter in Klassen vorgenommen - wenn die Stichprobe der Antworten mit dem Ziel "1" mehr als der Ausgangswert - 12,2 % - beträgt, dann ist die Klasse "1", andernfalls ist sie "0". Die Idee der Klasse ist hier, nützliche Informationen zur Verbesserung der Klassifizierung zu erhalten.

Im Histogramm sehen wir die Werte in den Blättern des Modells (X) und ihren Prozentsatz im Modell (Y) - ohne sie zu klassifizieren.

0

Und hier ist es dasselbe, aber die Klasse ist nur "0".


Die Klasse ist nur "1".

Diese Koeffizienten in den Blättern werden summiert und über Logit transformiert, was bedeutet, dass ein "+"-Zeichen die Wahrscheinlichkeit der Klasse "1" erhöht und ein "-" sie verringert. Insgesamt sieht die Aufschlüsselung nach Klassen stimmig aus, aber das Modell weist eine Verzerrung auf.

Nun können wir uns die prozentuale Verteilung (in Bezug auf die Klassifizierungsgenauigkeit) ansehen - getrennt für Blätter mit "1" und mit "0".


Das Histogramm für "0" zeigt eine große Anzahl von Blättern mit einer Genauigkeit nahe "100%".


Und hier gibt es einen größeren Cluster in der Nähe des anfänglichen Trennungswerts, d.h. es gibt viele Blätter mit geringer Aussagekraft, aber gleichzeitig auch solche, die nahe bei 100% liegen.

Betrachtet man den Recall, so wird deutlich, dass es sich bei diesen Blättern um Blätter mit einer geringen Anzahl von Aktivierungen handelt - weniger als 5% ihrer Klasse.


Rückruf für die Klasse "0


Rückruf für die Klasse "1".

Als Nächstes können wir uns die Abhängigkeit der Gewichtung des Blattes von seiner Klassifizierungsgenauigkeit ansehen - ebenfalls getrennt für jede Klasse.

00

Für Ziel "0"


Für das Ziel "1".

Das Vorhandensein von Linearität, wenn auch in einem so großen Bereich, ist bemerkenswert. Aber die "Säule" mit einer Wahrscheinlichkeit von 100 ist unlogisch, da sie sich sehr weit über den Bereich des Blattwerts erstreckt.

Vielleicht sollte diese Hässlichkeit entfernt werden?

Wenn wir uns außerdem den Wert in den Blättern in Abhängigkeit vom Recall-Indikator ansehen, sehen wir ein kleines Gewicht in den Blättern (nahe 0), das manchmal einen sehr großen Wert von Antworten hat. Diese Situation zeigt, dass das Blatt nicht gut ist, aber das Gewicht ist an ihm befestigt. Können diese Blätter also auch als Rauschen betrachtet und auf Null gesetzt werden?

000

Für Ziel "0".


Für das Ziel "1".

Ich frage mich, wie viel Prozent der Blätter in der neuen Stichprobe (nicht train) ihre Klasse "ändern" werden?

 

Und dazu noch ein Klassiker - die gegenseitige Abhängigkeit von Vollständigkeit und Genauigkeit.

0

Klasse 0.


Klasse 1.

Wie auch immer, ich denke darüber nach, wie man das....

 

Und so sieht das Modell in Form von Wahrscheinlichkeiten aus.

Zug

Bei der Zugstichprobe werden bis zu 35% Gewinn gemacht - wie im Märchen!


Bei der Teststichprobe - im Bereich von 0,2 bis 0,25 verlieren wir einen fetten Batzen Gewinn - die Punkte der Klassenmaxima sind durcheinander.


Auf der Prüfungsprobe - es wird noch verdient, aber es zersetzt bereits das Modell.

 
Aleksey Vyazmikin #:

Ich frage mich, wie viel Prozent der Blätter einer neuen Probe (nicht des Zuges) ihre Klasse "wechseln" werden?

Ja, ich frage mich....

________________________

In der Tat habe ich einen Weg gefunden, solche Merkmale zu finden, die sich weder im Training noch im Test in Bezug auf das Ziel verschieben... Das Problem ist jedoch, dass solche Merkmale katastrophal wenige sind und die Screening-Methode selbst sehr teuer ist, was die Leistung angeht, und im Allgemeinen wird die Methode selbst durch Training ohne Lehrer implementiert, nur so konnten wir eine Anpassung vermeiden


 
Und welche Rolle hat die Quantifizierung dabei gespielt? Auf einer Skala von 10.
Ich ging durch das Sternenfeld und es war, als würde die Singularität beginnen. Ich bin in ein Multiversum gegangen und habe eine Kopie von mir getroffen. Jetzt laufe ich in verschiedenen Versionen von Universen herum. Und es gibt keinen Ausweg aus diesem Zustand. Jetzt muss ich neue Bedeutungen finden.

Wenn das Gehirn oder das neuronale Netz die Grenzen der Vernünftigkeit erreicht, beginnt die Singularität.
 
Aleksey Vyazmikin #:

Das ist richtig - es ist eine Möglichkeit, Beispiele hervorzuheben, die das Lernen beeinträchtigen - das ist die Theorie.

Die Idee ist, 100 Modelle zu trainieren und zu sehen, welche Beispiele im Durchschnitt eine zuverlässige Klassifizierung "stören", und dann zu versuchen, sie mit einem anderen Modell zu erkennen.

Teilen Sie die Hauptstrecke in 5-10 Teilstrecken auf, von denen jede in eine Strecke und einen Schacht unterteilt ist. Trainieren Sie auf jedem Subtrain den Typ des Lebenslaufs und machen Sie dann eine Vorhersage für das gesamte Hauptgleis. Vergleichen Sie die ursprünglichen Bezeichnungen für alle Modelle mit den vorhergesagten Bezeichnungen. Diejenigen, die nicht richtig geraten haben, kommen auf die schwarze Liste. Anschließend entfernen Sie beim Training des endgültigen Modells alle schlechten Beispiele, indem Sie die durchschnittliche Aspiration für jede Probe berechnen. Optional können Sie dem zweiten Modell beibringen, weiße Proben von schwarzen Proben zu trennen, entweder über 3rd Class.

3 Zeilen Code, Ergebnisse auf dem Niveau von... nun, ich habe nicht viel zum Vergleichen... nun, auf einem gewissen Niveau.

Das kozolsche Verfahren ist hier in cv, d.h. man bestimmt statistisch, welche Beispiele schlecht und welche gut sind, indem man mehrere Modelle verwendet, die jeweils auf verschiedenen Teilen der Geschichte trainiert wurden. Dies wird als Propensity Score bezeichnet, d. h. als die Neigung jeder Probe, beim Training eine Rolle zu spielen.

Natürlich können die Kennzeichnungen sehr unsinnig sein, und mit diesem Ansatz kann fast alles entfernt werden. Deshalb habe ich anfangs Zufallsstichproben von Transaktionen verwendet, um verschiedene Auszeichnungsvarianten hinzuzufügen. Vorausgesetzt, wir wollen oder können nicht darüber nachdenken, wie wir ein Diagramm auszeichnen sollen.

So sollte ein AMO mit Kozol-Elementen, das von sich aus nach TCs sucht, ungefähr aussehen.