Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3357

 
Um das Bild in einfacher Sprache zu erklären: Für den Klassifikator sind der erste und der zweite Fall im Histogramm identisch, da Klassenetiketten verwendet werden. Sowohl dort als auch dort gibt es eine Einheit für die wahrscheinlichste Klasse. Nach dem Training liefert er nicht die Klassenwahrscheinlichkeit, sondern eine Eins minus dem Vorhersagefehler, der durch Sigmoid oder Softmax passiert ist.

Dies ist völlig unvereinbar mit dem, was man bei der Festlegung einer Vorhersageschwelle erwarten würde.
 

Ein probabilistischer Ansatz ist gut und richtig. Wir werden immer starkes Rauschen haben, und es geht darum, nach Unterschieden zu dem zu suchen, was es unter SB gewesen wäre. Die Rauschvarianz allein wird dafür nicht ausreichen.

IMHO ist die Klassifizierungsaufgabe nicht gut geeignet, da sie in erheblichem Maße Informationen verwirft. Wir brauchen so etwas wie eine Betrachtung der Verteilung des Wertes der Kursbewegung in die gewünschte Richtung und eine Modellierung, wie diese Verteilung von den Vorzeichen abhängt, und dann bereits eine TS nach dem Typ dieser Verteilung (wenn sie Unterschiede zu dem aufweist, was sie bei SB wäre).

 
Maxim Dmitrievsky #:
Wieder einige neue Definitionen.
Ein letztes Mal: Der Klassifikator ist kalibriert, weil er falsche Wahrscheinlichkeiten ausgibt. Sie sind in ihrer ursprünglichen Form bedeutungslos. Finde dich damit ab.

Ich konnte es nicht ertragen.

Es gibt keine abstrakte, sprich perfekte, Wahrscheinlichkeit, die nicht an einen Zufallsprozess gebunden ist.

So etwas gibt es nicht.

Die Wahrscheinlichkeit, dass eine Münze geworfen wird, usw.

Daher gibt jeder Klassifikator eine Wahrscheinlichkeit an, die den jeweiligen Klassifikator charakterisiert, was das Merkmal ergibt, das wir brauchen - den Vorhersagefehler. Ein anderer Klassifikator liefert andere Wahrscheinlichkeiten mit entsprechendem Vorhersagefehler der Klasse.

In Abhängigkeit von den Prädiktoren und ihren zugehörigen Kennzeichnungen sowie der Klassenverteilung stellt sich das Problem der Festlegung eines Schwellenwerts für die Aufteilung der Wahrscheinlichkeiten in Klassen. Die Werkzeuge für diesen Vorgang, der als "Kalibrierung" bezeichnet wird, sind oben beschrieben. Es ist auch möglich, dies auf kolkhoz-Art zu tun.

In jedem Fall können Sie den Vorhersagefehler für die Wahrscheinlichkeiten, die ein bestimmter Klassifikator liefert, erheblich reduzieren, da es in der Natur keine anderen Wahrscheinlichkeiten gibt, wenn Sie mit einem bestimmten Klassifikator arbeiten. Wenn Ihnen die Wahrscheinlichkeiten nicht gefallen, arbeiten Sie mit einem Klassifikator oder führen Sie eine Kalibrierung durch. In diesem speziellen Prozess gibt es keinen Platz für "perfekte" Wahrscheinlichkeiten, die es theoretisch nicht gibt.

Klar ist, dass die Einteilung in Klassen mit einem Schwellenwert von 0,5 höchst fragwürdig ist und selten funktioniert.

 
СанСаныч Фоменко #:

Ich konnte es nicht annehmen.

Die vom Klassifikator angegebenen Wahrscheinlichkeiten sind bedeutungslos. Sie sind keine Wahrscheinlichkeiten. Wenn Sie sie brauchen, können Sie sie nicht verwenden. Laufen Sie nicht der Lokomotive voraus und füllen Sie diese Tatsache mit neuen Bedeutungen. Gehen Sie wenigstens damit um.
 
СанСаныч Фоменко #:

Ich konnte es nicht ertragen.

Es gibt keine abstrakte, sprich ideale, Wahrscheinlichkeit, die nicht mit einem Zufallsprozess verbunden ist.

So etwas gibt es nicht.

Die Wahrscheinlichkeit, dass eine Münze geworfen wird, usw.

Jeder Klassifikator gibt also eine Wahrscheinlichkeit an, die den jeweiligen Klassifikator charakterisiert, was die von uns benötigte Eigenschaft - den Vorhersagefehler - ergibt. Ein anderer Klassifikator wird andere Wahrscheinlichkeiten mit dem entsprechenden Vorhersagefehler der Klasse liefern.

In Abhängigkeit von den Prädiktoren und ihren zugehörigen Kennzeichnungen sowie der Klassenverteilung stellt sich das Problem der Festlegung eines Schwellenwerts für die Aufteilung der Wahrscheinlichkeiten in Klassen. Die Werkzeuge für diesen Vorgang, der als "Kalibrierung" bezeichnet wird, sind oben beschrieben. Sie kann auch auf kolkhoz-Art durchgeführt werden.

In jedem Fall können Sie den Vorhersagefehler für die Wahrscheinlichkeiten, die ein bestimmter Klassifikator liefert, erheblich reduzieren, da es in der Natur keine anderen Wahrscheinlichkeiten gibt, wenn Sie mit einem bestimmten Klassifikator arbeiten. Wenn Ihnen die Wahrscheinlichkeiten nicht gefallen, arbeiten Sie mit einem Klassifikator oder führen Sie eine Kalibrierung durch. In diesem speziellen Prozess gibt es keinen Platz für "perfekte" Wahrscheinlichkeiten, die theoretisch nicht existieren.

Klar ist, dass die Einteilung in Klassen mit einem Schwellenwert von 0,5 höchst fragwürdig ist und selten funktioniert.

Hier geht es um die üblichen Fehler von Matstat, wenn das falsche Wahrscheinlichkeitsmodell verwendet wird. Wenn z.B. das Rauschen in der Regression tatsächlich Laplace-verteilt ist, wir aber wie bei Gauß rechnen, dann gibt es natürlich Fehler.

PS. Eigentlich geht es hier darum, zu den probabilistischen Ursprüngen von MO zurückzukehren, das übrigens (zumindest in der UdSSR) in seinen Anfängen statistisches Lernen genannt wurde).

 

Ich habe das Beispiel oben bereits beschrieben. Es gibt einen Klassifikator, der das OOS besteht, aber die Rückgaben sind 60/40 verteilt. Das gefällt Ihnen nicht, Sie erhöhen die Entscheidungsschwelle, aber die Situation ändert sich nicht, und manchmal wird sie sogar noch schlimmer. Sie fragen sich, warum das so ist.

Es wird erklärt, warum das so ist: Weil sich bei einer echten Wahrscheinlichkeitsschätzung die Situation ändern sollte.

Es wird eine Lösung angeboten.


 
Maxim Dmitrievsky #:

Ich habe das Beispiel oben bereits beschrieben. Es gibt einen Klassifikator, der das OOS besteht, aber die Rückgaben sind 60/40 verteilt. Das gefällt Ihnen nicht, Sie erhöhen die Entscheidungsschwelle, aber die Situation ändert sich nicht, und manchmal wird sie sogar noch schlimmer. Sie fragen sich, warum das so ist.

Die Erklärung liegt auf der Hand: Weil sich bei einer echten Wahrscheinlichkeitsschätzung die Situation ändern sollte.

Man gibt Ihnen eine Lösung


War das nicht schon vor langer Zeit offensichtlich?
 
Post-Optimierung - auch das kann niemand sagen, aber man sagt Kollibrierung! Ach ja.
 
Maxim Dmitrievsky #:

Ich habe das Beispiel oben bereits beschrieben. Es gibt einen Klassifikator, der das OOS besteht, aber die Rückgaben sind 60/40 verteilt. Das gefällt Ihnen nicht, Sie erhöhen die Entscheidungsschwelle, aber die Situation ändert sich nicht, und manchmal wird sie sogar noch schlimmer. Sie fragen sich, warum das so ist.

Die Erklärung liegt auf der Hand: Weil sich bei einer echten Wahrscheinlichkeitsschätzung die Situation ändern sollte.

Es wird eine Lösung angeboten.


Ich möchte jedoch darauf hinweisen, dass die Kalibrierung kein Allheilmittel ist und nicht umsonst ist - man braucht gute Eigenschaften des vorhandenen Klassifikators. Um nicht auf Erklärungen einzugehen, zitiere ich aus Ihrer zweiten Referenz zu SHAD. "Im Allgemeinen kann gezeigt werden, dass diese Methode gut funktioniert, wenn für jede der wahren Klassen die vorhergesagten Wahrscheinlichkeiten normalverteilt sind und die Varianz gleich ist." Hier geht es um die Platt-Kalibrierung, aber einige Bedingungen müssen sicher auch für die anderen erfüllt sein.

Eigentlich ist alles wie in matstat - die probabilistischen Eigenschaften des verwendeten Modells sollten mit den untersuchten Daten übereinstimmen.

 
Aleksey Nikolayev #:

Ich möchte jedoch darauf hinweisen, dass die Kalibrierung kein Allheilmittel ist und nicht kostenlos ist - Sie benötigen gute Eigenschaften des vorhandenen Klassifikators. Um nicht in Erklärungen zu verfallen, zitiere ich aus Ihrer zweiten Referenz zu SHAD. "Im Allgemeinen kann gezeigt werden, dass diese Methode gut funktioniert, wenn für jede der wahren Klassen die vorhergesagten Wahrscheinlichkeiten normalverteilt mit gleicher Varianz sind." Hier geht es um die Platt-Kalibrierung, aber einige Bedingungen müssen sicher auch für die anderen erfüllt sein.

Eigentlich ist alles wie in matstat - die probabilistischen Eigenschaften des verwendeten Modells sollten mit den untersuchten Daten übereinstimmen.

Natürlich ist dies nur ein Weg, um die Ergebnisse probabilistisch zu machen, denn die Verwendung roher Modellwahrscheinlichkeiten ist nutzlos.