Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 1194

 
Und dann ist der Lernalgorithmus so konzipiert, dass er die Logverluste nach 0,5 aufschlüsselt - es ist also irgendwie logisch, dass es dort eine große Gruppe gibt.
 
Aleksey Vyazmikin:
Und dann wird der Lernalgorithmus so geschärft, dass er die Logverluste um 0,5 aufschlüsselt - es ist also irgendwie logisch, dass der Cluster dort der wichtigste ist.

logloss ist fast nutzlos, es ist eine unauffällige Metrik in Bezug auf die Klassenaufteilung

 
Maxim Dmitrievsky:

je höher die Ereigniswahrscheinlichkeit, desto genauer das Signal, das ergibt sich schon aus der Definition :) 2 der Buckel wird nicht auf verrauschten Daten liegen, aber das Modell sollte zumindest die Extremwerte in einem angemessenen Umfang erfassen, da es sonst nie sicher über die Eingaben ist

Ich denke, das ist nicht so einfach, man muss die Lernfunktion berücksichtigen... da die Wahrscheinlichkeit im Allgemeinen nach ihren Werten berechnet wird (im Modellalgorithmus also).

Bis jetzt sagen mir die Fakten, dass das verschmierte Modell einfach nicht sicher ist, und ich bin noch nicht auf einen Fehler in der Mitte gestoßen...

Maxim Dmitrievsky:

Die Betrachtung von logloss ist fast nutzlos, es ist eine unwichtige Metrik in Bezug auf die Aufteilung in Klassen

Es gibt ein Gefälle im Abstieg...
 
Aleksey Vyazmikin:

Ich glaube nicht, dass es so eindeutig ist, man muss auch die Lernfunktion berücksichtigen... weil die Wahrscheinlichkeit im Allgemeinen nach den Werten berechnet wird.

Bis jetzt sagen mir die Fakten, dass das verschmierte Modell einfach nicht sicher ist, und ich bin noch nicht auf einen Fehler in der Mitte gestoßen...

ich verstehe die terminologie nicht, was ist die lernfunktion? gibt es am ende eine softmax oder was?

Ich weiß nicht, wie es sich mit dem Versagen verhält, aber das unsichere Modell funktioniert nicht mit neuen Daten, während das verschmierte Modell funktioniert, wenn Sie die Wahrscheinlichkeitsschwelle festlegen

 
Maxim Dmitrievsky:

Ich verstehe die Terminologie nicht, was ist die Lernfunktion? Gibt es am Ende eine Softmax oder was?

Dort wird das Modell anhand des Logloss bewertet, und das gesamte Gradient Boosting zielt auf die Verbesserung der Leistung dieser Funktion ab. Das Modell selbst erzeugt Werte, die durch eine logistische Funktion transformiert werden müssen. Deshalb vermute ich, dass bei dieser Methode mit der Wahrscheinlichkeit nicht alles so einfach ist...

 
Aleksey Vyazmikin:

Dort wird das Modell anhand des Logloss bewertet, und alle Gradient-Boosting-Maßnahmen zielen auf die Verbesserung der Leistung dieser Funktion ab. Das Modell selbst erzeugt Werte, die durch eine logistische Funktion transformiert werden müssen. Deshalb gehe ich davon aus, dass bei dieser Methode mit der Wahrscheinlichkeit nicht alles so einfach ist...

Es gibt min und max f-ions, sie werden an logit Rändern für sicheres sein... Wenn sie nicht dort sind, dann ist es underrun oder etwas anderes (ich erhalte es jedes Mal, wenn ich underrun bin, wie Haben wenige Neuronen oder Bäume) und große Fehlklassifikation und logloss

 
Maxim Dmitrievsky:

Es gibt min und max f-ions, sie werden immer an den Rändern der logit... wenn sie nicht da sind, ist es ein underfitting oder was auch immer (ich habe es immer, wenn ich underfitting, z. B. wenige Neuronen oder Bäume) und eine große Klassifikation Fehler und logloss

Es geht um die Koeffizienten, die das Modell ausgibt https://en.wikipedia.org/wiki/Logit - es handelt sich nicht um eine lineare Verteilung.

Meines Erachtens ist Untertraining besser als Übertraining, vor allem, wenn man sich auf Klasse 1 konzentriert und einen großen Prozentsatz korrekt klassifizierter Ziele nimmt, die die Klassifizierung treffen, und dann kann man Modelle kombinieren, indem man ihren Anwendungsbereich einschränkt.

Logit - Wikipedia
Logit - Wikipedia
  • en.wikipedia.org
In deep learning, the term logits layer is popularly used for the last neuron layer of neural network for classification task which produces raw prediction values as real numbers ranging from [3]. If p is a probability, then is the corresponding odds; the logit of the probability is the logarithm of the odds, i.e. logit ⁡ ( p ) = log ⁡...
 
Aleksey Vyazmikin:

Es geht um die Koeffizienten, die das Modell ausgibt https://en.wikipedia.org/wiki/Logit - es handelt sich nicht um eine lineare Verteilung.

Meines Erachtens ist ein Untertraining besser als ein Übertraining, vor allem, wenn wir uns auf die Klasse 1 konzentrieren und einen großen Prozentsatz korrekt klassifizierter Ziele nehmen, die unter die Klassifizierung fallen, und dann können wir die Modelle kombinieren, was ihren Anwendungsbereich einschränkt.

Kurz gesagt... ich wiederhole es noch einmal: Wir sollten richtig unterrichten, um ein Überfüllen (Overfitting) und ein Abschneiden der Schwänze (Underfitting) zu vermeiden.

Die rote Kurve sieht für mich mehr oder weniger normal aus

und eine zu geringe Anpassung ist überhaupt nichts... in der Nähe von 0,5

Die Verzerrung kann durch Bayes, durch bedingte Wahrscheinlichkeiten, herausgezogen werden, während das Modell läuft. Ich habe noch nicht genau herausgefunden, wie, aber intuitiv hat es eine unerklärliche Kraft.

Bayes'sche Modelle sind lernfähig... wie wäre es, wenn man das Modell mit einem Bayes'schen Tipp versieht, damit es nicht zu oft neu trainiert... ich habe es noch nicht herausgefunden.

 
Maxim Dmitrievsky:

Ich wiederhole es noch einmal: Sie müssen es normal unterrichten, damit es nicht zu Beulen (Overfit) und abgeschnittenen Schwänzen (Underfit) kommt.

die rote Kurve sieht für mich mehr oder weniger normal aus

und eine zu geringe Anpassung ist überhaupt nichts... in der Nähe von 0,5

Die Verzerrung kann durch Bayes, durch bedingte Wahrscheinlichkeiten, herausgezogen werden, während das Modell läuft. Ich habe noch nicht genau herausgefunden, wie, aber intuitiv hat es eine unerklärliche Kraft.

Bayes'sche Modelle sind in der Lage, neu zu trainieren... wie wäre es, wenn man das Modell mit einem Bayes'schen Tipp versieht, damit man nicht so oft neu trainieren muss... Daran habe ich noch nicht gedacht.

Ja, die rote gefällt mir auch besser - Normalverteilung und so, aber bei 512 Modellen fällt diese Verteilung bisher nicht so sehr ins Auge... Bald wird es viele Modelle in der Größenordnung von 100000 geben - ich werde sehen, was sie zeigen... Theorie und Praxis stimmen manchmal nicht überein - man muss sich anpassen, oder man könnte seine Zähne so ins Regal stellen...

Catbust ist nur Bayesianisch und unterstützt Pre-Learning, aber ich weiß nicht - endlos Bäume hinzufügen - sieht aus wie passend...

 
Maxim Dmitrievsky:

Das Hinzufügen von Bäumen ist irgendwie seltsam, ohne die gesamte Struktur zu reorganisieren... oder vielleicht ist es ok, es ist schwer zu sagen... für eine kleine Perspektive scheint es ok zu sein, nur um das Zentrum des mb zu verschieben

Und wie kann man sonst den Dreh herausbekommen - beim Boosten, wie ich es verstehe, ist das die einzige Möglichkeit. Man könnte natürlich das letzte Drittel des Modells - ein Drittel der Bäume - wegwerfen und sehen, was herauskommt, wenn man neue Daten einspeist. Aber ich denke darüber nach, Blätter mit unbedeutenden "Wahrscheinlichkeiten" zu annullieren - sozusagen vom Rauschen zu befreien. Im Allgemeinen denke ich über die Automatisierung von Ensembles nach, die aus Modellen zusammengesetzt sind, die ein gutes Intervall für die Vorhersagefähigkeit des Modells gefunden haben, die Klassifizierung darauf abgestimmt haben (zum Beispiel von 0,7 bis 0,8) und Leerstellen für Kombinationen zwischen anderen Modellen eingefügt haben.