Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2944

 
Aleksey Vyazmikin #:

Schwer zu sagen :) Die Berechnungen sind in diesem Video zu sehen

Nein, es ist leer. Ich habe vergessen zu erwähnen, dass es um Bousting geht.

 
Stanislav Korotky #:

Erläutern Sie bitte, wie die folgende Formel im Algorithmus für die Klassifizierung auf Bäumen zustande kommt(Sie können einen Link zum PDF-Dokument angeben):


In allen Materialien, die ich im Internet finden konnte, wird die Formel einfach magisch "von der Decke geholt".

Wenn man nach Klassen zusammenfasst, ist der Nenner der Gini-Index oder die Knotenreinheit. Je kleiner er ist, desto besser. Im Zähler steht die Anzahl der Zeilen auf dem Blatt.

Je größer das Kriterium, desto besser - die Klassen werden sauberer getrennt, ohne dass die Blätter übermäßig zerschnitten werden.

Der Gini-Index scheint gewählt worden zu sein, weil er als empfindlicher gilt als die Klassifikationsfehlerrate.

 
Aleksey Nikolayev #:

Bei einer Zusammenfassung nach Klassen ist der Nenner der Gini-Index oder die Knotenreinheit. Je kleiner er ist, desto besser. Der Zähler ist die Anzahl der Zeilen im Blatt.

Je größer das Kriterium, desto besser - die Klassen werden sauberer getrennt, ohne dass das Blatt übermäßig zerkleinert wird.

Der Gini-Index scheint gewählt worden zu sein, weil er als empfindlicher gilt als die Klassifizierungsfehlerquote.

Nein, die Zusammenfassung über die Datensätze, die den Knoten getroffen haben. Die Frage bezieht sich nicht auf das Maß der Informiertheit. Es geht um die Übertragung von "Residuen" zwischen Bäumen - es gibt eine ständige Neuberechnung von Wahrscheinlichkeit zu Logit und wieder zurück.

 
Stanislav Korotky #:

Nein, die Zusammenfassung nach den Datensätzen, die den Knotenpunkt treffen. Die Frage bezieht sich nicht auf das Maß der Informativität. Es geht um die Übertragung von "Residuen" zwischen Bäumen - es gibt eine ständige Neuberechnung von Wahrscheinlichkeit zu Logit und wieder zurück.

Und wie kann die Häufigkeit für einen Datensatz im Allgemeinen gezählt werden? Für eine Klasse ist es klar, wie.

 
Stanislav Korotky #:

Nein, die Zusammenfassung nach den Datensätzen, die den Knotenpunkt treffen. Die Frage bezieht sich nicht auf das Maß der Informativität. Es geht um die Übertragung von "Residuen" zwischen Bäumen - es gibt eine ständige Neuberechnung von Wahrscheinlichkeit zu Logit und wieder zurück.

Oder geht es um die Klassifizierung durch logistische Regression? Wie auch immer, eine irgendwoher entnommene Formel reicht nicht aus, Sie brauchen den ganzen Text.

 
Aleksey Nikolayev #:

Oder handelt es sich um eine Klassifizierung durch logistische Regression? Auf jeden Fall reicht es nicht aus, eine Formel von irgendwoher zu nehmen, man braucht den ganzen Text.

Logit-Funktion im Sinne von ln(odds). Man braucht sie, um den Bereich der Wahrscheinlichkeitswerte [0,1] auf plus oder minus unendlich zu übertragen - sonst kann man nicht nach Gradienten trainieren.

Hier ist zum Beispiel der Text - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea

Und hier ist das Video - https://www.youtube.com/watch?v=hjxgoUJ_va8.

PS. IMHO, sowohl dort als auch dort sind Fehler im Material.
Gradient Boosting Trees for Classification: A Beginner’s Guide
Gradient Boosting Trees for Classification: A Beginner’s Guide
  • Aratrika Pal
  • medium.com
Introduction Machine learning algorithms require more than just fitting models and making predictions to improve accuracy. Nowadays, most winning models in the industry or in competitions have been using Ensemble Techniques to perform better. One such technique is Gradient...
 
Aleksey Nikolayev #:

Bei einer Zusammenfassung nach Klassen ist der Nenner der Gini-Index oder die Knotenreinheit. Je kleiner er ist, desto besser. Der Zähler ist die Anzahl der Zeilen im Blatt.

Je größer das Kriterium, desto besser - die Klassen werden sauberer getrennt, ohne dass das Blatt übermäßig zerkleinert wird.

Der Gini-Index scheint gewählt worden zu sein, weil er als empfindlicher gilt als die Klassifizierungsfehlerquote.

Oh!
Endlich weiß jemand etwas über den Gini-Index.... Ich habe ihn schon '18 nachgeschlagen, den Code dafür. https://www.mql5.com/ru/blogs/post/723619
Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
Stanislav Korotky #:

Logit-Funktion im Sinne von ln(odds). Es ist erforderlich, den Bereich der Wahrscheinlichkeitswerte [0,1] auf plus oder minus unendlich zu übersetzen - andernfalls ist es nicht möglich, mit Hilfe des Gradienten zu trainieren.

Ja, sie wird für die logistische Regression verwendet, wenn man nach der Wahrscheinlichkeit (Logit-Funktion) sucht, einer Klasse anzugehören.

Es scheint, dass der Autor das Innenleben von Bousting auf populäre Weise darstellen will, aber er hat eine zu komplizierte Variante des Problems gewählt. Er vermischt Logit-Regression, Bäume und Bousting, die für sich genommen nicht leicht zu verstehen sind. Das Wesen des Bousting lässt sich ohne Funcan nicht logisch erklären. Um das Wesen der Logit-Regression zu verstehen, braucht man einen Theoretiker (wahrscheinlich Binomialverteilung).

 
Forester #:
Oh!
Endlich weiß jemand etwas über den Gini-Index... Ich habe schon '18 nach dem Code dafür gesucht. h ttps:// www.mql5.com/ru/blogs/post/723619

Es gibt auch den Gini-Koeffizienten. Er wird auch im MOE verwendet, aber das ist etwas anderes).

 
Stanislav Korotky #:

Erläutern Sie bitte, wie die folgende Formel im Algorithmus der Klassifikation auf Bäumen mit Bousting zustande kommt(Sie können auf die PDF-Datei verlinken):


In allen Materialien, die ich im Internet finden konnte, wird die Formel einfach magisch "von der Decke geholt".

Woher haben Sie die Formel? Nach der "von der Decke" üblichen kollektiven Landwirtschaft zu urteilen, wahrscheinlich aus der Sowjetunion.

Sie müssen professionelle Mathematik verwenden, für die es gut etablierte Algorithmen gibt.

R verfügt über eine riesige Anzahl von Holzmodellen, und der Unterschied zwischen der professionellen R-Sprache und sehr vielen anderen ist der obligatorische Verweis auf die Autoren des Algorithmus und die entsprechende Veröffentlichung. Mir fällt auf Anhieb keine mehr oder weniger komplexe Funktion aus R-Paketen ein, die nicht mit entsprechenden Referenzen versehen ist.


Vergessen Sie alles außer R. Es ist heute die einzige professionelle Umgebung für statistische Berechnungen.