L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2944

 
Aleksey Vyazmikin #:

Difficile da dire :) La matematica può essere vista in questo video

No, è vuoto. Ho dimenticato di dire che si tratta di bousting.

 
Stanislav Korotky #:

Spiegate come si ottiene la seguente formula nell'algoritmo di classificazione sugli alberi(potete linkare il PDF):


In tutti i materiali che ho trovato in Internet, la formula viene magicamente "presa dal soffitto".

Se la sintesi avviene per classi, il denominatore è l'indice di Gini o la purezza dei nodi. Più è piccolo, meglio è. Al numeratore c'è il numero di righe del foglio.

Più grande è il criterio, meglio è - le classi sono separate in modo più netto, ma senza tagliare eccessivamente i fogli.

L'indice di Gini sembra essere scelto perché è considerato più sensibile del tasso di errore di classificazione.

 
Aleksey Nikolayev #:

Se riassunto per classe, il denominatore è l'indice di Gini o purezza dei nodi. Più è piccolo, meglio è. Il numeratore è il numero di righe del foglio.

Più il criterio è grande, meglio è - le classi sono separate in modo più netto, ma senza un'eccessiva frantumazione del foglio.

L'indice di Gini sembra essere stato scelto perché considerato più sensibile del tasso di errore di classificazione.

No, riassumendo i record che hanno colpito il nodo. La domanda non riguarda la misura dell'informatività. Si tratta di trasferire i "residui" tra gli alberi - c'è un costante ricalcolo dalla probabilità al logit e viceversa.

 
Stanislav Korotky #:

No, riassumendo in base ai record che hanno colpito il nodo. La domanda non riguarda la misura dell'informatività. Si tratta di trasferire i "residui" tra gli alberi - c'è un costante ricalcolo dalla probabilità al logit e viceversa.

E come si può contare la frequenza per un record in generale? Per una classe è chiaro come.

 
Stanislav Korotky #:

No, riassumendo in base ai record che hanno colpito il nodo. La domanda non riguarda la misura dell'informatività. Si tratta di trasferire i "residui" tra gli alberi - c'è un costante ricalcolo dalla probabilità al logit e viceversa.

Oppure si tratta di classificazione mediante regressione logistica? In ogni caso, una formula presa da qualche parte non è sufficiente, serve l'intero testo.

 
Aleksey Nikolayev #:

O stiamo parlando di classificazione mediante regressione logistica? In ogni caso, una formula estrapolata da qualche parte non è sufficiente, occorre l'intero testo.

Funzione logit nel senso di ln(probabilità). È necessario che traduca la regione dei valori di probabilità [0,1] in più o meno infinito, altrimenti non è possibile addestrare in base al gradiente.

Ad esempio, ecco il testo - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea

Ed ecco il video - https://www.youtube.com/watch?v=hjxgoUJ_va8.

PS. IMHO, sia lì che lì ci sono errori nel materiale.
Gradient Boosting Trees for Classification: A Beginner’s Guide
Gradient Boosting Trees for Classification: A Beginner’s Guide
  • Aratrika Pal
  • medium.com
Introduction Machine learning algorithms require more than just fitting models and making predictions to improve accuracy. Nowadays, most winning models in the industry or in competitions have been using Ensemble Techniques to perform better. One such technique is Gradient...
 
Aleksey Nikolayev #:

Se riassunto per classe, il denominatore è l'indice di Gini o purezza dei nodi. Più è piccolo, meglio è. Il numeratore è il numero di righe del foglio.

Più il criterio è grande, meglio è - le classi sono separate in modo più netto, ma senza un'eccessiva frantumazione del foglio.

L'indice di Gini sembra essere stato scelto perché considerato più sensibile del tasso di errore di classificazione.

Oh!
Finalmente qualcuno conosce l'indice di Gini.... L'ho cercato nel '18, il codice per farlo. https://www.mql5.com/ru/blogs/post/723619
Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
Stanislav Korotky #:

Funzione logit nel senso di ln(probabilità). È necessario traslare la regione dei valori di probabilità [0,1] a più o meno infinito, altrimenti non sarà possibile addestrare per gradiente.

Sì, viene utilizzato per la regressione logistica quando si cerca la probabilità (funzione logit) di appartenere a una classe.

Sembra che l'autore voglia presentare l'interno del bousting in modo divulgativo, ma ha preso una variante troppo complicata del problema. Mescola regressione logit, alberi e bousting, che di per sé non sono facili da capire. L'essenza del bousting non può essere enunciata logicamente senza funcan. Per comprendere l'essenza della regressione logit, è necessario un teorico (probabilmente la distribuzione binomiale).

 
Forester #:
Oh!
Finalmente qualcuno conosce l'indice di Gini... Nel 18 ho cercato il codice per questo indice. h ttps:// www.mql5.com/ru/blogs/post/723619

Esiste anche il coefficiente di Gini. Viene usato anche nel MOE, ma è un'altra cosa).

 
Stanislav Korotky #:

Spiegate come si ottiene la seguente formula nell'algoritmo di classificazione su alberi con bousting(potete linkare il PDF):


In tutti i materiali che ho trovato in Internet, la formula viene magicamente "presa dal soffitto".

Da dove hai preso la formula? A giudicare dal solito "dal soffitto" dell'agricoltura collettiva, molto probabilmente da Soviet.

È necessario utilizzare la matematica professionale, per la quale esistono algoritmi consolidati.

R ha un numero enorme di modelli in legno, e la differenza tra il linguaggio professionale R e molti altri è il riferimento obbligatorio agli autori dell'algoritmo e alla pubblicazione corrispondente. A una rapida occhiata, non riesco a ricordare nessuna funzione più o meno complessa dei pacchetti R che non abbia i riferimenti corrispondenti.


Dimenticate tutto tranne R. Oggi è l'unico ambiente professionale per i calcoli statistici.