L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 163

 
SanSanych Fomenko:

1) Se guardate le prime pubblicazioni dell'autore degli algoritmi randomforest, l'autore era molto serio nell'affermare che l'rf non è affatto incline al sovrallenamento e ha dato un sacco di esempi. Il pacchetto randomforest stesso è costruito in modo da escludere anche il minimo sospetto di sovrallenamento.

Allo stesso tempo l'algoritmo più sovrallenato è randomforest. Mi sono bruciato personalmente.


2) La stragrande maggioranza delle pubblicazioni sull'apprendimento automatico non sono testate su nessun secondo file analogo. La ragione è banale. Gli algoritmi NON sono applicati su serie temporali. E si scopre che la divisione casuale del file numero uno è abbastanza sufficiente. E questo è effettivamente il caso del riconoscimento del testo scritto a mano, per esempio.

1) Sia Forrest che GBM e qualsiasi altro metodo sono riqualificati. Impercettibile su dati piegati e molto evidente su dati altamente rumorosi.

2) Ci sono, ci sono pubblicazioni che discutono l'introduzione della convalida incrociata annidata su campioni aggiuntivi in un intervallo di tempo diverso.

 
Alexey Burnakov:

2) Ci sono, ci sono pubblicazioni che discutono l'introduzione della convalida incrociata annidata su campioni aggiuntivi in un intervallo di tempo diverso.

Se non ti dispiace un link
 
SanSanych Fomenko:
Se non ti dispiace, link


Una delle discussioni: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Ibid: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

Ci sono link ad articoli nelle discussioni.

Un articolo interessante: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

Come potete vedere dal titolo si tratta di overtraining, che avviene nella fase di valutazione del modello sui falli di convalida della crossvalidation. Di conseguenza, oltre alla convalida incrociata avete anche bisogno di un campione per valutare un modello già selezionato.

Nested cross validation for model selection
Nested cross validation for model selection
  • stats.stackexchange.com
How can one use nested cross validation for model selection? From what I read online, nested CV works as follows: There is the inner CV loop, where we may conduct a grid search (e.g. running K-fold for every available model, e.g. combination of hyperparameters/features) There is the outer CV loop, where we measure the performance of the model...
 

Se krakto (già scritto su di esso):

Un modello selezionato tramite convalida incrociata deve essere riconvalidato da un altro campione ritardato nel tempo.

E la convalida incrociata annidata implica la costruzione di n k-fold crossvalidations (su dati diversi) seguita dalla convalida su n campioni in ritardo (ogni volta su dati diversi).

E anche questo non è tutto. Se lo strato superiore dei campioni differiti viene riselezionato, per esempio un comitato di modelli basato sui dati di questi campioni differiti, allora la convalida del comitato deve essere fatta su un altro campione differito.

Idealmente, questo processo:

k-fold кроссвалидация 

-------------------------------- повторилась n раз

------------------------------------------------------------- на полученных данных сформирован комитет

------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего 

deve essere ripetuto non una ma m volte, per invertire i risultati al livello più alto. Questo riduce la distorsione a un minimo praticabile.

Ma così facendo, il valore atteso di e.g. FS può essere ridotto molte volte... Dolore.

 
Alexey Burnakov:

introducendo la convalida incrociata annidata su campioni aggiuntivi in un intervallo di tempo diverso.

Anch'io faccio qualcosa di simile. Diciamo che ho un anno di dati da allenare. Allenerò 12 modelli - uno sui dati di gennaio, il secondo modello sui dati di febbraio, il terzo sui dati di marzo, ecc. Seleziono i predittori e i parametri del modello per ottenere le buone prestazioni di uno qualsiasi di questi modelli addestrati su una piccola parte dei dati durante tutto l'anno e mi dà qualche speranza che i predittori utilizzati abbiano relazioni stabili tra loro. Prendere una decisione sui nuovi dati usando questo insieme di modelli.

Di tutti i metodi di crossvalidazione che ho provato, questo ha dato i migliori risultati sui nuovi dati. Ma ci sono molti problemi irrisolti - quanti modelli dovrebbero esserci, cioè posso addestrarne un centinaio invece di 12, ma ha senso? La valutazione del commercio è anche importante, posso scegliere qualsiasi cosa, compreso rf o sharp, ho bisogno di sperimentare per trovare il migliore.

 
Volete un suggerimento, che tratterò in dettaglio nel mio articolo ????? Lo vuoi o no?
 
Dr.Trader:

Anche io sto facendo qualcosa di simile. Diciamo che ho un anno di dati di allenamento. Allenerò 12 modelli - uno per gennaio, il secondo per febbraio, il terzo per marzo, ecc. Seleziono i predittori e i parametri del modello per ottenere le buone prestazioni di uno qualsiasi di questi modelli addestrati su una piccola parte dei dati durante tutto l'anno e mi dà qualche speranza che i predittori utilizzati abbiano relazioni stabili tra loro. Prendere una decisione sui nuovi dati usando questo insieme di modelli.

Di tutti i metodi di crossvalidazione che ho provato, questo ha dato i migliori risultati sui nuovi dati. Ma ci sono molti problemi irrisolti - quanti modelli dovrebbero esserci, cioè posso addestrarne un centinaio invece di 12, ma ha senso? La valutazione del commercio è anche importante, si può scegliere qualsiasi cosa, compreso rf o sharp, è necessario sperimentare per trovare il migliore.

Risposta: 9
 
Dr.Trader:

Anch'io sto facendo qualcosa di simile. Diciamo che ho un anno di dati di allenamento. Alleno 12 modelli - uno per gennaio, il secondo per febbraio, il terzo per marzo, ecc. Seleziono i predittori e i parametri del modello per ottenere le buone prestazioni di uno qualsiasi di questi modelli addestrati su una piccola parte dei dati durante tutto l'anno e mi dà qualche speranza che i predittori utilizzati abbiano relazioni stabili tra loro. Prendere una decisione sui nuovi dati usando questo insieme di modelli.

Di tutti i metodi di crossvalidazione che ho provato, questo ha dato i migliori risultati sui nuovi dati. Ma ci sono molti problemi irrisolti - quanti modelli dovrebbero esserci, cioè posso addestrarne un centinaio invece di 12, ma ha senso? La valutazione del commercio è anche importante, qualsiasi cosa tra cui scegliere, compresi rf o sharp, è necessario scegliere sperimentalmente il migliore.

E' un adattamento. Selezionando i parametri e gli input si possono facilmente ottenere modelli che funzionano per almeno 3 anni di test.

Ho anche alcuni moeydel (100) che mostrano buoni risultati su dati al di fuori dell'allenamento. Stiamo parlando di 10 anni... Ma questo è solo perché i modelli sono scelti specificamente su dati di test (fuori dall'allenamento). In altre parole, superare il test.

Il tuo prossimo passo è quello di valutare questi modelli o qualsiasi comitato selezionato su un ulteriore campione ritardato. E preferibilmente, ogni modello su dati unici. Allora capirete come la qualità sul test è correlata alla qualità sul campione sul quale il modello non è stato selezionato.
 
Alexey Burnakov:


Una delle discussioni: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Ibid: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

Ci sono link ad articoli nelle discussioni.

Un articolo interessante: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

Come potete vedere dal titolo si tratta di overtraining, che avviene nella fase di valutazione del modello sui falli di convalida della crossvalidation. Di conseguenza, oltre alla validazione incrociata abbiamo bisogno di un altro campione per stimare il modello già selezionato.

Grazie. È bello vedere che non sono l'unico che si preoccupa.
 
Voi siete noiosi, soprattutto nel campo delle nuove conoscenze...