L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 163
Ti stai perdendo delle opportunità di trading:
- App di trading gratuite
- Oltre 8.000 segnali per il copy trading
- Notizie economiche per esplorare i mercati finanziari
Registrazione
Accedi
Accetti la politica del sito e le condizioni d’uso
Se non hai un account, registrati
1) Se guardate le prime pubblicazioni dell'autore degli algoritmi randomforest, l'autore era molto serio nell'affermare che l'rf non è affatto incline al sovrallenamento e ha dato un sacco di esempi. Il pacchetto randomforest stesso è costruito in modo da escludere anche il minimo sospetto di sovrallenamento.
Allo stesso tempo l'algoritmo più sovrallenato è randomforest. Mi sono bruciato personalmente.
2) La stragrande maggioranza delle pubblicazioni sull'apprendimento automatico non sono testate su nessun secondo file analogo. La ragione è banale. Gli algoritmi NON sono applicati su serie temporali. E si scopre che la divisione casuale del file numero uno è abbastanza sufficiente. E questo è effettivamente il caso del riconoscimento del testo scritto a mano, per esempio.
1) Sia Forrest che GBM e qualsiasi altro metodo sono riqualificati. Impercettibile su dati piegati e molto evidente su dati altamente rumorosi.
2) Ci sono, ci sono pubblicazioni che discutono l'introduzione della convalida incrociata annidata su campioni aggiuntivi in un intervallo di tempo diverso.
2) Ci sono, ci sono pubblicazioni che discutono l'introduzione della convalida incrociata annidata su campioni aggiuntivi in un intervallo di tempo diverso.
Se non ti dispiace, link
Una delle discussioni: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection
Ibid: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation
Ci sono link ad articoli nelle discussioni.
Un articolo interessante: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/
Come potete vedere dal titolo si tratta di overtraining, che avviene nella fase di valutazione del modello sui falli di convalida della crossvalidation. Di conseguenza, oltre alla convalida incrociata avete anche bisogno di un campione per valutare un modello già selezionato.
Se krakto (già scritto su di esso):
Un modello selezionato tramite convalida incrociata deve essere riconvalidato da un altro campione ritardato nel tempo.
E la convalida incrociata annidata implica la costruzione di n k-fold crossvalidations (su dati diversi) seguita dalla convalida su n campioni in ritardo (ogni volta su dati diversi).
E anche questo non è tutto. Se lo strato superiore dei campioni differiti viene riselezionato, per esempio un comitato di modelli basato sui dati di questi campioni differiti, allora la convalida del comitato deve essere fatta su un altro campione differito.
Idealmente, questo processo:
k-fold кроссвалидация
-------------------------------- повторилась n раз
------------------------------------------------------------- на полученных данных сформирован комитет
------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего
deve essere ripetuto non una ma m volte, per invertire i risultati al livello più alto. Questo riduce la distorsione a un minimo praticabile.
Ma così facendo, il valore atteso di e.g. FS può essere ridotto molte volte... Dolore.
introducendo la convalida incrociata annidata su campioni aggiuntivi in un intervallo di tempo diverso.
Anch'io faccio qualcosa di simile. Diciamo che ho un anno di dati da allenare. Allenerò 12 modelli - uno sui dati di gennaio, il secondo modello sui dati di febbraio, il terzo sui dati di marzo, ecc. Seleziono i predittori e i parametri del modello per ottenere le buone prestazioni di uno qualsiasi di questi modelli addestrati su una piccola parte dei dati durante tutto l'anno e mi dà qualche speranza che i predittori utilizzati abbiano relazioni stabili tra loro. Prendere una decisione sui nuovi dati usando questo insieme di modelli.
Di tutti i metodi di crossvalidazione che ho provato, questo ha dato i migliori risultati sui nuovi dati. Ma ci sono molti problemi irrisolti - quanti modelli dovrebbero esserci, cioè posso addestrarne un centinaio invece di 12, ma ha senso? La valutazione del commercio è anche importante, posso scegliere qualsiasi cosa, compreso rf o sharp, ho bisogno di sperimentare per trovare il migliore.
Anche io sto facendo qualcosa di simile. Diciamo che ho un anno di dati di allenamento. Allenerò 12 modelli - uno per gennaio, il secondo per febbraio, il terzo per marzo, ecc. Seleziono i predittori e i parametri del modello per ottenere le buone prestazioni di uno qualsiasi di questi modelli addestrati su una piccola parte dei dati durante tutto l'anno e mi dà qualche speranza che i predittori utilizzati abbiano relazioni stabili tra loro. Prendere una decisione sui nuovi dati usando questo insieme di modelli.
Di tutti i metodi di crossvalidazione che ho provato, questo ha dato i migliori risultati sui nuovi dati. Ma ci sono molti problemi irrisolti - quanti modelli dovrebbero esserci, cioè posso addestrarne un centinaio invece di 12, ma ha senso? La valutazione del commercio è anche importante, si può scegliere qualsiasi cosa, compreso rf o sharp, è necessario sperimentare per trovare il migliore.
Anch'io sto facendo qualcosa di simile. Diciamo che ho un anno di dati di allenamento. Alleno 12 modelli - uno per gennaio, il secondo per febbraio, il terzo per marzo, ecc. Seleziono i predittori e i parametri del modello per ottenere le buone prestazioni di uno qualsiasi di questi modelli addestrati su una piccola parte dei dati durante tutto l'anno e mi dà qualche speranza che i predittori utilizzati abbiano relazioni stabili tra loro. Prendere una decisione sui nuovi dati usando questo insieme di modelli.
Di tutti i metodi di crossvalidazione che ho provato, questo ha dato i migliori risultati sui nuovi dati. Ma ci sono molti problemi irrisolti - quanti modelli dovrebbero esserci, cioè posso addestrarne un centinaio invece di 12, ma ha senso? La valutazione del commercio è anche importante, qualsiasi cosa tra cui scegliere, compresi rf o sharp, è necessario scegliere sperimentalmente il migliore.
Una delle discussioni: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection
Ibid: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation
Ci sono link ad articoli nelle discussioni.
Un articolo interessante: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/
Come potete vedere dal titolo si tratta di overtraining, che avviene nella fase di valutazione del modello sui falli di convalida della crossvalidation. Di conseguenza, oltre alla validazione incrociata abbiamo bisogno di un altro campione per stimare il modello già selezionato.