L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 1325

 
Farkhat Guzairov:

Tutto quanto sopra è bello e molto informativo, ma "controllo dell'allenamento", cosa significa?

Cioè per esempio si addestra il sistema su un campione di dati del 2014 e poi si dà un campione del 2015 e si vuole vedere la probabilità dei modelli? Se è così, allora non c'è bisogno di cambiare nulla, tutto è corretto. Solo che non vedo un problema se il controllo dà dei risultati diversi da quelli attesi, sarà sempre così.

Uso CatBoost per l'addestramento, c'è la possibilità di fermare l'addestramento su un campione di controllo (validazione), cioè nello stesso momento in cui si verifica la riduzione dell'errore su un campione di addestramento e controllare immediatamente sul campione di controllo come il risultato è cambiato su di esso, se il risultato non migliora sul campione di controllo un dato numero di alberi, allora l'addestramento si ferma e tutti gli alberi all'ultimo miglioramento vengono tagliati. Sì, la cronologia è così: mi alleno nel 2014 e controllo la formazione dal 2015 al 2018, controllo il risultato nel 2018. Forse ha senso scambiare i posti, perché i modelli rilevati durante l'addestramento potrebbero smettere di funzionare nel tempo e potrebbe essere meglio addestrarsi su dati che sono più vicini all'applicazione nella realtà - è una questione aperta.

 
Farkhat Guzairov:

Se l'applicazione pratica del MO nel tuo caso è la seguente, secondo me.

Dal momento che è semplicemente impossibile ottenere una probabilità del 100% del risultato vero, allora vai a un metodo semplice, per esempio, il rapporto tra risultati veri e falsi, se è nella regione di 50/50, allora ancora una volta dobbiamo capire quali profitti si ottengono con questi risultati, se il 50% del profitto è una media di 100 punti, e il restante 50% le perdite sono in media 50 punti, allora penso che il tuo sistema è già adatto per un uso pratico.

L'accuratezza della classificazione nella tabella è la precisione metrica - circa il 60% (per i migliori modelli) ottiene voci corrette, nello Strategy Tester sarà più alto, perché alcune posizioni devono andare in pareggio, ma non prendere profitto.

È ancora troppo presto per applicare, dovremmo prepararci per la prossima fase - per sventrare i modelli sugli erbari :)

 
Aleksey Vyazmikin:

Uso CatBoost per l'addestramento, c'è un'opzione per fermare l'addestramento sul campione di controllo (convalida), cioè in parallelo c'è la riduzione dell'errore sul campione di addestramento e immediatamente controllare sul campione di controllo come il risultato è cambiato su di esso, se il risultato non migliora sul campione di controllo un dato numero di alberi, allora l'addestramento si ferma e tutti gli alberi all'ultimo miglioramento vengono tagliati. Sì, la cronologia è così - mi alleno nel 2014 e controllo la formazione dal 2015 al 2018, controllo il risultato nel 2018. Forse ha senso scambiare i posti, perché i modelli identificati nell'addestramento, possono ancora smettere di funzionare nel tempo e può essere meglio addestrarsi su dati che sono più vicini all'applicazione nella realtà - una questione aperta.

Quello che per esempio ho notato con me stesso. Più dati sono coinvolti nell'addestramento, più il sistema diventa "stretto", cioè Perché è così, la risposta che hai dato è che durante alcuni periodi un modello dà un risultato positivo, e lo stesso modello durante un altro periodo dà un risultato negativo, come risultato porti il sistema in un torpore, diventa "stretto" come ho detto, forse più intelligente, ma non significa che il sistema intelligente darà più risultati veri, temo che i rapporti rimarranno gli stessi, solo il sistema ti dirà il suo punto di vista sulla situazione attuale meno frequentemente.

 
Aleksey Vyazmikin:

Riguardo al boosting - c'era una lezione più recente (in python con catbust come opzione) con lo stesso docente - non riesco a trovare


È interessante che GBM risolva il problema della classificazione con alberi di regressione.

Qualcuno lo sa? Gli altri metodi di boosting (pacchetti) fanno lo stesso?

 
Aleksey Vyazmikin:

E quale conclusione si può trarre? Sembra che il volume ottimale sia il 60%-70% del campione di convalida, cioè l'allenamento dovrebbe avvenire su un campione più piccolo della convalida del modello. Ma è impossibile non evidenziare la ripartizione del 30%, anche lì il risultato di tutti gli indicatori non è male, e i fallimenti abbastanza vicino al 40% e 50%. Non so nemmeno cosa influisce di più sulla dimensione del campione o sul contenuto, e come impostarlo...

Se il 60-70% è buono e il 30% è buono, c'è una probabilità di colpire accidentalmente queste cifre.
Puoi provare a ripetere completamente i calcoli, e se è lo stesso la seconda volta, puoi considerarlo una regolarità. (Dovrebbe essere ripetuto 10 volte per una maggiore significatività statistica).
 
Farkhat Guzairov:

Quello che ho notato con me stesso, per esempio. Più dati sono coinvolti nell'addestramento, più il sistema diventa "stretto", cioè Ecco perché genera meno probabilità di risultati, perché è così, la risposta è che durante certi periodi alcuni modelli mostrano risultati positivi e gli stessi modelli mostrano risultati negativi in un altro periodo, come risultato il sistema entra in un torpore e come ho detto diventa "stretto", forse più intelligente, ma non significa che il sistema intelligente produrrà più risultati veri, temo che i rapporti rimarranno gli stessi, ma il sistema vi dirà la sua opinione sulla situazione attuale meno frequentemente.

Penso che sia meglio avere meno segnali nel trading, più precisi, e i modelli possono essere combinati in ensemble indipendenti, quindi la precisione della classificazione sarà alta e la completezza aumenterà (il numero di eventi che si qualificano come 1). La cosa principale è abituarsi in qualche modo a generare ottimi modelli, di nuovo, alternativamente con una diversa ripartizione del campionamento.

 
elibrario:

È interessante notare che GBM risolve il problema di classificazione con alberi di regressione.

Qualcuno lo sa? Gli altri metodi di boosting (pacchetti) fanno lo stesso?

Facendo lo stesso da quello che so (menzionato in vari posti). Non c'è altro modo a causa della peculiarità della formazione stessa. Ecco perché ho detto prima che la sequenza degli alberi penso possa influenzare il loro peso nella risposta, e questo è ciò che rende ragionevole considerare insiemi di foglie e convertirli in un'unica regola.

 
elibrario:
Se il 60-70% è buono e il 30% è buono, c'è la possibilità di colpire accidentalmente questi numeri.
Puoi provare a ripetere completamente i calcoli, e se è lo stesso la seconda volta, puoi considerarlo un modello. (Dovrebbe essere ripetuto 10 volte per una maggiore significatività statistica).

Come si fa a ripeterlo? Cioè sarà lo stesso, dato che il seme è fisso, si può prendere un nuovo seme - proverò più tardi e vedrò cosa succede.

D'altra parte, sono stati utilizzati 200 modelli per campione, che non è nemmeno piccolo.
 
non si possono trarre conclusioni da un tale studio in un mercato non stazionario
 
Maxim Dmitrievsky:
non si possono trarre conclusioni da un tale studio in un mercato non stazionario

Il campione è stazionario, la ripartizione per la formazione è cambiata, ma per la valutazione indipendente rimane la stessa.

Per favore, espandi il tuo punto di vista.