L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2381

 
Maxim Dmitrievsky:

il catbusto ha una regolarizzazione piuttosto forte, soprattutto se i segni sono categorici, dovrebbero essere così dichiarati nel boost

Nessun miglioramento è stato fatto riducendo la regolarizzazione L2. Quindi Lasso funziona meglio.

 
elibrarius:

Forse è solo un buon pezzo di campionamento per l'esame. E si fa un adattamento ad esso, selezionando il modello con i migliori parametri per esso.

Ora controllo sempre con la convalida incrociata (o valving in avanti), non c'è un adattamento a una piccola sezione, ma a tutti i dati in una volta, penso che sia il modo migliore per imparare.
Anche Doc lo consigliava prima di scomparire dal forum.

Prima di tutto, non posso regolare Lasso, quindi non c'è nessuna regolazione, è solo il modo in cui sono i parametri.

In secondo luogo, è la stessa trama con CatBoostom - e ci sono 800 modelli tra cui scegliere e ho preso praticamente le migliori opzioni.

Ho allegato il file - prova tu stesso diversi modelli, Lasso raccomandato solo per i campioni binari - questo è un trucco.

 
Aleksey Vyazmikin:

In primo luogo, non so come sintonizzare Lasso, quindi non c'è nessun ritocco - è solo il modo in cui sono i parametri.

In secondo luogo, è lo stesso sito di CatBoostom - e ci sono 800 modelli tra cui scegliere e ho preso praticamente le migliori opzioni.

Ho allegato il file - prova tu stesso diversi modelli, Lasso raccomandato solo per il campionamento binario - questo è il trucco.

Prova così com'è per la convalida incrociata. Ciclo di 10 volte con diverse trame sconosciute di 1/10 dei dati totali. Sarà la stima migliore per selezionare catbust con alcuni parametri o lasso con parametri predefiniti.

 
Maxim Dmitrievsky:


Prova allo stesso modo. Ha funzionato bene nel tester personalizzato, c'è un problema quando si esporta il modello, cercherò un errore più tardi.

Se il MA è coinvolto nell'addestramento, non dovrebbe essere presente quando si applica il modello?

L'essenza di MAShka è il tipo di partizionamento - sopra solo una classe, e sotto solo l'altra?

 
elibrarius:

Provatelo così com'è per la convalida incrociata. Ciclo di 10 volte con diverse trame sconosciute di 1/10 dei dati totali. Questa sarà la stima migliore per selezionare catbust con alcuni parametri o lasso con parametri predefiniti.

La binarizzazione avviene con un particolare metodo di stima del campionamento, quindi la convalida incrociata mostrerà risultati migliori sulle trame del campione principale.

La convalida incrociata non è del tutto rilevante per i campioni che sono legati al tempo, ma nel caso del trading lo è - il mercato cambia gradualmente e il modello deve trovare modelli stabili nel tempo, e nel caso della convalida incrociata l'intervallo di tempo dell'addestramento e del controllo può essere vicino o fratto dal campione addestrato.

In questo momento ho CatBoost addestrato sul 60% di tutti i dati - il 20% va a fermare il controllo e l'ultimo 20% a valutare il modello.

Se parliamo del 10% per l'allenamento, è un campione troppo piccolo.
 
Aleksey Vyazmikin:

La validazione incrociata non è del tutto appropriata per i campioni che sono legati al tempo, ma nel caso del trading lo è - il mercato cambia gradualmente e il modello deve trovare modelli stabili nel tempo, e nel caso della validazione incrociata l'intervallo di tempo dell'addestramento e della validazione può essere vicino o sottratto dal campione che viene addestrato.

Stai parlando di una specie di convalida incrociata standard/antica.
In primo luogo, non è necessario mescolare le linee, e prendere blocchi come ci sono 0-90 formazione 90-100 test, poi 10-100 formazione, 0-10 test, poi 20-100-10 formazione 10-20 test, ecc.
In secondo luogo, seguendo il consiglio di Prado devi lasciare un po' di spazio (pruning) tra il treno e il test, per evitare che esempi adiacenti dal treno e dal test entrino nel tuo lavoro. Un esempio dal treno adiacente a 10-100 esempi dal test sarà il loro suggerimento/ricerca. Leggi di più qui https://dou.ua/lenta/articles/ml-vs-financial-math/
O qui c'è una foto:

Aleksey Vyazmikin:

In questo momento il mio CatBoost è effettivamente addestrato sul 60% di tutti i dati - il 20% è il controllo dello stop e l'ultimo 20% è la valutazione del modello.

Se parliamo del 10% per la formazione è troppo poco per il campionamento.
Puoi fare il 20% o quanto vuoi.

E infine, invece della convalida incrociata, si può usare un rolling forward. Che non prende la sezione del test in un cerchio, ma solo davanti.
Машинное обучение против финансовой математики: проблемы и решения
Машинное обучение против финансовой математики: проблемы и решения
  • dou.ua
Всем привет! Так получилось, что я уже около семи лет занимаюсь машинным обучением. В последние несколько из них я как исследователь и CTO Neurons Lab часто работаю с финансовыми данными в рамках проектов, связанных с инвестиционным менеджментом и алгоритмическим трейдингом. Чаще всего клиенты приходят с текущими стратегиями, которые нужно...
 
Maxim Dmitrievsky

Cosa fa il parametro shuffle?Di solito se è False, i risultati sono molto peggiori di quando è True.

train_test_split(X, y, train_size = 0.5, test_size = 0.5, shuffle=True)
 

Un'immagine che spiega il valedetto in avanti.

 
Evgeni Gavrilovi:

A cosa serve il parametro shuffle?Di solito se è False, i risultati sono molto peggiori che se è True.

Mescola gli esempi per il test e il treno, in modo che non siano sequenziali.

 
Maxim Dmitrievsky:

confonde gli esempi per la terzina e il test in modo che non vadano in sequenza?

a caso? come indicato qui? il test su un campione casuale del 50%