L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2382

 
Evgeni Gavrilovi:

a caso? cioè come indicato qui? test su un campione casuale del 50%

sì, puoi leggerlo nella documentazione di sklearn

testato lo stesso (come nel video) sulla versione stagionale... non sembra migliorare molto

 
elibrarius:

Stai parlando di una specie di validazione incrociata standard/antica.
In primo luogo, non c'è bisogno di mescolare e abbinare le linee come ci sono 0-90 formazione 90-100 test, poi 10-100 formazione, 0-10 test, poi 20-100-10 formazione 10-20 test, ecc.
In secondo luogo, seguendo il consiglio di Prado devi lasciare un po' di spazio (pruning) tra il treno e il test, per evitare che esempi adiacenti dal treno e dal test entrino nel tuo lavoro. Un esempio dal treno adiacente a 10-100 esempi dal test sarà il loro suggerimento/ricerca. Leggi di più qui https://dou.ua/lenta/articles/ml-vs-financial-math/
O qui c'è una foto:

Puoi fare il 20% o quanto vuoi.

E infine, al posto della convalida incrociata, si può applicare una rollata in avanti. Che non prende la trama del test intorno al cerchio, ma solo la parte anteriore.

Tutto quello che dici qui è già usato da me nei miei esperimenti.

Lo scopo di questi trucchi, con la divisione del campione in pezzi, è quello di trovare il pezzo in cui il modello inerente all'intero campione è meno rumoroso. Meno rumore/più pronunciate sono le regole che contribuiscono alla classificazione, migliore sarà il modello. Sì, questo metodo ha diritto alla vita, ma è bene usarlo quando si sa che ci sono più predittori associati all'obiettivo, più casuali e quando la dimensione del campione è abbastanza grande per ospitare il maggior numero possibile di combinazioni di predittori tra loro, e più predittori ci sono, più grande deve essere il campione. Il mio campione raramente supera le 20k linee (100%) e i predittori sono più di 2k e ovviamente tutte le combinazioni non rientrano nel campione stesso e non saranno prese in considerazione dal modello, quindi ci sarà sempre un Recall non superiore al +-50%.

Quindi il mio metodo di binarizzazione si basa su un approccio diverso - ogni quantum della griglia di predittori viene valutato per la stabilità nel tempo e la predisposizione all'obiettivo, poi i quantum di predittori selezionati vengono combinati in un unico predittatore binario, liberando così dai quantum di predittori rumorosi/split, la maggior parte dei predittori semplicemente non passa la selezione. Sulla base dei risultati della selezione di tale campionamento di binarizzazione è già costruito, come risultato abbiamo un comportamento simile dei predittori su tutti i siti di formazione, che dovrebbe aiutare la stabilità del modello in caso di eventi simili, che erano nella storia.

 
Aleksey Vyazmikin:

Tutto quello che dici qui lo uso già nei miei esperimenti.

Lo scopo di questi trucchi, con la suddivisione del campione in pezzi, è quello di trovare il pezzo in cui il modello inerente all'intero campione è meno rumoroso.

No - trovare le medie del modello (errore, ecc.) su tutti i pezzi di prova. O la somma dei saldi.

La validazione incrociata va bene per te se è accettabile usare le prime righe come test.
Camminare in avanti probabilmente non lo è più. 20000 righe è difficile da dividere in molti pezzi per testare in anticipo.

Il tuo schema è atipico, quindi non c'è molto da consigliare)
 
elibrarius:

No - trovare le medie del modello (errore, ecc.) su tutti i pezzi di prova. O la somma dei saldi.

Quindi, cosa farebbe accadere questo e avete bisogno di identificare la trama in cui prevalgono le relazioni, che saranno robuste in seguito, i predittori significativi e l'obiettivo.

elibrarius:

La convalida incrociata sarà adatta se è accettabile usare le prime linee come test.

Camminando in avanti, forse non più. 20000 linee sono difficili da dividere in molti pezzi per testare in anticipo.

Hai uno schema atipico, quindi non molti consigli)

L'uso di stringhe precoci è inaccettabile per il motivo che è stato utilizzato per valutare i quanti- al 60% del campione. Qui l'intera procedura di valutazione da fare per singoli pezzi - ma che senso ha - globalmente non c'è.

Metodo Lasso ha mostrato risultati migliori, CatBoost - io certamente confrontare su altri campioni più tardi, ma apparentemente permette di generalizzare notevolmente scaricato predittori binari, dove unità 10-20%. Ma come farlo funzionare per l'estrazione delle entrate è la domanda.

 
Aleksey Vyazmikin:

Nessun miglioramento è stato fatto riducendo la regolarizzazione L2. Quindi Lasso risulta migliore.

È meglio... entrambi sono cattivi, e c'è un paio di punti percentuali di differenza.

 
Maxim Dmitrievsky:

come è meglio... quello che c'è è male, e c'è una differenza di un paio di punti percentuali

Il 4% di precisione è molto in termini monetari - aumenterà la vostra redditività e le vostre aspettative!

 
Chi ha l'eur 5 min per 10 anni ci mandi un txt o csv.
 
Ho disegnato le previsioni delle reti neurali nel browser. Ho gli indicatori + cercato di indicare i punti di ingresso.
Il link è nel mio profilo.
 
mytarmailS:
Chi ha l'eur 5min per 10 anni mi mandi un txt o csv.

Non puoi scaricare il terminale?

 
Maxim Dmitrievsky:

Non puoi scaricare il terminale?

Test su M5 citazioni per 10 anni ... Dovrebbero nascondere il terminale da loro prima che creino problemi al bilancio familiare.