L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 3168

 
Vladimir Perervenko #:

Vladimir, quale akurasi massima "onesta" hai ottenuto con i nuovi dati?

E con quale algoritmo MO?

 
Aleksey Nikolayev #:

L'idea è quella di dividere gli esempi in gruppi diversi tra loro e all'interno dei quali vi sia omogeneità. Non è affatto certo che le caratteristiche specifiche permettano di farlo. In realtà, non è certo che nessuna di esse lo permetta, ad esempio a causa della non stazionarietà.

Non ho intenzione di studiare questo articolo in dettaglio, perché tocca solo l'argomento che mi interessa. CHAID è un po' più vicino, ma non è proprio la stessa cosa.

È proprio questo il punto, vorrei trovare una certa regolarità nella dinamica dei cambiamenti di ordine della sequenza, o almeno una stima dello spostamento con l'identificazione di un punto di rottura. E sto parlando di banali predittori binari. Ad esempio, identificare 5 sequenze che sono state riscontrate negli ultimi cinque anni, esaminare la loro stabilità di predisposizione al valore target e, inoltre, se ci sono cambiamenti significativi sia nelle sequenze che nella predisposizione, allora escludere il predittore dall'addestramento o dal modello. Ho letto/visto molti metodi nell'ultimo semestre, ma non è realistico per me codificare tutto per i test: c'è molto lavoro da fare. La cosa più triste è quando si lavora su qualcosa e poi ci si rende conto che il risultato non è quello atteso.

Quali sono, secondo lei, i vantaggi di CHAID?

 

Questo metodo di formazione consiste nell'individuazione di linee favorevoli all'esclusione dal campione (azzeramento) da parte del segmento quantico.

Ogni fase consiste nell'aggiunta di una regola. Le regole sono le seguenti if( arr_Q[n0][i]==1 || arr_Q [n1][i]==1 || arr_Q[nn][i ]==1 ) Propusk=true;

Questa è una gif: è necessario fare clic su di essa per farla funzionare.

Saldo - profitto in pip - cinque cifre.

Sì, questo è solo un campione per l'allenamento, non ho ancora fatto di più - sto sperimentando.

Aggiunto: Ed ecco un altro criterio per valutare la scelta del segmento quantistico, in base al quale il segnale sarà escluso - sembra che qui la rimozione delle linee non redditizie sia stata più allegra.


 
Aleksey Vyazmikin #:

Ecco, vorrei trovare una certa regolarità nella dinamica dei cambiamenti dell'ordine di sequenza, o almeno una stima dello spostamento con l'identificazione del punto di rottura. E sto parlando di predittori binari banali. Ad esempio, identificare 5 sequenze che sono state riscontrate negli ultimi cinque anni, esaminare la loro stabilità di predisposizione al valore target e inoltre, se ci sono cambiamenti significativi sia nelle sequenze che nella predisposizione, escludere il predittore dall'addestramento o dal modello. Ho letto/visto molti metodi nell'ultimo semestre, ma non è realistico per me codificare tutto per i test: c'è molto lavoro da fare. La cosa più triste è quando si lavora su qualcosa e poi ci si rende conto che il risultato non è quello atteso.

IMHO, è un approccio sbagliato in senso combinatorio. Un insieme troppo ricco di sequenze può portare a un sovrallenamento: ci saranno sempre sequenze casuali "buone".

Aleksey Vyazmikin #:

Quali sono, secondo lei, i vantaggi di CHAID?

Innanzitutto la ponderatezza dal punto di vista di matstat. Si tratta di interrompere la costruzione dell'albero quando si raggiunge un determinato livello di significatività, invece di una regola a sinistra. E l'uso della correzione di Bonferoni, ecc. Anche se, ovviamente, l'uso di caratteristiche solo nominali non mi soddisfa affatto, quindi ne sto cercando (provando a costruirne) un altro.

 
Aleksey Vyazmikin #:

Ecco, vorrei trovare una certa regolarità nella dinamica dei cambiamenti dell'ordine di sequenza, o almeno una stima dello spostamento con l'identificazione del punto di rottura. E sto parlando di predittori binari banali. Ad esempio, identificare 5 sequenze che sono state riscontrate negli ultimi cinque anni, esaminare la loro stabilità di predisposizione al valore target e inoltre, se ci sono cambiamenti significativi sia nelle sequenze che nella predisposizione, escludere il predittore dall'addestramento o dal modello. Ho letto/visto molti metodi nell'ultimo semestre, ma non è realistico per me codificare tutto per i test: c'è molto lavoro da fare. La cosa più triste è quando si lavora su qualcosa e poi ci si rende conto che il risultato non è quello atteso.

Quali sono, secondo lei, i vantaggi di CHAID?

1) Se procediamo nel seguente modo - otterremo lo stesso risultato del vostro (in termini di significato)?
Prendiamo un foglio (dopo 5 split), ordiniamo tutti gli esempi in esso contenuti in base al tempo, se c'è prima una crescita e poi una caduta al di sopra di un certo valore - rimuoviamo il foglio dall'uso.

2) Avete OOS sui vostri grafici?

3) Le regole/fogli vengono setacciati in base ai dati della traccia o della convalida/test.

 
Aleksey Nikolayev #:

IMHO, si tratta di un approccio sbagliato in senso combinatorio. Un insieme troppo ricco di sequenze può portare a un sovrallenamento: ci saranno sempre sequenze "buone" che si verificano casualmente.

La questione qui è rilevare la stabilità, se esiste nella storia, allora c'è almeno qualche ragione per aspettarsela nell'uso reale delle caratteristiche nel modello. Il metodo per rilevarla può essere diverso. Ma la stima della distribuzione non è sufficiente, non permette di stimare la stabilità. O ha bisogno di essere ripulita. Inoltre, ho riscontrato il fatto che se si prendono intervalli, diciamo di un mese, non ci sono abbastanza segnali per trarre conclusioni statistiche. Finora ci ho messo un segno di interpunzione.... In ogni caso, è importante valutare la distribuzione degli eventi nel tempo.

Aleksey Nikolayev #:

Prima di tutto, una riflessione in termini di matstat. Si tratta di interrompere la costruzione dell'albero al raggiungimento di un determinato livello di significatività, invece di una regola a sinistra. E l'uso della correzione di Bonferoni, ecc. È semplicemente esteticamente piacevole guardare un modello così ben congegnato) Anche se, naturalmente, l'uso di caratteristiche solo nominali non mi soddisfa affatto, quindi sto cercando (provando a costruire) un altro modello.

Dovrò fare un tentativo. Avete fatto dei confronti con altre opzioni di costruzione di alberi, il risultato è davvero migliore?

 
Forester #:

1) Se procediamo nel seguente modo - otterremo lo stesso risultato del tuo (in termini di significato)?
Prendiamo un foglio (dopo 5 split), ordiniamo tutti gli esempi in esso per tempo, se c'è una crescita all'inizio e poi un calo al di sopra di un certo valore - cancelliamo il foglio dall'uso.

2) Avete OOS sui vostri grafici?

3) Le regole/fogli vengono setacciati in base ai dati della traccia o della convalida/test.

1) Il rifiuto è normale, il problema è la ciclicità se si tratta di un foglio (ho un segmento quantistico - letteralmente un foglio di due parti F>=X1 && F<X2 ). Cioè, se si tratta di oscillazioni anche prossime allo zero, non è male, ma non dovrebbero essere molto elevate in una direzione (per la stima prendo intervalli di 10 campioni). Oppure, letteralmente, come scrivi tu, all'inizio c'è stata una crescita, e poi soprattutto un declino - questo è immediatamente nella spazzatura. Ma si tratta di foglie, e se la sezione quantistica, ci selezione per probabilità bias dal 5% della media per la classe come uno dei criteri di selezione iniziale.

2. No, certo che no, ho scritto che questo è un campione di addestramento. Non c'è alcun addestramento del modello in sé - presumo che ci sia altro da addestrare.

3. Sulla traina dell'esempio. Ma non si tratta di una selezione, ma solo di selezionare quelli che serviranno da filtro, cioè a portare a zero la risposta del modello. Beh, e escludere stringhe/esempi dall'addestramento, a quanto pare.

E in generale, se ci concentriamo sull'identificazione di segmenti quantistici stabili (si pensi ai predittori binari), allora un tale "modello" funzionerà anche senza addestramento da parte di alcun classificatore. E finché non è possibile farlo, non ha molto senso usare i classificatori. Naturalmente, nessuno cancella la casualità e si possono trovare alcuni modelli di successo, ma sarà difficile considerare ragionevolmente un tale metodo.

Tra gli svantaggi del metodo c'è il calo del Richiamo, ma non è più forte di quello del modello CatBoost - approssimativamente fino a 0,5 nell'esempio.

 
Aleksey Vyazmikin #:

Avete fatto dei confronti con altre opzioni di costruzione di alberi, il risultato è davvero migliore?

Quello che ho trovato in forma pronta non è molto adatto al mercato, e quello fatto in casa non è pronto. Ma non nutro molte speranze, quindi non ho fretta.

 

Questo è il genere di cose che accade. A sinistra passa OOS, a destra no. E il lato destro si immerge letteralmente subito.


Succede quasi sempre.

Cioè, letteralmente, si immerge immediatamente in modo significativo. La natura dell'immersione non è chiara. Sembra che ci debba essere qualcosa di vicino a SB, ma vedo troppo spesso un'immagine del genere.


Penso che se dopo l'ottimizzazione eseguo un TS invertito, potrei anche non perdere.

 
fxsaber #:

Questo è il genere di cose che accade. A sinistra passa OOS, a destra no. E sul lato destro, si "tuffa" immediatamente.


Succede quasi sempre.

Cioè, letteralmente, si immerge immediatamente in modo significativo. La natura dell'immersione non è chiara. Penso che dovrebbe trattarsi di qualcosa di vicino a SB, ma vedo troppo spesso un'immagine del genere.


Sembra che se dopo l'ottimizzazione si esegue un TS invertito, si possa anche non perdere.

Circa due anni fa ho postato questo effetto qui