L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 1301

 
Aleksey Vyazmikin:

La valutazione del modello non influisce sulle prestazioni del modello quando viene applicato a un campione non familiare?

Cosa fai, costruisci un mucchio di modelli diversi e controlli quale funziona meglio?

Cosa ha a che fare questo con le "foglie" e la selezione delle migliori foglie, ecc.

Sto solo cercando di capire di cosa stai scrivendo.

o ogni linea corrisponde a un foglio
 
Maxim Dmitrievsky:

cosa stai facendo? costruisci un mucchio di modelli diversi e controlli quale funziona meglio?

Cosa ha a che fare questo con le "foglie", la selezione delle migliori foglie, ecc.

Sto solo cercando di capire cosa scrivi di tanto in tanto.

Sembra che la conversazione riguardasse la selezione automatica di un modello, ho spiegato che i modelli interessanti possono essere selezionati in due modi, attraverso un criterio e una formula noti (come lo faccio ora - 3 ultime colonne vengono riempite per ogni campione e per ogni campione si forma una tabella, se 3 colonne filtro corrispondono, allora il modello viene selezionato), oppure si può usare l'apprendimento automatico, quando si capisce cosa si vuole dal modello in un campionamento indipendente, ma non si sa come raggiungerlo. Quindi, per il secondo modo, le diverse metriche del modello diventano predittori e il modello viene addestrato su di esse, che già seleziona modelli adatti da dati simili per mezzo di MO. Ho avuto un'esperienza simile con la formazione quell'anno e ha mostrato risultati positivi, in termini di precisione era buona ma non così buona in termini di completezza, poi ho deciso che ci mancava la diversità nel campione e rimandato il lavoro a tempi migliori. Ci sono ora molti campioni diversi che vengono generati ed è possibile rivisitare questo lavoro. L'idea principale non è quella di selezionare il migliore dal pool disponibile, ma di selezionare il migliore secondo criteri assoluti, che sia MO o indice fisso.

Le foglie funzionano con modelli selezionati.

Ogni linea è un modello separato.
 
Aleksey Vyazmikin:

Sembra che la conversazione riguardasse la selezione automatica del modello, ho spiegato che i modelli interessanti possono essere selezionati in due modi, attraverso un criterio e una formula noti (come lo faccio ora - 3 ultime colonne sono riempite per ogni campione e per ogni campione si forma una tabella simile, se 3 colonne filtro coincidono allora il modello viene selezionato), o tramite apprendimento automatico, quando si capisce cosa si vuole dal modello nel lavoro sul campione indipendente, ma non si sa come ottenerlo. Quindi, per il secondo modo, diversi indicatori metrici del modello diventano predittori e il modello viene addestrato su di essi, che attraverso MO seleziona modelli adatti da dati simili. Ho avuto un'esperienza simile con la formazione quell'anno e ha mostrato risultati positivi, in termini di precisione era buona ma non così buona in termini di completezza, poi ho deciso che ci mancava la diversità nel campione e rimandato il lavoro a tempi migliori. Ci sono ora molti campioni diversi che vengono generati ed è possibile rivisitare questo lavoro. L'idea principale non è quella di selezionare il migliore dal pool disponibile, ma di selezionare il migliore secondo criteri assoluti, che sia MO o indice fisso.

Le foglie stanno già lavorando con i modelli selezionati.

Quindi prendi n-modelli (come nel file), inserisci le loro metriche come predittori per il NS, e poi cosa viene fuori?

alcune stime dall'esperienza? come con tali indicatori il modello funzionerà, ma non con questi

E poi filtrate i nuovi modelli attraverso questa roba? Beh, come la NS seleziona da sola i modelli MI?

 
Maxim Dmitrievsky:

Cioè, si prendono n modelli (come nel file), si inseriscono le loro metriche come predittori per il NS, e poi cosa viene fuori?

alcune stime dall'esperienza? come con tali indicatori il modello funzionerà, ma non con tali?

E poi filtrate i nuovi modelli attraverso questa roba? Beh, come la NS seleziona da sola i modelli MI?

Quando ho sperimentato, ho preso metriche simili per il campione di prova e ho messo il risultato del campione di prova (indipendente dall'allenamento) nel campione di destinazione. Le metriche obiettivo erano il profitto e il drawdown (separatamente per l'acquisto e la vendita di trade) e qualcos'altro dalle metriche del modello stesso - non ricordo esattamente. Ora ho bisogno di aggiungere le metriche di un campione di allenamento ai dati del campione di test (a quel tempo non sapevo che i risultati possono essere diversi per Catbust) e devo ancora sperimentare con quello di destinazione.

Il modello risultante è stato alimentato con i risultati di altri campioni con modelli, il risultato principale è stato poi un buon filtraggio dei modelli non redditizi.
 
Aleksey Vyazmikin:

Quando ho sperimentato, ho preso metriche simili per il campione di prova, e ho messo il risultato del campione di prova (indipendente dall'allenamento) nel campione di destinazione. L'obiettivo era il profitto, il drawdown (separatamente per le operazioni di acquisto e di vendita) e qualcos'altro dal modello stesso, non ricordo esattamente. Ora ai dati del campione di test devo aggiungere le metriche del campione di allenamento (al momento non sapevo che i risultati possono essere significativamente diversi per Catbust) e ho bisogno di sperimentare di più con l'obiettivo.

Questa è una soluzione ornata molto strana, non ho mai visto una cosa del genere e non posso dire nulla al riguardo.

ma se funziona bene
 
Maxim Dmitrievsky:

una soluzione ornata molto strana, non ho mai visto niente di simile e trovo difficile dire qualcosa al riguardo

ma se funziona, bene

L'idea è che attraverso la struttura del modello, il suo comportamento sul campione di prova e di allenamento, si possono stabilire certe aspettative di comportamento nel lavoro reale.

Questa è una direzione molto interessante, ma richiede tempo e risorse. D'altra parte, si possono sviluppare e scambiare collettivamente i predittori apertamente.

Se non si può dire nulla sulle sue prestazioni future da un modello, è tutto una perdita di tempo - una questione di fortuna...

 
Aleksey Vyazmikin:

L'idea è che attraverso la struttura del modello, il suo comportamento sul campione di prova e di addestramento, si possono stabilire certe aspettative di comportamento nel lavoro reale.

Questa è una direzione molto interessante, ma richiede tempo e risorse. D'altra parte, si possono sviluppare e scambiare collettivamente i predittori apertamente.

Se non si può dire nulla sulle prestazioni future del modello, tutto il MO è una perdita di tempo - una questione di fortuna...

Nel corso del tempo, la variazione dei risultati aumenta, questo deve essere preso in considerazione. Se il modello si rompe immediatamente su nuovi scambi, allora solo allora è il montaggio, altrimenti si può provare a stringerlo. Il modo più semplice per migliorare è la regolarizzazione (passo di gradiente in katbust) o semplicemente non regolare.

Guardate come la gente fa trading - tutti i tipi di martingala. MoD dà già una sorta di vantaggio.

Non sto scrivendo di complessi modelli di stima di tipo bayesiano perché non ho ancora capito bene come lavorarci io stesso, c'è ancora molto da imparare e da lavorare
 
Maxim Dmitrievsky:

Nel corso del tempo, la variazione dei risultati aumenta, questo deve essere preso in considerazione. Se il modello si rompe immediatamente su nuovi trade, allora è necessario mettere a punto, altrimenti si può provare a premere su

Altrimenti guardate come la gente fa trading - tutta quella roba della martingala. MO dà già qualche vantaggio

Ieri ho mostrato che Catbust forma del rumore nelle foglie (alberi binari) che può essere rimosso e il modello migliorerà. Ho sperimentato un po' di più in questa direzione, aumentando il filtraggio, e ho scoperto che dopo una certa soglia succede una cosa paradossale - i miglioramenti si fermano sul campione indipendente, ma continuano sul campione di test e di allenamento. Cioè in realtà si scopre che il modello continua a funzionare (su campione indipendente dall'addestramento) rotolando su connessioni con pesi bassi, in realtà raccordi, e qui abbiamo una questione che o i pesi sono distribuiti in modo errato, o il modello è sovrallenato e funziona casualmente su rumore bianco (beh non proprio rumore, su indicatori meno significativi di alberi binari). Penso che sia anche possibile vedere da dove vengono queste relazioni e scoprire il loro significato su un breve campione d'esame.

 
Aleksey Vyazmikin:

Ieri ho mostrato che Catbust genera rumore nelle foglie (alberi binari), che può essere rimosso e il modello migliorerà. Ho sperimentato un po' di più in questa direzione, aumentando il filtraggio, e ho scoperto che dopo una certa soglia succede una cosa paradossale - i miglioramenti si fermano sul campione indipendente, ma continuano sul campione di test e di allenamento. Cioè in realtà si scopre che il modello continua a lavorare come al solito su relazioni a basso peso, in realtà raccordi, e c'è una questione che o i pesi sono distribuiti in modo errato, o il modello è riaddestrato e accidentalmente funziona su rumore bianco (beh, non proprio rumore, su indicatori meno significativi di alberi binari). Penso che si potrebbe anche guardare da dove vengono queste relazioni e identificare il loro significato su un breve campione d'esame.

Da qualsiasi parte si scavi, si trovano delle "regolarità" illusorie ovunque, si possono trovare in qualsiasi fenomeno

quello che mi rende più felice è il gran numero di "predittori". Da dove verrebbe nelle citazioni? Lì c'è il 90% di spazzatura.

 
Maxim Dmitrievsky:

Non ne ho idea, non mi occupo di alberi e foglie, e non intendo farlo... tutto può essere fatto a livello del modello stesso.

Da qualsiasi parte si scavi, si trovano "schemi" illusori ovunque, li si può trovare in qualsiasi fenomeno

quindi basta lavorare in modi conosciuti.

E sono solo ispirato dall'accordatura a mano - ho perso la fede nella magia passiva.

Non conosco l'algoritmo esatto per i pesi delle foglie, ma penso che dipenda dalla sequenza di collegamenti trovati, non solo dai collegamenti stessi, cioè se un nuovo albero nel boosting sta correggendo un errore, allora il peso è dato dal delta della correzione dell'errore, mentre il nuovo collegamento può avere più valore della correzione stessa. Idealmente, dovresti ricontrollare i collegamenti e i loro pesi, controllare il numero di alberi binari coinvolti nella decisione, se ci sono una dozzina di alberi che danno 0,5 probabilità in totale, potrebbe essere un collegamento debole... D'altra parte, bisogna considerare la dimensione dell'albero stesso (ora uso la profondità 4, solo per identificare le regole brevi nelle foglie). Questo è solo un pensiero, non ha bisogno di una risposta ...