L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2015

 
Maxim Dmitrievsky:

tutti i chip dentro e fuori, ci sono meno neuroni nello strato nascosto. Semplicemente comprime le informazioni minimizzando l'errore nell'output. L'input dovrebbe essere uguale all'output (idealmente). Poi la seconda parte di NS viene scartata dopo l'addestramento e si ottengono caratteristiche compresse in uscita pari al numero di neuroni nello strato nascosto

si possono aggiungere strati ricorrenti, ecc.

google Autoencoder. e le sue varianti.

Sì, ho capito tutto, grazie, solo che non capisco come sia possibile addestrare una rete a dare più risposte a una singola linea di esempio in una sola volta. Non è chiaro come farlo con gli alberi...

 
Aleksey Vyazmikin:

Sì, ho capito tutto questo, grazie, solo che non capisco come addestrare la rete a dare risposte multiple a una singola stringa campione in una volta sola. Qual è la metrica lì, con gli alberi non è chiaro come questo possa essere fatto...

Non sono affatto un esperto, ma prima - decomposizione, quando un evento genera molte cause possibili. Dopo di che - ricomposizione, quando tutte queste possibili cause sono analizzate per le possibili influenze su queste cause. Il risultato è un piccolo numero di parametri che possono essere influenzati quando si controlla un evento.

 
Aleksey Vyazmikin:

Sì, ho capito tutto questo, grazie, solo che non capisco come addestrare la rete a dare risposte multiple a una singola stringa campione in una volta sola. Qual è la metrica lì, con gli alberi non è chiaro come si possa fare una cosa del genere...

Non ha affatto senso usare prima un autocodificatore o solo un NS profondo. Ne hai bisogno quando hai molti compiti uguali. Per esempio, per comprimere immagini, ecc. e poi utilizzarle in altri ns

 
Alexei Tarabanov:

Non sono affatto un esperto, ma prima c'è la decomposizione, dove un evento dà origine a una moltitudine di cause possibili. Poi c'è la ricomposizione, dove tutte queste possibili cause sono analizzate per le possibili influenze sulle cause. Il risultato è un piccolo numero di parametri che possono essere controllati dall'evento.

Non esattamente - lì, rifrangendo i dati in un neurone attraverso i pesi nelle funzioni, i valori sono collassati in una singola funzione (una specie di focalizzazione dell'immagine). E poi, conoscendo quei pesi, si scompone di nuovo in componenti, come un prisma scompone un arcobaleno o giù di lì. Capisco il processo, ma non capisco come farlo attraverso gli alberi.

 
Maxim Dmitrievsky:

Non ha affatto senso usare prima un auto-encoder o solo un NS profondo. Ne hai bisogno quando hai molti compiti uguali. Per esempio, per comprimere immagini ecc. e poi usarle come embeddings in altri ns

Forse ha senso allenare proprio questi neuroni "collo di bottiglia" sugli alberi. Cioè un numero ridotto di predittori.

 
Aleksey Vyazmikin:

Non esattamente - lì, rifrangendo i dati nel neurone attraverso i pesi nelle funzioni, i valori sono ridotti a una singola funzione. E poi, conoscendo questi pesi, scomporre di nuovo in componenti, come un prisma scompone un arcobaleno. Capisco il processo, ma non capisco come farlo attraverso gli alberi.

No. Prova prima la decomposizione e la capirai.

Semplicemente, la decomposizione segue un principio e la connessione un altro. Analisi e sintesi. I neuroni lavorano allo stesso modo qua e là, ma nel primo caso, l'evento è accantonato, e nel secondo, si raccoglie intorno ai fattori che influenzano l'evento.

 
Aleksey Vyazmikin:

Potrebbe avere senso allenare questi particolari neuroni "a collo di bottiglia" sugli alberi. Cioè, un numero ridotto di predittori.

non ha senso

la compressione è la compressione. Se il modello è già cattivo, non farà nulla. E la regolarizzazione ha circa la stessa funzione f.

 
C'è una perdita quando si comprimono i dati di input. Se la compressione viene giudicata in base alla capacità di recuperare gli stessi dati di input, allora perdiamo uniformemente le informazioni, comprese quelle che prevedono bene l'obiettivo.
Se comprimiamo solo per ottenere la funzione obiettivo, questa è l'opzione migliore.
Penso che l'apprendimento normale faccia proprio questo.
Concludo che la compressione del solo input degrada la qualità del successivo apprendimento dell'obiettivo sui dati compressi.
Ma è meglio fare un esperimento invece di trarre conclusioni dalla teoria.

Anche se si può capire perché Alexey sta cercando un modo per ridurre la dimensionalità - usa lo scaffolding e il boosting. In un albero, la maggior parte dei 3000 ingressi potrebbe non essere utilizzata affatto. Le foreste e il boosting sono migliori in questo, ma temo che sia poco utile.
 
Maxim Dmitrievsky:

non ha senso

la compressione è la compressione. Se il modello è già cattivo, non farà nulla. E la regolarizzazione fa più o meno la stessa cosa.

elibrarius:
Ci sono perdite quando si comprimono i dati di input. Se la compressione viene valutata in base alla capacità di recuperare gli stessi dati di input, allora perdiamo uniformemente informazioni, comprese quelle che potrebbero prevedere bene l'obiettivo.
Se comprimiamo solo per ottenere la funzione obiettivo, questa è l'opzione migliore.
Penso che l'apprendimento normale faccia proprio questo.
Concludo che la compressione del solo input degrada la qualità del successivo apprendimento dell'obiettivo sui dati compressi.
Ma è meglio fare un esperimento invece di trarre conclusioni dalla teoria.

Anche se si può capire perché Alexey sta cercando un modo per ridurre la dimensionalità - usa lo scaffolding e il boosting. In un albero, la maggior parte dei 3000 ingressi potrebbe non essere utilizzata affatto. Le foreste e il boosting sono migliori in questo, ma temo che sia poco utile.

Ci sono diverse idee sul perché questo potrebbe essere utile:

1. I predittori interdipendenti possono essere identificati:

1.1. Costruire un modello separato con loro e valutare il loro potere predittivo

1.2. escluderli dal campione e valutare il loro impatto sul risultato. se migliorano il risultato, considerare la creazione di predittori simili

2. usare un solo predittore invece di un gruppo di predittori:

1. questo equiparerà le possibilità di prenderlo a caso quando si costruisce il modello

2. Ridurre il tempo di formazione riducendo la dimensionalità

Sì, vorrei testare questo, ma non conosco lo strumento per creare un tale modello fuori dalla scatola.


A proposito, un'idea è venuta, perché non usare funzioni spezzate (come con la quantizzazione - invece della linea di passo) nell'addestramento, permetterebbe di avere uno scarto nella precisione dei dati e ridurre il ri-addestramento.

 
Aleksey Vyazmikin:

C'è un pensiero qui, perché non usano funzioni spezzate (per così dire con quantizzazione - invece di una linea di passo) nell'addestramento, ciò permetterebbe di avere un contraccolpo di precisione dei dati e ridurre l'overtraining.

Poiché non può essere addestrato, ci sarebbe il solutore che si attacca ai minimi locali. Per quanto riguarda le idee - non si può tirar fuori niente perché è una scatola nera