L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2739

 
mytarmailS #:
Alexei, è una normale attività di ricerca, proprio come piace a te, qual è il problema?

Lo script lo fa o no?

Mi chiedo solo quante persone qui perdano facilmente il filo della conversazione.

 

Posso pubblicare un campione con molti predittori, chiunque riesca a selezionare i migliori - ben fatto - facciamo una gara.

I migliori saranno determinati su un campione indipendente, dopo aver addestrato il modello sui predittori selezionati.

C'è qualcuno che vuole partecipare o sono tutti così capaci per passaparola?

 

Argomento troppo generico. Spesso si disintegra nei suoi componenti. Dovrebbe essere suddiviso in più discussioni. Ad esempio: 1. MO: pre-elaborazione dei dati. 2. MO: selezione del modello. 3. MO: addestramento e ottimizzazione del modello. 4. MO.Implementazione dei modelli. 5. MO. Automazione dell'IO.

La suddivisione è molto ampia e approssimativa, ma sarà chiaro di cosa si occupa il ramo. E quindi di tutto e di niente.

E naturalmente è necessario fornire esempi di codice riproducibili, altrimenti non c'è alcuna utilità pratica dei colloqui .

Buona fortuna a tutti

 
Aleksey Vyazmikin #:

Lo script lo fa o no?

Mi sorprende la facilità con cui molti qui perdono il filo della conversazione.

Alexey, mi hai chiesto un esempio di come valutare l'importanza dei segni con una finestra scorrevole.

Ho scritto uno script per te.

Poi vuoi cercare in scale diverse o quello che vuoi, perché diavolo uno script del passato dovrebbe essere in grado di soddisfare i tuoi desideri in futuro?

Sono sorpreso di come molti qui perdano facilmente il filo del discorso. Questo sei tu.

 
Vladimir Perervenko #:

Argomento troppo generico. Spesso si disintegra nei suoi componenti. Dovrebbe essere suddiviso da tempo in più discussioni. Ad esempio: 1. MO: pre-elaborazione dei dati. 2. MO: selezione del modello. 3. MO: addestramento e ottimizzazione del modello. 4. MO.Implementazione dei modelli. 5. MO. Automazione dei MOE.

La divisione è molto ampia e approssimativa, ma sarà chiaro di cosa si occupa il ramo. E quindi di tutto e di niente.

E naturalmente è necessario fornire esempi di codice riproducibili, altrimenti non c'è alcuna utilità pratica dei colloqui .

Buona fortuna a tutti

Piuttosto, dovremmo dividerci in base ai compiti che risolviamo, ma è troppo individuale...

Per esempio, in un thread di preprocessing due persone non troveranno un terreno comune se uno predice ZZ sull'intero campione e l'altro usa MO per selezionare 10-20 cluster da tutti i dati per alcune esigenze.... Ecc...

La stessa merda sarà presente, ma sarà più spalmata sugli argomenti
 
Valeriy Yastremskiy #:

SSF non ha detto molto di nuovo, naturalmente, l'obiettivo di trovare una correlazione tra predittori e risultati è un obiettivo ovvio. L'unica novità che ho colto è che ha trovato circa 200 caratteristiche significative per l'intero addestramento, ma per i dati specifici ne utilizza solo il 5%.

Mi sembra che questo significhi che esistono alcuni modi per determinare rapidamente lo stato/proprietà di una serie al fine di selezionare predittori più significativi solo per i dati più recenti. Per una corretta selezione si pone ovviamente la questione del volume o della lunghezza. Ma a quanto pare funziona anche con soli 200 predittori trovati e selezionati nell'intera formazione di grandi dimensioni.

Iola vedo così. Una serie ha proprietà stabili in alcuni indici, ma questi indici e il loro numero sono diversi nelle varie sezioni. MO trova alcuni diversi stati di sufficiente durata della stabilità della serie, che possono essere descritti da diversi modelli e di conseguenza da diverse impostazioni del modello - i predittori. Il numero totale di predittori corrisponde al numero totale di impostazioni per i diversi modelli; di conseguenza, definendo un modello, è possibile trovare rapidamente le impostazioni precedentemente trovate per esso.


Una volta ho pubblicato una tabella in questo thread, ma ora non è a portata di mano, quindi chiarirò la mia idea a parole.

Mi sto basando sulla nozione di correlazione tra predittori e insegnanti. La "correlazione" NON è la correlazione o l'"importanza" dei predittori nell'adattamento di quasi tutti i modelli di MOE. Quest'ultima riflette la frequenza con cui un predittore viene utilizzato in un algoritmo, quindi un valore elevato di "importanza" potrebbe essere attribuito agli anelli di Saturno o ai fondi di caffè. Esistono pacchetti che consentono di calcolare il "legame" tra il predittore e l'insegnante, ad esempio, sulla base della teoria dell'informazione.

Quindi, una parola sulla tabella che ho postato qui.

La tabella conteneva una stima numerica del "legame" tra ciascun predittore e l'insegnante. Sono state ottenute diverse centinaia di valori di "connettività" man mano che la finestra si spostava. Questi valori per un particolare predittore variavano. Ho calcolato la media e la sd per ogni "collegamento", il che mi ha permesso di:

- isolare i predittori che hanno un valore di "accoppiamento" troppo piccolo - rumore;

- isolare i predittori che hanno un valore di "collegamento" troppo variabile. È stato possibile trovare predittori che hanno un valore di "accoppiamento" sufficientemente grande e una sd inferiore al 10%.


Ancora una volta, il problema della costruzione di un TC basato su MO è trovare predittori che abbiano un grande valore di "accoppiamento" e un piccolo valore di sd quando la finestra si sposta. A mio parere, tali predittori garantiranno la stabilità dell'errore di previsione in futuro.


Questa non è la prima volta che dico quanto sopra. Sfortunatamente, la discussione va costantemente a finire nel rumore e nel narcisismo.

 
mytarmailS #:

Alexei, hai chiesto un esempio di come esaminare l'importanza delle caratteristiche con una finestra scorrevole.

Ho scritto uno script per te...

Poi vuoi cercare in scale diverse o quello che vuoi, perché diavolo uno script del passato dovrebbe essere in grado di soddisfare i tuoi desideri in futuro?

Sono sorpreso di come molti qui perdano facilmente il filo della conversazione. Questo sei tu.

In che modo, ho chiesto di fare uno script - sì, cito: " Puoi fare uno script in R per i calcoli del mio campione - lo eseguirò per il bene dell'esperimento. L'esperimento dovrebbe rivelare la dimensione ottimale del campione. ", ma questo è in risposta a qualcosa che è già stato fatto.

Prima ho scritto "... E come proponi di osservare la dinamica, come realizzarla? " - qui chiedevo dell'implementazione della stima del predittore nella dinamica, cioè la stima regolare da parte di qualche finestra e non è chiaro se si tratta di una finestra ad ogni nuovo campione o dopo ogni n campioni. Se questo è ciò che avete fatto, non lo capisco.

Il codice che hai postato è ottimo, ma è difficile per me capire cosa fa esattamente o cosa dimostra in sostanza, quindi ho iniziato a fare altre domande. Cosa significano le due immagini con i grafici?

 
СанСаныч Фоменко #:

Una volta ho pubblicato una tabella in questo thread, ma al momento non ce l'ho a portata di mano, quindi chiarirò il mio pensiero a parole.

Mi sto basando sul concetto di correlazione tra predittori e insegnanti. La "correlazione" NON è la correlazione o l'"importanza" dei predittori nell'adattamento di quasi tutti i modelli MOE. Quest'ultima riflette la frequenza con cui un predittore viene utilizzato in un algoritmo, quindi un valore elevato di "importanza" potrebbe essere attribuito agli anelli di Saturno o ai fondi di caffè. Esistono pacchetti che consentono di calcolare il "legame" tra il predittore e l'insegnante, ad esempio sulla base della teoria dell'informazione.

Quindi, una parola sulla tabella che ho postato qui.

La tabella conteneva una stima numerica del "legame" tra ciascun predittore e l'insegnante. Sono state ottenute diverse centinaia di valori di "connettività" man mano che la finestra si spostava. Questi valori per un particolare predittore variavano. Ho calcolato la media e la sd per ogni "collegamento", il che ha consentito di ottenere un valore di "connettività":

- isolare i predittori che hanno un "accoppiamento" troppo piccolo - rumore;

- isolare i predittori che hanno un valore di "collegamento" troppo variabile. È stato possibile trovare predittori che hanno un valore di "legame" sufficientemente grande e una sd inferiore al 10%.


Ancora una volta, il problema della costruzione di un TC basato su MO è trovare predittori che abbiano un grande valore di "link" e un piccolo valore di sd quando la finestra si sposta. A mio avviso, tali predittori garantiranno la stabilità dell'errore di previsione in futuro.


Questa non è la prima volta che dico quanto sopra. Sfortunatamente, la discussione va costantemente a finire nel rumore e nel narcisismo.

Quindi, in sostanza, hai il mio stesso approccio, curioso! Solo che forse cerchiamo la "connessione" in modo diverso. Come finestre, prendo 10 trame campione e cerco la "connessione" su di esse, come fai tu?

Qual è il tuo algoritmo per trovare una connessione, puoi descriverlo?

 
СанСаныч Фоменко #:


Non è la prima volta che dico quanto sopra. Purtroppo, la discussione va costantemente alla deriva nel rumore e nel narcisismo.

sì, il vero discus va alla presentazione del dartagnan più dartagnan sullo sfondo (parola moderata) :-)

il tutto per la mancanza di risultati. Si può migliorare e cambiare il metodo, ma il risultato è come una roccia 50/50.

 
Aleksey Vyazmikin #:

Quindi in sostanza hai il mio stesso approccio, curioso! Solo che forse cerchiamo la "connessione" in modo diverso. Come finestre, prendo 10 trame campione e cerco la "connessione" su di esse, come fai tu?

Qual è il tuo algoritmo per trovare una connessione, puoi descriverlo?

Uso il mio algoritmo - funziona molto più velocemente di numerose librerie R. Per esempio,

libreria("entropia")

È possibile utilizzare semplicemente i grafici:



Tutto è stato pubblicato su questo thread. Tutto è sistematicamente descritto e masticato a livello di codice negli articoli di Vladimir Perervenko