L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 3145

 
Aleksey Nikolayev punti di divisione e il rilevamento dei punti di variazione di una serie temporale. In entrambi i casi, di solito si cerca di dividere un campione in due sottocampioni massimamente diversi.

Aggiunta. In bianco, il tempo è praticamente una caratteristica nulla.

 
Maxim Dmitrievsky #:
Lo capisco, si potrebbe anche cercare la foresta causale. A proposito, non l'ho studiata, se qualcuno la scopre sarebbe interessante leggere degli esperimenti con essa.
Non capisco l'approccio di Sanych :) lui guarda all'errore RMS. O l'RMS in una finestra scorrevole.

No. Il mio approccio riguarda le deviazioni della "capacità predittiva". Non ha nulla a che fare con la stima del modello stesso.

 
СанСаныч Фоменко #:

No. Il mio sco riguarda le deviazioni nella "capacità predittiva". Non ha nulla a che fare con la valutazione del modello stesso.

Non è solo tuo, ma di qualsiasi persona MOSH :)
La convalida incrociata è comune.
Per qualche motivo pensate di fare qualcosa di diverso.

Se stimate attraverso il MO, otterrete stime comparabili. Perché funziona bene, non è peggiore delle stime fatte in casa.

La mia conclusione si basa sulla tua descrizione.
 

Nel corso di un esperimento simile di selezione di caratteristiche informative, ho provato tutti i modi. Non è difficile. A partire da correlazione, informazione reciproca e knn, passando per OLS e SVM fino a forest, bousting e reti neurali (non ho toccato quelle profonde). Il risultato migliore è stato ottenuto con il bousting. OLS è al secondo posto.

Il ragionamento è molto semplice: se il bousting viene ridotto a un albero con una sola divisione, è possibile valutare l'informazione reciproca, l'entropia campionaria o di permutazione e in parte OLS.
 
СанСаныч Фоменко #:

No. Il mio sco riguarda le deviazioni nella "capacità predittiva". Nulla a che vedere con la valutazione del modello stesso.

È possibile che i parametri del modello saltino molto da un passo all'altro? Cioè, nonostante la buona "capacità predittiva" ad ogni passo, la dipendenza desiderata è disposta in modo molto diverso e cambia continuamente. In tal caso, potrebbe trattarsi di una forma di sovrallenamento.

 
Maxim Dmitrievsky #:
Mi sembra di capire che si potrebbe anche studiare la foresta causale. A proposito, non l'ho studiata, ma se qualcuno la conosce, sarebbe interessante leggere degli esperimenti con essa.

Sembra essere la stessa foresta casuale, ma con un'interpretazione causale. Quindi tu, in quanto divulgatore tra noi delle foreste e ora delle foreste causali, hai le carte in regola).

Tuttavia, non capisco ancora l'applicazione della causalità al trading. Una rapida ricerca su Google non mi ha aiutato a trovare applicazioni dirette, ma solo indirette, come lo studio dell'influenza delle azioni sul Forex.

 
Aleksey Nikolayev #:

Sembra essere la stessa foresta casuale, ma con un'interpretazione causale. Quindi tu, in quanto divulgatore delle foreste e dell'interpretazione causale tra noi, hai le carte in regola).

Tuttavia, non capisco ancora l'applicazione della causalità al trading. Una rapida ricerca su Google non mi ha aiutato a trovare applicazioni dirette, ma solo indirette, come lo studio dell'influenza delle azioni sul Forex.

Ci vuole un grande sforzo mentale quando si ha a che fare con l'ignoto :) non c'è nulla di simile su Google, né esistevano manuali generali chiari fino a poco tempo fa.
 
Aleksey Nikolayev #:

È possibile che di passo in passo i parametri del modello saltino molto? Cioè, nonostante una buona "prevedibilità" a ogni passo, la dipendenza desiderata è disposta in modo molto diverso e cambia continuamente. Se così fosse, potrebbe trattarsi di un tipo di sovrallenamento.

Nel mio caso è impossibile rispondere alla domanda: il modello viene riqualificato a ogni passo e naturalmente il set di caratteristiche può essere diverso a ogni passo.

L'errore di classificazione varia dal 20% al 10%. Il 25% non si è mai verificato.

 
Maxim Dmitrievsky #:

Nel corso di un esperimento simile di selezione di caratteristiche informative, ho provato tutti i modi. Non è difficile. A partire da correlazione, informazione reciproca e knn, passando per OLS e SVM fino a forest, bousting e reti neurali (non ho toccato quelle profonde). Il risultato migliore è stato ottenuto con il bousting. OLS è al secondo posto.

Il ragionamento è molto semplice: se il bousting viene ridotto a un albero con una sola divisione, è possibile valutare l'informazione reciproca, l'entropia campionaria o di permutazione e in parte OLS.

Nessuno dei suddetti algoritmi NON fornisce potere predittivo, né lo fanno centinaia di algoritmi di MO che calcolano stupidamente l'importanza, che indica la frequenza con cui l'algoritmo utilizza una caratteristica: Se si dà in pasto della spazzatura a un algoritmo MO, qualsiasi algoritmo MO calcolerà l'importanza di quella spazzatura.

 
СанСаныч Фоменко #:

Nessuno dei suddetti algoritmi fornisce potere predittivo, né lo fanno le centinaia di algoritmi di MO che calcolano stupidamente l'importanza, che indica la frequenza con cui una caratteristica viene utilizzata dall'algoritmo: Se si inserisce della spazzatura in un algoritmo MO, qualsiasi algoritmo MO calcolerà l'importanza di quella spazzatura.

L'errore di classificazione/regressione dà. Penso che sia sufficiente giocare a questi strani giochi, si gira in tondo :) E c'è una tale porta per uscire.