L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 655

 
Ildottor Trader:

Anch'io ci ho pensato molto.

Se il modello di regressione predice i guadagni di prezzo per barra e il punteggio R2 è superiore a zero su fronttest e backtest, questo è già un buon inizio. Il problema è che il risultato, anche se stabile, è piccolo, lo spread non può essere battuto.

Analiticamente, il problema è che R2 penalizza il modello più pesantemente per i grandi errori e ignora i piccoli errori e le direzioni sbagliate degli scambi. Se guardate la distribuzione dei guadagni, la maggior parte dei movimenti di prezzo sono solo un paio di pip. E il modello, invece di prevedere la direzione corretta di questi piccoli movimenti, impara a prevedere le code lunghe della distribuzione per le quali otterrà un R2 più alto. Di conseguenza, il modello può in qualche modo prevedere i grandi movimenti ma su quelli piccoli sbaglia sempre la direzione e perde lo spread.

Conclusione - le stime di regressione standard per il forex sono cattive. È necessario creare una funzione di fitness di qualche tipo, in modo che vengano prese in considerazione entrambe le direzioni degli scambi, così come lo spread e la precisione. Allora anche con una precisione di poco più del 50% c'è una possibilità di guadagno.
La precisione, il rapporto Sharp, il fattore di recupero e altre funzioni che analizzano i grafici commerciali sono troppo discreti, la neuronica con un backprop standard non uscirà dal minimo locale e non può imparare correttamente.

Una conclusione alternativa è quella di ignorare completamente i segnali deboli del neurone. Commercio solo su quelli forti. Il problema è che possiamo sempre definire la soglia che dà buoni risultati sul backtest, ma non darà buoni risultati sul fronttest. Anche qui, dobbiamo pensare a qualcosa.

Eppure, l'idea stessa di usare modelli di regressione per l'apprendimento automatico sembra molto discutibile. E soprattutto per la previsione incrementale. E doppiamente per i NS, che sono nel senso di una scatola nera con alcuni strati e perseptroni. Che significato economico o statistico hanno queste parole?

Dopo tutto, non è per niente che i modelli GARCH sono utilizzati per gli incrementi. e sono i più comuni al momento. L'idea di base di superare la non stazionarietà decomponendo le serie non stazionarie in componenti, che hanno un senso economico e statistico abbastanza significativo, è molto attraente.


In GARCH il modello consiste nei seguenti passi:

  • La serie originale è detrenderizzata dal logaritmo (abbassando l'effetto degli outlier) del rapporto tra barre vicine.
  • poiché di solito non ci si può liberare completamente della non stazionarietà, allora
  • modellare la tendenza rimanente (ARIMA)
  • modello sfumature di ARCH
  • modellare la distribuzione degli incrementi.

Tutto un lavoro significativo e denso di significato.

Se aggiungiamo la possibilità di aggiungere regressori esterni, otteniamo uno strumento abbastanza ricco, purtroppo estremamente vario e quindi laborioso.

 
ARIMA+GARCH Trading Strategy on the S&P500 Stock Market Index Using R | QuantStart
ARIMA+GARCH Trading Strategy on the S&P500 Stock Market Index Using R | QuantStart
  • www.quantstart.com
In this article I want to show you how to apply all of the knowledge gained in the previous time series analysis posts to a trading strategy on the S&P500 US stock market index. We will see that by combining the ARIMA and GARCH models we can significantly outperform a "Buy-and-Hold" approach over the long term. Strategy Overview The idea of the...
 
SanSanych Fomenko:

  • la serie originale è detrenderizzata dal logaritmo(abbassando l'influenza delle emissioni) del rapporto delle barre vicine.

su quale base?

 
SanSanych Fomenko:

Eppure, l'idea stessa di usare modelli di regressione per l'apprendimento automatico sembra molto discutibile. E questo è particolarmente vero per la previsione incrementale. E doppiamente per i NS, che sono nel senso di una scatola nera con alcuni strati e perseptroni. Che significato economico o statistico hanno queste parole?

Dopo tutto, non è per niente che i modelli GARCH sono utilizzati per gli incrementi. e sono i più comuni al momento. L'idea di base di sconfiggere la non stazionarietà decomponendo una serie non stazionaria in componenti che hanno un significato economico e statistico abbastanza significativo è molto attraente.

Ti sbagli SanSanych. NS è una specie di equivalente della logica fuzzy. Imparabile. Personalmente, non ci vedo nulla di misterioso. Si possono usare altre analogie.

Bene, e la non stazionarietà. Qualsiasi processo, se scomposto in pezzi, diventerà non stazionario, e se non lo è, non sarà casuale.

A proposito, dall'aspetto delle distribuzioni su diversi tratti lunghi (diversi oltre 3 mesi) non ho notato alcuna differenza significativa tra i due.

Per quanto riguarda il senso economico - beh, non lo so. Presumo che il mercato sia casuale per l'osservatore. Che sia effettivamente casuale o meno non ha molta importanza. La parola chiave qui è per l'osservatore.

 

Lei è un uomo interessante! Si scopre che tu sai tutto!

 
Maxim Dmitrievsky:

su quale base?

Ho il registro, che differenza fa?

 
SanSanych Fomenko:

Ho il registro, che differenza fa?

Perché il logaritmo in questo caso non elimina gli outlier: il calcolo degli incrementi con n-lag elimina gli outlier.

il logaritmo centra semplicemente il grafico rispetto a 0

e per sbarazzarsi degli outlier per logaritmo, bisogna introdurre una scala logaritmica.

incrementi semplici

logaritmo degli incrementi (naturale)


 
Maxim Dmitrievsky:

perché il logaritmo in questo caso non evita gli outlier: calcolando gli incrementi con n-lag si evitano gli outlier

Il logaritmo centra semplicemente il grafico rispetto a 0.

e per sbarazzarsi di outlier per logaritmo è necessario introdurre una scala logaritmica

incrementi semplici

logaritmo degli incrementi (naturale).


Le emissioni sono una cosa complicata. Le emissioni troppo grandi sono meglio sostituite da un massimo più accettabile.

Non è possibile sbarazzarsi completamente delle emissioni. Ma per minimizzare il loro impatto sulla distribuzione non solo può e deve essere fatto da logaritmo.

> summary(diff(eur))
     Index                       diff(eur)         
 Min.   :2016-01-04 00:00:00   Min.   :-0.0230100  
 1 st Qu.:2016-04-14 19:00:00   1 st Qu.:-0.0005300  
 Median :2016-07-27 12:00:00   Median : 0.0000100  
 Mean   :2016-07-27 12:01:14   Mean   :-0.0000036  
 3 rd Qu.:2016-11-08 06:00:00   3 rd Qu.: 0.0005200  
 Max.   :2017-02-17 23:00:00   Max.   : 0.0143400  


> summary((diff(eur, log=T)))
     Index                     (diff(eur, log = T))
 Min.   :2016-01-04 00:00:00   Min.   :-0.0206443  
 1st Qu.:2016-04-14 19:00:00   1st Qu.:-0.0004810  
 Median :2016-07-27 12:00:00   Median : 0.0000090  
 Mean   :2016-07-27 12:01:14   Mean   :-0.0000034  
 3rd Qu.:2016-11-08 06:00:00   3rd Qu.: 0.0004755  
 Max.   :2017-02-17 23:00:00   Max.   : 0.0127862  
                               NA's   :1


Se prendiamo un caso ipotetico con le citazioni adiacenti 10 e 2

10/2 = 5

log (10/2) = 0,69

 
Maxim Dmitrievsky:

Perché il logaritmo in questo caso non evita gli outlier: calcolando gli incrementi con n-lag si evitano gli outlier.



n-lag è un aumento di TF, e maggiore è il TF, maggiore è l'incremento.

Il tuo lag 50 è n8, solo più preciso nel senso che il tuo TF=8 ore inizia ogni minuto, a differenza del grafico regolare.

 
SanSanych Fomenko:

Le emissioni sono una cosa complicata. È meglio sostituire le emissioni troppo alte con un massimo più accettabile.

Non è possibile sbarazzarsi completamente delle emissioni. Ma non è solo possibile ma necessario ridurre la loro influenza sulla distribuzione e lo si fa con il logaritmo.



Se prendiamo un caso ipotetico con le citazioni adiacenti 10 e 2

10/2 = 5

log (10/2) = 0,69

bene, avete trovato la potenza di e per ottenere il valore dell'incremento iniziale

ma non ti sei sbarazzato degli outlier.

Ho citato 2 immagini sopra