L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 87

 
SanSanych Fomenko:

Tutti i pacchetti (modelli) possono essere divisi in due categorie:

  • fondamentalmente buono
  • non si adattano in linea di principio.

Le prestazioni di quei pacchetti che sono "fondamentalmente buoni" sono circa le stesse, le differenze non sono significative.

Il problema non è il modello, ma l'insieme dei predittori e il loro precondizionamento. Se prendiamo un certo insieme di predittori, la possibilità di costruire un modello NON sovrallenato, così come la grandezza dell'errore è poco dipendente dal cambiamento del modello. Quindi si dovrebbe prendere il modello più semplice e veloce tra quelli che "in linea di principio si adattano".

PS.

Dalla mia esperienza personale. A me più del 75% dell'input di lavoro nella costruzione del TS è la selezione dei predittori, se a tutti riesce a raccogliere un tale insieme per una particolare variabile obiettivo.

San Sanych, salve.

E se con il tuo metodo per 3 intervalli di dati che non si intersecano si ottengono valori predittivi diversi, allora sono non stazionari (rumore ecc.) dovremmo seguire?

 
SanSanych Fomenko:

Tutti i pacchetti (modelli) possono essere divisi in due categorie:

  • fondamentalmente buono
  • non si adattano in linea di principio.

Le prestazioni di quei pacchetti che sono "fondamentalmente buoni" sono circa le stesse, le differenze non sono significative.

Il problema non è il modello, ma l'insieme dei predittori e il loro precondizionamento. Se prendiamo un certo insieme di predittori, la possibilità di costruire un modello NON sovrallenato, così come la grandezza dell'errore è poco dipendente dal cambiamento del modello. Quindi si dovrebbe prendere il modello più semplice e veloce tra quelli che "in linea di principio si adattano".

PS.

Dalla mia esperienza personale. A me più del 75% dell'input di lavoro nella costruzione di TC è la selezione dei predittori, se è possibile scegliere un tale insieme per una particolare variabile obiettivo.

Quali modelli, di cosa stai parlando ... è come una persona che chiede "che ora è?". e la risposta è "cosa vuoi che balli?". :)

Mai, per favore, mai più, è più facile scrivere 10 righe di testo che leggere due righe di domande

 
mytarmailS:

Forse qualcuno sarà interessato, ho trovato un pacchetto che può simulare il trading e costruire sistemi di trading chiamato quantstrat

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

repost
 
Alexey Burnakov:

San Sanych, ciao.

Ma se con la tua metodologia otteniamo diversi valori del predittore su 3 segmenti di dati non intersecanti in allenamento, allora sono non stazionari (rumore ecc.) dovremmo seguire?

La significatività dei predittori si ottiene solo una volta - quando il modello viene addestrato. Allora questo modello è APPLICABILE, non addestrabile.
 
SanSanych Fomenko:
La rilevanza dei predittori si ottiene solo una volta - quando il modello viene addestrato. Allora quel modello è APPLICABILE, non insegnato.
Bisogna insegnarlo più volte, se ricordo bene?
 
Alexey Burnakov:
Bisogna insegnarlo più volte, se ricordo bene?

Impossibile!

Ancora una volta.

1. prendiamo una grande quantità di predittori di serie temporali, per esempio 10 000 osservazioni (linee).

2. Lo dividiamo in due parti, rigorosamente meccaniche: 7000 prima parte e 3000 seconda parte.

3. Dividiamo la prima parte in tre parti a caso: per l'addestramento, il test e la validazione

4. Insegniamo (fit - adattamento) il modello sul campione di allenamento.

5. Applicare il modello addestrato ai campioni di test e di convalida.

6. Se su tutti e tre i campioni - training, testing e validazione - l'errore è approssimativamente uguale, allora la clausola 7.

7. Applicare il modello sulla seconda parte, che è una serie temporale ininterrotta nella sua sequenza temporale.

8. Se l'errore anche su questa parte è più o meno uguale ai tre precedenti, allora:

  • questo insieme di predittori non porta al retraining del modello
  • l'errore ottenuto su tutti i QUATTRO set (tre casuali e uno sequenziale) ed è un errore che è molto difficile da ridurre con il model fitting.
Le mie prestazioni di errore dei modelli sono le seguenti: ada, randomforest, SVM e le loro molte varietà. nnet è molto peggio.

 
SanSanych Fomenko:

Impossibile!

Ancora una volta.

1. prendere un gran numero di predittori di serie temporali, ad esempio 10.000 osservazioni (righe)

2. Lo dividiamo in due parti, rigorosamente meccaniche: 7000 prima parte e 3000 seconda parte.

3. Dividiamo la prima parte in tre parti a caso: per l'addestramento, il test e la validazione

4. Insegniamo (fit - adattamento) il modello sul campione di allenamento.

5. Applicare il modello addestrato ai campioni di test e di convalida.

6. Se su tutti e tre i campioni - training, testing e validazione - l'errore è approssimativamente uguale, allora la clausola 7.

7. Applicare il modello sulla seconda parte, che è una serie temporale ininterrotta nella sua sequenza temporale.

8. Se l'errore anche su questa parte è più o meno uguale ai tre precedenti, allora:

  • questo insieme di predittori non porta al retraining del modello
  • l'errore che è stato ottenuto su tutti i QUATTRO set (tre casuali e uno sequenziale) ed è un errore che è molto difficile da ridurre con il model fitting.
Le mie prestazioni di errore dei modelli sono le seguenti: ada, randomforest, SVM e le loro molte varietà. nnet è molto peggio.

Ecco a voi. Grazie.

Ho risultati molto migliori sull'allenamento che su altri campioni. E nella convalida incrociata il risultato è molto più vicino a quello finale fuori campione.

Penso che la tua tesi di errori uguali su tutti i campioni parli del modello underfit. Cioè, è lo stesso ovunque.
 
Alexey Burnakov:
.... Cioè, ovunque è ugualmente così così.

Così così è solo una mancanza di cervello e di tempo.

Bisogna iniziare con la variabile obiettivo e poi selezionare i predittori per essa, e poi ricontrollare con la matematica, o così. Comunque, il processo è lento e non posso formalizzarlo.

 
SanSanych Fomenko:

Così così - solo non abbastanza cervello e tempo.

Bisogna iniziare con la variabile obiettivo, e poi bisogna abbinarla ai predittori, e poi ricontrollarli con la matematica, per così dire. In ogni caso, il processo è doloroso e non formalizzabile per me.

Soprattutto in termini di significato è tortuoso. Non è quello che voglio dire.

Se si è ugualmente bravi dappertutto, è una conquista. Ma il più delle volte sarà ugualmente cattivo, cosa che un modello debole permette di ottenere.
 
il thread sembra essere morto....