L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 31

 
Alexey Burnakov:

Yuri, la prima prova sui tuoi dati:

metodo funzione_perdita cv_folds borsa_frac modello_parametri AUC_cv allenamento_di_precisione convalida_di_precisione
GBM bernoulli 4 0.4 0.015_|_7_|_70_|_600 0.429659 0.590361 0.50501
GBM bernoulli 4 0.6 0.02_|_5_|_110_|_600 0.485727 0.586345 0.51503

Due diversi set di valori di parametri per l'allenamento. È degno di nota che l'AUC è al di sotto dello zoccolo sulla convalida incrociata.

Complessivamente, un'accuratezza del 51,5% sul test è il massimo che si è rivelato.

Non so nemmeno come si fa ad aggirare il 60%.

Dovremmo buttare via quella serie di predittori.

Se stupidamente prendiamo tutti gli incrementi di passo e alcuni oscillatori più di 100 predittori con più di 5000 osservazioni cioè H1 allora da tale insieme possiamo scegliere 10-15 predittori che non solo daranno meno del 40% di errore di predizione ma soprattutto non daranno un modello RIFERITO.

 
SanSanych Fomenko:

Dovremmo buttare via questa serie di predittori.

Se stupidamente prendiamo incrementi di tutto con pochi oscillatori su 100 predittori con più di 5000 osservazioni, cioè H1, da tale insieme possiamo scegliere 10-15 predittori che non solo daranno errore di predizione inferiore al 40%, ma soprattutto NON daranno un modello RIPROVATO.

Non sappiamo ancora quali caratteristiche Yuri abbia incluso nel kit. Dice che sono tutti necessari.
 

In generale, non ho mai avuto una precisione di classificazione migliore del 51,5%. Di conseguenza, anche il resto della metrica sarà vicino all'indovinare casuale.

L'equilibrio delle risposte sul test è quasi perfettamente 50/50.

Yuri, aspetto con ansia le tue rivelazioni.

 
Ho circa il 50% di previsioni corrette su test.csv, tutte poco promettenti. Sono d'accordo che il set di predittori non è molto buono, Yuri, aggiungi più indicatori standard, se il tuo modello è davvero così buono allora penso che puoi raggiungere l'80% o più di previsioni corrette con buoni predittori.
 
Alexey Burnakov:

In generale, non ho mai avuto una precisione di classificazione migliore del 51,5%. Di conseguenza, anche il resto della metrica sarà vicino all'indovinare casuale.

Le risposte equilibrate sul test sono quasi perfettamente 50/50.

Grazie per le informazioni. Se nessuno può ottenere un risultato migliore, e io stesso ho eseguito questo set di dati su Weka e anche lì è un disastro, allora è il momento di aggiornare la versione di libVMR. Il 60% di risposte corrette su tali campioni non è il limite, se si applica la nuova versione.
Alexey Burnakov:

Yuri, sto aspettando le tue rivelazioni.

Non sto nascondendo nulla. Per la vecchia versione i cui risultati ho già dato sopra, tutte le informazioni sono in accesso aperto:

Descrizione del metodo di costruzione del classificatore binario: https://sites.google.com/site/libvmr/

Codice sorgente Java con commenti: https://sourceforge.net/p/libvmr/code/HEAD/tree/trunk/

Costruzioni: https://sourceforge.net/projects/libvmr/files/

Векторная машина Решетова
  • sites.google.com
Теория и практика алгоритмов машинного обучения обладающих обобщающей способностью
 
Yuri, grazie.

C'è una cosa che non capisco. Se l'insieme è linearmente separabile, perché non prendere il solito metodo SVM? In che modo il tuo è migliore?
 
Alexey Burnakov:
Yuri, grazie.

C'è una cosa che non capisco. Se l'insieme è linearmente separabile, perché non prendere il solito metodo SVM? In che modo il tuo è migliore?

Se l'insieme è linearmente separabile, allora il numero di potenziali iperpiani di separazione è infinito. In tal caso bisogna trovare qualche criterio per identificare un iperpiano adeguato. Uno di questi criteri è stato formulato per il metodo dei vettori di riferimento nel libro: Vapnik V. N., Chervonenkis A. Y. The theory of pattern recognition. Mosca: Nauka, 1974. Più precisamente, molti criteri diversi sono considerati in questo libro.

Sia SVM che VMR sono metodi vettoriali di riferimento.

  • SVM è un metodo per ricostruire le dipendenze dai dati empirici. Il criterio è la distanza massima tra gli iperpiani di riferimento, se lo spazio è linearmente separabile. Vedi Vapnik V. N. Ricostruzione della dipendenza dai dati empirici. Mosca: Nauka, 1979.
  • VMR è un metodo per identificare le dipendenze forti e rimuovere (ridurre) quelle deboli. Il criterio è il minimox della distanza tra gli iperpiani di riferimento, indipendente dalla separabilità lineare. Cioè, VMR non recupera le dipendenze (non aggiunge nulla al modello che è noto essere mancante nel campione di allenamento), per non parlare del fatto che alcune dipendenze implicite non entrano nel modello (vengono setacciate). Più specificamente, VMR riduce l'iperspazio riducendo alcune delle caratteristiche.

Quale metodo sia migliore o peggiore può essere discusso a lungo. Tuttavia, si può prendere e controllare la generalizzabilità e poi tutto andrà a posto.

 
Yury Reshetov:

Se l'insieme è linearmente separabile, allora il numero di potenziali iperpiani di separazione è infinito. In tal caso è necessario trovare qualche criterio per identificare un iperpiano adeguato. Uno di questi criteri è stato formulato per il metodo dei vettori di riferimento nel libro: Vapnik V. N., Chervonenkis A. Y. The theory of pattern recognition. Mosca: Nauka, 1974. Più precisamente, molti criteri diversi sono considerati in questo libro.

Sia SVM che VMR sono metodi vettoriali di riferimento.

  • SVM è un metodo per ricostruire le dipendenze dai dati empirici. Il criterio è la distanza massima tra gli iperpiani di riferimento se lo spazio è linearmente separabile. Vedi Vapnik V. N. Ricostruzione della dipendenza dai dati empirici. Mosca: Nauka, 1979.
  • VMR è un metodo per identificare le dipendenze forti e rimuovere (ridurre) quelle deboli. Il criterio è il minimox della distanza tra gli iperpiani di riferimento, indipendentemente dalla separabilità lineare. Cioè, VMR non recupera le dipendenze (non aggiunge nulla al modello che è noto essere mancante nel campione di allenamento), per non parlare del fatto che alcune dipendenze implicite non entrano nel modello (vengono setacciate). Più specificamente, VMR riduce l'iperspazio riducendo alcune delle caratteristiche.

Quale metodo sia migliore o peggiore può essere discusso a lungo. Tuttavia, è possibile prendere e controllare la capacità di generalizzazione, e allora tutto starà sui luoghi.

I problemi dovrebbero essere risolti man mano che arrivano, e mettere il carro (modello) prima del cavallo (predittori) è un esercizio assolutamente inutile. Tanto più per confrontare i carri, quando non si sa cosa vi sia imbrigliato e se sia imbrigliato del tutto.

Prima di applicare qualsiasi tipo di modello è necessario ripulire la lista dei predittori dal rumore, lasciando solo i predittori che sono "rilevanti" per la variabile obiettivo. Se questo non viene fatto, si può facilmente scivolare nella costruzione di modelli basati sugli anelli di Saturno, i fondi di caffè e altri predittori che sono stati ampiamente utilizzati nella pratica per diverse centinaia di anni.

IlDr. Trader ha cercato di fare il lavoro di rimozione del rumore dal suo set di predittori.

Il risultato è negativo.

Penso che la ragione del risultato negativo sia il piccolo numero di osservazioni con un numero molto grande di predittori. Ma questa è la direzione in cui scavare prima di applicare QUALSIASI modello.

 
Yury Reshetov:

Se l'insieme è linearmente separabile, allora il numero di potenziali iperpiani di separazione è infinito. In tal caso è necessario trovare qualche criterio per identificare un iperpiano adeguato. Uno di questi criteri è stato formulato per il metodo dei vettori di riferimento nel libro: Vapnik V. N., Chervonenkis A. Y. The theory of pattern recognition. Mosca: Nauka, 1974. Più precisamente, molti criteri diversi sono considerati in questo libro.

Sia SVM che VMR sono metodi vettoriali di riferimento.

  • SVM è un metodo per ricostruire le dipendenze dai dati empirici. Il criterio è la distanza massima tra gli iperpiani di riferimento se lo spazio è linearmente separabile. Vedi Vapnik V. N. Ricostruzione della dipendenza dai dati empirici. Mosca: Nauka, 1979.
  • VMR è un metodo per identificare le dipendenze forti e rimuovere (ridurre) quelle deboli. Il criterio è il minimox della distanza tra gli iperpiani di riferimento, indipendentemente dalla separabilità lineare. Cioè, VMR non recupera le dipendenze (non aggiunge nulla al modello che è noto essere mancante nel campione di allenamento), per non parlare del fatto che alcune dipendenze implicite non entrano nel modello (vengono setacciate). Più specificamente, VMR riduce l'iperspazio riducendo alcune delle caratteristiche.

Quale metodo sia migliore o peggiore può essere discusso a lungo. Tuttavia, è possibile prendere e controllare la capacità di generalizzazione, e allora tutto starà sui luoghi.

Yury, grazie. Ci penserò.

Abbiamo una domanda. Come avete selezionato i predittori?
 



Sfortunatamente, non posso calcolare Sharpe e simili in R, poiché ho 49 campioni casuali che, se sovrapposti, non ricostruiscono la sequenza degli scambi.


R ha tutto il necessario. Vedere fTrading::sharpeRatio.

Oh, e anche PerformanceAnalitics non sarebbe male dare un'occhiata.

Buona fortuna