L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 91

 

un pacchetto che seleziona i BP che possono essere previsti e quelli che non possono, se ho capito bene

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

ForeCA: Forecastable Component Analysis
  • 2012.05.22
  • Georg
  • www.gmge.org
Forecastable component analysis (ForeCA) is a novel dimension reduction (DR) technique to find optimally forecastable signals from multivariate time series (published at JMLR). ForeCA works similar to PCA or ICA, but instead of finding high-variance or statistically independent components, it finds forecastable linear combinations. ForeCA is...
 
Vizard_:
E tutti quelli che arrivano. Nell'archivio z1 ci sono due file train e test. Per Target costruire il modello sul treno, applicare al test, pubblicare i risultati in % (previsto con successo
di casi) per entrambi i campioni (treno = xx%, test = xx%). Non è necessario annunciare metodi e modelli, ma solo numeri. Qualsiasi manipolazione dei dati è permessa
e metodi di estrazione.

1. Tutti i tuoi predittori non hanno potere predittivo - tutti senza eccezione sono rumore

2. Sono stati costruiti tre modelli: rf, ada, SVM. Ecco i risultati

rf

Chiama:

randomForest(formula = TFC_Target ~ ,

data = crs$dataset[crs$sample, c(crs$input, crs$target)],

ntree = 500, mtry = 3, importance = TRUE, replace = FALSE, na.action = randomForest::na.roughfix)


Tipo di foresta casuale: classificazione

Numero di alberi: 500

No. di variabili provate ad ogni split: 3


Stima OOB del tasso di errore: 49,71%

Matrice di confusione:

[0, 0] (0, 1) class.error

[0, 0] 197 163 0.4527778

(0, 1] 185 155 0.5441176

ada

Chiama:

ada(TFC_Target ~ ., data = crs$dataset[crs$train, c(crs$input,

crs$target)], control = rpart::rpart.control(maxdepth = 30,

cp = 0,01, minsplit = 20, xval = 10), iter = 50)


Perdita: esponenziale Metodo: discreto Iterazione: 50


Matrice di confusione finale per i dati:

Previsione finale

Valore vero (0,1) [0,0]

(0,1] 303 37

[0,0] 29 331


Errore del treno: 0,094


Errore Out-Of-Bag: 0,157 iterazione= 50

SVM

Sintesi del modello SVM (costruito usando ksvm):


Oggetto "Support Vector Machine" di classe "ksvm


Tipo SV: C-svc (classificazione)

parametro: costo C = 1


Funzione kernel Gaussian Radial Basis.

Iperparametro: sigma = 0.12775132444179


Numero di vettori di supporto: 662


Valore della funzione obiettivo: -584.3646

Errore di formazione: 0,358571

Modello di probabilità incluso.


Tempo impiegato: 0,17 secondi.

Sul set di prova (intendo rattle, non il vostro)

Matrice di errore per il modello Ada Boost su test.csv [validare] (conteggi):


Previsto

Attuale (0,1) [0,0]

[0,0] 33 40

(0,1] 35 42


Matrice di errore per il modello Ada Boost su test.csv [validare] (proporzioni):


Previsto

Attuale (0,1) [0,0] Errore

[0,0] 0.22 0.27 0.55

(0,1] 0.23 0.28 0.45


Errore complessivo: 50%, errore medio di classe: 50%


Rattle timestamp: 2016-08-08 15:48:15 utente

======================================================================

Matrice di errore per il modello Random Forest su test.csv [validare] (conteggi):


Previsto

Attuale [0,0] (0,1)

[0,0] 44 29

(0,1] 44 33


Matrice di errore per il modello Random Forest su test.csv [validare] (proporzioni):


Previsto

Attuale [0,0] (0,1) Errore

[0,0] 0.29 0.19 0.40

(0,1] 0.29 0.22 0.57


Errore complessivo: 49%, errore medio di classe: 48%.


Rattle timestamp: 2016-08-08 15:48:15 utente

======================================================================

Matrice di errore per il modello SVM su test.csv [validare] (conteggi):


Previsto

Attuale [0,0] (0,1)

[0,0] 41 32

(0,1] 45 32


Matrice di errore per il modello SVM su test.csv [validare] (proporzioni):


Previsto

Attuale [0,0] (0,1) Errore

[0,0] 0.27 0.21 0.44

(0,1] 0.30 0.21 0.58


Errore complessivo: 51%, errore medio di classe: 51%


Rattle timestamp: 2016-08-08 15:48:15 utente

Analisi ROC per randomforest

Conferma quanto detto sopra.

Conclusione.

Il vostro set di predittori è senza speranza.

 
Alexey Burnakov:Quindi ci alleniamo fino a diventare blu in faccia con il miglior modello in treno. Forse due o tre modelli. Poi il loro test unico.
Sì, è esattamente quello che dice nelle condizioni (costruire un modello in treno, applicarlo in test).
 
mytarmailS:

un pacchetto che può selezionare i BP che possono essere previsti e quelli che non possono, se ho capito bene

L'ho letto, dalla descrizione è un ottimo pacchetto (ForeCA, è anche nel repository R, non c'è bisogno di scaricare nulla da githab). La caratteristica principale è che valuta la "prevedibilità" dei dati.
E in più questo, che è anche importante, può essere applicato per ridurre la dimensionalità dei dati. Cioè, dai predittori esistenti questo pacchetto ne farà due nuovi, con una prevedibilità sorprendentemente buona. Allo stesso tempo eliminerà la spazzatura, ecc. Mi ricorda il Principal Component Method, ma invece di componenti farà qualcosa di suo.

Molto semplicemente - date a questo pacchetto una tabella con molti predittori (prezzi, indicatori, delta, spazzatura, ecc.). ForeCA darà una nuova tabella al posto di quella originale. Questa nuova tabella è usata per addestrare il modello predittivo (gbm, rf, nnet, ecc.).
Su una nota un po' più complicata, questo è un altro pacchetto di conversione di dati nucleari, con un orientamento al mercato azionario.

Sembra tutto fantastico, diretto, anche troppo, dovrò controllarlo.

 
mytarmailS:

un pacchetto che seleziona i BP che possono essere previsti e quelli che non possono, se ho capito bene

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

Estremamente curioso.

Il pacchetto è installato, la documentazione è disponibile.

Forse qualcuno lo proverà e pubblicherà il risultato?

 
Dr.Trader:

L'ho letto, dalla descrizione è un ottimo pacchetto (ForeCA, è anche nel repository R, non c'è bisogno di scaricare qualcosa da githab). La caratteristica principale è che valuta la "prevedibilità" dei dati.
E in più questo, che è anche importante, può essere applicato per ridurre la dimensionalità dei dati. Cioè, dai predittori esistenti questo pacchetto ne farà due nuovi, con una prevedibilità sorprendentemente buona. Allo stesso tempo eliminerà la spazzatura, ecc. Mi ricorda il Principal Component Method, ma invece di componenti farà qualcosa di suo.

Molto semplicemente - date a questo pacchetto una tabella con molti predittori (prezzi, indicatori, delta, spazzatura, ecc.). ForeCA darà una nuova tabella al posto di quella originale. Questa nuova tabella è usata per addestrare il modello predittivo (gbm, rf, nnet, ecc.).
Se un po' più complicato, questo è un altro pacchetto per la trasformazione nucleare dei dati, con una preferenza per il mercato azionario.

Sembra tutto fantastico, semplice, anche troppo fantastico, dovrò controllare.

Non sarebbe necessaria una preselezione?

Ragazzi, andate avanti!

 
SanSanych Fomenko:

Conclusione.

Il vostro set di predittori è senza speranza.

OK)))) ma leggete attentamente le condizioni -
"post risultati in % (casi predetti con successo) per entrambi i campioni (treno = xx%, test = xx%). Non c'è bisogno di specificare metodi e modelli, solo numeri".
Stiamo aspettando altri risultati. Mi chiedo quali conclusioni trarrà Mihail Marchukajtes.
 
Vizard_:
OK)))) ma leggete attentamente le condizioni -
"post risultati in % (casi predetti con successo) per entrambi i campioni (treno = xx%, test = xx%). Non c'è bisogno di specificare metodi e modelli, solo numeri".
Stiamo aspettando altri risultati. Mi chiedo quali conclusioni trarrà Mihail Marchukajtes.

il test non è necessario!

Il modello non può essere addestrato! Non si può testare uno spazio vuoto.

 
Lasciami provare..... Appena visto....
 
Dr.Trader:

Ho letto la descrizione e sembra un ottimo pacchetto (ForeCA, ..............

Non capisco come si calcola questa "prevedibilità" e se ha un senso se non si tiene conto dell'obiettivo