Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 91

 

um pacote que seleciona os BPs que podem ser previstos e aqueles que não podem, se eu entender corretamente

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

ForeCA: Forecastable Component Analysis
  • 2012.05.22
  • Georg
  • www.gmge.org
Forecastable component analysis (ForeCA) is a novel dimension reduction (DR) technique to find optimally forecastable signals from multivariate time series (published at JMLR). ForeCA works similar to PCA or ICA, but instead of finding high-variance or statistically independent components, it finds forecastable linear combinations. ForeCA is...
 
Vizard_:
E a todos os que chegam. No arquivo da z1 há dois arquivos de treinamento e teste. Para o modelo Target build on train, aplicar ao teste, pós resultados em % (previsto com sucesso
de casos) para ambas as amostras (comboio = xx%, teste = xx%). Métodos e modelos não precisam de ser anunciados, apenas números. Qualquer manipulação de dados é permitida.
e métodos de mineração.

1. Todos os seus preditores não têm poder de previsão - todos sem excepção são ruído

2. Foram construídos três modelos: rf, ada, SVM. Aqui estão os resultados

rf

Chamada:

randomForest(fórmula = TFC_Target ~ ,

data = crs$dataset[crs$sample, c(crs$input, crs$target)],

ntree = 500, mtry = 3, importance = TRUE, replace = FALSE, na.action = randomForest::na.roughfix)


Tipo de floresta aleatória: classificação

Número de árvores: 500

Nº de variáveis tentadas em cada divisão: 3


OOB estimativa da taxa de erro: 49,71%

Matriz de confusão:

[0, 0] (0, 1] class.error

[0, 0] 197 163 0.4527778

(0, 1] 185 155 0.5441176

ada

Chamada:

ada(TFC_Target ~ ., data = crs$dataset[crs$train, c(crs$input,

crs$target)], control = rpart::rpart.control(maxdepth = 30,

cp = 0,01, minsplit = 20, xval = 10), iter = 50)


Perda: Método exponencial: Iteração discreta: 50


Matriz de Confusão Final para Dados:

Predição Final

Valor real (0,1] [0,0] [0,0

(0,1] 303 37

[0,0] 29 331


Erro do trem: 0.094


Erro de Fora do Saco: 0,157 iteração= 50

SVM

Resumo do modelo SVM (construído usando ksvm):


Suporte Vector Machine objeto da classe "ksvm"


Tipo SV: C-svc (classificação)

parâmetro : custo C = 1


Função do núcleo da Base Radial Gaussiana.

Hiperparâmetro : sigma = 0,12775132444179


Número de Vectores de Suporte : 662


Objetivo Função Valor : -584.3646

Erro de treino : 0.358571

Modelo de probabilidades incluído.


Tempo de espera: 0,17 segundos.

No conjunto de teste (quero dizer chocalhar, não no seu)

Matriz de erros para o modelo Ada Boost em test.csv [validar] (conta):


Previsto

Real (0,1] [0,0] [0,0

[0,0] 33 40

(0,1] 35 42


Matriz de erros para o modelo Ada Boost em test.csv [validar] (proporções):


Previsto

Actual (0,1] [0,0] Erro

[0,0] 0.22 0.27 0.55

(0,1] 0.23 0.28 0.45


Erro geral: 50%, Erro de classe média: 50%


Horário de funcionamento: 2016-08-08-08 15:48:15 usuário

======================================================================

Matriz de erros para o modelo Random Forest em test.csv [validar] (conta):


Previsto

Real [0,0] (0,1] (0,2)

[0,0] 44 29

(0,1] 44 33


Matriz de erros para o modelo Random Forest em test.csv [validar] (proporções):


Previsto

Actual [0,0] (0,1] Erro

[0,0] 0.29 0.19 0.40

(0,1] 0.29 0.22 0.57


Erro geral: 49%, Erro de classe média: 48%.


Horário de funcionamento: 2016-08-08-08 15:48:15 usuário

======================================================================

Matriz de erros para o modelo SVM em test.csv [validar] (conta):


Previsto

Real [0,0] (0,1] (0,2)

[0,0] 41 32

(0,1] 45 32


Matriz de erros para o modelo SVM em test.csv [validar] (proporções):


Previsto

Actual [0,0] (0,1] Erro

[0,0] 0.27 0.21 0.44

(0,1] 0.30 0.21 0.58


Erro geral: 51%, Erro de classe média: 51%


Horário de funcionamento: 2016-08-08-08 15:48:15 usuário

Análise ROC para floresta aleatória

Confirma o acima exposto.

Conclusão.

O seu conjunto de preditores é inútil.

 
Alexey Burnakov:Então treinamos até ficar azul na cara com o melhor modelo no trem. Talvez dois ou três modelos. Depois o seu teste de uma vez.
Sim, é exatamente isso que diz nas condições (construir um modelo em trem, aplicá-lo em teste).
 
mytarmailS:

um pacote que pode selecionar BPs que podem ser previstas e que não podem, se eu entender corretamente

Eu li, da descrição é um pacote muito bom (ForeCA, está até no repositório R, não há necessidade de baixar nada do githab). A principal característica é que ele classifica a "previsibilidade" dos dados.
E mais isto, que também é importante, pode ser aplicado para reduzir a dimensionalidade dos dados. Ou seja, dos preditores existentes, este pacote fará dois novos, com uma previsibilidade surpreendentemente boa. Ao mesmo tempo, eliminará o lixo, etc. Faz-me lembrar o Método dos Componentes Principais, mas em vez de componentes, fará algo próprio.

Muito simples - dê a este pacote uma tabela com muitos preditores (preços, indicadores, deltas, lixo, etc.). ForeCA dará uma nova mesa em vez da mesa original. Esta nova tabela é utilizada para treinar modelos de previsão (gbm, rf, nnet, etc.).
Se um pouco mais complicado, este é outro pacote de transformação nuclear de dados, com um viés no mercado de ações.

Parece tudo óptimo, directo, mesmo demasiado bom, vou ter de o verificar.

 
mytarmailS:

um pacote que seleciona os BPs que podem ser previstos e aqueles que não podem, se eu entender corretamente

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

Extremamente curioso.

O pacote está instalado, a documentação está disponível.

Talvez alguém experimente e afixe o resultado?

 
Dr. Trader:

Eu li, da descrição é um pacote muito bom (ForeCA, está até no repositório R, não há necessidade de baixar algo do githab). A principal característica é que ele classifica a "previsibilidade" dos dados.
E mais isto, que também é importante, pode ser aplicado para reduzir a dimensionalidade dos dados. Ou seja, dos preditores existentes, este pacote fará dois novos, com uma previsibilidade surpreendentemente boa. Ao mesmo tempo, eliminará o lixo, etc. Faz-me lembrar o Método dos Componentes Principais, mas em vez de componentes, fará algo próprio.

Muito simples - dê a este pacote uma tabela com muitos preditores (preços, indicadores, deltas, lixo, etc.). ForeCA dará uma nova mesa em vez da mesa original. Esta nova tabela é utilizada para treinar modelos de previsão (gbm, rf, nnet, etc.).
Se um pouco mais complicado, este é outro pacote de transformação nuclear de dados, com um viés para o mercado de ações.

Parece tudo óptimo, directo, mesmo demasiado bom, vou ter de o verificar.

Isso não exigiria uma pré-selecção?

Pessoal, continuem com isso!

 
SanSanych Fomenko:

Conclusão.

O seu conjunto de preditores é inútil.

OK)))) mas leia atentamente as condições -
"pós resultados em % (casos previstos com sucesso) para ambas as amostras (trem = xx%, teste = xx%). Não há necessidade de especificar métodos e modelos, apenas números".
Estamos à espera de mais resultados. Pergunto-me que conclusões tirará Mihail Marchukajtes.
 
Vizard_:
OK)))) mas leia atentamente as condições -
"pós resultados em % (casos previstos com sucesso) para ambas as amostras (trem = xx%, teste = xx%). Não há necessidade de especificar métodos e modelos, apenas números".
Estamos à espera de mais resultados. Pergunto-me que conclusões tirará Mihail Marchukajtes.

O teste é desnecessário!

O modelo não pode ser treinado! Não se pode testar um espaço vazio.

 
Deixe-me tentar..... Apenas serra....
 
Dr. Trader:

Eu li a descrição e parece ser um pacote muito bom (ForeCA, ..............

Não entendo como é calculada esta "previsibilidade" e se faz algum sentido se o alvo não for levado em conta.