Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3009

 
СанСаныч Фоменко #:
Mas o mais importante é que deve haver uma prova teórica de que o poder preditivo dos recursos disponíveis não muda, ou muda pouco, no futuro. Em todo o rolo compressor, esse é o aspecto mais importante.

Infelizmente, ninguém descobriu isso, caso contrário, ele não estaria aqui, mas em ilhas tropicais))))

SanSanych Fomenko #: Na minha opinião, o modelo desempenha um papel extremamente pequeno, porque não tem relação com a estabilidade da capacidade preditiva das características: a estabilidade da capacidade preditiva é uma propriedade do par "professor-característica".

Sim. Até mesmo uma árvore ou regressão pode encontrar um padrão se ele estiver lá e não mudar.

SanSanych Fomenko #:

1. Alguém mais tem um par professor-traço com menos de 20% de erro de classificação?

É fácil. Posso gerar dezenas de conjuntos de dados. Só agora estou investigando TP=50 e SL=500. Há uma média de 10% de erro na marcação do professor. Se for de 20%, será um modelo de ameixa.
Portanto, o ponto não está no erro de classificação, mas no resultado da soma de todos os lucros e perdas.

Como você pode ver, o modelo superior tem um erro de 9,1%, e você pode ganhar algo com um erro de 8,3%.
Os gráficos mostram apenas o OOS, obtido pelo Walking Forward com retreinamento uma vez por semana, um total de 264 retreinamentos em 5 anos.
É interessante que o modelo funcionou em 0 com um erro de classificação de 9,1% e 50/500 = 0,1, ou seja, deveria ser 10%. Acontece que 1% comeu o spread (mínimo por barra, o real será maior).

 

Primeiro, você precisa perceber que o modelo está cheio de lixo em seu interior...

Se você decompor um modelo de madeira treinado nas regras internas e nas estatísticas sobre essas regras.

como :

     len  freq   err                                                                                 condition pred
315    3 0.002 0.417    X[,1]>7.49999999999362e-05 & X[,2]<=-0.00026499999999996 & X[,4]<=0.000495000000000023    1
483    3 0.000 0.000     X[,1]<=0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000685000000000047    1
484    3 0.002 0.273      X[,1]>0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000685000000000047   -1
555    3 0.001 0.333   X[,5]<=0.000329999999999941 & X[,7]>0.000309999999999921 & X[,8]<=-0.000144999999999951   -1
687    3 0.001 0.250 X[,2]<=-0.00348499999999996 & X[,7]<=-0.000854999999999939 & X[,9]<=-4.99999999999945e-05    1
734    3 0.003 0.000    X[,7]>-0.000854999999999939 & X[,8]>0.000724999999999865 & X[,9]<=0.000214999999999965    1
1045   3 0.003 0.231   X[,1]<=-0.000310000000000032 & X[,4]>0.000105000000000022 & X[,4]<=0.000164999999999971   -1
1708   3 0.000 0.000    X[,3]>0.00102499999999994 & X[,6]<=0.000105000000000022 & X[,7]<=-0.000650000000000039    1
1709   3 0.002 0.250     X[,3]>0.00102499999999994 & X[,6]<=0.000105000000000022 & X[,7]>-0.000650000000000039   -1
1984   3 0.001 0.000     X[,1]<=0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000674999999999981    1
2654   3 0.003 0.000        X[,4]<=0.00205000000000011 & X[,5]>0.0014550000000001 & X[,9]<=0.00132999999999994    1
2655   3 0.000 0.000         X[,4]<=0.00205000000000011 & X[,5]>0.0014550000000001 & X[,9]>0.00132999999999994   -1
2656   3 0.001 0.200         X[,3]<=0.00245499999999998 & X[,4]>0.00205000000000011 & X[,5]>0.0014550000000001   -1
2657   3 0.000 0.000          X[,3]>0.00245499999999998 & X[,4]>0.00205000000000011 & X[,5]>0.0014550000000001    1
2852   3 0.000 0.000                X[,2]<=-0.001135 & X[,8]>-0.000130000000000075 & X[,8]>0.00128499999999998   -1
2979   3 0.001 0.200     X[,1]>0.000930000000000097 & X[,1]>0.00129000000000012 & X[,8]<=-0.000275000000000025   -1


e analisar a dependência do erro da regra err com relação à frequência de sua ocorrência na amostra.


teremos


Então, estamos interessados nessa área


Onde as regras funcionam muito bem, mas são tão raras que faz sentido duvidar da autenticidade das estatísticas sobre elas, porque 10-30 observações não são estatísticas

 
mytarmailS #:

Primeiro, você precisa perceber que o modelo está cheio de lixo por dentro...

Se você decompor um modelo de madeira treinado nas regras internas e nas estatísticas sobre essas regras.

como:

e analisar a dependência do erro da regra err em relação à frequência freq de sua ocorrência na amostra

obtemos

Apenas um raio de sol na escuridão das publicações recentes
Se você analisar corretamente os erros do modelo, poderá encontrar algo interessante. Aceitaremos muito rapidamente e sem qualquer gpu, sms e registros.
 
Maxim Dmitrievsky #:
Apenas um raio de sol na escuridão das postagens recentes
Se você analisar os erros do modelo corretamente, poderá encontrar algo interessante. Aceitaremos muito rapidamente e sem qualquer gpu, sms e registros.

Haverá um artigo sobre isso, se houver.

 
mytarmailS #:

haverá um artigo sobre isso, se houver.

Norm, meu último artigo foi sobre a mesma coisa. Mas se sua maneira for mais rápida, isso é uma vantagem.
 
Maxim Dmitrievsky #:
Norm, meu último artigo foi sobre a mesma coisa. Mas se sua maneira for mais rápida, isso é uma vantagem.

O que você quer dizer com mais rápido?

 
mytarmailS #:

O que você quer dizer com mais rápido?

Em termos de velocidade.
 
Maxim Dmitrievsky #:
Em termos de velocidade.

cerca de 5 a 15 segundos em uma amostra de 5 km

 
mytarmailS #:

cerca de 5 a 15 segundos em uma amostra de 5k.

Refiro-me a todo o processo, desde o início até a obtenção do TC.

Tenho dois modelos sendo retreinados várias vezes, portanto, não é muito rápido, mas é aceitável.

E, no final, não sei exatamente o que foi selecionado.

 
Maxim Dmitrievsky #:

Quero dizer, todo o processo, desde o início até a obtenção do TC.

Tenho dois modelos sendo retreinados várias vezes, portanto, não é muito rápido, mas é aceitável

e, no final, não sei exatamente o que eles selecionaram.

Treinar 5 mil.

Validar 60 mil.


Treinamento do modelo - 1-3 segundos

extração de regras - 5 a 10 segundos

verificação da validade de cada regra (20-30k regras) 60k - 1-2 minutos


é claro que tudo é aproximado e depende do número de recursos e dados