Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 18

 

Apenas algumas ideias:

Eu tentei fazer um sistema desse tipo puramente em MQL4:

formaram um vetor de insumos (apenas a diferença entre os preços com um atraso)

formaram entradas e saídas ideais (há muitos métodos, eu peguei aquele que pegou minha fantasia).

Tudo isto por barras de 5 minutos, por exemplo.

Então eu reabasteci o array em cada nova barra e também tentei encontrar padrões similares do passado e calcular a porcentagem de entradas para compra e venda em uma esfera multidimensional de raio variável. Esta coisa foi testada durante muito tempo. Os resultados foram instáveis.

Quero tentar de novo um dia destes em R. Ou seja, é uma busca de entrada e saída pela distância euclidiana.

 
mytarmailS:

Bem, digamos que o mercado corresponde ao cluster № 5, a próxima vela será o cluster № 18 e não nos dará nada porque não teremos tempo para negociar o cluster № 5, e no SMM existe um conceito de estado, o estado pode durar um certo tempo

Ou talvez eu não entenda o seu pensamento?

Os clusters são sequências de longas filas (mesmo 100 velas). Você pode fazer um monte de entradas com base nessas longas seqüências. E em algum momento o sistema vai do cluster 5 para o cluster 45, mas acontece, por assim dizer, suavemente.
 
Alexey Burnakov:

Apenas algumas ideias:

Eu tentei fazer um sistema desse tipo puramente em MQL4:

formaram um vetor de insumos (apenas a diferença entre os preços com um atraso)

formaram entradas e saídas ideais (há muitos métodos, eu peguei aquele que pegou minha fantasia).

Tudo isto por barras de 5 minutos, por exemplo.

Então eu reabasteci o array em cada nova barra e também tentei encontrar padrões similares do passado e calcular a porcentagem de entradas para compra e venda em uma esfera multidimensional de raio variável. Esta coisa foi testada durante muito tempo. Os resultados foram instáveis.

Quero tentar de novo um dia destes em R. Ou seja, busca de entrada e saída pela distância Euclidiana.

Eu também fiz a coisa semelhante, demasiada proximidade pesquisada através da correlação de Euclides e Pearson, Euclides deve ser inferior a 0,27 e correlação mais do que 0.97, ou seja, os padrões eram quase um-para-um, procuraram-se semelhanças nas séries com três castiçais para os 4 preços OHLC + volume + volatilidade, os preços são normais, apenas escalados e centrados (escala, centro) resultando, como escrevi anteriormente, que o preço vai contra as minhas próprias previsões com correlação inversa -0,6-0,9, receio que mesmo a validação cruzada não ajude aqui, pelo menos no espaço euclidiano, talvez esta seja a resposta porque 99% perdem o seu dinheiro.
 
Alexey Burnakov:
Agrupamento de sequências de longas filas (mesmo 100 castiçais). É possível fazer um monte de inputs com base nestas longas sequências. Em algum momento o sistema passa do cluster 5 para o cluster 45, mas isso acontece para dizer lentamente.
O problema é que se fizermos o grupo 5 na sequência de 100 castiçais, sabemos que é o grupo 5 em 101 castiçais do grupo 5, ou seja, perdemos 100 castiçais) E no SMM, estando no cluster #45, já sabemos que provavelmente iremos para o cluster #5
 

E outra pergunta para o R

biblioteca(kza)

DAT <- rnorm(1000)

KZP <- kzp(DAT,m=100,k=3)

resumo(KZP ,dígitos=2,top=3)


como posso tirar do "resumo" http://prntscr.com/bhtlo9 para que possamos trabalhar com estes dígitos

Скриншот
Скриншот
  • prnt.sc
Снято с помощью Lightshot
 
Dr.Trader:


Eu tentei ler o artigo sobre p-bloggers, mas como não sei inglês não entendo nada, você pode explicar em linguagem simples qual é a essência deste método de seleção, como ele funciona?

Pura e intuitivamente e com base nos resultados dos primeiros testes, suspeito que este método é muito semelhante ao método dos componentes principais, e talvez até o mesmo ...

Primeiro teste, eu tive uma amostra de 30 preditores, treinei o erro de RF e obtive Precisão: 0,6511

então eu os selecionei usando o seu método

temos 14 preditores, o erro foi Precisão: 0,6568

Na verdade, eliminámos metade dos preditores e melhorámos um pouco o resultado da previsão, o que não é mau.

Vou tentar outros conjuntos de dados.....

Outra pergunta, por que eu recebo um erro de 3-6% nos dados de validação quando carrego os mesmos dados no guizo?

 
mytarmailS:
Aí o problema é que se fizermos um aglomerado numa sequência de 100 velas então sabemos que é aglomerado #5 em 101 velas de aglomerado #5 , ou seja 100 velas que sopramos) E no SMM estando no cluster #45 já sabemos que provavelmente iremos para o cluster #5
Nós não perdemos nada. Na primeira medição vamos descobrir o cluster, depois haverá uma série de mudanças de clusters. Nos pontos de transição de cluster para cluster, podemos construir uma matriz quadrada e alterar o MO do comércio: entrar compra no cluster n, fechar o comércio no cluster m. Então a mesma matriz para vender. Todas as variantes estão apenas a passar. E podemos variar os parâmetros de agrupamento e olhar para o resultado no loop.
 
mytarmailS:

Eu tentei ler o artigo sobre p-bloggers, mas como não sei inglês não entendo nada, você pode explicar em linguagem simples qual é a essência deste método de seleção, como ele funciona?

Pura e intuitivamente e com base nos resultados dos primeiros testes, suspeito que este método é muito semelhante ao método dos componentes principais, e talvez até o mesmo ...

Primeiro teste, eu tive uma amostra de 30 preditores, treinei o erro de RF e obtive Precisão: 0,6511

então eu os selecionei usando o seu método

temos 14 preditores, o erro foi Precisão: 0,6568

Na verdade, eliminámos metade dos preditores e melhorámos um pouco o resultado da previsão, o que não é mau.

Vou tentar outros conjuntos de dados.....

Outra pergunta, por que se usamos os mesmos dados no guizo então o erro é de 3-6% nos dados de validação, como eu sei?

1. é o principal método componente com alguma modificação que é usado.

2. a ideia principal de usar este método não é melhorar a precisão das previsões. A idéia principal é que a precisão da previsão obtida permaneceria aproximadamente a mesma no futuro. Na prática, e nós sabemos isso pelo testador, quase sempre podemos obter dados surpreendentes dos Expert Advisors através da otimização. No entanto, com a monotonia monótona no futuro, estes grãos drenam o depoimento. Isto acontece porque durante a formação o Expert Advisor aprende algumas particularidades que não se repetem no futuro. Os preditores que nada têm a ver com a variável alvo, ou seja, o ruído, são especialmente úteis como tais singularidades. Ao otimizar ou ajustar o modelo a R é sempre possível extrair deste ruído alguns valores que podem melhorar radicalmente o desempenho. Mas não vai acontecer no futuro e o Expert Advisor vai falhar.

Mais uma vez: você utiliza uma ferramenta que lhe permite eliminar as diferenças no desempenho do modelo na amostra de treinamento e em citações futuras. A meu ver, só resolvendo o problema da reciclagem é que podemos seguir em frente.

3. um erro de menos de 10% e além disso 5% é uma forte evidência de que o modelo está a ser requalificado. E o sobretreinamento do modelo é causado pelo conjunto de preditores de entrada, não pelo modelo em si.

 
SanSanych Fomenko:


3. um erro de menos de 10%, muito menos 5%, é uma clara evidência de que o modelo está sobre-treinado. E o sobreajuste do modelo é devido ao conjunto de preditores de entrada, não ao modelo em si.

A questão não é por que existem resultados diferentes em R e chocalhar nos mesmos dados e no mesmo modelo

Segunda questão : para que serve verificar o modelo "fora de amostra" no guizo se ele mostra o inferno

 
mytarmailS:

A questão não é por que existem resultados diferentes em R e chocalhar nos mesmos dados e no mesmo modelo

Segunda pergunta: qual é a vantagem de verificar o modelo "fora de amostra" no guizo se ele mostra o inferno

Você provavelmente tem diferentes parâmetros de andaimes em r e chocalhar, daí os diferentes resultados. No próprio guizo você também pode mudar o número de árvores e variáveis.

E o seu guizo tem 34% de erro nos dados de treino e 3% de erro nos dados de validação? Algo está errado com os dados de validação, ou já existia de alguma forma nos dados de treinamento, ou você tem um conjunto de dados muito pequeno e isso simplesmente aconteceu assim.