Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3168

 
Vladimir Perervenko #:

Vladimir, qual foi o máximo de akurasi "honesto" que você obteve com os novos dados?

E com qual algoritmo MO?

 
Aleksey Nikolayev #:

A ideia é dividir os exemplos em grupos que sejam diferentes entre si e dentro dos quais haja homogeneidade. Não é de todo certo que recursos específicos permitam fazer isso. De fato, não é certo que algum deles permita, por causa da não estacionariedade, por exemplo.

Não pretendo estudar esse artigo em detalhes, pois ele apenas aborda o tópico em que estou interessado. O CHAID está um pouco mais próximo, mas não é exatamente o mesmo.

É isso mesmo, eu gostaria de encontrar alguma regularidade na dinâmica das mudanças de ordem de sequência, ou pelo menos uma estimativa de deslocamento com a identificação de um ponto de ruptura. E estou falando de preditores binários triviais. Por exemplo, identificar cinco sequências que foram encontradas nos últimos cinco anos, observar sua estabilidade de predisposição para o valor-alvo e, além disso, se houver alterações significativas nas sequências e na predisposição, excluir o preditor do treinamento ou do modelo. Li/vi muitos métodos no último semestre, mas não é realista para mim codificar tudo para teste - há muito trabalho a ser feito. A coisa mais triste é quando você trabalha em algo e depois percebe que o resultado não é o esperado.

Em sua opinião, qual é a vantagem do CHAID?

 

Esse método de treinamento é a detecção de linhas favoráveis à exclusão da amostra (zeragem) por segmento quântico.

Cada etapa é uma adição de uma regra. As regras têm a seguinte aparência: if( arr_Q[n0][i]==1 || arr_Q [n1][i]==1 || arr_Q[nn][i ]==1 ) Propusk=true;

Este é um gif - você precisa clicar nele para que funcione.

Saldo - lucro em pips - cinco dígitos.

Sim, essa é apenas uma amostra para treinamento, ainda não fiz mais nada - estou experimentando.

Adicionado: E aqui está outro critério para avaliar a escolha do segmento quântico, pelo qual o sinal será excluído - parece que aqui a remoção de linhas não lucrativas foi mais alegre.


 
Aleksey Vyazmikin #:

É isso mesmo, eu gostaria de encontrar alguma regularidade na dinâmica das mudanças de ordem de sequência, ou pelo menos uma estimativa da mudança com a identificação do ponto de ruptura. E estou falando de preditores binários triviais. Por exemplo, identificar 5 sequências que foram encontradas nos últimos cinco anos, observar sua estabilidade de predisposição ao valor-alvo e, além disso, se houver alterações significativas nas sequências e na predisposição, excluir o preditor do treinamento ou do modelo. Li/vi muitos métodos no último semestre, mas não é realista para mim codificar tudo para teste - há muito trabalho a ser feito. A coisa mais triste é quando você trabalha em algo e depois percebe que o resultado não é o esperado.

Na minha opinião, essa é uma abordagem ruim no sentido combinatório. Um conjunto muito rico de sequências pode muito bem levar ao treinamento excessivo - sempre haverá sequências "boas" aleatórias.

Aleksey Vyazmikin #:

Em sua opinião, qual é a vantagem do CHAID?

Antes de mais nada, a ponderação do ponto de vista do matstat. Isso é parar a construção da árvore quando um determinado nível de significância é atingido, em vez de uma regra à esquerda. E o uso da correção de Bonferoni, etc. É apenas esteticamente agradável olhar para um modelo tão bem pensado) Embora, é claro, o uso de apenas recursos nominais não seja adequado para mim, por isso estou procurando (tentando construir) outro modelo.

 
Aleksey Vyazmikin #:

É isso mesmo, eu gostaria de encontrar alguma regularidade na dinâmica das mudanças de ordem de sequência, ou pelo menos uma estimativa da mudança com a identificação do ponto de ruptura. E estou falando de preditores binários triviais. Por exemplo, identificar 5 sequências que foram encontradas nos últimos cinco anos, observar sua estabilidade de predisposição ao valor-alvo e, além disso, se houver alterações significativas nas sequências e na predisposição, excluir o preditor do treinamento ou do modelo. Li/vi muitos métodos no último semestre, mas não é realista para mim codificar tudo para teste - há muito trabalho a ser feito. A coisa mais triste é quando você trabalha em algo e depois percebe que o resultado não é o esperado.

Em sua opinião, qual é a vantagem do CHAID?

1) Se procedermos da seguinte maneira, obteremos o mesmo resultado que o seu (em termos de significado)?
Pegamos uma planilha (após 5 divisões), classificamos todos os exemplos nela por tempo, se houver primeiro crescimento e depois uma queda acima de algum valor, removemos a planilha de uso.

2) Você tem OOS em seus gráficos?

3) As regras/planilhas são peneiradas com base em dados de treinamento ou validação/teste.

 
Aleksey Nikolayev #:

Na minha opinião, essa é uma abordagem ruim no sentido combinatório. Um conjunto muito rico de sequências pode muito bem levar ao treinamento excessivo - sempre haverá sequências "boas" que ocorrem aleatoriamente.

A questão aqui é detectar a estabilidade, se ela existir no histórico, então há pelo menos algum motivo para esperá-la no uso real dos recursos no modelo. E o método para detectá-la pode ser diferente. Porém, a estimativa da distribuição não é suficiente, ela não permite estimar a estabilidade. Ou ela precisa ser limpa. E também me deparei com o fato de que, se você usar intervalos, digamos, de um mês, não há sinais suficientes para qualquer conclusão estatística. Até agora, coloquei um sinal de pontuação nele.... De qualquer forma, é importante avaliar a distribuição dos eventos ao longo do tempo.

Aleksey Nikolayev #:

Em primeiro lugar, a consideração em termos de matstat. Isso é interromper a construção da árvore ao atingir um determinado nível de significância em vez de uma regra à esquerda. E o uso da correção de Bonferoni, etc. Embora, é claro, o uso de apenas recursos nominais não seja adequado para mim, por isso estou procurando (tentando construir) outro modelo.

Vou ter que tentar. Você já fez comparações com outras opções de construção de árvores? O resultado é realmente melhor?

 
Forester #:

1) Se procedermos da seguinte maneira, obteremos o mesmo resultado que o seu (em termos de significado)?
Pegamos uma planilha (após 5 divisões), classificamos todos os exemplos nela por tempo, se houver crescimento no início e depois uma queda acima de algum valor, excluímos a planilha do uso.

2) Você tem OOS em seus gráficos?

3) As regras/planilhas são peneiradas com base em dados de treinamento ou validação/teste.

1) A rejeição é normal, a questão aqui é a ciclicidade, se estivermos falando de uma planilha (tenho um segmento quântico - literalmente uma planilha de duas divisões F>=X1 && F<X2 ). Ou seja, se forem oscilações próximas a zero, não é ruim, mas elas não devem ser muito altas em uma direção (para estimativa, uso intervalos de 10 amostras). Ou, literalmente, como você escreveu, no início houve crescimento e, depois, principalmente declínio - isso é imediatamente no lixo. Mas tudo isso tem a ver com folhas e, se for uma seção quântica, há seleção por viés de probabilidade de 5% da média da classe como um dos critérios de seleção inicial.

2. Não, é claro que não, eu escrevi que essa é uma amostra de treinamento. Não há treinamento de nenhum modelo em si - presumo que haja mais a ser treinado.

3 - No treinamento do exemplo. Mas não é uma triagem, mas apenas uma seleção daqueles que serão usados como filtro, ou seja, para zerar a resposta do modelo. Bem, e excluir cadeias de caracteres/exemplos do treinamento, aparentemente.

E, em geral, se nos concentrarmos na identificação de segmentos quânticos estáveis (considere - preditores binários), então esse "modelo" funcionará sem treinamento por qualquer classificador. E, enquanto isso não puder ser feito, não há muito sentido em usar classificadores. É claro que ninguém cancela a aleatoriedade, e é possível encontrar alguns modelos bem-sucedidos, mas será difícil considerar esse método de forma razoável.

Entre as desvantagens do método está a queda do Recall, mas ela não é maior do que a do modelo CatBoost - aproximadamente até 0,5 no exemplo.

 
Aleksey Vyazmikin #:

E você já fez comparações com outras opções de construção de árvores? O resultado é realmente melhor?

O que eu encontrei na forma pronta não é muito adequado para o mercado, e a forma caseira não está pronta. Mas eu não tenho muitas esperanças, então não tenho pressa.

 

Esse é o tipo de coisa que acontece. Na esquerda, o OOS passa, na direita, não. E o lado direito literalmente mergulha imediatamente.


Isso acontece na maioria das vezes.

Ou seja, um mergulho literalmente imediato e significativo. A natureza do mergulho não é clara. Parece que deveria haver algo próximo ao SB, mas vejo essa imagem com muita frequência.


Acho que, se depois da otimização eu executar um TS invertido, talvez nem perca.

 
fxsaber #:

Esse é o tipo de coisa que acontece. À esquerda, o OOS passa; à direita, não. E no lado direito, ele literalmente "mergulha" imediatamente.


Isso acontece na maioria das vezes.

Ou seja, um mergulho literalmente imediato e significativo. A natureza do mergulho não é clara. Acho que deve ser algo próximo ao SB, mas vejo esse tipo de imagem com muita frequência.


Parece que se, após a otimização, você executar um TS invertido, talvez nem perca.

Há cerca de dois anos, publiquei esse efeito aqui