Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 819

 
Maxim Dmitrievsky:

1: decida o tamanho da amostra, a sua amostra é muito pequena

2. procure modelos simples (lineares) de classificação/regressão, muito provavelmente funcionarão para você, e se o erro for grande, você pode tentar mudar para modelos mais complexos (não lineares) na biblioteca de algibeiras do terminal (árvores de decisão e floresta também estão disponíveis)

3) Nunca tome nenhum conselho, especialmente sobre o uso de R :))) É hora de bani-los deste fórum.

4. Se o problema é resolúvel sem a aprendizagem da máquina, é melhor não o usar.

1. Sim, isto é apenas um exemplo, a amostra é grande na realidade, é claro.

2. Obrigado, é claro que é melhor começar com uma simples - acho que esta é uma nova etapa no meu desenvolvimento em matéria de mineração de dados.

3. É tão bom saber sobre alternativas no MQL...

4. Por enquanto, estou procurando agrupar as características (padrões) pelo grau de sua influência no comércio. Receio ter começado a desenvolver o meu TS na direcção da adaptação, e depois quero acumular ideias sob a forma de sinais de comportamento de mercado para rejeitar as minhas ilusões.

 
Aleksey Vyazmikin:

1. Sim, isto é apenas um exemplo, a amostra é grande na realidade, é claro.

2. Obrigado, claro que é melhor começar simples - acho que esta é uma nova etapa do meu desenvolvimento em matéria de mineração de dados.

3. Por isso é bom saber sobre alternativas no MQL...

4. Por enquanto, procuro agrupar as características (padrões) pelo grau da sua influência no comércio. Pois receio ter começado a desenvolver o meu TS na direcção da adaptação, e depois quero acumular ideias sob a forma de sinais de comportamento de mercado para rejeitar as minhas alucinações.

http://alglib.sources.ru/dataanalysis/

tudo isto está disponível em mql (a biblioteca vem de série com o terminal)

para agrupamento você pode usar meios simples de k

E para a sua mesa você pode tentar a regressão logística (o youtube está cheio de clipes do que é e como usá-lo) (regressão logit múltipla), é apenas uma base para dividir em classes, como no seu caso 0 ou 1. Depois vem o perseptron de várias camadas, que também se divide em classes, mas de uma forma mais complexa (não linear).

uma árvore de decisão comum é improvável de funcionar, melhor para usar uma floresta, elas consistem de múltiplas árvores que são particionadas de forma diferente (por exemplo, como a primeira partição será usada não a primeira variável, mas a terceira), então os resultados de todas as árvores serão calculados como média e obterão uma estimativa mais precisa e robusta. Mas se o problema se revelar essencialmente linear então o andaime não é adequado, é melhor usar a regressão logística ou perseptron com 1 camada oculta. É por isso que é recomendado começar com modelos lineares mais simples, e se você estiver satisfeito com o resultado - não se preocupe.

 
Aleksey Vyazmikin:

se eu quiser ver o impacto dos dias da semana, devo fazer diferentes parâmetros de entrada marcando o dia, ou é suficiente um parâmetro marcando de 1 a 5?)

A floresta cria uma regra usando "mais" ou "menos" operações para comparar valores.

No caso dos valores 1,2,3,4,5 - se, por exemplo, for necessário criar uma regra que funcione apenas na quarta-feira, então são necessários dois ramos - "menos que quinta-feira" e "mais que terça-feira".
Se forem parâmetros diferentes com marcações, uma comparação é suficiente (marcações maiores que zero).
Quanto menos ramos forem necessários para criar uma regra, mais simples é o modelo, e melhor.

Fazer os dois em geral, juntos. Uma coluna com valores 1,2,3,4,5. E mais 5 colunas com etiquetas.

 
Aleksey Vyazmikin:

Alguém já fez uma comparação de diferentes algoritmos para eficiência, bem, se a resposta for conhecida, como no meu exemplo, mas para tarefas mais complexas?

A previsão de dados como o seu é chamada de classificação, quando a resposta necessária pode ser apenas um par de valores, ou mesmo não números, mas sim termos ("exit trade", "roll over", etc.).
A neurônica e o boosting são bons com ela, eles podem ser treinados em tais dados e depois usados para previsão de novos dados.


Entendo que o seu objectivo é extrair a informação mais valiosa dos seus dados e obter um conjunto de regras legíveis. Então a neurônica não vai funcionar, extrair regras e conhecimento da neurônica não é tão fácil assim.

Uma floresta dá muitas escolhas, muitas árvores (fórmulas), e a resposta final é determinada pela votação, onde cada fórmula dá uma resposta diferente, e a mais popular eventualmente será escolhida. Mas uma tal confusão de regras é demasiado complicada para ser interpretada, haverá muitas imagens como adicionei acima, cada uma dará uma resposta diferente, e o resultado será o mais frequentemente atingido.

Uma árvore dará uma imagem como a anterior, em casos complicados com dezenas/centenas de ramos no gráfico. Mas pode ser facilmente interpretado e repetido, seguindo os ramos da imagem.

Existem muitos modelos, escolha o que funciona melhor para a sua aplicação.


Alglib em MQL também pode fazer tudo isso. Mas é inconveniente, cada vez que você tem a menor mudança você tem que compilar um roteiro, executá-lo, esperar pelo resultado.

R ou Python permite que você simplesmente reexecute uma linha de código anterior e a mude em caso de erro. Todos os objetos criados enquanto o script estava rodando permanecem na memória e você pode continuar a trabalhar com eles, prevendo e rodando novas linhas de código. Não há necessidade de relançar todo o roteiro após a mais pequena alteração, como em mql.

 
Enquanto há uma pausa, vou postar um texto aqui para ver se alguém está interessado.
 
Yuriy Asaulenko:

E prever com 70% de confiança num intervalo faz pouco bem. Não é muito difícil de fazer, mas ainda assim é inútil.

70% de confiança de que 50% de precisão realmente não é muito, e 70% de precisão é um conto de fadas ou um erro dos que usam alvos mistos, com 70% de precisão SharpRatio >30, isso é fantástico mesmo para ultra HFT

 
SanSanych Fomenko:

Pela centésima vez:

1. data mining é obrigatório. é obrigatório começar selecionando apenas os preditores que têm um IMPACTO sobre a variável alvo. E depois toda a datamining.

2. Há dois modelos:

3. Formação de modelos com validação cruzada, se possível.

4. avaliação de modelos fora do arquivo de treinamento

5. Teste de teste no testador.


Pela centésima vez TODOS os passos são obrigatórios!


Tendo feito tudo isso, você pode fazer a suposição de que o depoimento não vai vender imediatamente!


Vamos lá, homens! Acabar de sair no fórum e com uma alegria tranquila para implementar o plano delineado para o R.


Três vivas!

Estou só a brincar, sou como tu, estou a tentar ensinar as pessoas a usar a ZZ como Objectivo, fui ingénuo e não compreendi o teu plano maléfico :)

 
Aliosha:

Tudo bem, só estou brincando, estou agitando como você para usar ZZ como um objetivo, eu era ingênuo e não entendia seus planos insidiosos :)

Aqui tenho de esclarecer novamente: não estou a agitar a ZZ - é apenas muito claro para os sistemas de trading de tendências.

E o alvo e os preditores para o alvo são todos extremamente complicados e muito caros. E o modelo é bastante fácil de apanhar. Há momentos em que um tipo é categoricamente inadequado para o alvo e seus preditores e outro tipo é adequado. em geral, você deve sempre tentar uma dúzia ou dois modelos.

 
Aliosha:

70% de certeza que 50% de precisão realmente não faz muito, e 70% de precisão é um conto de fadas ou um erro daqueles que usam alvos mistos, com 70% de precisão SharpRatio >30, isto é fantástico mesmo para ultra HFT

Mais uma vez, para aqueles que não entendem. 70% é a realidade. Em 70% do intervalo de tempo, podemos facilmente fazer previsões justificáveis.

A questão da inutilidade de tal previsão é diferente. Destes 70% de previsões justificadas, apenas cerca de um quarto ou menos é realista entrar numa troca, ou seja, apenas ~17% do intervalo. No entanto, dado que não sabemos a priori onde a previsão se justifica, e os restantes 30% nos dão uma parte significativa de ambas as negociações falhadas e falhadas "corretas", é impossível implementar 70% da previsão confiável.

 
Aliosha:

Tudo bem, só estou brincando, sou como você agitando as pessoas para usar ZZ como um objetivo, eu era ingênuo e não entendia seus planos malignos :)

O plano insidioso e viral "ZZ-01" foi desenvolvido há vários anos em um
num laboratório secreto. Fa só agiu como seu portador. Eh, Alyosha...