Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 86

 
Mihail Marchukajtes:

Bem, digamos que ele misturou e reduziu pela metade, então o número de ambas as classes será o mesmo no treino e nas amostras de teste, não é verdade?

Se o número de exemplos de ambas as classes não foi o mesmo na amostra, então eles não serão os mesmos na parte do teste. Apenas os exemplos da classe menos representativa serão reduzidos pela metade: metade deles estará na parte de treinamento, e a outra metade na parte de teste. Na parte do ensino haverá exatamente tantos exemplos da classe mais representativa quanto da classe menos representativa. E os demais exemplos da classe mais representativa, que não estão incluídos na parte do treinamento, serão incluídos na parte do teste.

A questão é que nas versões anteriores não havia nenhum equilíbrio. A amostra foi misturada pelo MSRP e dividida trivialmente em duas partes: metade da amostra vai para a parte de treinamento, e a outra metade para a parte de teste. Depois encontrei uma amostra em que os exemplos de ambas as classes eram altamente desequilibrados. Era bastante óbvio que a classe mais representativa tinha excelentes resultados de generalização, enquanto a classe de baixa representatividade estava abaixo do plinto. Tive de adicionar equilíbrio ao algoritmo de separação para me livrar de tais aberrações.

 
Não... está OK.... falso alarme :-)
 
SanSanych Fomenko:
O modelo é requalificado porque a lista de preditores não foi limpa a partir de preditores de ruído. É um exemplo de treinamento e é feito como tal deliberadamente. É por isso que eu digo com tanta confiança.

Já pensei nisso.
A floresta se lembra de dados, isso é um fato, e com mais árvores terá mais "capacidade de memória" para se lembrar. Mas se mesmo com um grande número de árvores não consegue atingir 100% de precisão, então isso significa que existem exemplos inconsistentes nos dados de treinamento. Existem alguns conjuntos de exemplos de treinamento, onde os valores preditores são exatamente os mesmos, mas têm classes diferentes. Tais dados nunca podem ser previstos a 100%, mesmo com dados de treinamento. Portanto, o modelo não pode sequer aprender completamente, apenas carece de dados e, portanto, tem menos chance de se reciclar.
A inconsistência nos exemplos de treinamento nem sequer é causada por erro, mas pela remoção de um preditor que permitiria uma precisão de 100%. Mas sem isso, as previsões sobre os novos dados serão melhores.
Regra muito interessante, podemos usá-la para fazer algum método simples de pré-estimativa do preditor definido para descartar alguns conjuntos antes do treinamento e da validação cruzada de modelos.

 

Olá!

1) ALGUÉM já tentou alguma das coisas acima? Algum resultado?

2) Alguém tentou testar estratégias diretamente em R? Eu preciso simular o comércio em R-ka bastante primitivo, mas há paradas e outras pequenas coisas, existe alguma ferramenta que o tornará o mais simples e rápido possível?

 
Yury Reshetov:

Onde posso obter volumes reais como dados históricos? O MetaTrader fornece apenas um carrapato, que é chamado de "volumes". Além disso, os valores destes contadores podem diferir por ordem de grandeza em diferentes cozinhas.

...

Os volumes dos carrapatos diferem não só em cozinhas diferentes, mas até mesmo em uma. Às vezes você pode ver um passo, aqui foi um fluxo denso, depois bam foi um fluxo esparso.

Isto é devido a uma mudança de filtro de teca dentro da fresa.

Pergunta interessante: há uma correlação entre volumes reais e volumes de tick, e há uma correlação entre volumes de tick e tamanho de barra.

 
Nikolay Demko:

isto significa que existe uma correlação entre volumes reais e tamanho do bar?

certamente
 
mytarmailS:
certamente
Qual é a colocação entre volume e barra. O volume pode estar alto e falta o corpo da vela, por isso é o mesmo no oborod. O volume é pequeno e a vela subiu.... tudo depende das condições de mercado no momento do mercado....
 
Mihail Marchukajtes:
Qual é o significado da correlação entre o volume e a barra. O volume pode ser alto e o corpo do candelabro está ausente, o mesmo se aplica à barra. O volume é pequeno e o candelabro cresceu.... tudo depende das condições do mercado no momento do mercado....

:)

Pensei que estávamos a falar de mercados altamente líquidos, que são mercados de futuros e de divisas, não acho que ninguém esteja a negociar penalizações.

http://prntscr.com/c10p51

A figura mostra a correlação em uma janela de 100 deslizamentos, volatilidade versus volume, como eu me lembro, um valor maior que 0,6 é considerado uma correlação positiva significativa

Скриншот
Скриншот
  • prnt.sc
Снято с помощью Lightshot
 
mytarmailS:

Talvez alguém esteja interessado, eu encontrei um pacote que pode simular trading e construir sistemas de trading chamado quantstrat

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

Vou reposicioná-lo, talvez tenha escapado.

e outro link útilhttp://www.r-programming.org/papers

ou ninguém está interessado nestes pacotes? se não, porquê? estou curioso em saber como e onde as pessoas testam os seus modelos

 
mytarmailS:

Vou repostá-la, talvez tenha voado por

e outro link útilhttp://www.r-programming.org/papers

ou ninguém está interessado nestes pacotes? se não, porquê? estou curioso em saber como e onde as pessoas testam os seus modelos

Todos os pacotes (modelos) podem ser divididos em duas categorias:

  • bom em princípio
  • não é bom em princípio

O desempenho dos pacotes que são "basicamente bons" é praticamente o mesmo, as diferenças não são substanciais.

O problema não é com o modelo, mas com o conjunto de preditores e o seu pré-condicionamento. Se tomarmos algum conjunto de preditores, a possibilidade de construir um modelo NÃO excessivamente treinado, bem como a magnitude do erro, depende pouco da mudança do modelo. Portanto, deve-se pegar o modelo mais simples e rápido daqueles que "em princípio se encaixam".

PS.

Pela minha própria experiência. Para mim, mais de 75% da mão-de-obra empregada na construção de TS - é a seleção de preditores, se conseguir encontrar tal conjunto para uma determinada variável-alvo.