Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 883

 
Maxim Dmitrievsky:

Florestas regulares e florestas e florestas arbóreas aleatórias são a mesma coisa :) A floresta é um conjunto de Árvores

são características colapsadas, o que significa que há menos características colapsadas ou o quê? por características colapsadas entendemos raramente mudanças e/ou categóricas como uns e zeros (bem, isso é um alto nível de compreensão)

Não, colapsado significa que uma variável tem muitos valores, mas o número de combinações permanece o mesmo. Anexei um arquivo, semelhante ao do ano passado para compras, mas em outra representação.

Arquivos anexados:
 
Vizard_:

A binarização mata muita informação útil.

Que diferença faz a forma como a informação é apresentada, ela não muda...? ???

 
Maxim Dmitrievsky:

Eu não tenho nada contra SanSanych pessoalmente, ele é um homem muito competente e discreto, fazendo algo de seu próprio desconhecido, ele provavelmente precisa de R

Prefiro píton intuitivamente, embora não tenha inventado nada de especial para o fazer uau, mas continuo a estudá-lo calmamente e vejo se ajuda :D

R é um ambiente maravilhoso, que tem muitas vantagens sobre Python. Mais importante, o R é um ambiente de modelagem. Em comparação com o Python, você pode obter resultados mais rápidos e mais simples em R.

É evidente que Python, em combinação com módulos, tem as suas próprias vantagens.

A propósito, para a RF, parece que tanto aqui como na NS, podemos prescindir da seleção testada e verdadeira de preditores e usar a BP diretamente normalizada como tal.

 
SanSanych Fomenko:

Floresta normal ou floresta aleatória, ou ambas?

Em chocalhos, correm os dois modelos florestais chamados árvore e ada. Abra a aba log e veja o código R, referências aos pacotes utilizados e você pode entender suas diferenças.

Eu entendo a diferença entre andaime e árvore (ou acho que entendo) andaime é melhor usar quando há mais incerteza nos dados, ou seja, um padrão menos estável desde que o andaime toma decisões por votação, que ocorre em árvores aleatórias (independentes devido ao encurtamento), ou estou errado? E a opção "adad" que não tenho, não está na imagem da tela, existe "Forest" - não é?

SanSanychFomenko:

Eu coloquei o Rattle e R (bem, e falhas todas essas coisas ...),

Não entendo que falhas, ultimamente, tenho corrido um grande número de modelos - todos normais.

Tive alguns problemas com o download de pacotes - ele diz que começou, mas não os faz, depois põe-nos no chão e diz que não tem as bibliotecas de que precisa, depois fica pendurado quando lê dados de um ficheiro... Bem, o processo de trabalho não é visível - não é claro quanto tempo se deve esperar pela conclusão. Até agora, estou a falar de tais insectos. Uma vez retirada uma tarefa do expedidor...

SanSanych Fomenko:


A foto do guizo, você tem inacabada. No mínimo, você precisa ir para o próximo separador e ver os resultados lá.

Mas o mais importante é dividir o arquivo fonte em duas partes com nomes diferentes (muito provavelmente você terá que fazer isso em R).

No primeiro arquivo você constrói TODOS os seis modelos e olha o teste de estimativa deles, valida. Depois você escreve o nome do segundo arquivo no campo R Dataset. E nele você recebe marcas novamente. Todas as estimativas devem ser aproximadamente as mesmas!

Se estas estimativas não coincidirem, e o segundo ficheiro mostrar piores resultados dos modelos, então significa que os modelos estão sobretreinados e a razão para isso são os preditores de ruído (não relacionados com a variável alvo).


Este é o momento da verdade: ou você tem um conjunto de preditores relevantes para uma determinada variável alvo ou não tem. E nenhum modelo pode corrigir esta infeliz circunstância. Depois começa o trabalho estúpido de seleccionar um par de "preditores-alvo", os modelos não são nada interessantes, encontrar um par, depois os modelos são apenas sementes em R, vai encontrar uma dúzia deles num dia e fazer conjuntos deles.

Então como se corta um arquivo com R, você precisa usar um algoritmo especial? É interessante ver o que acontece no final.

 
SanSanych Fomenko:


2. Não há problema em usar o R EA: tudo funciona e é muito estável.

Também funciona para o MT5? Onde posso encontrar exemplos de código? Acho que seria melhor usar o indicador para enviar informações, pois no otimizador será mais fácil compará-las ao se conectar à EA e mostrar visualmente o que a floresta pensa sobre a situação do mercado em um determinado momento.

 
Yuriy Asaulenko:

R é um ambiente maravilhoso, com muitas vantagens sobre Python. A principal delas é que R é um ambiente de modelagem. Comparado ao Python, os resultados em R podem ser obtidos mais rapidamente e mais facilmente.

É evidente que Python, em combinação com módulos, tem as suas próprias vantagens.

A propósito, quanto à RF, parece que aqui, assim como na NS, é possível prescindir da seleção de preditores e usar BP diretamente normalizada como tal.

você pode até usar o

 
Maxim Dmitrievsky:

Até o podes fazer sem racionamento.

Não vai funcionar. Deve haver uma referência clara da seção do PB para um determinado nível, zero, por exemplo.

 
Aleksey Vyazmikin:


Entendo a diferença entre árvores e florestas (ou acho que entendo) as florestas são melhores para usar quando há mais incerteza nos dados, ou seja, um padrão menos estável desde que as florestas tomam decisões por votação, o que é feito por árvores aleatórias (independentes devido ao encurtamento), ou estou errado?

Não sei, estou a julgar pelos resultados.

E a opção "adad" que não tenho, não está na imagem da tela, existe "Forest" - não é isso?

Em ordem:


Árvore

O pacote 'rpart' fornece a função'rpart'.


Impulso

# Extreme Boost

# O pacote `xgboost' implementa o algoritmo de aumento de gradiente extremo.


SVM

# Suporta máquina vectorial.

# O pacote 'kernlab' fornece a função 'ksvm'.


Linear

# Modelo de regressão

# Constrói um modelo de Regressão.


Rede Neural

# Rede Neural

# Construa um modelo de rede neural usando o pacote nnet.

biblioteca(nnet, quietly=TRUE)


A propósito, eu fiz este trabalho para você - você mesmo pode ver tudo isso em Log. Se você tiver outra versão do guizo, a lista pode ser diferente.


Então, como cortar arquivo com R, você precisa usar um algoritmo especial? É interessante ver qual vai ser o resultado.

Por índice, por exemplo: [1:2000,], [2001:4000,]. É importante não quebrar a sequência de tempo natural no segundo arquivo.

 
Aleksey Vyazmikin:

Também funciona para o MT5? Onde posso encontrar exemplos de código? Penso que seria melhor fornecer informação por indicador, porque o optimizador pode facilmente compará-los quando se liga à EA, e ver visualmente o que a floresta pensa sobre a situação do mercado em qualquer momento.

A biblioteca é modificada de acordo com o meu pedido - eu precisava de um testador do MT5. Fiz as contas, sou demasiado preguiçoso para as procurar, talvez as tenha limpo.

Dê uma olhada nos artigosde Vladimir Perervenko

Se você está interessado em redes, ele é o mais recente nesta área, R, conselheiros, o homem está disponível no site
 
Aleksey Vyazmikin:

Não, colapsou, o que significa que uma variável tem muitos valores, mas o número de combinações permanece o mesmo. Anexei um arquivo análogo ao último para compras, mas em uma representação diferente.

Tente da maneira que quiser :) O principal é não esquecer de ler a teoria que não faria algo estúpido, e o pacote que você precisa não é difícil, eles estão cheios deles, e até mesmo online - você não precisa instalar nada. Há um boom em datasens, "isto" está em todo o lado.

Não tenho tempo para analisar os arquivos, estou a trabalhar nas minhas próprias coisas.