Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2037

 
Rorschach:

A última coluna é alvo, o resto é entrada

Em geral corto amostra em 3 partes 60% - treinamento e 20 treinamento de controle e amostra não envolvida no treinamento.

A memória come muito - 18 gigabytes - Estou surpreso. Quanta memória você tem?

Comecei o processo de aprendizagem com quase configurações padrão, mas vejo que a amostra de treinamento está melhorando rapidamente, enquanto a amostra de controle não mostra nenhuma melhoria após a primeira árvore.

Então a questão é - você tem certeza que há um padrão lá?

Há uma sugestão de que as aulas não estão nada bem equilibradas, parece ser uma percentagem de unidades em torno de 10%?

 
Igor Makanu:

Então não podemos formalizar o conceito de TC?

Parece que o TC é inspiração? Ou que toca um instrumento musical?

Assim que conseguirmos formalizá-lo e escrevê-lo numa língua, então alguns tipos inteligentes inventarão um compilador para essa língua, e os comerciantes desaparecerão no esquecimento)

Igor Makanu:

Ou vamos voltar ao nosso... - Acontece que o TS é principalmente a análise da informação de mercado e a tomada de decisões

Se você não entender o significado das palavras acima mencionadas e entender que por esta razão os resultados da análise da mesma informação podem não ser os mesmos para pessoas diferentes e que só o futuro pode mostrar quem está certo)

 
dr.mr.mom:

Porquê um pessimismo tão global? ))) Eu "observei" como eles são treinados antes de todos os pacotes modernos no NeuroShell Day Pro. E mesmo assim consegui resultados robustos que não sei como funciona por dentro e foi quase impossível adicionar ao MT4.

Eu concordo que seria desejável aparafusar na GPU.

A questão é que tipo de NS eles são e em que paradigma eles foram construídos/aprendizados, o meu está evoluindo.

Sim, a primeira variante robusta pode ser treinada mesmo durante um dia (embora na prática num antigo computador portátil doméstico demore 8 horas). Mas para voltar à necessidade de evolução posterior da primeira variante à custa da sua robustez será necessário dentro de um mês. Ou seja, mesmo com dez ferramentas de trabalho na vida real de antemão haverá uma nova variante.

Agora sobre arquitectura, tomamos o algoritmo NEAT como base e adicionamos as nossas próprias funcionalidades. Na saída, a arquitetura irá evoluir, incluindo a arquitetura.

Então, é assim.

E, ao mesmo tempo, recomendo a leitura de livros/leituras sobre microbiologia, etc.

E nas disputas infelizmente um é um tolo (argumentando sem conhecimento), o outro é um bastardo (argumentando com conhecimento), prefiro uma troca de opiniões com argumentos/razoações.

Afinal de contas, o principal é ter um impacto, para o inferno com isso, vamos lá))))

Nada a discutir, porque em qualquer quadro normal fez e mostrou, com um mínimo de código

não são particularmente discutidos aqui, apenas modelos maduros como o catbust ou as redes neurais de hoje

Esta confusão do rato com redes neurais mql não é sequer interessante de discutir, porque o mundo está muito à frente, e todos os anos duplica a diferença.

Suponha que você me diga: "Eu tenho um modelo em fluxo tensor"... Eu digo "bom, eu posso fazer o mesmo modelo em uma Tocha por 5 minutos e verificar". E dizes-me que construíste algo em mql. Para que preciso dessa informação? Como posso recriá-la?

 
Aleksey Vyazmikin:

Em geral eu corto a amostra em 3 partes 60% - treinamento e 20 treinamento de controle e uma amostra não envolvida no treinamento.

Come muita memória - 18 gigabytes - estou surpreso. Quanta memória você tem?

Comecei o processo de aprendizagem com quase configurações padrão, mas vejo que a amostra de treinamento está melhorando rapidamente, enquanto a amostra de controle não mostra nenhuma melhoria após a primeira árvore.

Então a questão é - você tem certeza que há um padrão lá?

Há uma sugestão de que as classes não estão nada equilibradas, parece ser uma percentagem de unidades na região de 10%?

Os sistemas de árvores não precisam de equilíbrio de classes em uma amostra grande. As redes neurais ficam encravadas pelo desequilíbrio, e as árvores espalham claramente tudo nas folhas.
Essa é uma das razões porque mudei para árvores.

https://www.mql5.com/ru/blogs/post/723619

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
Aleksey Nikolayev:

Bem, sim, apenas compreendendo que é impossível formalizar clara e inequivocamente o significado destas palavras) e compreendendo que por esta razão os resultados da análise da mesma informação podem variar muito de uma pessoa para outra e que apenas o futuro pode mostrar quem tinha razão)

com a análise da informação de mercado, em geral, não há problema... exceto pela ganância do pesquisador que pensa que o mercado só lhe dá informações e precisa processar todos os dados, ou seja, aqui a tarefa é formalizada como procurando um padrão de repetição, outros dados devem ser descartados (não utilizados)

Com a decisão é triste - gerar TS que passará no teste e é possível avançar, mas encontrar ligações entre as estatísticas do testador de estratégia e a vida útil do TS ou a possibilidade de determinar a conformidade do TS com o contexto do mercado - esse é o problema

ou seja, enquanto você escreve o problema está no futuro.


penso que, em geral, fizemos um pequeno progresso na formalização do problema,

em princípio não é difícil fazer uma descarga de estatísticas de testes e tentar treinar NS em Python,

Determinação do contexto do mercado, imho, como você escreveu - apenas a decisão de um trader, ou seja, duvido que seja possível formalizar, algoritmar ou investigar

 
elibrarius:
Os sistemas de árvores não parecem precisar de equilíbrio de classes. As redes neurais ficam encravadas pelo desequilíbrio, enquanto as árvores espalham claramente tudo pelas folhas.
Essa é uma das razões porque mudei para árvores.

CatBoost é necessário, mas tem o seu próprio equilibrista, mas aparentemente não consegue lidar com isso.

Geralmente, se houver um forte desequilíbrio, então a aprendizagem irá embora, mas estatisticamente com mais zeros nas folhas só haverá zeros, ou seja, se houver poucas regras claras para puxar uma turma pequena, então pode funcionar, caso contrário irá se espalhar por todas as folhas.

 
Aleksey Vyazmikin:

CatBoost é necessário, mas tem o seu próprio equilibrista, mas aparentemente falha.

Geralmente, se houver um forte desequilíbrio, então a aprendizagem irá embora, mas estatisticamente com mais zeros nas folhas só haverá zeros, ou seja, se houver poucas regras claras para puxar uma turma pequena, então pode funcionar, caso contrário irá se espalhar por todas as folhas.

Ou, como sempre, quase não há padrões nos dados.

Aleksey Vyazmikin:

Geralmente, se houver um forte desequilíbrio, então a aprendizagem irá embora, mas estatisticamente com mais zeros nas folhas só haverá zeros, ou seja, se houver poucas regras claras para retirar uma turma pequena, então ela pode funcionar, caso contrário será manchada em todas as folhas.

A regra geral é clara - pegue a fenda que torna as folhas mais limpas das impurezas da outra classe.

Adicionei um link para um blog, com uma amostra grande haverá algo para formar folhas com classe pequena, mais você pode usar a raiz do índice Gini (mas ainda não encontrei sua fórmula).

 
Aleksey Vyazmikin:

Eu acho que para uma quantidade tão grande de dados você deveria fazer as árvores mais profundas, para que as folhas possam ser melhor limpas.
Se você tiver 10 mil exemplos em uma folha, é claro, ela será manchada, mas se você dividi-la em 100, acho que será mais clara.

A floresta de Alglib é de até 1 exemplo por folha, a separação é de 100%. Apenas 0 ou 1 será deixado nas folhas.
 
elibrarius:
Aleksey Vyazmikin:

Ou, como sempre, quase não há um padrão nos dados.

A regra geral é clara - pegue a fenda que torna as folhas mais limpas das impurezas de outra classe.

Adicionei um link para o blog, com uma amostra grande haverá algo para formar folhas com uma classe pequena, mais você pode usar a raiz do índice Gini (só que eu não encontrei a fórmula).

Portanto, tem poucos preditores - pequena dimensionalidade, por isso as opções de combinações de árvores também são pequenas.

Tirei uma amostra de 1% - no teste está 100% de aprendizagem - só acho que não há um padrão pronunciado.

E, CatBoost leva os preditores um pouco ao acaso para construir - assim reduz o ajuste, pela sua compreensão.

elibrarius:

Acho que para uma quantidade tão grande de dados você precisa fazer as árvores mais profundas, para que as folhas limpem melhor.
Se você ficar com 10k exemplos em uma folha, é claro que ela será manchada, mas se você levar a separação para 100, eu acho que já estará mais clara.

A árvore tem 6 profundidades, e acho que precisamos de mais profundidade se tivermos mais preditores.

Eu fiz uma grelha de 256.

 
Aleksey Vyazmikin:

A árvore tem 6 profundidades e eu acho que é preciso profundidade com mais preditores.

A grelha é de 256.

Quanto mais filas, mais profundidade é necessária.
Se há gigabytes, isso significa milhões de filas. A uma profundidade de 6, a folha final será 1/64 do número total de exemplos/linhas, ou seja, dezenas de milhares se houver milhões de entradas.

Experimente uma profundidade de 15 (esta parece ser uma profundidade máxima, a folha de trabalho final irá conter 1/32768ª parte das linhas).