Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 1301

 
Aleksey Vyazmikin:

A avaliação do modelo não afeta o desempenho do modelo quando aplicado a uma amostra não familiar?

O que você está fazendo, construindo um monte de modelos diferentes e verificando qual deles funciona melhor?

O que isso tem a ver com "folhas" e seleção das melhores folhas, etc.?

Só estou a tentar perceber sobre o que estás a escrever.

ou cada linha lá corresponde a uma folha
 
Maxim Dmitrievsky:

O que você está fazendo? Construindo um monte de modelos diferentes e verificando qual deles funciona melhor?

O que tem isto a ver com "folhas", selecção das melhores folhas, etc.?

Só estou a tentar perceber o que estás a escrever de vez em quando.

Parece que a conversa foi sobre a seleção automática de um modelo, expliquei que os modelos interessantes podem ser selecionados de duas maneiras, através de um critério e fórmula conhecidos (como faço agora - 3 últimas colunas são preenchidas para cada amostra e para cada amostra é formada uma tabela, se 3 colunas de filtro combinam, então o modelo é selecionado), ou você pode usar a aprendizagem da máquina, quando você entender o que quer do modelo em uma amostra independente, mas não sabe como alcançá-lo. Assim, para a segunda via, as diferentes métricas do modelo tornam-se preditores e o modelo é treinado nelas, o que já seleciona modelos adequados a partir de dados similares por meio de MO. Tive uma experiência semelhante com a formação nesse ano e ela mostrou resultados positivos, em termos de precisão foi boa mas não tão boa em termos de completude, então decidi que nos faltava diversidade na amostra e adiei o trabalho para tempos melhores. Existem agora muitas amostras diferentes sendo geradas e é possível revisitar este trabalho. A idéia principal não é selecionar o melhor do pool disponível, mas selecionar o melhor por critérios absolutos, seja por MO ou por índice fixo.

As folhas são trabalhos com modelos seleccionados.

Cada linha é um modelo separado.
 
Aleksey Vyazmikin:

Parece que a conversa foi sobre seleção automática de modelos, eu expliquei que modelos interessantes podem ser selecionados de duas maneiras, através de critério e fórmula conhecidos (como eu faço agora - 3 últimas colunas são preenchidas para cada amostra e para cada amostra tal tabela é formada, se 3 colunas de filtro coincidem, então o modelo é selecionado), ou por aprendizado de máquina, quando você entende o que quer do modelo em trabalho sobre amostra independente, mas não sabe como alcançá-lo. Assim, para a segunda via, diferentes indicadores métricos do modelo tornam-se preditores e o modelo é treinado sobre eles, que através do MO seleciona modelos adequados a partir de dados semelhantes. Tive uma experiência semelhante com a formação nesse ano e ela mostrou resultados positivos, em termos de precisão foi boa mas não tão boa em termos de completude, então decidi que nos faltava diversidade na amostra e adiei o trabalho para tempos melhores. Existem agora muitas amostras diferentes sendo geradas e é possível revisitar este trabalho. A idéia principal não é selecionar o melhor do pool disponível, mas selecionar o melhor por critérios absolutos, seja por MO ou por índice fixo.

As folhas já estão a trabalhar com os modelos seleccionados.

Então você pega os n-models (como no arquivo), digita suas métricas como preditores para os NS, e então o que sai?

algumas estimativas da experiência? como com tais indicadores o modelo funcionará, mas não com estes

E depois filtras novos modelos através destas coisas? Bem, como a NS selecciona os modelos MI por si só?

 
Maxim Dmitrievsky:

Ou seja, você pega os n-models (como no arquivo), digita suas métricas como preditores para os NS, e então o que sai?

algumas estimativas da experiência? como com tais indicadores o modelo funcionará, mas não com tais?

E depois filtras novos modelos através destas coisas? Bem, como a NS selecciona os modelos MI por si só?

Quando experimentei, tomei métricas semelhantes para a amostra de teste e coloquei o resultado do teste (independente do treinamento) na amostra alvo. As métricas alvo eram lucro e drawdown (separadamente para compras e vendas) e outra coisa das métricas do próprio modelo - não me lembro exactamente. Agora eu preciso adicionar as métricas de uma amostra de treinamento aos dados da amostra de teste (naquela época eu não sabia que os resultados podem ser diferentes para Catbust) e eu ainda preciso experimentar com o alvo.

O modelo resultante foi alimentado com resultados de outras amostras com modelos, o principal resultado então foi uma boa filtragem de modelos não-lucrativos.
 
Aleksey Vyazmikin:

Quando experimentei, tomei métricas semelhantes para a amostra teste, e coloquei o resultado do teste (independente do treinamento) na amostra alvo. O alvo era lucro, drawdown (separadamente para compra e venda) e outra coisa do próprio modelo, não me lembro exactamente. Agora aos dados da amostra de teste eu tenho que adicionar as métricas da amostra de treinamento (na época eu não sabia que os resultados podem ser significativamente diferentes para Catbust) e eu preciso experimentar mais com o alvo.

É uma solução muito estranha e ornamentada, nunca vi tal coisa e não posso dizer nada sobre isso.

mas se funcionar bem
 
Maxim Dmitrievsky:

uma solução muito estranha e ornamentada, nunca vi nada parecido e tenho dificuldade em dizer nada sobre isso.

mas se funcionar, bom.

A idéia é que pela estrutura do modelo, seu comportamento na amostra de teste e treinamento, você pode estabelecer certas expectativas de comportamento no trabalho real.

Esta é uma direção muito interessante, mas requer tempo e recursos. Por outro lado, é possível desenvolver coletivamente e trocar preditores abertamente.

Se você não pode dizer nada sobre seu desempenho futuro de um modelo, é tudo uma perda de tempo - uma questão de sorte...

 
Aleksey Vyazmikin:

A idéia é que pela estrutura do modelo, seu comportamento na amostra de teste e treinamento, pode-se estabelecer certas expectativas de comportamento no trabalho real.

Esta é uma direção muito interessante, mas requer tempo e recursos. Por outro lado, é possível desenvolver coletivamente e trocar preditores abertamente.

Se nada pode ser dito sobre o desempenho futuro do modelo, todo o MO é uma perda de tempo - uma questão de sorte...

Com o tempo, a variação nos resultados aumenta, isto tem que ser levado em conta. Se o modelo quebra imediatamente em novos comércios, então só então é adequado, caso contrário você pode tentar apertá-lo. A maneira mais fácil de melhorar é a regularização (passo de gradiente em katbust) ou simplesmente não se ajustar.

Vejam como as pessoas trocam - todo o tipo de coisas de martingale. O MoD já dá algum tipo de vantagem.

Não estou escrevendo sobre modelos complexos de estimativa Bayesianos porque eu mesmo não entendi bem como trabalhar com eles, ainda há muito a aprender e trabalhar através
 
Maxim Dmitrievsky:

Com o tempo, a propagação dos resultados aumenta, isto deve ser levado em conta. Se o padrão quebra imediatamente em novas negociações, então você precisa afinar, caso contrário você pode tentar continuar

Caso contrário, veja como as pessoas trocam - todas aquelas coisas de martingale. MO já dá alguma vantagem

Ontem eu mostrei que o Catbust forma ruído nas folhas (árvores binárias) que pode ser removido e o modelo vai melhorar. Eu experimentei um pouco mais nessa direção, aumentando a filtragem, e descobri que depois de um certo limite acontece uma coisa paradoxal - as melhorias param na amostra independente, mas continuam no teste e na amostra de treinamento. Isto é, na realidade acontece que o modelo continua a funcionar (em amostra independente do treinamento) rolando em conexões com baixos pesos, na verdade encaixes, e então há uma questão que ou os pesos estão distribuídos incorretamente, ou o modelo está sobre-treinado e trabalha aleatoriamente com ruído branco (bem não exatamente ruído, em indicadores menos significativos de árvores binárias). Penso que também é possível ver de onde vêm estas relações e descobrir o seu significado numa pequena amostra de exame.

 
Aleksey Vyazmikin:

Ontem eu mostrei que o Catbust gera ruído nas folhas (árvores binárias), que podem ser removidas e o modelo vai melhorar. Eu experimentei um pouco mais nessa direção, aumentando a filtragem, e descobri que depois de um certo limite acontece uma coisa paradoxal - as melhorias param na amostra independente, mas continuam no teste e na amostra de treinamento. Ou seja, na realidade acontece que o modelo continua a funcionar como habitualmente em relações de baixo peso, na realidade encaixes, e há uma questão de que ou os pesos são distribuídos incorrectamente, ou o modelo é retraído e trabalha acidentalmente com ruído branco (bem, não exactamente ruído, em indicadores menos significativos de árvores binárias). Eu acho que você também poderia olhar de onde vieram essas relações e identificar seu significado em uma pequena amostra de exame.

Seja qual for a forma como cavar, você encontrará algumas "regularidades" ilusórias por toda parte, você pode encontrá-las em qualquer fenômeno

o que me deixa mais feliz é o grande número de "palpiteiros". De onde viria nas citações? Há ali 90% de lixo.

 
Maxim Dmitrievsky:

Não faço ideia, não entro em árvores e folhas, e não pretendo... tudo pode ser feito ao nível do próprio modelo.

Seja qual for a forma como cavas, vais encontrar "padrões" ilusórios em todo o lado, podes encontrá-los em qualquer fenómeno.

por isso trabalha apenas de formas conhecidas.

E eu estou apenas inspirado pela afinação das mãos - perdi a fé na magia passiva.

Eu não sei o algoritmo exato para os pesos das folhas, mas acho que depende da seqüência de links encontrados, não apenas dos links em si, ou seja, se uma nova árvore no boosting está corrigindo um erro, o peso é dado pelo delta da correção do erro, enquanto que o novo link pode ser mais valioso do que a correção em si. O ideal seria verificar novamente os links e seus pesos, verificar o número de árvores binárias envolvidas na decisão, se houver uma dúzia de árvores dando 0,5 de probabilidade no total, pode ser um elo fraco... Por outro lado, você precisa considerar o tamanho da própria árvore (agora eu uso profundidade 4, apenas para identificar regras curtas nas folhas). Isto é apenas um pensamento, não preciso de uma resposta...