Existe um padrão para o caos? Vamos tentar encontrá-lo! Aprendizado de máquina com o exemplo de uma amostra específica. - página 12

 
elibrarius #:

Você seleciona esses modelos com base no melhor modelo do teste?

Ou entre os muitos melhores no teste está o melhor no exame também?

Especificamente, houve uma seleção simplesmente pelo melhor no exame.

 
Aleksey Vyazmikin #:

Especificamente, houve uma seleção simplesmente pelos melhores no exame.

Eu também mostrei o melhor no exame. Não haverá exame antes de começar a negociar de verdade. Ou melhor, será com dinheiro de verdade....

Agora, fiz uma seleção de sinais por meio de valking forward (10000 a 5000 e uma bandeja como a sua e um teste); no exame, ambos se fundem.

É necessário fazer a seleção de alguma forma no teste, para que a capacidade de aprendizado seja preservada no exame.

 
elibrarius #:

Também mostrei o melhor no exame. Não haverá exame antes de começar a negociar de verdade. Ou melhor, será com dinheiro de verdade....

Agora, fiz uma seleção de sinais por meio de valking forward (10000 a 5000 e um trayne como o seu e um teste), no exame ambos se fundem.

É necessário fazer a seleção de alguma forma no teste, para que a capacidade de aprendizado seja preservada no exame.

No momento, infelizmente, só é possível aumentar a probabilidade de seleção correta. É por isso que estou considerando a negociação em lote, quando muitos modelos são selecionados de uma vez, na esperança de que a precisão média seja suficiente e eu consiga obter um lucro médio.

 
É necessário encontrar recursos que funcionem entre centenas de milhares de seus recursos e, em seguida, entender por que eles funcionam. Em seguida, você precisa escrever diferentes TCs sobre eles, não por meio de força bruta, mas selecionando os hiperparâmetros ideais.
Caso contrário, o resultado ainda será adequado, quando você tiver que escolher entre centenas de modelos de acordo com o exame.
O mais importante é entender por que os recursos funcionam, pelo menos aproximadamente. Em seguida, eles podem ser aprimorados ou receber rótulos.

Empilhar um monte de modelos pouco claros também não é uma boa ideia. Porque você terá que treinar novamente um monte de coisas desconhecidas.

Você precisa usar força bruta com a seleção de recursos para escolher os bons e, em seguida, meditar sobre por que eles funcionam. Então, ficará claro para onde ir em seguida. O Bruteforce em si é ineficaz para a preparação do TC, mas deve ser considerado como um método exploratório.
 
Maxim Dmitrievsky #:
É necessário encontrar recursos que funcionem entre centenas de milhares de seus recursos e, em seguida, entender por que eles funcionam. Em seguida, você precisa escrever diferentes TCs sobre eles, não por meio de força bruta, mas selecionando os hiperparâmetros ideais.
Caso contrário, o resultado ainda será adequado, quando você tiver que escolher entre centenas de modelos de acordo com o exame.
O mais importante é entender por que os recursos funcionam, pelo menos aproximadamente. Em seguida, eles podem ser aprimorados ou receber rótulos.

Empilhar um monte de modelos pouco claros também não é uma boa ideia. Porque você terá que treinar novamente um monte de coisas desconhecidas.

Você precisa usar força bruta com a seleção de recursos para escolher os bons e, em seguida, meditar sobre por que eles funcionam. Então, ficará claro para onde ir em seguida. O Bruteforce em si é ineficaz para a preparação do TC, mas deve ser considerado um método exploratório.
Concordo. A compreensão do processo pode ser obtida de diferentes ângulos)
 
Maxim Dmitrievsky #:
É necessário encontrar recursos que funcionem entre centenas de milhares de seus recursos e, em seguida, entender por que eles funcionam. Em seguida, você precisa escrever diferentes TCs sobre eles, não por meio de força bruta, mas selecionando os hiperparâmetros ideais.
Caso contrário, o resultado ainda será o ajuste, quando você escolher entre centenas de modelos de acordo com o exame.
O mais importante é entender por que os recursos funcionam, pelo menos aproximadamente. Em seguida, eles podem ser aprimorados ou os rótulos para eles podem ser aprimorados.

Também não é uma boa ideia empacotar um monte de modelos obscuros. Porque assim você terá que treinar novamente um monte de coisas desconhecidas.

Você precisa de força bruta com a seleção de recursos para escolher os bons e, em seguida, meditar sobre por que eles funcionam. Então, ficará claro para onde ir em seguida. O Bruteforce em si é ineficaz para a preparação do TC, mas deve ser considerado um método exploratório.

A questão é que a tarefa de entender o motivo da eficiência do indicador é extremamente difícil e está no campo da interpretação do comportamento do mercado. Além disso, os preditores funcionam em um grupo porque são primitivos, e como reunir preditores que funcionam em um grupo não é uma questão simples, se é que é uma questão de busting - até agora, o óbvio é usar uma árvore de decisão. E para criar árvores de decisão eficazes, você precisa reduzir significativamente a amostra e, melhor ainda, alimentar apenas os preditores que presumivelmente formam uma relação eficaz. E aqui o método de busca de modelos pode ser muito útil, pois o modelo usa, via de regra, apenas uma parte dos preditores.

Ajustar ou não ajustar - acho que todas as ações de ajuste de probabilidade são ajustadas. Outra coisa é que o histórico da distribuição dessas probabilidades sobre os preditores pode se repetir ou pode ser esquecido por um longo período de tempo. E aqui é importante ter algum método para determinar a transição desses estágios.

 
Aleksey Vyazmikin #:

O treinamento do que é chamado fora da caixa com o CatBoost, com as configurações abaixo - com a força bruta do Seed - fornece essa distribuição de probabilidade.

1. Trem de amostragem

2. Seleção de teste

3. Amostra de exame

Como você pode ver, o modelo prefere classificar quase tudo por zero - assim, há menos chance de cometer um erro.

Alexey, o treinamento é essencialmente um ajuste, não é?

 
Renat Akhtyamov #:

Alexei, o treinamento é essencialmente uma adaptação, não é?

Essencialmente, sim.

A otimização em um testador consiste em alterar as métricas nas quais o algoritmo opera, e o aprendizado em métodos de MO (árvores e suas variantes, NS) consiste em alterar o algoritmo avaliando e interpretando o histórico das métricas.

Simbiose, seria épico.....

 
Renat Akhtyamov #:

Alexei, o treinamento é essencialmente uma adaptação, não é?

Ensinar crianças em idade escolar também é adequar o conhecimento delas ao conhecimento existente)

 
Aleksey Vyazmikin #:

Esse é o ponto, a tarefa de entender o motivo do desempenho do indicador é extremamente difícil e está no campo da interpretação do comportamento do mercado, ou você tem uma abordagem mais robusta? Além disso, os preditores funcionam em um grupo, porque são primitivos, e como reunir preditores que funcionam em um grupo não é uma questão simples, se é que é uma questão de busting - até agora, o óbvio é o uso de uma árvore de decisão. E para criar árvores de decisão eficazes, você precisa reduzir significativamente a amostra e, melhor ainda, alimentar apenas os preditores que presumivelmente formam uma relação eficaz. E aqui o método de busca de modelo pode ser muito útil, pois o modelo usa, via de regra, apenas uma parte dos preditores.

Ajustar ou não ajustar - acho que todas as ações de ajuste de probabilidade são ajustadas. Outra coisa é que o histórico da distribuição dessas probabilidades sobre os preditores pode ser repetido ou pode ser esquecido por um longo período de tempo. E aqui é importante ter algum método para determinar a transição desses estágios.

pequenos grupos de 5 a 10 pessoas para treinar.

1-3 é melhor.

Se nenhum deles produzir nada, qual é o sentido de falar sobre uma conexão mítica entre eles? besteira + besteira...

Razão: