Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2387

 
Aleksey Vyazmikin:

Se você não entende a descrição, faça perguntas sobre o que não está claro - eu tentarei explicar melhor.

Eu fiz a mesma coisa há alguns anos atrás, e desisti por causa do trabalho envolvido, não da inutilidade.

Abaixo está uma tabela com os resultados da antiga experiência, o trabalho é assim:

1. O número de palpiteiros é cortado em 9 pedaços.

2. Combinações entre pedaços são criadas - 512

3. Depois é feita uma estimativa de como as amostras se comportam em média com a presença/ausência de cada pedaço.

4. É feita uma suposição sobre o significado do pedaço (positivo/negativo).

5. Os pedaços significativos são divididos em pedaços menores, e os menos significativos são combinados em um pedaço (não necessariamente que eles têm que ir em ordem)

6. Novas 512 combinações são formadas

7. Se for encontrada uma pequena peça que afete negativamente a amostra, ela é excluída da enumeração posterior até que a melhoria do resultado pare, então as peças excluídas podem ser tentadas adicionando e analisando o resultado da mesma forma. As influências positivas, por outro lado, são agregadas em um grupo.

Aqui está um exemplo da mudança nos indicadores com 32 iterações deste tipo.



O método pode, naturalmente, ser melhorado, mas isto requer experimentação e resultados do resultado.

Sim, a melhoria não é por vezes, mas os resultados também permitem pensar em quais os preditores que são melhores ou piores para o resultado e porquê.

E, eu quero tentar trabalhar especificamente com estatísticas CatBoost e remover/adicionar preditores (e seus grupos) precisamente pela razão de que pode ser mais rápido do que a enumeração que eu usei anteriormente.

Outra vantagem é que demasiados preditores levam a rachaduras raras, e a activação de folhas pode ser muito rara na amostra fora do treino (mostrada na captura de ecrã mais cedo), o que diminui deliberadamente a qualidade do treino e a sua avaliação.

É um pouco complicado.
Como é melhor do que simplesmente testar todas as funcionalidades adicionando 1?
Primeiro comboio 1000 vezes (com 1000 funcionalidades para testar) em 1 funcionalidade, encontre a melhor. Depois 999 vezes na melhor ficha e 999 vezes no resto, escolha a segunda melhor. Depois no topo 2 e no terço dos 998 restantes, etc.
Um total de 2 ciclos aninhados.
Os modelos com um pequeno número de características aprendem muito rapidamente. Você receberá 20-30 deles em um período de tempo razoável. E depois de 10-20 dos recursos selecionados, os modelos normalmente param de melhorar, adicionando novos recursos depois deles só pioram o resultado.
 
Maxim Dmitrievsky:

Uma inútil perda de tempo

Claramente, não haverá uma discussão construtiva - não há vontade de chegar ao fundo da questão.

 
Aleksey Vyazmikin:

Claramente, não haverá uma discussão construtiva - não há vontade de entender o ponto.

Não há desejo de sofrer besteiras, o ponto é claro (sofrer besteiras)

 
elibrarius:
Algo complicado.
Como é melhor do que simplesmente testar todas as funcionalidades adicionando 1?
Primeiro comboio 1000 vezes (com 1000 funcionalidades para testar) em 1 funcionalidade, encontre a melhor. Depois 999 vezes na melhor ficha e 999 vezes no resto, escolha a segunda melhor. Depois no topo 2 e no terço dos 998 restantes, etc.
Um total de 2 ciclos aninhados.
Os modelos com um pequeno número de características aprendem muito rapidamente. Você receberá 20-30 deles em um período de tempo razoável. E depois de 10-20 dos recursos selecionados, os modelos normalmente param de melhorar, adicionando novos recursos depois deles só pioram o resultado.

Não estamos à procura do melhor, mas sim de uma combinação de características, e este é o problema. Porque é um problema, porque é impossível tentar todas as combinações, é por isso que é necessário um método eurético. Outro problema é a potencial forte semelhança de diferentes preditores após a sua divisão, o que em conjuntos levará a uma superestimação da probabilidade, pois haverá muitas folhas inerentemente correlacionadas.

 

o homem decidiu reinventar o boosting com o boosting, não vamos impedi-lo

os apelos ao senso comum não ajudaram

 
Maxim Dmitrievsky:

sem vontade de sofrer besteiras, o ponto é claro (sofrer besteiras)

Porquê tretas?

Faz alguma diferença - sim, faz.

Há uma justificação teórica - sim, há.

Claro que não é uma melhoria por uma ordem de grandeza.

E sim, pode ser pouco eficaz para os seus palpiteiros - aqui posso admitir a razão da recusa.

 
neuro está em chamas ))
esquecer a negociação, transformar a rede neural num indicador

 
Aleksey Vyazmikin:

Porquê tretas?

Faz alguma diferença - sim, faz.

Há uma justificação teórica - sim, há.

Claro que não é uma melhoria por uma ordem de grandeza.

E sim, pode ser marginalmente eficaz para os seus preditores - aqui eu posso permitir uma razão para a rejeição.

já disse tudo, não vou interferir em tentar muito do que você não pode escolher.

 
Aleksey Vyazmikin:

Não é preciso procurar o melhor, mas uma combinação dos dois - esse é o problema. Porque é um problema, porque é impossível tentar todas as combinações, é por isso que precisamos de um método eurético. Outro problema é a potencial forte semelhança de diferentes preditores após a divisão, que em conjuntos levará à superestimação da probabilidade, pois haverá muitas folhas essencialmente correlacionadas.

Uma vez escolhido o primeiro melhor chip, o segundo será escolhido com a melhor interação junto com o primeiro, e assim por diante. Uma vez atingido o 10, o próximo será escolhido com a melhor interação com qualquer um dos 10 escolhidos anteriormente, mas muito provavelmente com todos eles.
 
elibrarius:
Após selecionar a primeira melhor característica, a segunda será a que terá a melhor interação com a primeira, e assim por diante quando você chegar a 10. A próxima será a que tiver a melhor interacção com o que foi seleccionado anteriormente, mas muito provavelmente com todos eles.

não funciona dessa maneira

tirar as características de baixa importância do modelo e parti-lo, depois comparar o rabo com o polegar, e assim por diante