Aprendizado de máquina no trading: teoria, prática, negociação e não só

Aleksey Vyazmikin 2022.10.27 15:11 #28031

mytarmailS #:

Então, qual é o objetivo desse exagero?

Para filtrar as características com correlações superiores a 0,9.

Para filtrar características com uma correlação maior que 0,8.

filtrar características com uma correlação maior que 0,7

excluir características com uma correlação maior que 0,6

....

..

Não vejo qual é a vantagem, basta fazer a triagem uma vez e pronto.

O que você quer dizer com "uma vez e tudo"? Há muitas amostras, portanto, é necessária uma abordagem sistemática. Se for útil, farei isso em MQL5, para que funcione imediatamente, e espero que seja mais rápido.

mytarmailS #:

========================================

Além disso, sabe-se que a madeira não se importa com sinais correlacionados.

Pegue, treine o modelo, selecione os recursos importantes do modelo e não se preocupe....

não faça bobagens, não desperdice seu tempo e o tempo de outras pessoas.

O CatBoost escolhe aleatoriamente o número de preditores em cada iteração de divisão ou construção de árvore - depende das configurações, e isso significa que os preditores fortemente correlacionados têm mais chance de entrar no aleatório, ou seja, não neles, mas nas informações que eles carregam.

Estou fazendo isso agora, também para o tópico do fórum, para ver se faz sentido para essa amostra.

Pelo menos, espero que essa abordagem permita a criação de modelos mais diversificados, o que permitirá descrever (o Recall será maior) mais situações na amostra e usar ainda mais o pacote de modelos.

Existe um padrão para Procurando por padrões Correlação, alocação em um

mytarmailS 2022.10.27 15:43 #28032

Aleksey Vyazmikin #:

Estou fazendoisso agora, inclusive para um tópico do fórum, para verse fazsentido para essa amostra.

Não faz

Aleksey Vyazmikin 2022.10.27 15:46 #28033

mytarmailS #:

Não faz sentido

Você acha que essa amostra não tem solução?

mytarmailS 2022.10.27 15:49 #28034

Aleksey Vyazmikin #:

O CatBoost escolhe aleatoriamente o número de preditores em cada iteração de divisão ou construção de árvore - isso depende das configurações e significa que os preditores fortemente correlacionados têm mais chance de entrar em aleatoriedade, ou seja, não neles, mas nas informações que eles carregam.

Sim, e os criadores dos boosts não sabem disso...

Eles também não sabem que é possível filtrar sinais por correlação))) como eles saberiam, o método tem apenas 50 anos))))

Você realmente acredita que sabe mais do que eles?

Aleksey Vyazmikin #:

Você acha que essa amostra não tem solução?

Claro... O Boost leva tudo em consideração.

E não me critique, provavelmente sou mais jovem que você).

1200 assinantes!!! Um pouco de matemática EURUSD - Tendências, Previsões

mytarmailS 2022.10.27 16:03 #28035

Aleksey Vyazmikin #:

Você acha que essa amostra não tem solução?

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself

As árvores de decisão são inerentemente imunes à multicolinearidade. Por exemplo, se você tiver duas funções ,

que são 99% correlacionadas, a árvore escolherá apenas uma delas ao tomar uma decisão de partição. Outros modelos,

como a regressão logística, usarão ambas as funções.

Como as árvores de bousting usam árvores de decisão separadas, elas também não são afetadas pela multicolinearidade.

========

Você pode usar essa abordagem, avaliar a importância de cada função e manter apenas as melhores funções em seu modelo final.

O que, na verdade, é o que eu estava lhe dizendo antes

Does XGBoost handle multicollinearity by itself?

2016.07.02
ope ope 1,653 3 3 gold badges 16 16 silver badges 27 27 bronze badges
datascience.stackexchange.com

I'm currently using XGBoost on a data-set with 21 features (selected from list of some 150 features), then one-hot coded them to obtain ~98 features. A few of these 98 features are somewhat redundant, for example: a variable (feature) $A$ also appears as $\frac{B}{A}$ and $\frac{C}{A}$. My questions are : From what I understand, the model is...

Redefinição de indicadores. paranteses desequilibrados Minha abordagem. O núcleo

Aleksey Vyazmikin 2022.10.27 18:14 #28036

mytarmailS #:

Sim, e os criadores de impulsos como esse não sabem disso....

Eles também não sabem que é possível filtrar sinais por correlação)) como poderiam saber, o método tem apenas 50 anos de idade)))

Você realmente acredita que sabe mais do que eles?

Acredito. O Boost leva tudo isso em consideração.

E não me venha com essa conversa, provavelmente sou mais jovem que você).

Eu analiso os resultados dos modelos e vejo que eles pegam preditores altamente correlacionados, por exemplo, preditores baseados no tempo - mesmo que tenham uma pequena defasagem de tempo.

Acho que eles sabem tudo perfeitamente bem, mas também não deveriam lhe falar sobre banalidades que têm décadas de idade....

Sobre "Você" ou "Você" - acho que é melhor para todos chamar o interlocutor como for conveniente para ele, se isso não transmitir uma mensagem ofensiva e não impedir um diálogo construtivo.

mytarmailS #:

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself

As árvores de decisão são inerentemente imunes à multicolinearidade. Por exemplo, se você tiver duas funções,

que são 99% correlacionadas, a árvore escolherá apenas uma delas ao decidir se deve ser dividida. Outros modelos,

como a regressão logística, usarão ambas as funções.

Como as árvores de bousting usam árvores de decisão separadas, elas também não são afetadas pela multicolinearidade.

========

Sevocê quiser usar essa abordagem, avalie a importância de cada recurso e mantenha apenas os melhores recursos em seu modelo final.

O que, na verdade, é o que eu estava dizendo antes

Esse é o problema, ele escolherá - sim, um, mas quantas vezes essa escolha será feita....

Além disso, o CatBoost tem algumas diferenças em relação ao xgboost, e há resultados diferentes em amostras diferentes; em média, o CatBoost é mais rápido e até melhor, mas nem sempre.

Existe um padrão para Com que freqüência você Comércio a partir de

Aleksey Vyazmikin 2022.10.27 18:16 #28037

Além disso, tenho meu próprio método de agrupar preditores semelhantes e selecionar a melhor opção entre eles, e preciso de um grupo de controle na forma de correlação...

Aleksey Vyazmikin 2022.10.27 18:17 #28038

O script funciona - acho que vou ter que deixá-lo de um dia para o outro....

Forester 2022.10.27 19:50 #28039

Aleksey Vyazmikin #:

O CatBoost escolhe aleatoriamente o número de preditores em cada iteração de divisão ou construção de árvore - isso depende das configurações e significa que os preditores fortemente correlacionados têm mais chance de entrar em aleatoriedade, ou seja, não neles, mas nas informações que eles carregam.

Tem certeza de que está escolhendo preditores aleatoriamente? Eu não estava fazendo catbusting, estava olhando o código de exemplos básicos de bousting. Todos os preditores são usados lá. Ou seja, o melhor é escolhido. O correlacionado será o próximo a ele, mas um pouco pior. Mas em alguns outros níveis de divisão ou em árvores de correção, outro dos preditores correlacionados pode ser melhor.

Existe um padrão para "O sistema comercial 'perfeito Aplicação da análise matemática

Maxim Dmitrievsky 2022.10.28 01:02 #28040

Aleksey Vyazmikin agrupar preditores semelhantes e selecionar a melhor variante entre eles, e preciso de um grupo de controle na forma de correlação....

Portanto, me dê algumas fórmulas informativas para experimentar.

Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2804