Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2804
![MQL5 - Linguagem para estratégias de negociação inseridas no terminal do cliente MetaTrader 5](https://c.mql5.com/i/registerlandings/logo-2.png)
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Então, qual é o objetivo desse exagero?
Para filtrar as características com correlações superiores a 0,9.
Para filtrar características com uma correlação maior que 0,8.
filtrar características com uma correlação maior que 0,7
excluir características com uma correlação maior que 0,6
....
..
Não vejo qual é a vantagem, basta fazer a triagem uma vez e pronto.
O que você quer dizer com "uma vez e tudo"? Há muitas amostras, portanto, é necessária uma abordagem sistemática. Se for útil, farei isso em MQL5, para que funcione imediatamente, e espero que seja mais rápido.
========================================
Além disso, sabe-se que a madeira não se importa com sinais correlacionados.
Pegue, treine o modelo, selecione os recursos importantes do modelo e não se preocupe....
não faça bobagens, não desperdice seu tempo e o tempo de outras pessoas.
O CatBoost escolhe aleatoriamente o número de preditores em cada iteração de divisão ou construção de árvore - depende das configurações, e isso significa que os preditores fortemente correlacionados têm mais chance de entrar no aleatório, ou seja, não neles, mas nas informações que eles carregam.
Estou fazendo isso agora, também para o tópico do fórum, para ver se faz sentido para essa amostra.
Pelo menos, espero que essa abordagem permita a criação de modelos mais diversificados, o que permitirá descrever (o Recall será maior) mais situações na amostra e usar ainda mais o pacote de modelos.
Estou fazendoisso agora, inclusive para um tópico do fórum, para verse fazsentido para essa amostra.
Não faz
Não faz sentido
Você acha que essa amostra não tem solução?
O CatBoost escolhe aleatoriamente o número de preditores em cada iteração de divisão ou construção de árvore - isso depende das configurações e significa que os preditores fortemente correlacionados têm mais chance de entrar em aleatoriedade, ou seja, não neles, mas nas informações que eles carregam.
Sim, e os criadores dos boosts não sabem disso...
Eles também não sabem que é possível filtrar sinais por correlação))) como eles saberiam, o método tem apenas 50 anos))))
Você realmente acredita que sabe mais do que eles?
Você acha que essa amostra não tem solução?
Claro... O Boost leva tudo em consideração.
E não me critique, provavelmente sou mais jovem que você).
Você acha que essa amostra não tem solução?
https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself
As árvores de decisão são inerentemente imunes à multicolinearidade. Por exemplo, se você tiver duas funções ,
que são 99% correlacionadas, a árvore escolherá apenas uma delas ao tomar uma decisão de partição. Outros modelos,
como a regressão logística, usarão ambas as funções.
Como as árvores de bousting usam árvores de decisão separadas, elas também não são afetadas pela multicolinearidade.
========
Você pode usar essa abordagem, avaliar a importância de cada função e manter apenas as melhores funções em seu modelo final.
O que, na verdade, é o que eu estava lhe dizendo antes
Sim, e os criadores de impulsos como esse não sabem disso....
Eles também não sabem que é possível filtrar sinais por correlação)) como poderiam saber, o método tem apenas 50 anos de idade)))
Você realmente acredita que sabe mais do que eles?
Acredito. O Boost leva tudo isso em consideração.
E não me venha com essa conversa, provavelmente sou mais jovem que você).
Eu analiso os resultados dos modelos e vejo que eles pegam preditores altamente correlacionados, por exemplo, preditores baseados no tempo - mesmo que tenham uma pequena defasagem de tempo.
Acho que eles sabem tudo perfeitamente bem, mas também não deveriam lhe falar sobre banalidades que têm décadas de idade....
Sobre "Você" ou "Você" - acho que é melhor para todos chamar o interlocutor como for conveniente para ele, se isso não transmitir uma mensagem ofensiva e não impedir um diálogo construtivo.
https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself
As árvores de decisão são inerentemente imunes à multicolinearidade. Por exemplo, se você tiver duas funções,
que são 99% correlacionadas, a árvore escolherá apenas uma delas ao decidir se deve ser dividida. Outros modelos,
como a regressão logística, usarão ambas as funções.
Como as árvores de bousting usam árvores de decisão separadas, elas também não são afetadas pela multicolinearidade.
========
Sevocê quiser usar essa abordagem, avalie a importância de cada recurso e mantenha apenas os melhores recursos em seu modelo final.
O que, na verdade, é o que eu estava dizendo antes
Esse é o problema, ele escolherá - sim, um, mas quantas vezes essa escolha será feita....
Além disso, o CatBoost tem algumas diferenças em relação ao xgboost, e há resultados diferentes em amostras diferentes; em média, o CatBoost é mais rápido e até melhor, mas nem sempre.
Além disso, tenho meu próprio método de agrupar preditores semelhantes e selecionar a melhor opção entre eles, e preciso de um grupo de controle na forma de correlação...
O CatBoost escolhe aleatoriamente o número de preditores em cada iteração de divisão ou construção de árvore - isso depende das configurações e significa que os preditores fortemente correlacionados têm mais chance de entrar em aleatoriedade, ou seja, não neles, mas nas informações que eles carregam.
Tem certeza de que está escolhendo preditores aleatoriamente? Eu não estava fazendo catbusting, estava olhando o código de exemplos básicos de bousting. Todos os preditores são usados lá. Ou seja, o melhor é escolhido. O correlacionado será o próximo a ele, mas um pouco pior. Mas em alguns outros níveis de divisão ou em árvores de correção, outro dos preditores correlacionados pode ser melhor.