Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2804

 
mytarmailS #:

Então, qual é o objetivo desse exagero?

Para filtrar as características com correlações superiores a 0,9.

Para filtrar características com uma correlação maior que 0,8.

filtrar características com uma correlação maior que 0,7

excluir características com uma correlação maior que 0,6

....

..

Não vejo qual é a vantagem, basta fazer a triagem uma vez e pronto.

O que você quer dizer com "uma vez e tudo"? Há muitas amostras, portanto, é necessária uma abordagem sistemática. Se for útil, farei isso em MQL5, para que funcione imediatamente, e espero que seja mais rápido.

mytarmailS #:

========================================

Além disso, sabe-se que a madeira não se importa com sinais correlacionados.

Pegue, treine o modelo, selecione os recursos importantes do modelo e não se preocupe....

não faça bobagens, não desperdice seu tempo e o tempo de outras pessoas.

O CatBoost escolhe aleatoriamente o número de preditores em cada iteração de divisão ou construção de árvore - depende das configurações, e isso significa que os preditores fortemente correlacionados têm mais chance de entrar no aleatório, ou seja, não neles, mas nas informações que eles carregam.

Estou fazendo isso agora, também para o tópico do fórum, para ver se faz sentido para essa amostra.

Pelo menos, espero que essa abordagem permita a criação de modelos mais diversificados, o que permitirá descrever (o Recall será maior) mais situações na amostra e usar ainda mais o pacote de modelos.

 
Aleksey Vyazmikin #:

Estou fazendoisso agora, inclusive para um tópico do fórum, para verse fazsentido para essa amostra.

Não faz

 
mytarmailS #:

Não faz sentido

Você acha que essa amostra não tem solução?

 
Aleksey Vyazmikin #:

O CatBoost escolhe aleatoriamente o número de preditores em cada iteração de divisão ou construção de árvore - isso depende das configurações e significa que os preditores fortemente correlacionados têm mais chance de entrar em aleatoriedade, ou seja, não neles, mas nas informações que eles carregam.

Sim, e os criadores dos boosts não sabem disso...

Eles também não sabem que é possível filtrar sinais por correlação))) como eles saberiam, o método tem apenas 50 anos))))

Você realmente acredita que sabe mais do que eles?

Aleksey Vyazmikin #:

Você acha que essa amostra não tem solução?

Claro... O Boost leva tudo em consideração.

E não me critique, provavelmente sou mais jovem que você).

 
Aleksey Vyazmikin #:

Você acha que essa amostra não tem solução?

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself


As árvores de decisão são inerentemente imunes à multicolinearidade. Por exemplo, se você tiver duas funções ,

que são 99% correlacionadas, a árvore escolherá apenas uma delas ao tomar uma decisão de partição. Outros modelos,

como a regressão logística, usarão ambas as funções.

Como as árvores de bousting usam árvores de decisão separadas, elas também não são afetadas pela multicolinearidade.

========

Você pode usar essa abordagem, avaliar a importância de cada função e manter apenas as melhores funções em seu modelo final.


O que, na verdade, é o que eu estava lhe dizendo antes

Does XGBoost handle multicollinearity by itself?
Does XGBoost handle multicollinearity by itself?
  • 2016.07.02
  • ope ope 1,653 3 3 gold badges 16 16 silver badges 27 27 bronze badges
  • datascience.stackexchange.com
I'm currently using XGBoost on a data-set with 21 features (selected from list of some 150 features), then one-hot coded them to obtain ~98 features. A few of these 98 features are somewhat redundant, for example: a variable (feature) $A$ also appears as $\frac{B}{A}$ and $\frac{C}{A}$. My questions are : From what I understand, the model is...
 
mytarmailS #:

Sim, e os criadores de impulsos como esse não sabem disso....

Eles também não sabem que é possível filtrar sinais por correlação)) como poderiam saber, o método tem apenas 50 anos de idade)))

Você realmente acredita que sabe mais do que eles?

Acredito. O Boost leva tudo isso em consideração.

E não me venha com essa conversa, provavelmente sou mais jovem que você).

Eu analiso os resultados dos modelos e vejo que eles pegam preditores altamente correlacionados, por exemplo, preditores baseados no tempo - mesmo que tenham uma pequena defasagem de tempo.

Acho que eles sabem tudo perfeitamente bem, mas também não deveriam lhe falar sobre banalidades que têm décadas de idade....

Sobre "Você" ou "Você" - acho que é melhor para todos chamar o interlocutor como for conveniente para ele, se isso não transmitir uma mensagem ofensiva e não impedir um diálogo construtivo.


mytarmailS #:

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself


As árvores de decisão são inerentemente imunes à multicolinearidade. Por exemplo, se você tiver duas funções,

que são 99% correlacionadas, a árvore escolherá apenas uma delas ao decidir se deve ser dividida. Outros modelos,

como a regressão logística, usarão ambas as funções.

Como as árvores de bousting usam árvores de decisão separadas, elas também não são afetadas pela multicolinearidade.

========

Sevocê quiser usar essa abordagem, avalie a importância de cada recurso e mantenha apenas os melhores recursos em seu modelo final.


O que, na verdade, é o que eu estava dizendo antes

Esse é o problema, ele escolherá - sim, um, mas quantas vezes essa escolha será feita....

Além disso, o CatBoost tem algumas diferenças em relação ao xgboost, e há resultados diferentes em amostras diferentes; em média, o CatBoost é mais rápido e até melhor, mas nem sempre.

 

Além disso, tenho meu próprio método de agrupar preditores semelhantes e selecionar a melhor opção entre eles, e preciso de um grupo de controle na forma de correlação...

 
O script funciona - acho que vou ter que deixá-lo de um dia para o outro....
 
Aleksey Vyazmikin #:

O CatBoost escolhe aleatoriamente o número de preditores em cada iteração de divisão ou construção de árvore - isso depende das configurações e significa que os preditores fortemente correlacionados têm mais chance de entrar em aleatoriedade, ou seja, não neles, mas nas informações que eles carregam.

Tem certeza de que está escolhendo preditores aleatoriamente? Eu não estava fazendo catbusting, estava olhando o código de exemplos básicos de bousting. Todos os preditores são usados lá. Ou seja, o melhor é escolhido. O correlacionado será o próximo a ele, mas um pouco pior. Mas em alguns outros níveis de divisão ou em árvores de correção, outro dos preditores correlacionados pode ser melhor.

 
Aleksey Vyazmikin agrupar preditores semelhantes e selecionar a melhor variante entre eles, e preciso de um grupo de controle na forma de correlação....
Portanto, me dê algumas fórmulas informativas para experimentar.