Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2255

 
elibrarius:
Uma rara activação no Exame significa antes que o mercado mudou e o que muitas vezes aconteceu no comboio deixou de acontecer. E também não significa necessariamente que não houvesse muitas activações da folha lá.

Sim, concordo que também há um efeito de mudança no mercado.

Vamos ver o Train.

A situação é ligeiramente melhor, mas também há folhas com um raro número de ativações.

Observe como a aprendizagem acontece - uma árvore com um peso grande é construída - condicionalmente bem sucedida, e depois um conjunto com pesos pequenos, e depois grande novamente - tal torta, e se você remover as veias com pesos pequenos, então você obtém uma mudança na probabilidade.

 
Aleksey Vyazmikin:

Sim, concordo que também há um efeito de mudança no mercado.

Vamos ver o Train.

A situação é ligeiramente melhor, mas também o são as folhas com um número esparso de ativações.

Observe como a aprendizagem acontece - uma árvore com grandes pesos é construída - condicionalmente bem sucedida, e depois um conjunto com pequenos pesos, e depois grande novamente - tal torta, e se você remover as veias com pequenos pesos, e você obtém uma mudança na probabilidade.

O que acontecerá se você treinar um novo modelo neste diagrama?

Em geral a idéia é treinar o segundo modelo no "insides" do primeiro.

 
Maxim Dmitrievsky:

Porque estás a brincar com o carburador? Não estás a melhorar nada com isso.

Se você entender qual é o problema, você pode procurar uma solução. Obviamente, estas árvores têm desvantagens.

Mas eu concordo que não consigo descobrir o código CatBoost para fazer edições, infelizmente.

Contudo, há uma oportunidade de influenciar o modelo, talvez zerando em exemplos raros em folhas terá um efeito positivo, mas é desejável então recalcular os coeficientes das folhas - com ele é mais complicado, mas globalmente solvível.

Maxim Dmitrievsky:

Pegue uma simples rede neural sem folhas. Funcionará em novos dados tão mal como um impulso. O que é que isto te diz?

Concordo que também aí haverá efeitos de sobretreinamento, mas de natureza diferente - a questão é qual desses efeitos pode ser detectado e avaliado com mais precisão e qual é mais fácil de lidar.

Maxim Dmitrievsky:

Há uma excelente ferramenta SHAP para selecção e interpretação de características, mas está em python. Tudo isso foi feito para você há muito tempo).

Na verdade, a grande maioria destes métodos só fala do uso de preditores em modelos, mas não faz qualquer avaliação dos mesmos. Você precisa de estimativas de preditores independentes do modelo - estou trabalhando nisso, há modestos resultados positivos.

Claro que eu quero brincar com soluções prontas em python ou R, mas duvido que consiga lidar com uma nova sintaxe.

 
mytarmailS:

O que acontecerá se você treinar um novo modelo neste diagrama?

Na verdade a idéia é treinar um segundo modelo nas "vísceras" do primeiro modelo.

Este modelo no exemplo é de depósitos antigos, agora eu tenho 60k folhas nos modelos, o que, claro, é muito para formar uma amostra. Talvez tente reduzir significativamente o número de árvores. No entanto, noto que avaliei as folhas de CatBoost e elas são muito fracas em suas características individualmente em comparação com as folhas de uma árvore genética.

Nas folhas (milhares de folhas) da árvore genética que treinei - o desempenho métrico pode ser melhorado.

 
Aleksey Vyazmikin:

Se você entender qual é o problema, você pode procurar uma solução. Obviamente, tais árvores têm desvantagens.

Mas eu concordo que não consigo descobrir o código CatBoost para fazer edições, infelizmente.

Entretanto, há uma oportunidade de influenciar o modelo, talvez zerando os raros exemplos nas folhas terá um efeito positivo, mas é desejável então re-pesar os coeficientes foliares - isto é mais difícil, mas globalmente solvível.

Concordo que também aí haverá efeitos de sobretreinamento, mas de natureza diferente - a questão é qual desses efeitos pode ser identificado e avaliado com mais precisão e qual é mais fácil de lidar.

Na verdade, a grande maioria destes métodos fala apenas do uso de preditores em modelos, mas não fazem qualquer avaliação dos mesmos. Precisamos de estimativas de preditores independentes do modelo - estou a trabalhar nisto, há resultados positivos modestos.

Claro que quero rodar soluções prontas em python ou R, mas há dúvidas de que eu possa lidar com a nova sintaxe.

É o efeito das características sobre o comportamento de um determinado modelo que é avaliado ali.

 
Aleksey Vyazmikin:

Se você entender qual é o problema, você pode procurar uma solução. Obviamente, tais árvores têm desvantagens.

Mas eu concordo que não consigo descobrir o código CatBoost para fazer edições, infelizmente.

Entretanto, há uma oportunidade de influenciar o modelo, talvez zerando os raros exemplos nas folhas terá um efeito positivo, mas é desejável então re-pesar os coeficientes foliares - isto é mais difícil, mas globalmente solvível.

Concordo que também aí haverá efeitos de sobretreinamento, mas de natureza diferente - a questão é qual desses efeitos pode ser identificado e avaliado com mais precisão e qual é mais fácil de lidar.

Na verdade, a grande maioria destes métodos fala apenas do uso de preditores em modelos, mas não fazem qualquer avaliação dos mesmos. Precisamos de estimativas de preditores independentes do modelo - estou a trabalhar nisto, há resultados positivos modestos.

Claro que quero rodar soluções prontas em Python ou R, mas há dúvidas de que eu possa lidar com a nova sintaxe.

Chegou à conclusão que adicionar 1 de cada vez (ou remover 1 de cada vez) é o melhor. Aqui está a minha pesquisa. Acho que já o viste.

Сравнение разных методов оценки важности предикторов.
Сравнение разных методов оценки важности предикторов.
  • www.mql5.com
Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За
 
Maxim Dmitrievsky:

é o impacto das características sobre o comportamento de um determinado modelo que é avaliado

É o que estou a dizer, a avaliação passa pelo modelo resultante.

 
elibrarius:

Concluiu que adicionar 1 de cada vez (ou remover 1 de cada vez) é o melhor. Aqui está a minha pesquisa. Provavelmente já o viste.

Nunca vi isso antes - procurei - em geral, concordo que o efeito real pode ser alcançado através da remoção. O CatBoost tem um método de remover o preditor e de como pesar de novo o modelo sem ele, mas eu ainda não lidei com ele. Até agora eu me limitei a adicionar e remover preditores, mas não apenas um, mas em grupos.

 
Aleksey Vyazmikin:

É o que estou a dizer, a avaliação passa pelo modelo resultante.

e isso é bom.

você pode ver quais características estão com falhas nos novos dados

 

Eu não sei... talvez seja a minha experiência ou talvez seja a minha bebida...)

...mas acho que estás a sofrer de...)