Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2800

 
mytarmailS #:

A peculiaridade é que parece haver um forte desequilíbrio entre as classes. Se em 100 exemplos há 5 marcas de uma classe e 95 marcas de outra, como o modelo pode dar mais de 0,5 de probabilidade para a primeira classe? não é uma pergunta para o modelo, é uma pergunta para o autor do conjunto de dados.

Há mais de 30% de primeira classe. E, sim, é possível, não vejo qual é o problema. É suficiente encontrar uma regra/lista que tenha mais probabilidade de prever "1" do que "0", mesmo que raramente.

Além disso, ninguém impede que se altere o conjunto de dados equilibrando as classes.
 
Aleksey Vyazmikin #:

Há mais de 30% de primeira classe. E, sim, talvez, eu não esteja vendo o problema. É suficiente encontrar uma regra/lista que tenha mais probabilidade de prever "1" do que "0", embora raramente.

Além disso, ninguém pode alterar o conjunto de dados equilibrando as classes.

Você estava reclamando do catbust, e o catbust não é uma árvore\rule\list.

 
Somente os NS precisam de balanceamento. Os modelos de madeira não precisam de balanceamento.
 
mytarmailS #:

Você estava reclamando dos catbusters, e catbusters não são de madeira.

A reclamação não é sobre o algoritmo, ele é o que é, mas sobre o fato de que é melhor alimentá-lo com dados já mastigados.

Anteriormente, você entendeu isso de alguma forma...

Fórum sobre negociação, sistemas de negociação automatizados e teste de estratégias de negociação.

Aprendizado de máquina na negociação: teoria, modelos, prática e algo-trading

mytarmailS, 2016.10.29 11:22 pm.

Situação hipotética....

Temos 100 preditores em potencial; para simplificar a explicação, vamos considerá-los indicadores.

Vamos imaginar que inicialmente sabemos que em todos esses indicadores há apenas uma situação lucrativa, que é quando o RSI ultrapassa 90 e o estocástico acaba de ficar abaixo de zero (a situação do teto, é claro), essa situação resulta em uma queda de preço com uma probabilidade de 90%, todos os outros indicadores são ruído total, todas as outras situações nos indicadores RSI e estocástico também são ruído total, e há centenas e centenas de situações diferentes....

Portanto, temos cerca de 0,01% de sinal útil para 99,9% de ruído.

Suponha que, por algum milagre, seu MO elimine todos os 98 preditores e deixe apenas dois - RSI e estocástico.

No RSI, há centenas de situações: RSI>0, RSI>13, RSI<85, RSI=0, RSI<145, ............. e assim por diante, centenas e centenas, no estocástico não há menos situações, a situação de trabalho é apenas uma, uma vez que você treina o MO para reconhecer todos os movimentos de preço, o MO construirá modelos levando em conta todas as situações possíveis que existem no RSI e no estocástico, e a probabilidade nessas situações de que funcionem é quase zero, mas o MO é obrigado a levá-las em conta e a construir alguns modelos com base nelas, apesar do fato de que é o ruído real, e aquela situação de trabalho simplesmente se perderá entre centenas de outras soluções, esse é o retreinamento.....

Bem, como você conseguiu finalmente????


Justifique o que a representação do modelo e as proporções alvo têm a ver com isso. Estou dizendo que o modelo pode ser representado como uma folha modernizada - uma regra.

 
elibrarius #:
Somente os NS precisam de balanceamento. Os modelos de árvore não precisam de balanceamento.

Isso é válido para dados de boa qualidade; de qualquer forma, os contadores dentro do algoritmo funcionam e tomam decisões sobre o número de alvos alocados...

 
Aleksey Vyazmikin #:

A peculiaridade aqui é que o modelo CatBoost prefere atribuir a todos os exemplos uma probabilidade menor que 0,5 - portanto, ele não classifica o alvo "1", e o que está entre 0 e 0,5 também não é muito bem distribuído.

Se tivermos 100 exemplos do alvo, 5 rótulos ("A") e 95 rótulos ("B").

então o modelo não pode dar uma probabilidade para o rótulo "A" maior que 0,5.

Em alguma regra individual, ele pode, mas a postagem diz catbust, e esse é um modelo (soma das previsões de regras), não uma regra única, e a soma não terá uma probabilidade tão alta.


Mesmo que o modelo tenha certeza de que se trata da marca "A". a soma da probabilidade das regras da marca "A" será anulada pela soma das regras de "B" porque as regras de "B" serão muito maiores.

 
elibrarius #:
Somente os NS precisam de balanceamento. Os modelos de madeira não precisam de balanceamento.

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

random forest for imbalanced data?
random forest for imbalanced data?
  • 2018.04.16
  • MSilvy MSilvy 139 1 1 silver badge 8 8 bronze badges
  • stats.stackexchange.com
I have a dataset where yes=77 and no=16000, a highly imbalanced dataset. My plan was to identify the most important variables influencing the response variable using random forest and then develop a logistic regression model using the selected variable. I am planning to use...
 
mytarmailS #:

Se tivermos 5 pontos ("A") e 95 pontos ("B") para cada 100 exemplos do alvo

então o modelo não pode fornecer uma probabilidade para o rótulo "A" maior que 0,5

Em alguma regra individual, ele pode, mas a postagem diz catbust, e esse é um modelo (soma das previsões de regras), não uma regra única, e a soma não terá uma probabilidade tão alta.


Mesmo que o modelo tenha certeza de que se trata da marca "A". a soma da probabilidade das regras da marca "A" será superprevista pela soma das regras de "B" porque as regras de "B" serão muito maiores.

Tudo depende dos preditores e do número de árvores no modelo.

Não insisto no modelo CatBoost para treinamento.

 

https://www.mql5.com/ru/blogs/post/723619

77 de 16.000 é muito pouco. 77 exemplos são pouco representativos.
A única opção é estudar a árvore profundamente.

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
elibrarius #:

https://www.mql5.com/ru/blogs/post/723619

77 de 16.000 é muito pouco. 77 exemplos são pouco representativos.
A única opção é estudar a árvore profundamente.

Como está o livro?