Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2800
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
A peculiaridade é que parece haver um forte desequilíbrio entre as classes. Se em 100 exemplos há 5 marcas de uma classe e 95 marcas de outra, como o modelo pode dar mais de 0,5 de probabilidade para a primeira classe? não é uma pergunta para o modelo, é uma pergunta para o autor do conjunto de dados.
Há mais de 30% de primeira classe. E, sim, é possível, não vejo qual é o problema. É suficiente encontrar uma regra/lista que tenha mais probabilidade de prever "1" do que "0", mesmo que raramente.
Além disso, ninguém impede que se altere o conjunto de dados equilibrando as classes.Há mais de 30% de primeira classe. E, sim, talvez, eu não esteja vendo o problema. É suficiente encontrar uma regra/lista que tenha mais probabilidade de prever "1" do que "0", embora raramente.
Além disso, ninguém pode alterar o conjunto de dados equilibrando as classes.Você estava reclamando do catbust, e o catbust não é uma árvore\rule\list.
Você estava reclamando dos catbusters, e catbusters não são de madeira.
A reclamação não é sobre o algoritmo, ele é o que é, mas sobre o fato de que é melhor alimentá-lo com dados já mastigados.
Anteriormente, você entendeu isso de alguma forma...
Fórum sobre negociação, sistemas de negociação automatizados e teste de estratégias de negociação.
Aprendizado de máquina na negociação: teoria, modelos, prática e algo-trading
mytarmailS, 2016.10.29 11:22 pm.
Situação hipotética....
Temos 100 preditores em potencial; para simplificar a explicação, vamos considerá-los indicadores.
Vamos imaginar que inicialmente sabemos que em todos esses indicadores há apenas uma situação lucrativa, que é quando o RSI ultrapassa 90 e o estocástico acaba de ficar abaixo de zero (a situação do teto, é claro), essa situação resulta em uma queda de preço com uma probabilidade de 90%, todos os outros indicadores são ruído total, todas as outras situações nos indicadores RSI e estocástico também são ruído total, e há centenas e centenas de situações diferentes....
Portanto, temos cerca de 0,01% de sinal útil para 99,9% de ruído.
Suponha que, por algum milagre, seu MO elimine todos os 98 preditores e deixe apenas dois - RSI e estocástico.
No RSI, há centenas de situações: RSI>0, RSI>13, RSI<85, RSI=0, RSI<145, ............. e assim por diante, centenas e centenas, no estocástico não há menos situações, a situação de trabalho é apenas uma, uma vez que você treina o MO para reconhecer todos os movimentos de preço, o MO construirá modelos levando em conta todas as situações possíveis que existem no RSI e no estocástico, e a probabilidade nessas situações de que funcionem é quase zero, mas o MO é obrigado a levá-las em conta e a construir alguns modelos com base nelas, apesar do fato de que é o ruído real, e aquela situação de trabalho simplesmente se perderá entre centenas de outras soluções, esse é o retreinamento.....
Bem, como você conseguiu finalmente????
Justifique o que a representação do modelo e as proporções alvo têm a ver com isso. Estou dizendo que o modelo pode ser representado como uma folha modernizada - uma regra.
Somente os NS precisam de balanceamento. Os modelos de árvore não precisam de balanceamento.
Isso é válido para dados de boa qualidade; de qualquer forma, os contadores dentro do algoritmo funcionam e tomam decisões sobre o número de alvos alocados...
A peculiaridade aqui é que o modelo CatBoost prefere atribuir a todos os exemplos uma probabilidade menor que 0,5 - portanto, ele não classifica o alvo "1", e o que está entre 0 e 0,5 também não é muito bem distribuído.
Se tivermos 100 exemplos do alvo, 5 rótulos ("A") e 95 rótulos ("B").
então o modelo não pode dar uma probabilidade para o rótulo "A" maior que 0,5.
Em alguma regra individual, ele pode, mas a postagem diz catbust, e esse é um modelo (soma das previsões de regras), não uma regra única, e a soma não terá uma probabilidade tão alta.
Mesmo que o modelo tenha certeza de que se trata da marca "A". a soma da probabilidade das regras da marca "A" será anulada pela soma das regras de "B" porque as regras de "B" serão muito maiores.
Somente os NS precisam de balanceamento. Os modelos de madeira não precisam de balanceamento.
https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data
Se tivermos 5 pontos ("A") e 95 pontos ("B") para cada 100 exemplos do alvo
então o modelo não pode fornecer uma probabilidade para o rótulo "A" maior que 0,5
Em alguma regra individual, ele pode, mas a postagem diz catbust, e esse é um modelo (soma das previsões de regras), não uma regra única, e a soma não terá uma probabilidade tão alta.
Mesmo que o modelo tenha certeza de que se trata da marca "A". a soma da probabilidade das regras da marca "A" será superprevista pela soma das regras de "B" porque as regras de "B" serão muito maiores.
Tudo depende dos preditores e do número de árvores no modelo.
Não insisto no modelo CatBoost para treinamento.
https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data
https://www.mql5.com/ru/blogs/post/723619
77 de 16.000 é muito pouco. 77 exemplos são pouco representativos.
A única opção é estudar a árvore profundamente.
https://www.mql5.com/ru/blogs/post/723619
77 de 16.000 é muito pouco. 77 exemplos são pouco representativos.
A única opção é estudar a árvore profundamente.