Algoritmo para combinar faixas de um segmento - ajuda a criar - página 7

 
Aleksey Nikolayev:

A questão é fora de tópico e bastante filosófica. Já se deu conta de que a abordagem da classificação através da divisão dos atributos em segmentos implica uma dependência descontínua das saídas em relação às entradas? Ou seja, uma situação pode surgir quando um comércio se abre em um conjunto de atributos e não se abre em outro muito, muito próximo do primeiro (eles estão perto da fronteira, mas em lados opostos da mesma). Não estou dizendo que é a abordagem errada. Eu só quero perguntar - existe algum tipo de intuição de comerciante por trás disso ou é uma escolha arbitrária?

Sim, é possível, em teoria. Entretanto, o método de descaroçamento implica construir um conjunto de árvores consecutivas em diferentes preditores, o que significa que o limite certo pode ser selecionado para outra característica (se houver justificativa estatística), assim o "erro" é nivelado.

Aleksey Nikolayev:

Como alternativa possível, pode ser proposta a classificação por meio de regressão logística ou o método do vizinho mais próximo. Lá, a saída pode ser uma estimativa da probabilidade de pertencer a uma classe, que pode, por exemplo, ser usada para determinar o volume da transação. Eu não insisto em nenhum algoritmo em particular, apenas interessado no aspecto do negociante de escolher um algoritmo MO específico.

CatBoost também fornece uma estimativa da probabilidade de associação de classe, mas por minha observação é exatamente o oposto - maior confiança em observações raras que não ocorrem com freqüência suficiente e isto leva a sua superestimação, e em uma amostra independente isto levará ou a uma classificação errada ou ainda mais rara ocorrência de um índice alto.

Por que uso CatBoost para o comércio:

1. Algoritmo rápido.

2. Um algoritmo moderno e evolutivo com muitos avanços em MO out of the box.

3. uma maneira independente de aplicar o modelo em MT5 sem Python e R.

 
Aleksey Vyazmikin:

A questão aqui é como identificar "muitas seções valiosas e tóxicas" - ou seja, você precisa identificar sua intercambialidade, ou fazê-lo em duas passagens, como sugeri anteriormente. Ou você tem outra opção?

Sei de uma maneira de fazê-lo apenas em dois passes. Primeiro fazemos um mapa, depois escolhemos um caminho. Imediatamente, sem um mapa você também pode ir, mas são riscos muito maiores, especialmente quando há ravinas e pântanos no caminho, e uma bússola, estrelas e sol).

A questão é o custo da ação e a disponibilidade dos dados iniciais. Aparentemente, você tem que estabelecer o objetivo a partir daqui. As condições podem ser diferentes. Conhecemos o número de pontos e segmentos. Não sabemos o número de segmentos, mas sabemos o número de pontos, não sabemos o número de pontos e segmentos, apenas sabemos que eles são bastante numerosos. Sabemos que o número de segmentos a partir de um ponto é, no máximo, N.

Em geral, esta parte tem que ser formalizada primeiro.

 
Aleksey Vyazmikin:

Sim, isto é possível, em teoria. No entanto, o método de boosting implica construir um conjunto de árvores consecutivas em diferentes preditores, o que significa que o limite certo pode ser escolhido para outra característica (se houver justificativa estatística), então o "erro" é nivelado.

s vezes há a sensação de que isto não é um erro e a dependência da resposta em relação aos atributos (em nossos problemas)às vezes pode muito bem ser saltitante.

Aleksey Vyazmikin:

CatBoost também fornece estimativas de probabilidade de associação de classe, mas a partir de minhas observações é exatamente o oposto - maior confiança em observações raras que não ocorrem com freqüência suficiente e leva a sua superestimação, e em uma amostra independente levará ou a uma classificação errada ou ainda mais rara ocorrência de um índice alto.

O que quero dizer é que um modelo treinado para cada conjunto particular de características, em vez de responder "0 ou 1", dará a resposta como um número em uma escala de 0 a 1. A regressão logística, por exemplo, funciona desta forma. Em florestas aleatórias parece funcionar dessa forma também, mas não sei se é isso que você quer dizer ou se você quer dizer métrica.

 
Dmitry Fedoseev:

Dimitri, por favor, ajude-me, eu preciso mudar a matriz de corte[] no algoritmo de int para float, mas o compilador está com erros de lançamento.

 
Valeriy Yastremskiy:

Eu só conheço um método de duas passagens. Primeiro você faz um mapa, depois você escolhe um caminho. Imediatamente, sem um mapa você também pode ir, mas é muito mais arriscado, especialmente quando há ravinas e pântanos no caminho, e sem bússola, estrelas e sol).

A escuridão total aguarda os intrépidos caminhantes :)

Valeriy Yastremskiy:

A questão é o custo da ação e a disponibilidade dos dados iniciais. Aparentemente, temos que estabelecer o objetivo a partir daqui. As condições podem ser diferentes. Conhecemos o número de pontos e segmentos. Não sabemos o número de segmentos, mas sabemos o número de pontos, não sabemos o número de pontos e segmentos, apenas sabemos que eles são bastante numerosos. Sabemos que o número de segmentos a partir de um ponto é, no máximo, N.

Portanto, esta parte tem que ser formalizada primeiro.

Sabemos o número de pontos e segmentos de linha no início de nossa busca, sabemos até mesmo o provável número máximo de segmentos de linha que podemos encaixar em um a 40 (se o segmento contiver pelo menos 5% de pontos do mesmo alvo em duas opções).

O número real de segmentos pode ser diferente para a busca - agora eu tenho isso de 1 a 263, mas pode haver duplicatas.

 
Aleksey Nikolayev:

Às vezes há a sensação de que isto não é um erro e a dependência da resposta às características (em nossos problemas)às vezes pode muito bem ser saltitante.

Se estamos falando de atingir estatisticamente uma porcentagem maior de uma das classes, então sim, as seções próximas uma da outra podem ter uma predisposição diferente para o alvo. Eu até quero tentar uma transformação para facilitar o aprendizado, a essência da transformação seria classificar os segmentos pelo tipo de pertencimento ao alvo e o grau de probabilidade, assim o lado esquerdo seria segmentos para os zeros, e o lado direito para as unidades - no centro, pouco expressivo.

Aleksey Nikolayev:

Quero dizer que o modelo treinado para cada conjunto particular de características, em vez de responder "0 ou 1", dará a resposta como um número em um segmento de 0 a 1. A regressão logística, por exemplo, funciona desta forma. Em florestas aleatórias parece funcionar dessa forma também, mas não sei se é isso que você quer dizer ou se está falando de métricas.

Este é o modelo CatBoost após o treinamento na escala de probabilidade do eixo x - a curva azul é o número de exemplos, você pode ver que seu número está diminuindo.

Aqua é classe 0 e magnetta é classe 1. A curva vermelha é perda, a azul claro é ganho.

e este é o mesmo modelo em uma amostra independente.

Você acha que a regressão logística terá uma distribuição diferente?

O próprio algoritmo de regressão logística perde para o CatBoost sem o ajuste de parâmetros.

 
Aleksey Vyazmikin:

Você acha que a regressão logística terá uma distribuição diferente?

O próprio algoritmo de regressão logística, sem ajuste de parâmetros, perde para o CatBoost.

Não, não estou falando de comparar algoritmos na prática. Estou interessado em uma questão filosófica, como escolher um algoritmo e treiná-lo corretamente, levando em conta que as classes podem ser a) claramente separadas umas das outras, b) misturadas, c) alguma mistura de pontos a) e b). Para (a) você precisa de uma classificação clara, para (b) você precisa de uma classificação difusa, e para (c) você precisa misturá-las de alguma forma, mas não sacudi-las.

Talvez eu devesse passar minha pergunta para o fio condutor do MoD.

 
Aleksey Nikolayev:

Não, não estou falando de comparar algoritmos na prática. Estou interessado em uma questão filosófica, como escolher um algoritmo e treiná-lo corretamente considerando que as classes podem ser a) claramente separadas umas das outras, b) misturadas, c) alguma mistura de (a) e (b). Para (a) você precisa de uma classificação clara, para (b) você precisa de uma classificação difusa, e para (c) você precisa misturá-las de alguma forma, mas não sacudi-las.

Talvez eu devesse passar minha pergunta para o fio condutor do MoD.

Qualquer algoritmo pode provavelmente lidar com uma separação clara. A questão é qual algoritmo pode alocar melhor um subespaço para destacar áreas de classes em confusão.

O problema com a partição no comércio é a validade questionável da partição - daí a dificuldade adicional no treinamento.

Não tenho trabalhado com muitos métodos MO atualmente disponíveis, portanto não posso avaliar adequadamente seus pontos fortes e fracos.

 
Pode extrapolar espaço para o futuro sob a forma de clusters fractais .
 
Veniamin Skrepkov:
Pode extrapolar espaço para o futuro sob a forma de clusters fractais .

Você pode me mostrar como fazer isso?