Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 1194

 
E então o algoritmo de aprendizagem é projetado para quebrar loglosses por 0,5 - então é meio lógico que há um grande cluster lá.
 
Aleksey Vyazmikin:
E então o algoritmo de aprendizagem é afiado para quebrar loglosses por 0.5 - então é meio lógico que o cluster é o principal ali.

A perda de logloss é quase inútil de se ver, é uma métrica pouco marcante em termos de quebra de classe.

 
Maxim Dmitrievsky:

quanto maior for a probabilidade do evento, mais preciso é o sinal, ele vem até da definição :) 2 a corcunda não estará em dados ruidosos, mas o modelo deve pelo menos capturar os valores extremos de forma adequada, caso contrário, nunca se tem a certeza sobre os inputs

Acho que não é assim tão simples, tem de se considerar a função de aprendizagem... pois a probabilidade é geralmente calculada após os seus valores (no algoritmo do modelo assim).

Até agora os factos dizem-me que o modelo manchado não é certo, e ainda não encontrei um fracasso no centro...

Maxim Dmitrievsky:

Olhar para o logloss é quase inútil, é uma métrica sem importância em termos de divisão em classes.

Há uma descida de declive a decorrer...
 
Aleksey Vyazmikin:

Não acho que seja assim tão claro, tens de considerar a função de aprendizagem... porque a probabilidade é geralmente calculada após os seus valores.

Até agora os factos dizem-me que o modelo manchado não é certo, e ainda não encontrei um fracasso no centro...

não entendo a terminologia, qual é a função de aprendizagem? há um softmax no final ou o quê?

Eu não sei sobre a falha, mas o modelo inseguro não vai funcionar com novos dados, enquanto o modelo manchado vai, se você definir o limite de probabilidade

 
Maxim Dmitrievsky:

Eu não entendo a terminologia, qual é a função de aprendizagem? há um softmax no final ou o quê?

Lá, o modelo é avaliado por logloss e todo o aumento do gradiente visa melhorar o desempenho desta função. O próprio modelo produz valores que precisam ser transformados através de uma função logística. É por isso que suponho que nem tudo é tão simples neste método com probabilidade...

 
Aleksey Vyazmikin:

Lá, o modelo é avaliado por logloss e todas as ações de reforço de gradiente têm como objetivo melhorar o desempenho desta função. O próprio modelo produz valores que precisam ser transformados através de uma função logística. É por isso que presumo que nem tudo é tão simples neste método com probabilidade...

Há f-ions min e max, eles estarão nas margens de logit com certeza... Se eles não estão lá, então é underrun ou outra coisa (eu recebo sempre que estou underrun, como ter poucos neurônios ou árvores) e é um grande erro de classificação e logloss

 
Maxim Dmitrievsky:

Existem f-ions min e max, eles estarão sempre nas bordas do logit... se eles não estão lá, é um underfitting ou o que quer que seja (eu sempre tenho quando estou underfitting, por exemplo, poucos neurônios ou árvores) e um grande erro de classificação e logloss

É sobre esses coeficientes que o modelo produz https://en.wikipedia.org/wiki/Logit - não é uma distribuição linear.

Parece-me que o subtreinamento é melhor do que o sobretreinamento, especialmente se você se concentrar na classe 1 e pegar uma grande porcentagem de alvos corretamente classificados que atingem a classificação, e então você pode combinar modelos limitando seu alcance de aplicação.

Logit - Wikipedia
Logit - Wikipedia
  • en.wikipedia.org
In deep learning, the term logits layer is popularly used for the last neuron layer of neural network for classification task which produces raw prediction values as real numbers ranging from [3]. If p is a probability, then is the corresponding odds; the logit of the probability is the logarithm of the odds, i.e. logit ⁡ ( p ) = log ⁡...
 
Aleksey Vyazmikin:

É sobre esses coeficientes que o modelo dá https://en.wikipedia.org/wiki/Logit - não é uma distribuição linear.

Parece-me que o subtreinamento é melhor que o supertreinamento, especialmente se nos concentrarmos na classe 1 e pegarmos uma grande porcentagem de alvos corretamente classificados que se enquadram na classificação, e então podemos combinar os modelos, limitando o alcance de sua aplicação.

em resumo... Digo mais uma vez: devemos ensinar adequadamente para evitar aglomerações (excesso de equipamento) e cortar caudas (subapetrechamento)

A curva vermelha parece-me mais ou menos normal.

e o subapetrechamento não é nada... na vizinhança de 0,5

O viés pode ser puxado pela Bayes, por probabilidades condicionais, enquanto o modelo está em funcionamento. Ainda não descobri exactamente como, mas há um poder incognoscível, intuitivamente.

Os modelos Bayesianos são capazes de aprender... E se eu colocar uma dica Bayesiana no modelo para que ele não se retraia muito... Ainda não descobri.

 
Maxim Dmitrievsky:

Vou dizer novamente: você tem que ensinar normalmente para que não haja batidas (overfit) e rabos cortados (underfit).

a curva vermelha parece-me mais ou menos normal.

e o subapetrechamento não é nada... na vizinhança de 0,5

O viés pode ser puxado pela Bayes, por probabilidades condicionais, enquanto o modelo está em funcionamento. Ainda não descobri exactamente como, mas há um poder incognoscível, intuitivamente.

Os modelos Bayesianos são capazes de se requalificarem... E se você simplesmente colocar uma dica Bayesiana no modelo para não ter que se requalificar frequentemente... Eu ainda não pensei nisso.

Sim, eu também gosto mais do vermelho - como a distribuição normal e tudo isso, mas até agora em 512 modelos esta distribuição perde nos olhos... Em breve haverá muitos modelos da ordem dos 100000 - vou ver o que eles mostram... teoria e prática às vezes não batem certo - você precisa se adaptar, ou você poderia colocar seus dentes na prateleira dessa maneira...

O Catbust é apenas Bayesiano e suporta a pré-aprendizagem, mas não sei - adicionar árvores sem fim - parece adequado...

 
Maxim Dmitrievsky:

Adicionar árvores é um pouco estranho, sem reorganizar toda a estrutura... ou talvez esteja tudo bem, é difícil dizer... para uma pequena perspectiva, parece tudo bem, só para mudar o centro da mb

E de que outra forma é que se pode apanhar o jeito - em impulso, como eu entendo, é a única opção. É claro que você poderia jogar fora o último terço do modelo - um terço das árvores - e ver o que sai quando novos dados são alimentados. Mas, estou a pensar em tirar as folhas com "probabilidades" insignificantes - limpar do barulho, por assim dizer. Em geral penso na automação de conjuntos reunidos a partir de modelos, encontrei um bom intervalo de capacidade preditiva do modelo - classificação aparada nele (por exemplo, de 0,7 a 0,8) e colocada em espaços em branco para combinações entre outros modelos.