Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2114

 
Aleksey Vyazmikin:

Maxim, como é que se monta esta coisa?

O que é id_tl ?

Não sei, preciso de uma ligação.

talvez a id_tl dos exemplos transformados simplesmente

 
Aleksey Vyazmikin:

Obrigado! Tudo se resolveu.

Acho que está certo - só treino converter, porque no teste só vai o controle - então eu fiz, mas o resultado é muito estranho - logloss de erro excede 1 na amostra de teste e cresce - como isso pode ser de todo - estou chocado.

você pode tentar coisas diferentes, só para ver

aqui está um bom caderno de notas https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

você pode copiar e testar

Resampling strategies for imbalanced datasets
Resampling strategies for imbalanced datasets
  • www.kaggle.com
Explore and run machine learning code with Kaggle Notebooks | Using data from Porto Seguro’s Safe Driver Prediction
 
Maxim Dmitrievsky:

Não sei, preciso de uma ligação.

Provavelmente as idiossincrasias dos exemplos transformados apenas

É o mesmo artigo - nada está claro lá.

 
Aleksey Vyazmikin:

Continua a ser o mesmo artigo - nada está claro lá.

é copiado, eu dei-te um link para o original.

 
Maxim Dmitrievsky:

você pode tentar coisas diferentes, só para ver

aqui está um bom caderno de notas https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

você pode copiar e verificar.

Então este é o original do artigo que eu estava a ver em russo.

 
Maxim Dmitrievsky:

é copyedit, eu dei-te um link para o original.

Mas qual é a utilidade - não há informação de qualquer maneira - o código foi arrancado.

 
Aleksey Vyazmikin:

Qual é a utilidade - ainda não há informação - o código é arrancado.

Está tudo perfeitamente escrito aí. Eu não tenho aulas de desequilíbrio, mas estava a fazê-las artificialmente, só para olhar para

 
Maxim Dmitrievsky:

está tudo perfeitamente escrito aí. Eu não tenho classes desequilibradas, mas eu as fiz artificialmente, só para olhar para


Descobri que o método "Tomek links" simplesmente não iguala a amostra - reduziu o número de linhas nulas de 4005 para 3402, então eu pensei que não funcionava.
 
Aleksey Vyazmikin:


Descobri que o método "Tomek links" simplesmente não iguala a amostra - reduziu o número de linhas nulas de 4005 para 3402, por isso pensei que não funcionava.
Uh-huh. Você tem que fazer a sobreamostragem primeiro, depois o tomo
 
Maxim Dmitrievsky:
Uh-huh. Primeiro, você deve fazer uma amostragem a mais, depois o volume.

Até agora a amostragem excessiva não dá nada, mas "tomar" tem melhorado um pouco os resultados - significa que há algo nos dados, o principal é cavar corretamente.

Histograma de modelos com diferentes configurações de quantização sobre a amostra.