L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2114

 
Aleksey Vyazmikin:

Maxim, comment on installe ce truc ?

Qu'est-ce que id_tl ?

Je ne sais pas, j'ai besoin d'un lien.

peut-être l'id_tl des exemples transformés simplement

 
Aleksey Vyazmikin:

Merci ! Tout s'est arrangé.

Je pense que c'est la bonne chose à faire - juste convertir l'entraînement, parce que sur le test, on passe juste au contrôle - donc je l'ai fait, mais le résultat est très étrange - le logloss d'erreur dépasse 1 sur l'échantillon de test et augmente - comment cela peut-il être - je suis choqué.

vous pouvez essayer différentes choses, juste pour voir

Voici un bon carnet de notes https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

vous pouvez copier et tester

Resampling strategies for imbalanced datasets
Resampling strategies for imbalanced datasets
  • www.kaggle.com
Explore and run machine learning code with Kaggle Notebooks | Using data from Porto Seguro’s Safe Driver Prediction
 
Maxim Dmitrievsky:

Je ne sais pas, j'ai besoin d'un lien.

Probablement que les particularités des exemples transformés ont juste

C'est le même article - rien n'y est clair.

 
Aleksey Vyazmikin:

C'est toujours le même article - rien n'y est clair.

c'est copié, je vous ai donné un lien vers l'original.

 
Maxim Dmitrievsky:

vous pouvez essayer différentes choses, juste pour voir

Voici un bon carnet de notes https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

que vous pouvez copier et vérifier.

Voici donc l'original de l'article que je regardais en russe.

 
Maxim Dmitrievsky:

c'est du copyedit, je t'ai donné un lien vers l'original.

Mais à quoi bon - il n'y a aucune information de toute façon - le code a été arraché.

 
Aleksey Vyazmikin:

A quoi bon - il n'y a toujours pas d'information - le code est arraché.

Tout y est parfaitement écrit. Je n'ai pas de classes de déséquilibre, mais je les créais artificiellement, juste pour voir

 
Maxim Dmitrievsky:

tout est parfaitement écrit là. Je n'ai pas de classes de déséquilibre, mais je les ai créées artificiellement, juste pour le spectacle.


Il s'est avéré que la méthode des "liens de Tomek" n'égalise pas l'échantillon - elle a réduit le nombre de lignes nulles de 4005 à 3402, je pensais donc qu'elle ne fonctionnait pas.
 
Aleksey Vyazmikin:


Il s'est avéré que la méthode "Tomek links" n'égalise pas l'échantillon - elle a réduit le nombre de lignes nulles de 4005 à 3402, c'est pourquoi je pensais qu'elle ne fonctionnait pas.
Tu dois d'abord faire le sur-échantillonnage, puis le tome.
 
Maxim Dmitrievsky:
Uh-huh. Vous devez d'abord sur-échantillonner, puis augmenter le volume

Jusqu'à présent, le sur-échantillonnage n'a rien donné, mais "tome" a un peu amélioré les résultats - cela signifie qu'il y a quelque chose dans les données, l'essentiel est de creuser correctement.

Histogramme des modèles avec différents paramètres de quantification sur l'échantillon.