L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 2381

 
Maxim Dmitrievsky:

le catbust a une régularisation assez forte, surtout si les signes sont catégoriques, ils doivent être déclarés comme tels dans le boost.

Aucune amélioration n'a été apportée en réduisant la régularisation L2 . Donc Lasso fonctionne mieux.

 
elibrarius:

Peut-être que c'est juste un bon morceau d'échantillon d'examen. Et vous l'ajustez, en sélectionnant le modèle avec les meilleurs paramètres pour lui.

Désormais, je vérifie toujours par validation croisée (ou valving forwards), il n'y a pas d'ajustement à une petite section, mais à toutes les données en même temps, je pense que c'est la meilleure façon d'apprendre.
Doc l'a également conseillé avant de disparaître du forum.

Tout d'abord, je ne peux pas ajuster le lasso, donc il n'y a pas d'ajustement du tout, les paramètres sont juste tels qu'ils sont.

Deuxièmement, c'est la même intrigue avec CatBoostom - et il y a 800 modèles à choisir et j'ai pris presque toutes les meilleures options.

J'ai joint le fichier - essayez par vous-même différents modèles, Lasso recommandé uniquement pour les échantillons binaires - c'est une astuce.

 
Aleksey Vyazmikin:

Tout d'abord, je ne sais pas comment régler Lasso, donc il n'y a pas de réglage du tout - c'est juste la manière dont les paramètres sont définis.

Deuxièmement, c'est le même site que CatBoostom - et il y a 800 modèles à choisir et j'ai pris pratiquement les meilleures options.

J'ai joint le fichier - essayez vous-même différents modèles, Lasso recommandé juste pour l'échantillonnage binaire - c'est l'astuce.

Essayez tel quel pour la validation croisée. Faites un cycle de 10 fois avec différents tracés inconnus de 1/10ème des données totales. Ce sera la meilleure estimation pour sélectionner catbust avec certains paramètres ou lasso avec les paramètres par défaut.

 
Maxim Dmitrievsky:


Essayez de la même façon. Cela a bien fonctionné dans le testeur personnalisé, il y a un problème lors de l'exportation du modèle, je vais chercher une erreur plus tard.

Si l'AM intervient dans la formation, ne devrait-elle pas être présente lors de l'application du modèle ?

L'essence de MAShka est le cloisonnement des types - au-dessus seulement une classe, et en dessous seulement l'autre ?

 
elibrarius:

Essayez-le tel quel pour une validation croisée. Faites un cycle de 10 fois avec différents tracés inconnus de 1/10 des données totales. Ce sera la meilleure estimation pour sélectionner catbust avec certains paramètres ou lasso avec les paramètres par défaut.

La binarisation se fait par une méthode d'estimation d'échantillonnage particulière, donc la validation croisée montrera de meilleurs résultats sur les parcelles d'échantillonnage principales.

La validation croisée n'est pas tout à fait pertinente pour les échantillons qui sont liés au temps, mais dans le cas du trading, elle l'est - le marché change progressivement et le modèle doit trouver des modèles stables dans le temps, et dans le cas de la validation croisée, l'intervalle de temps de la formation et de la vérification peut être proche ou fracturé de l'échantillon formé.

À l'heure actuelle, CatBoost a été formé sur 60 % de l'ensemble des données - 20 % servent à contrôler l'arrêt et les derniers 20 % à évaluer le modèle.

Si l'on parle de 10% pour la formation, c'est un échantillon trop petit.
 
Aleksey Vyazmikin:

La validation croisée n'est pas tout à fait appropriée pour les échantillons qui sont liés au temps, mais dans le cas du trading, elle l'est - le marché change progressivement et le modèle doit trouver des modèles stables dans le temps, et dans le cas de la validation croisée, l'intervalle de temps de la formation et de la validation peut être proche ou soustrait de l'échantillon en cours de formation.

Vous parlez d'une sorte de validation croisée standard/ancienne.
Tout d'abord, vous n'avez pas besoin de mélanger les lignes, et de prendre des blocs comme il y a 0-90 formation 90-100 test, puis 10-100 formation, 0-10 test, puis 20-100-10 formation 10-20 test, etc.
Deuxièmement, suivant le conseil de Prado, vous devez laisser un certain espace (élagage) entre le train et le test, pour éviter que des exemples adjacents du train et du test n'entrent dans votre travail. L'exemple de la formation adjacent à 10-100 exemples de l'essai sera leur indice/chercheur. Pour en savoir plus, cliquez ici https://dou.ua/lenta/articles/ml-vs-financial-math/
Ou bien, voici une photo :

Aleksey Vyazmikin:

À l'heure actuelle, mon CatBoost est entraîné sur 60 % de l'ensemble des données - 20 % servent à contrôler les arrêts et les derniers 20 % à évaluer le modèle.

Si nous parlons de 10% pour la formation, c'est trop peu pour l'échantillonnage.
Vous pouvez faire 20% ou autant que vous le souhaitez.

Et enfin, au lieu de la validation croisée, vous pouvez utiliser un rolling forward. Qui ne prend pas la section de test en cercle, mais seulement devant.
Машинное обучение против финансовой математики: проблемы и решения
Машинное обучение против финансовой математики: проблемы и решения
  • dou.ua
Всем привет! Так получилось, что я уже около семи лет занимаюсь машинным обучением. В последние несколько из них я как исследователь и CTO Neurons Lab часто работаю с финансовыми данными в рамках проектов, связанных с инвестиционным менеджментом и алгоритмическим трейдингом. Чаще всего клиенты приходят с текущими стратегиями, которые нужно...
 
Maxim Dmitrievsky

Que fait le paramètre shuffle ?En général, s'il est faux, les résultats sont bien pires que s'il est vrai.

train_test_split(X, y, train_size = 0.5, test_size = 0.5, shuffle=True)
 

Une photo expliquant l'avant du valedictoire.

 
Evgeni Gavrilovi:

À quoi sert le paramètre shuffle ?En général, s'il est faux, les résultats sont bien pires que s'il est vrai.

Mélange les exemples pour le test et le train, afin qu'ils ne soient pas séquentiels.

 
Maxim Dmitrievsky:

mélange les exemples pour le triolet et le test pour qu'ils ne soient pas séquentiels ?

au hasard ? comme indiqué ici ? le test sur un échantillon aléatoire de 50 %.