L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 1325

 
Farkhat Guzairov:

Tout ce qui précède est cool et très instructif, mais "contrôle de la formation", qu'est-ce que ça veut dire ???

Par exemple, vous entraînez le système sur un échantillon de données de 2014, puis vous donnez un échantillon de 2015 et vous voulez voir la probabilité des modèles ? Si c'est le cas, alors vous n'avez pas besoin de changer quoi que ce soit, tout est correct. Seulement, je ne vois pas de problème si le contrôle donne des résultats différents de ceux attendus, il en sera toujours ainsi.

J'utilise CatBoost pour la formation, il y a la possibilité d'arrêter la formation sur un échantillon de contrôle (validation), c'est-à-dire qu'en même temps que la réduction des erreurs se produit sur un échantillon de formation et de vérifier immédiatement sur l'échantillon de contrôle comment le résultat a changé sur celui-ci, si le résultat n'améliore pas sur l'échantillon de contrôle un nombre donné d'arbres, alors la formation s'arrête et tous les arbres jusqu'à la dernière amélioration sont coupés. Oui, la chronologie est la suivante : je m'entraîne en 2014, je contrôle la formation de 2015 à 2018 et je vérifie le résultat en 2018. Il est peut-être judicieux de changer de place, car les modèles détectés pendant la formation peuvent cesser de fonctionner avec le temps et il peut être préférable de s'entraîner sur des données qui sont plus proches de l'application dans la réalité - c'est une question ouverte.

 
Farkhat Guzairov:

Si l'application pratique du MO dans votre cas est la suivante à mon avis.

Puisque la probabilité de 100% de vrais résultats n'est tout simplement pas réaliste, alors passez à une méthode simple, par exemple le rapport entre les vrais et les faux résultats, s'il est d'environ 50/50, alors encore une fois nous devons comprendre quels profits vous obtenez avec ces résultats, si 50% du profit est une moyenne de 100 points et les 50% de pertes restantes sont en moyenne 50 points, alors je pense que votre système est adapté à une utilisation pratique.

La précision de la classification dans le tableau est la précision métrique - environ 60 % (pour les meilleurs modèles) obtiennent des entrées correctes, dans le testeur de stratégie, elle sera plus élevée, car certaines positions doivent atteindre le seuil de rentabilité, mais pas prendre des bénéfices.

Il est encore trop tôt pour postuler, nous devrions nous préparer pour la prochaine étape - pour vider les modèles sur les herbiers :)

 
Aleksey Vyazmikin:

J'utilise CatBoost pour la formation, il y a une option pour arrêter la formation sur l'échantillon de contrôle (validation), c'est-à-dire qu'en parallèle il y a une réduction d'erreur sur l'échantillon de formation et on vérifie immédiatement sur l'échantillon de contrôle comment le résultat a changé sur celui-ci, si le résultat n'améliore pas sur l'échantillon de contrôle un nombre donné d'arbres, alors la formation s'arrête et tous les arbres jusqu'à la dernière amélioration sont coupés. Oui, la chronologie est la suivante : je m'entraîne en 2014, je contrôle la formation de 2015 à 2018 et je vérifie le résultat en 2018. Il est peut-être judicieux d'échanger les places, car les modèles identifiés lors de la formation peuvent toujours cesser de fonctionner au fil du temps et il est peut-être préférable de s'entraîner sur des données qui sont plus proches de l'application dans la réalité - une question ouverte.

Ce que par exemple j'ai remarqué avec moi-même. Plus le nombre de données impliquées dans la formation est important, plus le système devient "étanche", c'est-à-dire qu'il se rapproche de la réalité. Pourquoi est-ce ainsi, la réponse que vous avez donnée est que pendant certaines périodes un modèle donne un résultat positif, et le même modèle pendant une autre période donne un résultat négatif, en conséquence vous mettez le système dans une stupeur, il devient "serré" comme je l'ai dit, peut-être plus intelligent, mais cela ne signifie pas que le système intelligent donnera des résultats plus vrais, je crains que les ratios resteront les mêmes, juste le système vous dira son point de vue sur la situation actuelle moins fréquemment.

 
Aleksey Vyazmikin:

A propos du boosting - il y avait un cours plus récent (en python avec catbust comme option) avec le même conférencier - je ne peux pas le trouver.


Il est intéressant de noter que le GBM résout le problème de classification avec les arbres de régression.

Quelqu'un le sait-il ? Les autres méthodes de dynamisation (paquets) font-elles de même ?

 
Aleksey Vyazmikin:

Et quelle conclusion peut-on en tirer ? Il semble que le volume optimal soit de 60% à 70% de l'échantillon de validation, c'est-à-dire que la formation doit se faire sur un échantillon plus petit que la validation du modèle. Mais il est impossible de ne pas mettre en évidence la ventilation par 30%, là aussi le résultat par tous les indicateurs n'est pas mauvais, et les échecs tout à fait à côté de 40% et 50%. Je ne sais même pas ce qui affecte le plus la taille de l'échantillon ou le contenu, et comment le configurer...

Si 60-70% est bon et 30% est bon, il y a une probabilité d'atteindre accidentellement ces chiffres.
Vous pouvez essayer de répéter complètement les calculs, et si c'est la même chose la deuxième fois, vous pouvez la considérer comme une régularité. (Elle doit être répétée 10 fois pour une plus grande signification statistique).
 
Farkhat Guzairov:

Ce que j'ai remarqué chez moi, par exemple. Plus le nombre de données impliquées dans la formation est élevé, plus le système devient "étanche", c'est-à-dire qu'il est plus difficile d'y accéder. C'est pourquoi il génère moins de probabilité de résultats, pourquoi il en est ainsi, la réponse est que pendant certaines périodes certains modèles montrent des résultats positifs et les mêmes modèles montrent des résultats négatifs dans une autre période, en conséquence le système devient dans une stupeur et comme je l'ai dit il devient "serré", peut-être plus intelligent, mais cela ne signifie pas que le système intelligent produira plus de vrais résultats, je crains que les ratios resteront les mêmes, mais le système vous dira son opinion sur la situation actuelle moins fréquemment.

Je pense qu'il est préférable d'avoir moins de signaux dans le trading, plus précis, et les modèles peuvent être combinés en ensembles indépendants, alors la précision de la classification sera élevée et la complétude augmentera (le nombre d'événements qui se qualifient comme 1). L'essentiel est de s'habituer, d'une manière ou d'une autre, à générer d'excellents modèles, là encore, en recourant à différentes ventilations d'échantillonnage.

 
elibrarius:

Il est intéressant de noter que GBM résout le problème de classification avec des arbres de régression.

Quelqu'un est au courant ? Les autres méthodes de dynamisation (paquets) font-elles de même ?

Je fais la même chose d'après ce que je sais (mentionné à divers endroits). Il n'y a pas d'autre moyen en raison de la particularité de la formation elle-même. C'est pourquoi j'ai dit plus tôt que la séquence des arbres, il me semble, peut affecter leur poids dans la réponse, et c'est ce qui rend raisonnable de considérer des ensembles de feuilles et de les convertir en une seule règle.

 
elibrarius:
Si 60-70% est bon et 30% est bon, il y a une chance d'atteindre accidentellement ces chiffres.
Vous pouvez essayer de répéter complètement les calculs, et si c'est la même chose la deuxième fois, vous pouvez considérer que c'est un modèle. (Elle doit être répétée 10 fois pour une plus grande signification statistique).

Comment le répéter ? C'est à dire qu'il sera le même, comme la graine est fixe, vous pouvez prendre une nouvelle graine - je vais essayer plus tard et voir ce qui se passe.

D'autre part, 200 modèles ont été utilisés par échantillon, ce qui n'est pas non plus négligeable.
 
aucune conclusion ne peut être tirée d'une telle étude dans un marché non stationnaire
 
Maxim Dmitrievsky:
aucune conclusion ne peut être tirée d'une telle étude dans un marché non stationnaire

L'échantillon est stationnaire, la répartition pour la formation a changé, mais celle pour l'évaluation indépendante reste la même.

Veuillez développer votre point de vue.