L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 57
![MQL5 - Langage des stratégies de trading intégré au terminal client MetaTrader 5](https://c.mql5.com/i/registerlandings/logo-2.png)
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Eh bien, la durabilité est obtenue en empêchant un éventuel sur-apprentissage. Et un échantillon d'entraînement déséquilibré est une cause potentielle de surentraînement pour les classes peu représentatives. Après tout, l'algorithme d'apprentissage essaie d'agir comme il l'entend, et non comme il le doit pour augmenter la généralisabilité. Si l'échantillon n'est pas équilibré, il minimisera les erreurs d'apprentissage sur les classes les moins représentatives, car les exemples pour ces classes sont peu nombreux et il est plus facile de les apprendre par cœur plutôt que de généraliser. Après un tel apprentissage par cœur, il n'y a rien d'étonnant à ce qu'en dehors de l'échantillon d'entraînement, les erreurs de l'algorithme aient le plus de chances de se produire dans des classes qui ne sont pas représentatives.
Le raisonnement est simple. Dans la vie réelle, personne ne vous autorisera à prendre un échantillon mixte contenant des observations du futur pour évaluer la qualité des transactions réelles. Toutes les observations iront après le jour X.
Par conséquent, en prenant un échantillon mixte en validation (sans séparation des dates), vous surestimez la métrique de qualité en validation. C'est tout. Il y aura alors des surprises désagréables.
Qu'est-ce que la pensée a à voir avec ça ? La pensée est subjective. La pensée peut être à la fois correcte et délibérément fausse. Parce que l'imagination est problématiquement limitée. Le critère de vérité est toujours l'expérience.
Prenez deux échantillons d'entraînement, l'un pré-équilibré et l'autre fortement déséquilibré. Entraînez l'algorithme sur les deux échantillons et mesurez la capacité de généralisation sur les parties test. Ensuite, comparez la capacité de généralisation. Celui qui donne la meilleure capacité de généralisation sera le critère de vérité.
Sinon, nous ne ferons que penser et spéculer au point de perdre le pouls. Après tout, le désaccord naît du débat, la vérité naît de l'expérience.
J'en ai donc fini avec la discussion sur le sujet de l'échantillon de formation équilibré. Sinon, ce refrain peut continuer indéfiniment, car il y a deux opinions différentes et continuer à mesurer qui de nous pense le plus correctement est une perte de temps.
Eh bien, la stabilité est obtenue en évitant le surentraînement. Et un échantillon de formation déséquilibré est une raison potentielle de surentraînement pour les classes peu représentatives. Après tout, l'algorithme d'apprentissage essaie d'agir comme il l'entend, et non comme il le doit pour augmenter la généralisabilité. Si l'échantillon n'est pas équilibré, il minimisera les erreurs d'apprentissage sur les classes les moins représentatives, car les exemples pour ces classes sont peu nombreux et il est plus facile de les apprendre par cœur plutôt que de généraliser. Après un tel apprentissage par cœur, il n'est pas surprenant qu'en dehors de l'échantillon d'entraînement, les erreurs de l'algorithme dans les classes les moins représentatives soient les plus probables.
1. Sur des classes déséquilibrées, c'est le bordel : l'erreur entre les classes peut diverger de plusieurs fois. Et laquelle est la bonne ?
2. Il est loin d'être toujours possible d'équilibrer les classes.
Votre exemple avec BUY|SELL. Lorsque le nombre d'observations (barres) est supérieur à 3000, la différence de déséquilibre sera de 10% au maximum 20%. Il est tout à fait possible de trouver un équilibre.
Et ici leDr. Trader a suggéré la variable cible "Pivot/Non Pivot". Je pense qu'il l'a pris de ZZ. Ainsi, dans cette variable cible, les classes déséquilibrées varieront d'un ordre de grandeur. Si nous augmentons la classe au maximum, pouvons-nous enseigner sur un échantillon aussi équilibré ? Il me semble que non.
Ce n'est donc pas si simple avec l'équilibrage.
D'après ma propre expérience :
Je n'ai pas trouvé d'autres solutions.
Je vais tout laisser tomber et devenir un adepte du R pour pouvoir jouer aux chiffres avec un visage sérieux.
Jusqu'à présent, je n'ai pas remarqué que vous jouiez des numéros, mais je ne sais pas pour votre visage - je ne le vois pas.
Qu'est-ce que la pensée a à voir avec ça ? La pensée est subjective. La pensée peut être à la fois correcte et délibérément fausse. Parce que l'imagination est problématiquement limitée. Le critère de vérité est toujours l'expérience.
Prenez deux échantillons d'entraînement, l'un pré-équilibré et l'autre fortement déséquilibré. Entraînez l'algorithme sur les deux échantillons et mesurez la capacité de généralisation sur les parties test. Ensuite, comparez la capacité de généralisation. Celui qui donne la meilleure capacité de généralisation sera le critère de vérité.
Sinon, nous ne ferons que penser et spéculer au point de perdre le pouls. Après tout, le désaccord naît de l'argumentation et la vérité naît de l'expérience.
Je vais donc cesser d'aborder le sujet de l'équilibrage de l'échantillon d'entraînement. Sinon ce cholivar peut continuer indéfiniment car il y a deux opinions différentes et continuer à mesurer à qui de nous pense correctement - une perte de temps.
Je veux dire une chose, tu en veux une autre. Je dis que vous devez diviser l'ensemble strictement par des dates. Et vous parlez d'équilibre.
Je suis désolé, mais j'ai déjà dit que je ne voyais pas l'intérêt de continuer ce refrain. J'ai déjà essayé d'expliquer les défauts de l'équilibre à l'aide d'exemples. Probablement pas très convaincant, n'est-ce pas ? Je ne suis pas doué pour la rhétorique noire, donc je ne peux pas transformer le noir en blanc sans sourciller. Alors ne soyez pas trop dur avec moi.
Est-il plus probable que vous essayiez de me convaincre que vous essayez soi-disant de vous "forcer" à équilibrer la réalité ? Mais je n'ai pas cette intention. Je sais que la réalité est, malheureusement pour moi, souvent déséquilibrée et que les occasions de l'équilibrer ne sont pas toujours disponibles. C'est pourquoi, dans mes posts, j'ai essayé de vous expliquer qu'il n'est pas nécessaire d'essayer d'équilibrer la réalité en dehors de l'échantillon d'entraînement, mais qu'il est nécessaire et suffisant d'équilibrer l'échantillon d'entraînement, afin que le modèle obtenu à partir de celui-ci ne soit pas biaisé dans la direction des classes hautement représentatives. Lorsque l'on divise l'échantillon général en parties par dates, il est également souvent impossible d'atteindre un équilibre. C'est pourquoi j'équilibre l'échantillon de formation non pas en fonction des dates, mais de la représentativité égale des classes qui le composent.
Je ne vais pas répondre à d'autres questions sur l'équilibrage des ensembles d'entraînement. Ce refrain a donc déjà traîné en longueur.
Je suis désolé, mais j'ai déjà dit que je ne voyais pas l'intérêt de continuer ce refrain. J'ai déjà essayé d'expliquer les défauts de l'équilibre à l'aide d'exemples. Probablement pas très convaincant, n'est-ce pas ? Je ne suis pas doué pour la rhétorique noire, donc je ne peux pas transformer le noir en blanc sans sourciller. Alors ne soyez pas trop dur avec moi.
Est-il plus probable que vous essayiez de me convaincre que vous essayez soi-disant de vous "forcer" à équilibrer la réalité ? Mais je n'ai pas cette intention. Je sais que la réalité est, malheureusement pour moi, souvent déséquilibrée et que les occasions de l'équilibrer ne sont pas toujours disponibles. C'est pourquoi, dans mes posts, j'ai essayé de vous expliquer qu'il n'est pas nécessaire d'essayer d'équilibrer la réalité en dehors de l'échantillon d'entraînement, mais qu'il est nécessaire et suffisant d'équilibrer l'échantillon d'entraînement, afin que le modèle obtenu à partir de celui-ci ne soit pas biaisé dans la direction des classes hautement représentatives. Lorsque l'on divise l'échantillon général en parties par dates, il est également souvent impossible d'atteindre un équilibre. J'équilibre donc l'échantillon de formation non pas en fonction des dates, mais en fonction de la représentativité égale des classes qui le composent.
Je ne répondrai pas à d'autres questions sur l'équilibrage de l'ensemble d'entraînement. Donc, on est déjà dans le brouhaha.
Je veux intervenir pour compléter le tableau et réitérer mon opinion au-dessus du fil.
1. Vous devez disposer de deux ensembles de données : le second est une extension du premier dans le temps.
2. Balancez le premier ensemble de données. Nous l'équilibrons définitivement.
3. Nous divisons aléatoirement le premier ensemble de données en trois parties : formation, test et validation.
4. Nous obtenons une erreur sur la deuxième série, qui est une continuation de la première série dans le temps.
Si l'erreur sur les QUATRE ensembles est à peu près la même, alors le modèle n'est pas réentraîné. Si l'erreur a une valeur décente, nous pouvons sans risque aller plus loin, c'est-à-dire la faire passer au testeur.
S'il y a une différence significative (plus de 30 %), l'ensemble de prédicteurs d'origine conduit à un réentraînement du modèle et, d'après mon expérience personnelle, le remplacement du type de modèle ne peut rien arranger, en termes de réentraînement. Nous devons nous débarrasser des prédicteurs de bruit. Il peut facilement arriver qu'il n'y ait AUCUN prédicteur de bruit parmi les prédicteurs.