L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2800
![MQL5 - Langage des stratégies de trading intégré au terminal client MetaTrader 5](https://c.mql5.com/i/registerlandings/logo-2.png)
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
La particularité est qu'il semble y avoir un fort déséquilibre des classes, si pour 100 exemples il y a 5 notes d'une classe et 95 notes d'une autre, comment le modèle peut-il donner plus de 0,5 de probabilité pour la première classe ?? ce n'est pas une question au modèle, c'est une question à l'auteur de l'ensemble de données.
Il y a plus de 30% de première classe. Et, oui, c'est possible, je ne vois pas le problème. Il suffit de trouver une règle qui aura plus de chances de prédire "1" que "0", même si c'est rarement le cas.
En outre, personne n'empêche de modifier l'ensemble de données en équilibrant les classes.Il y a plus de 30 % de première classe. Et, oui, peut-être, je ne vois pas le problème. Il suffit de trouver une règle qui aura plus de chances de prédire "1" que "0", même si c'est rarement le cas.
En outre, personne ne peut modifier l'ensemble de données en équilibrant les classes.Vous vous plaigniez du catbust, et le catbust n'est pas une tree\rule\list.
Vous vous plaigniez des catbusters, et les catbusters ne sont pas du bois.
La plainte ne porte pas sur l'algorithme, il est ce qu'il est, mais sur le fait qu'il est préférable de le nourrir avec des données déjà mâchées.
Tout à l'heure, vous l'avez compris d'une certaine manière...
Forum sur le trading, les systèmes de trading automatisés et les tests de stratégies de trading.
L'apprentissage automatique dans le trading : théorie, modèles, pratique et algo-trading
mytarmailS, 2016.10.29 11:22 pm.
Situation hypothétique....
Nous disposons de 100 prédicteurs potentiels ; pour simplifier l'explication, prenons les indicateurs.
Imaginons que nous sachions au départ que dans tous ces prédicteurs il n'y a qu'une seule situation profitable, c'est lorsque le RSI a franchi 90 et que le stochastique vient de passer en dessous de zéro (la situation du plafond, bien sûr), cette situation donne une baisse de prix avec une probabilité de 90%, tous les autres prédicteurs sont du bruit complet, toutes les autres situations dans les prédicteurs RSI et stochastique sont également du bruit complet, et il y a des centaines et des centaines de situations différentes....
Nous avons donc environ 0,01 % de signal utile pour 99,9 % de bruit.
Supposons que, par miracle, votre mode opératoire élimine les 98 prédicteurs et n'en laisse que deux - l'IFR et le stochastique.
Dans l'indice RSI, il existe des centaines de situations : RSI>0, RSI>13, RSI<85, RSI=0, RSI<145, ............., etc. et ainsi de suite, en stochastique il n'y a pas moins de situations, la situation de travail est unique, puisque vous entraînez MO à reconnaître tous les mouvements de prix, MO construira des modèles prenant en compte toutes les situations possibles qui existent dans le RSI et le stochastique, et la probabilité dans ces situations qu'elles fonctionnent est presque nulle, mais MO est obligé de les prendre en compte et de construire des modèles sur elles, malgré le fait qu'il s 'agit du vrai bruit, et cette seule situation de travail se perdra parmi des centaines d'autres solutions, c'est ça le retraining.....
Alors, comment avez-vous fini par y arriver ?
Justifiez ce que la représentation du modèle et les proportions de la cible ont à voir avec cela. Je dis que le modèle peut être représenté comme une feuille modernisée - une règle.
Seuls les NS ont besoin d'être équilibrés. Les modèles arborescents ne nécessitent pas d'équilibrage.
C'est le cas pour les bonnes données, dans tous les cas les compteurs à l'intérieur de l'algorithme fonctionnent et prennent des décisions sur le nombre de cibles allouées...
La particularité ici est que le modèle CatBoost préfère attribuer à tous les exemples une probabilité inférieure à 0,5 - il ne classe donc pas la cible "1", et ce qui se trouve entre 0 et 0,5 n'est pas non plus très bien distribué.
Si nous avons 100 exemples de la cible, 5 étiquettes ("A") et 95 étiquettes ("B").
le modèle ne peut pas donner une probabilité pour l'étiquette "A" supérieure à 0,5.
Dans certaines règles individuelles, il peut le faire, mais le post dit catbust, et il s'agit d'un modèle (somme de prédictions de règles), pas d'une règle unique, et la somme n'aura pas une probabilité aussi élevée.
Même si le modèle est sûr qu'il s'agit de la marque "A". la somme des probabilités des règles de la marque "A" sera écrasée par la somme des règles de "B" parce que les règles de "B" seront beaucoup plus importantes.
Seules les NS ont besoin d'être équilibrées. Les modèles en bois ne nécessitent pas d'équilibrage.
https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data
si nous avons 5 notes ("A") et 95 notes ("B") pour 100 exemples de la cible
alors le modèle ne peut pas donner une probabilité pour l'étiquette "A" supérieure à 0,5
Dans certaines règles individuelles, c'est possible, mais le post dit catbust, et il s'agit d'un modèle (somme de prédictions de règles), pas d'une règle unique, et la somme n'aura pas une probabilité aussi élevée.
Même si le modèle est sûr qu'il s'agit de la marque "A". la somme des probabilités des règles de la marque "A" sera surestimée par la somme des règles de "B" parce que les règles de "B" seront beaucoup plus grandes.
Tout dépend des prédicteurs et du nombre d'arbres dans le modèle.
Je n'insiste pas sur le modèle CatBoost pour la formation.
https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data
https://www.mql5.com/ru/blogs/post/723619
77 sur 16 000, c'est trop peu. 77 exemples sont difficilement représentatifs.
La seule option est d'étudier l'arbre en profondeur.
https://www.mql5.com/ru/blogs/post/723619
77 sur 16 000, c'est trop peu. 77 exemples sont difficilement représentatifs.
La seule option est d'étudier l'arbre en profondeur.