L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2800

 
mytarmailS #:

La particularité est qu'il semble y avoir un fort déséquilibre des classes, si pour 100 exemples il y a 5 notes d'une classe et 95 notes d'une autre, comment le modèle peut-il donner plus de 0,5 de probabilité pour la première classe ?? ce n'est pas une question au modèle, c'est une question à l'auteur de l'ensemble de données.

Il y a plus de 30% de première classe. Et, oui, c'est possible, je ne vois pas le problème. Il suffit de trouver une règle qui aura plus de chances de prédire "1" que "0", même si c'est rarement le cas.

En outre, personne n'empêche de modifier l'ensemble de données en équilibrant les classes.
 
Aleksey Vyazmikin #:

Il y a plus de 30 % de première classe. Et, oui, peut-être, je ne vois pas le problème. Il suffit de trouver une règle qui aura plus de chances de prédire "1" que "0", même si c'est rarement le cas.

En outre, personne ne peut modifier l'ensemble de données en équilibrant les classes.

Vous vous plaigniez du catbust, et le catbust n'est pas une tree\rule\list.

 
Seules les NS ont besoin d'être équilibrées. Les modèles en bois ne nécessitent pas d'équilibrage.
 
mytarmailS #:

Vous vous plaigniez des catbusters, et les catbusters ne sont pas du bois.

La plainte ne porte pas sur l'algorithme, il est ce qu'il est, mais sur le fait qu'il est préférable de le nourrir avec des données déjà mâchées.

Tout à l'heure, vous l'avez compris d'une certaine manière...

Forum sur le trading, les systèmes de trading automatisés et les tests de stratégies de trading.

L'apprentissage automatique dans le trading : théorie, modèles, pratique et algo-trading

mytarmailS, 2016.10.29 11:22 pm.

Situation hypothétique....

Nous disposons de 100 prédicteurs potentiels ; pour simplifier l'explication, prenons les indicateurs.

Imaginons que nous sachions au départ que dans tous ces prédicteurs il n'y a qu'une seule situation profitable, c'est lorsque le RSI a franchi 90 et que le stochastique vient de passer en dessous de zéro (la situation du plafond, bien sûr), cette situation donne une baisse de prix avec une probabilité de 90%, tous les autres prédicteurs sont du bruit complet, toutes les autres situations dans les prédicteurs RSI et stochastique sont également du bruit complet, et il y a des centaines et des centaines de situations différentes....

Nous avons donc environ 0,01 % de signal utile pour 99,9 % de bruit.

Supposons que, par miracle, votre mode opératoire élimine les 98 prédicteurs et n'en laisse que deux - l'IFR et le stochastique.

Dans l'indice RSI, il existe des centaines de situations : RSI>0, RSI>13, RSI<85, RSI=0, RSI<145, ............., etc. et ainsi de suite, en stochastique il n'y a pas moins de situations, la situation de travail est unique, puisque vous entraînez MO à reconnaître tous les mouvements de prix, MO construira des modèles prenant en compte toutes les situations possibles qui existent dans le RSI et le stochastique, et la probabilité dans ces situations qu'elles fonctionnent est presque nulle, mais MO est obligé de les prendre en compte et de construire des modèles sur elles, malgré le fait qu'il s 'agit du vrai bruit, et cette seule situation de travail se perdra parmi des centaines d'autres solutions, c'est ça le retraining.....

Alors, comment avez-vous fini par y arriver ?


Justifiez ce que la représentation du modèle et les proportions de la cible ont à voir avec cela. Je dis que le modèle peut être représenté comme une feuille modernisée - une règle.

 
elibrarius #:
Seuls les NS ont besoin d'être équilibrés. Les modèles arborescents ne nécessitent pas d'équilibrage.

C'est le cas pour les bonnes données, dans tous les cas les compteurs à l'intérieur de l'algorithme fonctionnent et prennent des décisions sur le nombre de cibles allouées...

 
Aleksey Vyazmikin #:

La particularité ici est que le modèle CatBoost préfère attribuer à tous les exemples une probabilité inférieure à 0,5 - il ne classe donc pas la cible "1", et ce qui se trouve entre 0 et 0,5 n'est pas non plus très bien distribué.

Si nous avons 100 exemples de la cible, 5 étiquettes ("A") et 95 étiquettes ("B").

le modèle ne peut pas donner une probabilité pour l'étiquette "A" supérieure à 0,5.

Dans certaines règles individuelles, il peut le faire, mais le post dit catbust, et il s'agit d'un modèle (somme de prédictions de règles), pas d'une règle unique, et la somme n'aura pas une probabilité aussi élevée.


Même si le modèle est sûr qu'il s'agit de la marque "A". la somme des probabilités des règles de la marque "A" sera écrasée par la somme des règles de "B" parce que les règles de "B" seront beaucoup plus importantes.

 
elibrarius #:
Seules les NS ont besoin d'être équilibrées. Les modèles en bois ne nécessitent pas d'équilibrage.

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

random forest for imbalanced data?
random forest for imbalanced data?
  • 2018.04.16
  • MSilvy MSilvy 139 1 1 silver badge 8 8 bronze badges
  • stats.stackexchange.com
I have a dataset where yes=77 and no=16000, a highly imbalanced dataset. My plan was to identify the most important variables influencing the response variable using random forest and then develop a logistic regression model using the selected variable. I am planning to use...
 
mytarmailS #:

si nous avons 5 notes ("A") et 95 notes ("B") pour 100 exemples de la cible

alors le modèle ne peut pas donner une probabilité pour l'étiquette "A" supérieure à 0,5

Dans certaines règles individuelles, c'est possible, mais le post dit catbust, et il s'agit d'un modèle (somme de prédictions de règles), pas d'une règle unique, et la somme n'aura pas une probabilité aussi élevée.


Même si le modèle est sûr qu'il s'agit de la marque "A". la somme des probabilités des règles de la marque "A" sera surestimée par la somme des règles de "B" parce que les règles de "B" seront beaucoup plus grandes.

Tout dépend des prédicteurs et du nombre d'arbres dans le modèle.

Je n'insiste pas sur le modèle CatBoost pour la formation.

 

https://www.mql5.com/ru/blogs/post/723619

77 sur 16 000, c'est trop peu. 77 exemples sont difficilement représentatifs.
La seule option est d'étudier l'arbre en profondeur.

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
elibrarius #:

https://www.mql5.com/ru/blogs/post/723619

77 sur 16 000, c'est trop peu. 77 exemples sont difficilement représentatifs.
La seule option est d'étudier l'arbre en profondeur.

Comment va le livre ?