L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 3357

 
Pour expliquer l'image en langage simple : pour le classificateur, le premier et le deuxième cas de l'histogramme sont identiques, car des étiquettes de classe sont utilisées. Dans les deux cas, il y a une unité pour la classe la plus probable. Après l'entraînement, il ne donnera pas la probabilité de la classe, mais un moins l'erreur de prédiction passée par sigmoïde ou softmax.

Cela ne correspond pas du tout à ce que l'on attendrait lors de la définition d'un seuil de prédiction.
 

Une approche probabiliste est une bonne chose. Nous aurons toujours un bruit important et il s'agit de rechercher les différences par rapport à ce qu'il aurait été dans le cadre de la SB. La variance du bruit ne suffira pas à elle seule à atteindre cet objectif.

Selon l'IMHO, la tâche de classification n'est pas bien adaptée car elle écarte de manière significative des informations. Nous avons besoin de quelque chose comme regarder la distribution de la valeur du mouvement du prix dans la direction souhaitée et modéliser comment cette distribution dépend des signes, puis construire un TS en fonction du type de cette distribution (s'il y a des différences par rapport à ce qu'il aurait été au SB).

 
Maxim Dmitrievsky #:
Encore quelques nouvelles définitions.
Une dernière fois : le classificateur est calibré parce qu' il produit des probabilités incorrectes. Elles n'ont pas de sens dans leur forme originale. Il faut s'y faire.

Je n'ai pas pu le digérer.

Il n'existe pas de probabilité abstraite, lire référence, parfaite, qui ne soit pas liée à un processus aléatoire.

Cela n'existe pas.

La probabilité qu'une pièce soit tirée à pile ou face, etc.

Par conséquent, tout classificateur donne une probabilité qui caractérise ce classificateur particulier, ce qui donne la caractéristique dont nous avons besoin - l'erreur de prédiction. Un autre classificateur donnera d'autres probabilités avec une erreur de prédiction de classe correspondante.

En fonction des prédicteurs et des étiquettes qui leur sont associées, ainsi que de l'équilibrage des classes, le problème de la fixation d'un seuil pour diviser les probabilités en classes se pose. Les outils pour cette opération, appelée "calibration", sont présentés ci-dessus. Il est également possible de le faire de manière kolkhozienne.

Dans tous les cas, vous pouvez réduire considérablement l'erreur de prédiction pour les probabilités données par un classificateur particulier, car il n'y a pas d'autres probabilités dans la nature lorsque vous travaillez avec un classificateur particulier. Si vous n'aimez pas les probabilités, travaillez avec un classificateur ou procédez à un étalonnage. Il n'y a pas de place pour des probabilités "parfaites" dans ce processus particulier, qui n'existent pas en théorie.

Ce qui est clair, c'est que la division en classes par un seuil de 0,5 est très discutable et fonctionne rarement.

 
СанСаныч Фоменко #:

Je n'ai pas pu le supporter.

Les probabilités données par le classificateur n'ont aucun sens. Ce ne sont pas des probabilités. Si vous en avez besoin, vous ne pouvez pas les utiliser. N'allez pas au-devant de la locomotive et ne donnez pas de nouvelles significations à ce fait. Au moins, traitez-le.
 
СанСаныч Фоменко #:

Je n'en pouvais plus.

Il n'existe pas de probabilité abstraite, c'est-à-dire de référence, idéale, qui ne soit pas liée à un processus aléatoire.

Cela n'existe pas.

La probabilité qu'une pièce soit tirée à pile ou face, etc.

Ainsi, tout classificateur donne une probabilité qui caractérise ce classificateur particulier, ce qui donne la caractéristique dont nous avons besoin - l'erreur de prédiction. Un autre classificateur donnera d'autres probabilités avec l'erreur de prédiction de la classe correspondante.

En fonction des prédicteurs et des étiquettes qui leur sont associées, ainsi que de l'équilibrage des classes, le problème de la fixation d'un seuil pour diviser les probabilités en classes se pose. Les outils pour cette opération, appelée "étalonnage", sont présentés ci-dessus. Cette opération peut également être réalisée de manière kolkhozienne.

Dans tous les cas, vous pouvez réduire de manière significative l'erreur de prédiction pour les probabilités données par un classificateur particulier, car il n'y a pas d'autres probabilités dans la nature lorsque vous travaillez avec un classificateur particulier. Si vous n'aimez pas les probabilités, travaillez avec un classificateur ou procédez à un étalonnage. Dans ce processus particulier, il n'y a pas de place pour des probabilités "parfaites", qui n'existent pas en théorie.

Une chose est claire : la division en classes par un seuil de 0,5 est très discutable et fonctionne rarement.

Nous parlons ici d'erreurs matstat courantes lorsque l'on utilise le mauvais modèle de probabilité. Par exemple, si le bruit dans la régression est en fait distribué en Laplace, et que nous calculons comme pour une gaussienne, alors il est évident qu'il y aura des erreurs.

PS. En fait, il s'agit de revenir aux origines probabilistes de la MO, qui, soit dit en passant, était appelée (du moins en URSS) apprentissage statistique à ses débuts.)

 

J'ai déjà décrit l'exemple ci-dessus. Il existe un classificateur qui réussit l'OOS, mais les retours sont distribués à 60/40. Vous n'aimez pas cela, vous augmentez le seuil de décision, mais la situation ne change pas, et parfois elle empire même. Vous vous demandez pourquoi il en est ainsi.

Une explication vous est donnée : dans le cas d'une estimation réelle des probabilités, la situation devrait changer.

Une solution est proposée.


 
Maxim Dmitrievsky #:

J'ai déjà décrit l'exemple ci-dessus. Il existe un classificateur qui réussit l'OOS, mais les retours sont distribués à 60/40. Vous n'aimez pas cela, vous augmentez le seuil de décision, mais la situation ne change pas, et parfois elle empire même. Vous vous demandez pourquoi il en est ainsi.

L'explication est donnée : dans le cas d'une estimation de probabilité réelle, la situation devrait changer.

On vous donne une solution


N'était-ce pas évident depuis longtemps ?
 
Post-optimisation - personne ne peut le dire, mais on parle de collibration ! Ah, oui.
 
Maxim Dmitrievsky #:

J'ai déjà décrit l'exemple ci-dessus. Il existe un classificateur qui réussit l'OOS, mais les retours sont distribués à 60/40. Vous n'aimez pas cela, vous augmentez le seuil de décision, mais la situation ne change pas, et parfois elle s'aggrave même. Vous vous demandez pourquoi il en est ainsi.

L'explication est donnée : dans le cas d'une estimation de probabilité réelle, la situation devrait changer.

Une solution est proposée.


Cependant, je voudrais souligner que le calibrage ne sera pas une panacée et qu'il n'est pas gratuit - vous devez disposer de bonnes propriétés du classificateur existant. Pour éviter d'entrer dans les explications, je citerai votre deuxième référence sur SHAD. "En général, on peut montrer que cette méthode fonctionne bien si, pour chacune des vraies classes, les probabilités prédites sont normalement distribuées avec une variance égale." Il s'agit du calibrage de Platt, mais certaines conditions doivent certainement être remplies pour les autres aussi.

En fait, tout se passe comme dans matstat - les propriétés probabilistes du modèle utilisé doivent correspondre aux données étudiées.

 
Aleksey Nikolayev #:

Cependant, je voudrais souligner que le calibrage ne sera pas une panacée et qu'il n'est pas gratuit - vous devez disposer de bonnes propriétés du classificateur existant. Pour éviter d'entrer dans les explications, je citerai votre deuxième référence sur SHAD. "En général, on peut montrer que cette méthode fonctionne bien si, pour chacune des vraies classes, les probabilités prédites sont normalement distribuées avec une variance égale." Il s'agit du calibrage de Platt, mais certaines conditions doivent certainement être remplies pour les autres aussi.

En fait, tout se passe comme dans matstat - les propriétés probabilistes du modèle utilisé doivent correspondre aux données étudiées.

Bien sûr, ce n'est qu'un moyen de rendre les résultats probabilistes, car l'utilisation des probabilités brutes du modèle est inutile.