L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 3356

 
Maxim Dmitrievsky #:
J'espérais que quelqu'un irait au moins chercher l'info sur Google.

Même si vous avez des courbes de probabilité dans votre formation, de quelles nouvelles données pouvez-vous parler ? Et Bousting et Forrest pèchent énormément dans ce domaine. Bousting est un excès de confiance, Forrest est un manque de confiance. A condition, bien sûr, que vous ayez l'intention d'utiliser le seuil.

J'ai moi-même observé que lorsque l'on augmente le seuil, la qualité des transactions ne s'améliore pas, même dans le cadre de la formation. Alors la probabilité de quoi le modèle renvoie-t-elle ? Rien :)

Dans l'image de Sanych, il s'agit d'un bousting confiant, que l'on peut voir dans la colonne des bords, des valeurs aberrantes. Le creux devrait être plus lisse. Il s'agit d'un modèle de surentraînement.

Il montre le résultat du modèle sur les plages de "probabilité" avec un pas de 0,05. CatBoost place la séparation des classes à 0,5 de manière assez précise (magnetta est 1, aqua est 0).

Vous pouvez voir que le résultat de l'aileron est positif à partir de 0,35 - la courbe verte s'élève au-dessus de la courbe rouge.

Est-ce cela que vous voulez calibrer - déplacer le point de séparation des classes vers le point de génération de revenus ?

 
Aleksey Vyazmikin #:

Est-ce exactement ce que vous voulez calibrer - déplacer le point de division des classes vers le point de génération de revenus ?

Non.
 
La. Vous pouvez demander 30 fois, mais vous ne pouvez pas chercher sur Google.
 
Maxim Dmitrievsky #:
Non.

Alors quel est le but ?

 

Je pense que tout le monde a entendu parler de l'étalonnage, mais il n'est d'aucune utilité pratique, précisément parce que l'échantillon n'est pas représentatif.

L'estimation probabiliste des feuilles individuelles donne, à mon avis, un résultat plus raisonnable que la repondération de la somme des feuilles du modèle.

 
Aleksey Vyazmikin #:

Je pense que tout le monde a entendu parler de l'étalonnage, mais il n'y a aucune utilité pratique à cela, simplement parce que l'échantillon n'est pas représentatif.

L'estimation probabiliste des feuilles individuelles donne, à mon avis, un résultat plus raisonnable que la repondération de la somme des feuilles du modèle.

Tout le monde a tout entendu, mais personne n'a répondu à quoi que ce soit. Sans parler d'autres nuances qui ne sont pas divulguées, mais dont on devine seulement qu'elles s'avèrent être le cas.

Et si vous avez un modèle faible (avec une faible espérance), mais stable sur OOS, il n'y a pas de sens à calibrer aussi ? Et si l'on y réfléchit bien.
 
Maxim Dmitrievsky #:
Tout le monde a tout entendu, mais personne n'a répondu à rien. Sans parler d'autres nuances qui ne sont pas révélées, mais dont on devine seulement qu'il s'agit de cela.

Et si vous avez un modèle faible (avec une faible espérance) mais stable sur OOS, il n'y a pas de sens à le calibrer aussi ? Et si l'on y réfléchit bien.

J'ai eu l'idée d'un calibrage constant, avec un certain poids - quelque chose comme EMA pour chaque intervalle. Ainsi, il y aura au moins un effet d'adaptation à la volatilité du marché et à l'obsolescence du modèle.

Je ne vois pas l'intérêt d'un étalonnage statique sur des données distinctes. En ce qui concerne mes prédicteurs, j'ai étudié la question de la stabilité des indicateurs statistiques, et ces indicateurs sont peu nombreux, et le modèle est rempli de prédicteurs erratiques. C'est la raison pour laquelle je recherche une stabilité à laquelle quelque chose comme ceci peut être appliqué.....

Dans la capture d'écran ci-dessus, j'ai montré le modèle en section - vous pouvez voir à quel point le rappel sur les bords est généralement faible, ce qui indique déjà que les mesures statistiques ne sont pas égales pour la même pondération, et souvent elles ne seront pas suffisantes pour parler, même en théorie, de stabilité dans cette gamme de "probabilité". De ce point de vue également, l'étalonnage du total semble être une idée douteuse.

Je suis plus intéressé par l'idée de repondérer les valeurs dans les feuilles, cependant, j'ai déjà écrit à ce sujet, mais je n'ai pas eu de retour ici - c'est donc à moi de le faire....

 
Encore quelques nouvelles définitions.
Pour la dernière fois : le classificateur est calibré parce qu'il produit des probabilités incorrectes. Elles n'ont pas de sens dans leur forme originale. Il faut s'y faire.
 
Catbusta a un code ouvert - vous pouvez le consulter pour savoir exactement ce qui est donné.