L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 3353

 
Maxim Dmitrievsky #:
La pensée unique est de mise. Il ne s'agit pas de ces probabilités, elles sont appelées ainsi en raison du loess fi utilisé pour estimer la probabilité.

Comment obtenir de vraies probabilités de classe ?

Il n'y a pas d'autre façon de penser ! Nous utilisons des algorithmes de MO prêts à l'emploi qui sont accompagnés d'un ensemble de fonctions supplémentaires. L'ensemble est appelé "package".

Que sont les"probabilités de classe réelles" ? Par exemple, la fonction

predict(object, newdata, type = c("vector", "probs", "both","F"))
renvoie des "estimations de classes de probabilité". L'algorithme ne peut contenir d'autres probabilités que les "estimations".



 

Ne vous battez pas, les gars, nous vous lisons.

ouvrez les serrures ;)


 
СанСаныч Фоменко #:

Il n'y a pas d'autre façon de penser ! Nous utilisons des algorithmes de MO prêts à l'emploi qui sont accompagnés d'un ensemble de fonctions supplémentaires. L'ensemble est appelé "paquet".

Que sont les"probabilités de classe réelle" ? Par exemple, la fonction

renvoie des"estimations de classe de probabilité". L'algorithme ne peut pas contenir d'autres probabilités que les "estimations".
La question n'est pas de savoir ce qu'il peut contenir. Il s'agit de savoir comment obtenir des probabilités de classe fiables. De sorte que vous puissiez être sûr qu'avec une probabilité de classe de 0,8, 80 % des cas ont été prédits correctement. Vous pourriez utiliser un seuil, par exemple. Dans la plupart des cas, les résultats des classificateurs ne le permettent pas, je le répète. Ils surestiment ou sous-estiment "à dessein". C'est pourquoi le seuil ne fonctionne pas. Les vraies probabilités sont celles qui ne sont ni surestimées ni sous-estimées.

Vous avez déjà montré que vous ne saviez pas. Il reste donc des choses à apprendre. C'est pourquoi "nous devons maîtriser tous les modes d'action" et nous débarrasser de la pensée par lots.
 

Il semble qu'il ne s'agisse pas d'une estimation ponctuelle de la probabilité, mais de son estimation par intervalle. Pour matstat, il s'agit d'une approche courante - non seulement pour obtenir une estimation numérique spécifique de la probabilité, mais aussi pour obtenir un intervalle dans lequel la valeur réelle de cette probabilité estimée tombe avec une précision donnée (probabilité). Il y a ici une certaine difficulté de compréhension, car le concept de probabilité participe de deux hypostases différentes - à la fois la valeur estimée elle-même et la précision de son estimation. Et il s'agit de probabilités tout à fait différentes)

Bien que je n'aie pas étudié la prévision conforme en détail, je peux me tromper.

 
Maxim Dmitrievsky #:
La question n'est pas de savoir ce qu'il peut faire. Il s'agit de savoir comment obtenir des probabilités de classe fiables. De sorte que vous puissiez être sûr qu'avec une probabilité de classe de 0,8, 80 % des cas sont prédits correctement. Vous pouvez utiliser un seuil, par exemple. Dans la plupart des cas, les résultats des classificateurs ne le font pas, je le répète. Ils surestiment ou sous-estiment "à dessein". C'est pourquoi le seuil ne fonctionne pas. Les vraies probabilités sont celles qui ne sont ni surestimées ni sous-estimées.

Ce n'est pas ce que vous avez. Le chiffre de 0,8 cité est l'une des probabilités de classe. Voici un histogramme des probabilités de classe.


Et je l'ai exactement comme ça et pas autrement, parce que si c'est autrement, c'est du surentraînement. Pour moi, à un seuil fixe, le décalage de l'erreur de prédiction sur les fichiers OOV et OOS et sur le fichier VNE est le principal signe de surentraînement. Le seuil fonctionne très bien. Et les "probabilités réelles" relèvent du domaine de la fiction qui n'a rien à voir avec le code réel et la terminologie utilisée dans ce cas.

 
СанСаныч Фоменко #:

Le chiffre de 0,8 indiqué est l'une des valeurs de probabilité de la classe. Voici un histogramme des probabilités de la classe.


C'est exactement ce que je fais et pas autrement, car si c'est différent, cela signifie qu'il y a surentraînement. Pour moi, à un seuil fixe, le décalage de l'erreur de prédiction sur les OOV et OOS et sur le fichier VNE est le principal signe de surentraînement. Le seuil fonctionne très bien. Et les "probabilités réelles" relèvent du domaine de la fiction qui n'a rien à voir avec le code du monde réel et la terminologie utilisée.

Comment avez-vous réalisé que votre seuil fonctionne parfaitement ?
Pour vous, c'est de la fantaisie, et pour quelqu'un d'autre, c'est banal.
 
Aleksey Nikolayev #:

Il semble qu'il ne s'agisse pas d'une estimation ponctuelle de la probabilité, mais de son estimation par intervalle. Pour matstat, il s'agit d'une approche courante - non seulement pour obtenir une estimation numérique spécifique de la probabilité, mais aussi pour obtenir un intervalle dans lequel la valeur réelle de cette probabilité estimée tombe avec une précision donnée (probabilité). Il y a ici une certaine difficulté de compréhension, car le concept de probabilité participe de deux hypostases différentes - à la fois la valeur estimée elle-même et la précision de son estimation. Et il s'agit de probabilités tout à fait différentes)

Bien que je n'aie pas étudié en détail les prévisions conformes, je peux me tromper.

Nous parlons d'une approche légèrement différente, avant que quelqu'un ne la recherche sur Google :)
 
Maxim Dmitrievsky #:
Comment vous êtes-vous rendu compte que votre seuil fonctionnait parfaitement ?
Pour vous, c'est fantastique, pour d'autres, c'est banal.
Erreur de prédiction de correspondance sur les fichiers OOV et OOS et sur le fichier INE
 
СанСаныч Фоменко #:
Erreur de prédiction de correspondance sur l'ALE et l'OOS et sur le fichier END
Comment vous êtes-vous rendu compte que le classificateur donne les bonnes probabilités ? Pas seulement les valeurs de la fourchette. Lisez-vous ce qui vous est écrit ?

Si vous fixez un seuil de 0,8, 80 % des transactions seront-elles rentables ? Et s'il est de 0,51 ?

Il est presque certain que ce ne sera pas le cas. Vérifiez-le.
 
Maxim Dmitrievsky #:
Comment vous êtes-vous rendu compte que le classificateur donne les bonnes probabilités ? Pas seulement les valeurs de la fourchette. Lisez-vous ce qui vous est écrit ?

Les probabilités des modèles sont données par des statistiques sur l'échantillon d'entraînement.

Par conséquent, sans un échantillon représentatif, elles ne sont pas précises, alors passez à autre chose :)

Soit vous déterminez en quoi consiste le modèle, et vous repondérez les feuilles selon l'algorithme que vous avez conçu...