L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 1194

 
Et puis l'algorithme d'apprentissage est conçu pour décomposer les pertes logarithmiques par 0,5 - il est donc assez logique qu'il y ait un groupe important à cet endroit.
 
Aleksey Vyazmikin:
Puis l'algorithme d'apprentissage est affiné pour décomposer les pertes logarithmiques par 0,5 - il est donc assez logique que le cluster soit le principal ici.

Le logloss est presque inutile à regarder, c'est une métrique quelconque en termes de répartition par classe.

 
Maxim Dmitrievsky:

plus la probabilité de l'événement est élevée, plus le signal est précis, cela découle même de la définition :) 2 la bosse ne sera pas sur des données bruyantes, mais le modèle devrait au moins capturer les valeurs extrêmes dans une mesure appropriée, sinon il n'est jamais sûr des entrées du tout.

Je pense que ce n'est pas si simple, il faut prendre en compte la fonction d'apprentissage... car la probabilité est généralement calculée après ses valeurs (dans l'algorithme du modèle donc).

Jusqu'à présent, les faits me disent que le modèle barbouillé n'est pas sûr, et je n'ai pas encore rencontré de panne au centre...

Maxim Dmitrievsky:

Il est presque inutile de regarder la perte de logarithme, c'est une métrique sans importance en termes de répartition en classes.

Il y a une descente en gradient en cours...
 
Aleksey Vyazmikin:

Je ne pense pas que ce soit aussi tranché, il faut prendre en compte la fonction d'apprentissage... car la probabilité est généralement calculée après ses valeurs.

Jusqu'à présent, les faits me disent que le modèle barbouillé n'est pas sûr, et je n'ai pas encore rencontré de panne au centre...

je ne comprends pas la terminologie, quelle est la fonction d'apprentissage ? y a-t-il un softmax à la fin ou quoi ?

Je ne sais pas ce qu'il en est de l'échec, mais le modèle incertain ne fonctionnera pas avec de nouvelles données, alors que le modèle étalé fonctionnera, si vous fixez un seuil de probabilité.

 
Maxim Dmitrievsky:

Je ne comprends pas la terminologie, quelle est la fonction d'apprentissage ? y a-t-il un softmax à la fin ou quoi ?

Là, le modèle est évalué par logloss et tout le boosting de gradient vise à améliorer les performances de cette fonction. Le modèle lui-même produit des valeurs qui doivent être transformées par une fonction logistique. C'est pourquoi je suppose que tout n'est pas si simple dans cette méthode avec probabilité...

 
Aleksey Vyazmikin:

Là, le modèle est évalué par la perte de logarithme et toutes les actions de boosting de gradient visent à améliorer la performance de cette fonction. Le modèle lui-même produit des valeurs qui doivent être transformées par une fonction logistique. C'est pourquoi je suppose que tout n'est pas si simple dans cette méthode avec probabilité...

Il y a des f-ions min et max, ils seront aux marges logit à coup sûr... S'ils n'y sont pas, c'est qu'il y a sous-exploitation ou autre chose (j'ai ce problème chaque fois que je suis sous-exploité, comme avoir peu de neurones ou d'arbres) et c'est une grande erreur de classification et de perte de log...

 
Maxim Dmitrievsky:

Il y a des f-ions min et max, ils seront toujours sur les bords du logit... s'ils n'y sont pas, c'est un underfitting ou autre (j'ai toujours cela quand je suis underfitting, par exemple peu de neurones ou d'arbres) et une erreur de classification et un logloss importants.

C'est à propos de ces coefficients que le modèle sort https://en.wikipedia.org/wiki/Logit - il ne s'agit pas d'une distribution linéaire.

Il me semble que le sous-entraînement est préférable au sur-entraînement, surtout si l'on se concentre sur la classe 1 et que l'on prend un grand pourcentage de cibles correctement classées qui atteignent la classification, et que l'on peut ensuite combiner les modèles en limitant leur champ d'application.

Logit - Wikipedia
Logit - Wikipedia
  • en.wikipedia.org
In deep learning, the term logits layer is popularly used for the last neuron layer of neural network for classification task which produces raw prediction values as real numbers ranging from [3]. If p is a probability, then is the corresponding odds; the logit of the probability is the logarithm of the odds, i.e. logit ⁡ ( p ) = log ⁡...
 
Aleksey Vyazmikin:

Il s'agit de ces coefficients que le modèle donne https://en.wikipedia.org/wiki/Logit - il ne s'agit pas d'une distribution linéaire.

Il me semble que le sous-entraînement est préférable au sur-entraînement, surtout si l'on se concentre sur la classe 1 et que l'on prend un grand pourcentage de cibles correctement classées qui relèvent de la classification, et que l'on peut ensuite combiner les modèles, ce qui limite leur champ d'application.

en bref... je le répète : nous devrions enseigner correctement afin d'éviter le crowding (overfitting) et de couper les queues (underfitting)

La courbe rouge me semble plus ou moins normale.

et l'underfitting n'est rien du tout... dans le voisinage de 0,5

Le biais peut être extrait par Bayes, par les probabilités conditionnelles, pendant que le modèle fonctionne. Je n'ai pas encore compris exactement comment, mais il y a une puissance inconnue à cela, intuitivement.

Les modèles bayésiens sont capables d'apprendre... et si on mettait une astuce bayésienne sur le modèle pour qu'il ne se réentraîne pas trop souvent... Je n'ai pas encore trouvé la solution.

 
Maxim Dmitrievsky:

Je le répète : vous devez l'enseigner normalement pour qu'il n'y ait pas de bosse (overfit) et de queue de pie (underfit).

la courbe rouge me semble plus ou moins normale

et le sous-entraînement n'est rien du tout... dans le voisinage de 0,5

Le biais peut être extrait par Bayes, par les probabilités conditionnelles, pendant que le modèle fonctionne. Je n'ai pas encore compris exactement comment, mais il y a une puissance inconnue à cela, intuitivement.

Les modèles bayésiens sont capables de se recycler... et si on mettait une pointe bayésienne sur le modèle pour ne pas avoir à se recycler souvent... je n'y ai pas encore pensé.

Ouais, je préfère la rouge aussi - comme la distribution normale et tout ça, mais jusqu'à présent sur les modèles 512 cette distribution perd à l'œil.... Bientôt, il y aura de nombreux modèles de l'ordre de 100000 - je verrai ce qu'ils montrent... la théorie et la pratique ne font parfois pas bon ménage - il faut s'adapter, sinon on risque de mettre ses dents au placard comme ça...

Catbust est juste bayésien et supporte le pré-apprentissage, mais je ne sais pas - ajouter sans cesse des arbres - ressemble à un ajustement...

 
Maxim Dmitrievsky:

Ajouter des arbres est un peu bizarre, sans réorganiser toute la structure... ou peut-être que c'est bien, c'est difficile à dire... pour une petite perspective, ça semble bien, juste pour déplacer le centre du mb

Et comment s'y prendre autrement - en boosting, si j'ai bien compris, c'est la seule option. Vous pourriez bien sûr jeter le dernier tiers du modèle - un tiers des arbres - et voir ce qui en ressort lorsque de nouvelles données sont introduites. Mais, je pense à annuler les feuilles avec des "probabilités" insignifiantes - faire le ménage dans le bruit pour ainsi dire. En général, je pense à l'automatisation de la collecte d'ensembles à partir de modèles, à la découverte d'un bon intervalle de capacité prédictive du modèle, à l'ajustement de la classification sur cet intervalle (par exemple de 0,7 à 0,8) et à l'ajout de blancs pour les combinaisons entre les autres modèles.