L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 1194
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Puis l'algorithme d'apprentissage est affiné pour décomposer les pertes logarithmiques par 0,5 - il est donc assez logique que le cluster soit le principal ici.
Le logloss est presque inutile à regarder, c'est une métrique quelconque en termes de répartition par classe.
plus la probabilité de l'événement est élevée, plus le signal est précis, cela découle même de la définition :) 2 la bosse ne sera pas sur des données bruyantes, mais le modèle devrait au moins capturer les valeurs extrêmes dans une mesure appropriée, sinon il n'est jamais sûr des entrées du tout.
Je pense que ce n'est pas si simple, il faut prendre en compte la fonction d'apprentissage... car la probabilité est généralement calculée après ses valeurs (dans l'algorithme du modèle donc).
Jusqu'à présent, les faits me disent que le modèle barbouillé n'est pas sûr, et je n'ai pas encore rencontré de panne au centre...
Il est presque inutile de regarder la perte de logarithme, c'est une métrique sans importance en termes de répartition en classes.
Je ne pense pas que ce soit aussi tranché, il faut prendre en compte la fonction d'apprentissage... car la probabilité est généralement calculée après ses valeurs.
Jusqu'à présent, les faits me disent que le modèle barbouillé n'est pas sûr, et je n'ai pas encore rencontré de panne au centre...
je ne comprends pas la terminologie, quelle est la fonction d'apprentissage ? y a-t-il un softmax à la fin ou quoi ?
Je ne sais pas ce qu'il en est de l'échec, mais le modèle incertain ne fonctionnera pas avec de nouvelles données, alors que le modèle étalé fonctionnera, si vous fixez un seuil de probabilité.
Je ne comprends pas la terminologie, quelle est la fonction d'apprentissage ? y a-t-il un softmax à la fin ou quoi ?
Là, le modèle est évalué par logloss et tout le boosting de gradient vise à améliorer les performances de cette fonction. Le modèle lui-même produit des valeurs qui doivent être transformées par une fonction logistique. C'est pourquoi je suppose que tout n'est pas si simple dans cette méthode avec probabilité...
Là, le modèle est évalué par la perte de logarithme et toutes les actions de boosting de gradient visent à améliorer la performance de cette fonction. Le modèle lui-même produit des valeurs qui doivent être transformées par une fonction logistique. C'est pourquoi je suppose que tout n'est pas si simple dans cette méthode avec probabilité...
Il y a des f-ions min et max, ils seront aux marges logit à coup sûr... S'ils n'y sont pas, c'est qu'il y a sous-exploitation ou autre chose (j'ai ce problème chaque fois que je suis sous-exploité, comme avoir peu de neurones ou d'arbres) et c'est une grande erreur de classification et de perte de log...
Il y a des f-ions min et max, ils seront toujours sur les bords du logit... s'ils n'y sont pas, c'est un underfitting ou autre (j'ai toujours cela quand je suis underfitting, par exemple peu de neurones ou d'arbres) et une erreur de classification et un logloss importants.
C'est à propos de ces coefficients que le modèle sort https://en.wikipedia.org/wiki/Logit - il ne s'agit pas d'une distribution linéaire.
Il me semble que le sous-entraînement est préférable au sur-entraînement, surtout si l'on se concentre sur la classe 1 et que l'on prend un grand pourcentage de cibles correctement classées qui atteignent la classification, et que l'on peut ensuite combiner les modèles en limitant leur champ d'application.
Il s'agit de ces coefficients que le modèle donne https://en.wikipedia.org/wiki/Logit - il ne s'agit pas d'une distribution linéaire.
Il me semble que le sous-entraînement est préférable au sur-entraînement, surtout si l'on se concentre sur la classe 1 et que l'on prend un grand pourcentage de cibles correctement classées qui relèvent de la classification, et que l'on peut ensuite combiner les modèles, ce qui limite leur champ d'application.
en bref... je le répète : nous devrions enseigner correctement afin d'éviter le crowding (overfitting) et de couper les queues (underfitting)
La courbe rouge me semble plus ou moins normale.
et l'underfitting n'est rien du tout... dans le voisinage de 0,5
Le biais peut être extrait par Bayes, par les probabilités conditionnelles, pendant que le modèle fonctionne. Je n'ai pas encore compris exactement comment, mais il y a une puissance inconnue à cela, intuitivement.
Les modèles bayésiens sont capables d'apprendre... et si on mettait une astuce bayésienne sur le modèle pour qu'il ne se réentraîne pas trop souvent... Je n'ai pas encore trouvé la solution.
Je le répète : vous devez l'enseigner normalement pour qu'il n'y ait pas de bosse (overfit) et de queue de pie (underfit).
la courbe rouge me semble plus ou moins normale
et le sous-entraînement n'est rien du tout... dans le voisinage de 0,5
Le biais peut être extrait par Bayes, par les probabilités conditionnelles, pendant que le modèle fonctionne. Je n'ai pas encore compris exactement comment, mais il y a une puissance inconnue à cela, intuitivement.
Les modèles bayésiens sont capables de se recycler... et si on mettait une pointe bayésienne sur le modèle pour ne pas avoir à se recycler souvent... je n'y ai pas encore pensé.
Ouais, je préfère la rouge aussi - comme la distribution normale et tout ça, mais jusqu'à présent sur les modèles 512 cette distribution perd à l'œil.... Bientôt, il y aura de nombreux modèles de l'ordre de 100000 - je verrai ce qu'ils montrent... la théorie et la pratique ne font parfois pas bon ménage - il faut s'adapter, sinon on risque de mettre ses dents au placard comme ça...
Catbust est juste bayésien et supporte le pré-apprentissage, mais je ne sais pas - ajouter sans cesse des arbres - ressemble à un ajustement...
Ajouter des arbres est un peu bizarre, sans réorganiser toute la structure... ou peut-être que c'est bien, c'est difficile à dire... pour une petite perspective, ça semble bien, juste pour déplacer le centre du mb
Et comment s'y prendre autrement - en boosting, si j'ai bien compris, c'est la seule option. Vous pourriez bien sûr jeter le dernier tiers du modèle - un tiers des arbres - et voir ce qui en ressort lorsque de nouvelles données sont introduites. Mais, je pense à annuler les feuilles avec des "probabilités" insignifiantes - faire le ménage dans le bruit pour ainsi dire. En général, je pense à l'automatisation de la collecte d'ensembles à partir de modèles, à la découverte d'un bon intervalle de capacité prédictive du modèle, à l'ajustement de la classification sur cet intervalle (par exemple de 0,7 à 0,8) et à l'ajout de blancs pour les combinaisons entre les autres modèles.