L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 2387
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Si vous ne comprenez pas la description, posez des questions sur ce qui n'est pas clair - j'essaierai de mieux expliquer.
J'ai fait la même chose il y a quelques années, et j'ai abandonné à cause du travail que cela impliquait, pas de l'inutilité.
Vous trouverez ci-dessous un tableau des résultats de l'ancienne expérience, le travail se déroule comme suit :
1. Le nombre de prédicteurs est coupé en 9 morceaux.
2. Des combinaisons entre les morceaux sont créées - 512
3. Ensuite, une estimation est faite de la façon dont les échantillons se comportent en moyenne avec la présence/absence de chaque morceau.
4. Une hypothèse est faite sur la signification du morceau (positif/négatif).
5. Les morceaux importants sont décomposés en morceaux plus petits, et les moins importants sont combinés en un seul morceau (pas nécessairement dans l'ordre).
6. De nouvelles combinaisons 512 sont formées
7. Si un petit morceau affectant négativement l'échantillon est trouvé, il est exclu du dénombrement ultérieur jusqu'à ce que l'amélioration du résultat cesse, puis on peut essayer d'ajouter les morceaux exclus et analyser le résultat de la même manière. Les influences positives, en revanche, sont regroupées en un seul groupe.
Voici un exemple de l'évolution des indicateurs avec 32 itérations de ce type.
La méthode peut bien sûr être améliorée, mais cela nécessite l'expérimentation et les résultats de celle-ci.
Oui, l'amélioration n'est pas multiple, mais les résultats vous permettent également de réfléchir aux prédicteurs qui sont meilleurs ou moins bons pour le résultat et pourquoi.
Et, je veux essayer de travailler spécifiquement avec les statistiques CatBoost et de supprimer/ajouté des prédicteurs (et leurs groupes) précisément pour la raison que cela pourrait être plus rapide que l'énumération que j'utilisais précédemment.
Un autre avantage est que trop de prédicteurs conduit à des splits rares, et l'activation des feuilles peut être très rare dans l'échantillon en dehors de la formation (montré sur la capture d'écran plus tôt), ce qui diminue délibérément la qualité de la formation et de son évaluation.
En quoi est-ce mieux que de simplement tester toutes les fonctionnalités en en ajoutant une ?
D'abord, entraînez-vous 1000 fois (avec 1000 fonctionnalités à tester) sur une fonctionnalité, trouvez la meilleure. Puis, 999 fois sur le meilleur jeton et 999 fois sur les autres, choisissez le deuxième meilleur. Puis sur les 2 premiers et le tiers des 998 restants, etc.
Un total de 2 cycles imbriqués.
Les modèles comportant un petit nombre de caractéristiques apprennent très rapidement. Vous en obtiendrez 20 à 30 dans un délai raisonnable. Et après 10 à 20 caractéristiques sélectionnées, les modèles cessent généralement de s'améliorer, l'ajout de nouvelles caractéristiques après celles-ci ne faisant qu'empirer le résultat.
Une perte de temps inutile
Il est clair qu'il n'y aura pas de discussion constructive - il n'y a aucune volonté d'aller au fond des choses.
Il est clair qu'il n'y aura pas de discussion constructive - il n'y a aucune volonté de comprendre le point.
Il n'y a pas de désir de souffrir des conneries, le point est clair (souffrir des conneries).
Quelque chose de compliqué.
En quoi est-ce mieux que de simplement tester toutes les fonctionnalités en en ajoutant une ?
D'abord, entraînez-vous 1000 fois (avec 1000 fonctionnalités à tester) sur une fonctionnalité, trouvez la meilleure. Puis, 999 fois sur le meilleur jeton et 999 fois sur les autres, choisissez le deuxième meilleur. Puis sur les 2 premiers et le tiers des 998 restants, etc.
Un total de 2 cycles imbriqués.
Les modèles comportant un petit nombre de caractéristiques apprennent très rapidement. Vous en obtiendrez 20 à 30 dans un délai raisonnable. Et après 10 à 20 caractéristiques sélectionnées, les modèles cessent généralement de s'améliorer, l'ajout de nouvelles caractéristiques après celles-ci ne faisant qu'empirer le résultat.
Nous ne recherchons pas la meilleure, mais une combinaison de caractéristiques, et c'est là le problème. Pourquoi est-ce un problème, parce qu'il est impossible d'essayer toutes les combinaisons, c'est pourquoi la méthode eurétique est nécessaire. Un autre problème est la forte similarité potentielle de différents prédicteurs après leur séparation, ce qui, dans les ensembles, conduira à une surestimation de la probabilité, car il y aura de nombreuses feuilles intrinsèquement corrélées.
L'homme a décidé de réinventer le boosting avec le boosting, ne l'arrêtons pas.
les appels au bon sens n'ont pas aidé
aucun désir de souffrir des conneries, le point est clair (souffrance des conneries)
Pourquoi des conneries ?
Cela fait-il une différence ? Oui, cela en fait une.
Il existe une justification théorique - oui, il y en a une.
Bien sûr, il ne s'agit pas d'une amélioration d'un ordre de grandeur.
Et oui, c'est peut-être peu efficace pour vos prédicteurs - ici je peux admettre la raison du refus.
oubliez le commerce, transformez le réseau neuronal en indicateur
Pourquoi des conneries ?
Cela fait-il une différence ? Oui, cela en fait une.
Il existe une justification théorique - oui, il y en a une.
Bien sûr, il ne s'agit pas d'une amélioration d'un ordre de grandeur.
Et oui, elle peut être marginalement efficace pour vos prédicteurs - ici, je peux permettre une justification du rejet.
Vous avez déjà tout dit, je ne vous empêcherai pas de trop essayer ce que vous ne pouvez pas choisir.
Il ne faut pas chercher la meilleure, mais une combinaison des deux - c'est là le problème. Pourquoi c'est un problème, parce qu'il est impossible d'essayer toutes les combinaisons, c'est pourquoi nous avons besoin de la méthode eurétique. Un autre problème est la forte similarité potentielle de différents prédicteurs après le fractionnement, ce qui, dans les ensembles, conduira à une surestimation de la probabilité, car il y aura de nombreuses feuilles essentiellement corrélées.
Après avoir sélectionné la première meilleure caractéristique, la deuxième sera celle qui a la meilleure interaction avec la première, et ainsi de suite lorsque vous atteignez 10. Le prochain sera celui qui a la meilleure interaction avec celui qui a été sélectionné avant, mais très probablement avec tous.
ça ne marche pas comme ça
retirer les caractéristiques de moindre importance du modèle et le casser, puis comparer son cul avec son pouce, etc.