L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2107

 
elibrarius:
C'est comme ça que ça devrait être. Un équilibrage par classe NS est nécessaire. Les arbres peuvent se débrouiller comme ils sont.

Eh bien, ils ne le font pas toujours - je l'ai déjà écrit.

 

On dirait que j'ai brûlé un conseiller expert rentable (approche de formation) dans mon article :

Le graphique montre le résultat financier du modèle à la fin de chaque mois, si on entraîne le premier modèle sur 12 mois et qu'on lui ajoute ensuite l'historique de chaque nouveau mois - en collant le contrat à terme Si sur USDRUB_TOM.

 
Aleksey Vyazmikin:

Ils ne s'en sortent pas toujours - je l'ai déjà écrit.

Je pense que l'augmentation de la profondeur des arbres aidera tout autant que l'équilibrage.
 
Aleksey Vyazmikin:

Oui, essentiellement en ajoutant du bruit aux indices prédicteurs. Cela peut affecter les limites de quantification en augmentant la sélection des zones avec des uns, mais par idée le même effet devrait être avec l'ajout de doublons, seulement je suppose que les doublons sont coupés par l'algorithme CatBoost avant que la formation ne commence (besoin de vérifier), alors oui c'est une option.

Il est plus probable que la quantification annule ce bruit. Si une colonne a 10000 valeurs différentes, la quantification à 255 quanta donnera une moyenne de 40 valeurs différentes dans un quantum. Ou un autre exemple - s'il y avait à l'origine 1000 exemples, ajoutez du bruit en obtenant 10000 exemples, puis quantifiez-le à 255 quanta/valeurs différents - travail inutile à mon avis avec cet ajout de bruit.


J'ai regardé le code récemment - je n'ai pas vu de suppression de doublons. Au contraire, les doublons sont retirés de 40 échantillons différents et fusionnés en un seul quantum.

 
elibrarius:
Je pense que l'augmentation de la profondeur des arbres aidera autant que l'équilibrage.

Vous pouvez également essayer d'augmenter la profondeur. Vous devriez également diminuer le taux d'apprentissage en parallèle - cela améliore également les résultats sur les échantillons non équilibrés.

elibrarius:

C'est plutôt la quantification qui annulera ce bruit. Si une colonne contient 10000 valeurs différentes, la quantification à 255 quanta donnera une moyenne de 40 valeurs différentes dans une seule quantification. Ou un autre exemple - s'il y avait à l'origine 1000 exemples, ajoutez du bruit en obtenant 10000 exemples, puis quantifiez-le à 255 quanta/valeurs différents - travail inutile à mon avis avec cet ajout de bruit.

Différentes méthodes de quantification y sont utilisées, notamment la prise en compte de l'encombrement des objets dans la gamme.

elibrarius:

J'ai regardé le code récemment - je n'ai pas vu de suppression de doublons. Au contraire, à partir de 40 exemples différents, des duplicatas sont réalisés en les combinant en un seul quantum.

Si vous avez trouvé le processus de quantification (fixation des limites) dans le code, pouvez-vous poster ce code ? Il doit y avoir des fonctions là-bas ?

 

Qu'est-ce que l'amélioration de la profondeur a à voir avec ça ?

vous avez un grand nuage de points d'une classe et quelques échantillons de l'autre avec côte à côte (ou peut-être même à l'intérieur) qui ne s'exécutent jamais.

La deuxième classe doit être gonflée à une taille raisonnable, ou utiliser des algorithmes de classification à classe unique.

 
Maxim Dmitrievsky:

Qu'est-ce que l'amélioration de la profondeur a à voir avec ça ?

vous disposez d'un grand nuage de points d'une classe et de quelques échantillons d'une autre classe dont les côtés (ou peut-être même l'intérieur) ne s'exécutent jamais.

La deuxième classe doit être gonflée à une taille raisonnable.

L'augmentation de la profondeur permettra de mettre en évidence les zones présentant un petit nombre d'échantillons dans les feuilles, une autre chose est que le pourcentage de feuilles avec des zéros peut rester le même, et alors les arbres suivants obscurciront à nouveau ces unités. Lorsque vous formez de tels échantillons, vous pouvez voir comment le taux de rappel tombe à zéro au milieu de la formation, puis revient à de petits pourcentages.

Pouvez-vous gonfler si je donne un échantillon ? Si la méthode fonctionne, je réfléchirai alors à la manière de la mettre en œuvre dans MT5.

 
Aleksey Vyazmikin:

L'augmentation de la profondeur permettra de mettre en évidence les zones présentant un petit nombre d'échantillons dans les feuilles, une autre chose est que le pourcentage de feuilles avec des zéros peut rester le même, et alors les arbres suivants obscurciront à nouveau ces unités. Lorsque vous formez de tels échantillons, vous pouvez voir comment le taux de rappel tombe à zéro au milieu de la formation, puis revient à de petits pourcentages.

Pouvez-vous gonfler si je donne un échantillon ? Si la méthode fonctionne, je réfléchirai alors à la manière de la mettre en œuvre dans MT5.

Si, je peux. C'est des conneries sur les feuilles et tout ça. Les classes doivent être équilibrées
 
Maxim Dmitrievsky:
Je peux. Ce ne sont que des conneries sur les feuilles et autres. Les classes doivent être équilibrées.

Voici un échantillon - divisé en 3 parties, je comprends que seul train.csv doit être modifié ?

Colonne cible "Target_100" - les 4 dernières colonnes ne sont pas impliquées dans l'entraînement (vous pouvez vous concentrer sur la colonne date à cet endroit) - vous en avez besoin pour construire le solde.

Файл из Облака Mail.ru
Файл из Облака Mail.ru
  • cloud.mail.ru
Облако Mail.ru - это ваше персональное надежное хранилище в интернете.
 
Aleksey Vyazmikin:

Il semble que j'ai brûlé un conseiller expert rentable (approche de formation) dans mon article :

Le graphique montre le résultat financier du modèle à la fin de chaque mois, si on entraîne le premier modèle sur 12 mois et qu'on lui ajoute ensuite l'historique de chaque nouveau mois - en collant le contrat à terme Si sur USDRUB_TOM.

le solde bénéficiaire augmente au même angle

ou géométriquement si elle est réinvestie