L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 2111

 
Aleksey Vyazmikin:

Non, ce serait un modèle adapté, mais pas un modèle qui a du sens !

Je ne suis pas d'accord. En quantifiant, vous réduisez la quantité d'informations. Le nombre maximal de quantification laissera le maximum d'informations.

Mais il faut plus de temps pour quantifier à 65535 qu'à 255.

 
elibrarius:

Vous savez comment ?

Oui, je travaille dessus - il a été fait à l'origine pour les arbres génétiques.

Vous devez évaluer la distribution de l'information dans l'échantillon et sa relation avec la cible. Je regarde comment l'erreur est réduite dans une section de quantification particulière et quel pourcentage d'échantillons elle contient - l'équilibre de ces métriques permet de sélectionner les meilleures partitions.

 
elibrarius:

Je ne suis pas d'accord. En quantifiant, vous réduisez la quantité d'informations. Le nombre maximum de quantification laissera le maximum d'informations.

Mais il faut plus de temps pour quantifier à 65535 qu'à 255.

Vous avez raison de ne pas être d'accord - il n'y a pas beaucoup d'informations qui circulent et il faut les séparer du bruit. Nous (moi) avons besoin de dépendances stables, pas de celles qui se reproduisent tous les 5 ans et donc il n'y a pas assez de statistiques pour estimer leur propension à une cible particulière, l'utilisation d'exemples insuffisants mène simplement à l'ajustement.

 
Aleksey Vyazmikin:

Oui, j'y travaille - cela a été fait à l'origine pour les arbres génétiques.

Vous devez évaluer la distribution de l'information dans l'échantillon et sa relation avec la cible. Je regarde comment l'erreur est réduite dans une section particulière de la quantification et quel pourcentage d'échantillons elle contient - équilibrer ces métriques permet de sélectionner les meilleures partitions.

Comment estimez-vous l'erreur de quantification ? Vous ne pouvez l'obtenir qu'en exécutant la formation et par toutes les colonnes à la fois et non chaque colonne quantifiée à l'instant.

 
elibrarius:
Aleksey Vyazmikin:

Comment estimez-vous l'erreur de quantification ? Elle ne peut être obtenue qu'en exécutant l'apprentissage sur toutes les colonnes à la fois, et non sur chaque colonne actuellement quantifiée.

J'estime la variation du solde cible par rapport à l'ensemble de l'échantillon. Cela est particulièrement vrai s'il y a plus de deux cibles.

 
Aleksey Vyazmikin:

J'estime la variation du solde des cibles par rapport à l'ensemble de l'échantillon. Cela est particulièrement vrai s'il y a plus de deux cibles.

En tout état de cause, le prochain fractionnement se fera à travers le point de quantification en 2 parties.

On peut déplacer la frontière d'un quantum de façon assez grossière - 5-10-20% de sa taille - en quantifiant de grands 255 morceaux. En appliquant 65535 quanta, vous aurez un échelon de 0,5% de votre quantum. Et l'arbre choisira le meilleur.

Peu probable cependant. En général, il ne touche que le milieu ou les quartiers. Avec 65535 quanta, vous trouverez le milieu plus précisément, et avec 255 c'est 256 fois plus grossier.

 
elibrarius:

En tout état de cause, le prochain fractionnement se fera à travers le point de quantification en 2 morceaux.

On peut déplacer la frontière d'un quantum de manière assez grossière - 5-10-20% de sa taille - en quantifiant de grands 255 morceaux. En appliquant 65535 quanta, vous aurez un échelon de 0,5% de votre quantum. Et l'arbre choisira le meilleur.

Peu probable cependant. En général, il ne touche que le milieu ou les quartiers. Avec 65535 quanta, le milieu sera trouvé de manière plus précise, et avec 255, il sera 256 fois plus grossier.

Exactement, il y aura une division, mais la division ne sera pas de 50% mais inégale - selon la correspondance avec la ou les divisions supérieures, mais la logique suggère que les chances seront différentes si vous regardez où le segment est saturé d'unités ou où il y en a un nombre égal (par rapport à l'équilibre de l'échantillon entier). L'objectif est d'obtenir au moins 1% des échantillons dans les feuilles, et en même temps environ 65% des étiquettes de la même classe.

 
Aleksey Vyazmikin:

Exactement, il y aura une division, mais la division ne sera pas de 50% mais inégale - en fonction de la correspondance avec la ou les divisions supérieures, mais la logique suggère que les chances seront différentes si vous recherchez là où le segment est saturé d'unités ou là où il y en a un nombre pair (par rapport à l'équilibre de l'ensemble de l'échantillon). L'objectif est d'obtenir au moins 1% de l'échantillon dans les feuilles, et en même temps environ 65% des étiquettes de la même classe.

Je pense que c'est une tâche assez difficile.

Et si une telle fonctionnalité peut être trouvée, c'est le seul moyen de travailler, même sans MO.

Malheureusement, nous ne disposons pas de telles fonctionnalités.

 
Maxim Dmitrievsky:

Je n'en ai pas besoin pour l'examen, mais ça peut être utile.

Les résultats sont étranges - sur l'échantillon de test et de formation, le rappel est de 0,6-0,8 et sur l'examen sans conversion de 0,009 et avec conversion de 0,65 - quelque chose ne va pas ici :(

J'ai l'impression que CatBoost a appris l'algorithme de conversion :)

Et y a-t-il une possibilité de marquer les anciennes et les nouvelles lignes ? Il est alors possible de retirer les chaînes transformées de l'échantillon transformé et de voir s'il s'agit d'un problème d'interprétation ou non de formation qualitative tout de même.

 
elibrarius:

Je pense que c'est un véritable défi.

Et si une telle caractéristique est trouvée, c'est le seul moyen de travailler, même sans le MoD.

Malheureusement, nous ne disposons pas de telles fonctionnalités.

Par y, on entend la répartition de la grille, et par X, l'écart en pourcentage de la somme de la cible de chaque classe dans l'ensemble de l'échantillon. Le filtre est de 5%. Nous pouvons voir que différentes classes dominent différentes sections et parfois il y a un changement de miroir où l'amélioration est due à une certaine classe (l'histogramme passe à la position moins) et parfois non. Tout cela devrait être utilisé dans la formation, mais les méthodes de formation standard que je connais n'en tiennent pas beaucoup compte. Il est possible que le surentraînement avec la génétique (plus précisément sur l'élimination) soit plus efficace - il faut le faire.