L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 1537

 
Maxim Dmitrievsky:

des arguments ?

Quels arguments sont nécessaires - le paramètre 6 est le paramètre par défaut, il découle du tableau des paramètres.

C'est étrange, car la profondeur de l'arbre dépend davantage des liens complets entre les prédicteurs, c'est pourquoi je suis surpris qu'à partir de ces deux liens indépendants, d'une complexité totale aux alentours de 200, on obtienne un bon modèle, à en juger par les graphiques.

 
Aleksey Vyazmikin:

Quels arguments sont nécessaires - le paramètre 6 par défaut, découle du tableau des paramètres.

C'est étrange, car la profondeur de l'arbre dépend davantage des liens complets entre les prédicteurs. Il est donc surprenant que ces deux liens indépendants, dont la complexité totale est d'environ 200, constituent un bon modèle, à en juger par les graphiques.

C'est pourquoi je dis que les données sont sorties. Forêt ré-entraînée sur eux (peut-être arriver à fixer cette caractéristique de la forêt, en catégorisant les caractéristiques). Maintenant je mets 6 - le réentraînement sur le sentier se passe bien, acurasi sous 0.9.

6 pour mon trop, 2-4 est normal

L'analogie avec la forêt est simple, il n'y a pas de limite à la profondeur des arbres.
 
Maxim Dmitrievsky:

c'est pourquoi je dis que les données sont retirées. Forêt ré-entraînée sur eux (peut être capable de corriger cette caractéristique de la forêt, en catégorisant les caractéristiques). Maintenant, mettez 6 - le réentraînement sur le sentier devient substantiel, acurasi sous 0,9.

6 pour mon trop, 2-4 normal va

L'analogie avec la forêt est directe, la profondeur des arbres n'étant pas limitée.

Je ne comprends pas, vous avez dit auparavant que vous avez des prédicteurs sous forme d'incréments, alors comment voulez-vous les transformer en prédicteurs catégoriels ?

La représentation d'un arbre ne change pas grand-chose - j'ai disséqué des arbres, il y a beaucoup de feuilles d'arbre individuelles qui sont combinées en une longue feuille, et une très grande proportion de ces feuilles sont dupliquées ou ont des valeurs intermédiaires/liens sans signification qui peuvent être élagués. En général, j'ai vu sur mon échantillon que la profondeur de l'arbre affecte le nombre d'arbres, et vous pouvez obtenir le même résultat sur un arbre de 4 divisions.

 
Aleksey Vyazmikin:

Je ne comprends pas, vous avez dit plus tôt que vous avez des prédicteurs sous forme d'incréments, alors comment voulez-vous en faire des prédicteurs catégoriels ?

La représentation d'un arbre ne change pas grand-chose - j'ai disséqué des arbres, il y a beaucoup de feuilles d'arbre individuelles qui sont combinées en une longue feuille, et une très grande proportion de ces feuilles sont dupliquées ou ont des valeurs intermédiaires/liens sans signification qui peuvent être élagués. En général, j'ai vu sur mon échantillon que la profondeur de l'arbre affecte le nombre d'arbres, et vous pouvez obtenir le même résultat sur un arbre de 4 divisions.

D'abord divisé en catégories, par exemple 20 gammes-catégories. Puis encodage vanchot (via des attributs factices) ou autre, encore indécis. Au final, chaque fonctionnalité sera binaire ou quelque chose comme ça.

plus il y a de valeurs différentes pour la forêt, plus il y a de surentraînement. Plus l'échantillon de formation augmente, plus le sur-entraînement augmente. Pour Catbust, ce n'est pas le cas. Pour la forêt, on essaie donc de réduire le nombre de choix pour les caractéristiques continues en les catégorisant. Je ne sais pas si ça va aider, on verra.

Je ne suis pas sûr que ça vous sauvera, voyons voir.

 
Maxim Dmitrievsky:

Commencez par les répartir en catégories, par exemple 20 rangs. Ensuite, l'encodage vanchot (via des attributs factices) ou autre chose, je n'ai pas encore décidé. Au final, chaque fonctionnalité sera binaire ou quelque chose comme ça.

Je ne sais pas, il s'agit plutôt d'accélérer le traitement des données, de ne pas fragmenter ces prédicteurs, de ne pas les comparer entre eux dans une chaîne de feuilles, je n'ai pas vu d'effet intéressant, malheureusement. Et la logique veut qu'il ne s'agisse pas de valeurs comparables, mais de vannes combinées en un groupe afin d'égaliser la sélection aléatoire.

Maxim Dmitrievsky:
Plus il y a de valeurs différentes pour une forêt, plus il y a de surentraînement. Au fur et à mesure que l'échantillon de formation augmente, le sur-entraînement augmente. Ce n'est pas le cas du catbust.

La dépendance de l'échantillon à l'égard de la formation qui y est dispensée n'est pas non plus sans ambiguïté - j'ai fait des études similaires pendant une demi-année ou plus tôt. Il est plus probable qu'il y ait une dépendance des données, qui devraient être comparables.

 
Maxim Dmitrievsky:

Une approche simple et intéressante sur la façon de décrire les modèles pour le MoD

https://www.quanttrader.com/index.php/a-simple-algorithm-to-detect-complex-chart-patterns/KahlerPhilipp2019

méga-primitif, il y a des façons beaucoup plus précises de décrire un motif

 
mytarmailS:

méga-primitif, il y a des moyens de décrire le modèle de façon beaucoup plus précise

comme quoi ?

 
Alexander_K:
Je m'associe aux supplications de ceux qui souffrent. Je demande, en inclinant la tête, un lien vers le Graal.
Alexander_K:

Je suis prêt à payer un montant raisonnable pour le Graal, confirmé sur le réel (les rapports de tests ne m'intéressent pas) pour au moins 3 mois de travail.

Je crois que la valeur réelle du Graal = la somme des capitaux propres actuels du trader. Par exemple, avec 1000 $ de capitaux propres sur le compte, le TS a la même valeur. Si mon utilisation du Graal est basée sur des technologies de réseaux neuronaux et/ou des modèles physiques et mathématiques, les statistiques réelles et la volonté de les vendre, n'hésitez pas à me contacter et nous en discuterons.

Qui gagne vraiment sur le marché ne vendra pas sa technologie pour des millions de vert, peut-être pour des centaines de millions... Par exemple, si quelqu'un leur donne un logiciel "boîte noire" faisant de bonnes prévisions ou des signaux prêts à l'emploi, ils ont besoin de 10 à 30 $ par mois pour les données et la qualité d'exécution est encore plus chère que les données, c'est comme comparer un enfant dans un bac à sable et une société d'extraction d'or, l'enfant veut creuser de l'or avec son scoop mais il ne peut pas le faire... Peut-être une truelle différente ? Demandez aux autres enfants du jardin d'enfants qui ont une telle pelle ? Il est probable que quelqu'un en aura un. Les enfants sont souvent des rêveurs :)

 
Aleksey Vyazmikin:

Je ne sais pas, il s'agit plutôt d'accélérer le traitement des données, de ne pas diviser ces prédicteurs, de ne pas les comparer entre eux dans la même chaîne de feuilles, je n'ai pas vu d'effet intéressant, malheureusement. Et la logique veut qu'il ne s'agisse pas de valeurs comparables, mais d'un codage vanchot combiné afin d'égaliser la sélection aléatoire.

La dépendance de l'échantillon par rapport à l'apprentissage sur place n'est pas non plus sans ambiguïté - j'ai fait des études similaires sur une demi-année ou plus tôt. Il est plus probable qu'il y ait une dépendance des données, qui devraient être comparables.

Cet article anglais parle justement de cela, oui, de ne pas comparer les valeurs d'une variable entre elles lorsqu'elles sont nombreuses - cela ne mène qu'au surentraînement.

Peut-être que ce n'est pas la longueur, c'est autre chose, je vous dis ce que je vois. J'augmente l'échantillonnage - c'est plus joli sur Trayne, pire sur test. La généralisation devrait augmenter avec la taille du plateau, mais c'est l'inverse dans la forêt.

 
Maxim Dmitrievsky:

comme ?

dtw, analyse du spectre ... un tas ...

j'ai réussi à créer un algorithme qui sait voir les mêmes schémas indépendamment de leur ampleur, donc l'algorithme regarde un graphique et voit le schéma à la fois sur les graphiques d'une minute et d'une semaine, en ne regardant qu'un seul graphique, et il peut faire de vraies prédictions, mais j'ai encore beaucoup de travail