L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 3335

 
Maxim Dmitrievsky #:
Divisez le train principal en 5 à 10 sous-trains, chacun d'entre eux étant divisé en une piste et un arbre. Entraînez-vous sur chacun d'eux par type de cv, puis prédisez sur l'ensemble du train principal. Vous comparez les étiquettes originales de tous les modèles avec les étiquettes prédites. Ceux qui n'ont pas deviné sont placés sur la liste noire. Ensuite, vous éliminez tous les mauvais exemples lors de l'apprentissage du modèle final en calculant l'aspiration moyenne pour chaque échantillon. En option, vous pouvez apprendre au deuxième modèle à séparer les échantillons blancs des échantillons noirs, soit par le biais de la 3e classe.
.

3 lignes de code, des résultats au niveau de... enfin, je n'ai rien à comparer avec... enfin, à un certain niveau.

La chèvre ici est cv, ce qui signifie que vous déterminez statistiquement quels échantillons sont mauvais et lesquels sont bons, en utilisant plusieurs modèles, chacun entraîné sur différents éléments de l'histoire. C'est ce qu'on appelle le score de propension, c'est-à-dire la propension de chaque échantillon à jouer un rôle dans la formation.

Bien sûr, les étiquettes peuvent être très mauvaises, et cette approche peut éliminer presque tout. C'est pourquoi j'ai utilisé un échantillonnage aléatoire de transactions dès le début pour ajouter différentes variantes de marquage. Étant donné que nous ne voulons pas ou ne savons pas comment réfléchir à la manière de baliser un graphique.

Voici à quoi devrait ressembler une AMO avec des éléments kozol qui recherche des CT de manière autonome.

Les étiquettes (enseignant, variable cible) ne peuvent PAS être des déchets par définition. La citation est marquée par des considérations externes aux prédicteurs. Une fois que les étiquettes ont été déterminées, le problème des prédicteurs pertinents pour l'ensemble des étiquettes trouvées se pose. Il est facile de constater qu'un ensemble d'étiquettes est magnifique, mais que nous ne pouvons pas trouver de prédicteurs pour ces étiquettes et que nous devons chercher un autre ensemble d'étiquettes. Par exemple, les marques sont des inversions ZZ. Des marques magnifiques. Et comment trouver des prédicteurs pour de telles étiquettes ?

Dès que nous commençons à filtrer les étiquettes par des prédicteurs - il s'agit d'un super ajustement, ce que tout ce que vous montrez ici, y compris le marché - cela ne fonctionne pas sur un nouveau fichier externe dans un mode naturel étape par étape.

 
mytarmailS #:
Oui, c'est intéressant.

Je vous informe que sur un échantillon séparé de test - 7467, et sur l'examen - 7177, mais il n'y a pas un petit nombre de feuilles sans aucune activation - je ne les ai pas comptées en une seule fois.

0

Voici la répartition des feuilles qui ont changé de classe en fonction de leur valeur pour l'échantillon de test.

1

et voici l'examen.

Et voici la répartition en classes - il y en a trois, la troisième est "-1" - pas d'activation.


Pour l'échantillon de formation.


Pour l'échantillon de test


Pour l'échantillon d'examen.

En général, vous pouvez voir que les poids des feuilles ne correspondent plus à la logique de la classe - ci-dessous, le graphique de l'échantillon de test - il n'y a pas de vecteur clair.


En général, cette méthode d'apprentissage permet d'obtenir une certaine approximation, mais elle ne garantit pas la qualité des prédicteurs.

En général, j'admets que les "barres" distinctes sur le graphique ci-dessus sont des feuilles très similaires par lieu et fréquence d'activation.


mytarmailS #:

En fait, j'ai trouvé un moyen de trouver de tels signes qui ne se décalent pas par rapport à la cible ni sur la traine ni sur le test... Mais le problème est que de tels signes sont catastrophiquement peu nombreux et que la méthode de dépistage est follement coûteuse en termes de puissance et qu'en général la méthode est mise en œuvre par entraînement sans professeur, ce n'est que de cette façon que j'ai réussi à éviter l'appareillage.

Il est difficile de parler de ce que l'on ne connaît pas. C'est pourquoi je ne peux que me réjouir de votre réussite. Si j'avais une telle méthode, je l'utiliserais :)

Ma méthode, jusqu'à présent, ne donne pas de tels résultats qualitatifs, mais elle se rapproche assez bien.

 
Maxim Dmitrievsky #:
Quel rôle la quantification a-t-elle joué dans ce contexte ? Sur une échelle de 10 points

Il est difficile d'isoler complètement les processus de pensée.

Il y a des problèmes sur plusieurs fronts - il faut donc chercher ce qui peut être amélioré avec moins d'efforts et plus de résultats. Passer périodiquement des "données" au "processus d'apprentissage" et expérimenter.

L'idée de départ est d'estimer la corrélation, mais je n'ai pas trouvé de méthode toute faite, je modernise la mienne. Je pense que si les feuilles sont similaires, elles faussent l'estimation.

Maxim Dmitrievsky #:
J'ai dépassé Starfield et c'est là que la singularité a commencé. Je suis entré dans le multivers et j'ai rencontré une copie de moi-même. Maintenant, je me promène dans différentes versions d'univers. Et il n'y a pas moyen de s'en sortir. Je dois maintenant trouver de nouvelles significations.

Lorsque le cerveau ou le réseau neuronal atteint les limites du raisonnable, la singularité commence.

C'est une idée intéressante. Ce jeu, j'y jouerai peut-être plus tard Je traite les jeux comme de la créativité, les jeux sont beaucoup plus lents à se démoder graphiquement maintenant.

J'ai fait tourner God of War (2018) sur une vieille carte graphique HD7950 (je l'ai jetée dans un ordinateur séparé, qui est purement pour les calculs) sous dix, j'ai mis les graphiques au minimum et j'ai juste été choqué par l'image. Mais l'intérêt principal est l'élaboration de la relation entre le père et le fils - il est difficile de trouver des analogues dans l'industrie informatique, où ce sujet est soulevé.

Maxim Dmitrievsky #:
Divisez la piste principale en 5 à 10 sous-trains, chacun d'entre eux étant divisé en une piste et un arbre. Sur chacune d'entre elles, vous vous entraînez sur le type cv, puis vous prédisez sur l'ensemble de la piste principale. Vous comparez les étiquettes originales de tous les modèles avec les étiquettes prédites. Ceux qui n'ont pas deviné sont placés sur la liste noire. Ensuite, vous éliminez tous les mauvais exemples lors de l'entraînement du modèle final en calculant l'aspiration moyenne pour chaque échantillon. En option, vous pouvez apprendre au second modèle à séparer les échantillons blancs des échantillons noirs, soit par le biais de la 3e classe.
.

3 lignes de code, des résultats au niveau de... eh bien, je n'ai rien à comparer avec... eh bien, à un certain niveau.

La chèvre ici est cv, ce qui signifie que vous déterminez statistiquement quels échantillons sont mauvais et quels échantillons sont bons, en utilisant plusieurs modèles, chacun entraîné sur différents éléments de l'histoire. C'est ce qu'on appelle le score de propension, c'est-à-dire la propension de chaque échantillon à jouer un rôle dans la formation.

Bien sûr, les étiquettes peuvent être très mauvaises, et cette approche peut éliminer presque tout. C'est la raison pour laquelle j'ai utilisé un échantillonnage aléatoire de transactions au début pour ajouter différentes variantes de balisage. Étant donné que nous ne voulons pas ou ne savons pas comment réfléchir à la manière de baliser un graphique.

Voici à quoi devrait ressembler une AMO avec des éléments kozol qui recherche des CT de son propre chef.

Mais ici, nous travaillons également avec des données par le biais de modèles. Ou voyez-vous une différence ?

 
Aleksey Vyazmikin #:

Mais il s'agit aussi de travailler avec des données par le biais de modèles. Ou voyez-vous une différence ?

C'est en quelque sorte automatique, vous n'avez pas besoin de penser et (surtout) de faire quoi que ce soit :)
 
Maxim Dmitrievsky #:
Comme en automatique, il n'est pas nécessaire de réfléchir et (c'est important) de faire quoi que ce soit :)

Si l'on tient compte du caractère aléatoire excessif de la méthode d'entraînement de CatBoost, il est difficile d'évaluer l'approche elle-même. Là, ils interfèrent avec les chaînes de caractères lors de la construction d'un arbre, et ils alimentent les données avec du bachami, eh bien, s'il n'est pas interdit tout ...

Il est intéressant d'évaluer combien de feuilles changent de classe sur de nouvelles données, par analogie, comme je l'ai écrit plus haut dans la branche. Cela pourrait être une métrique de la qualité de l'approche/modèle.

 
Aleksey Vyazmikin #:

Compte tenu du caractère excessivement aléatoire de CatBoost dans la méthode d'apprentissage elle-même, il est difficile d'évaluer l'approche elle-même. Là, ils interfèrent avec les chaînes de caractères lors de la construction d'un arbre, et alimentent les données avec du bacham, enfin, si ce n'est pas interdit...

Il est intéressant d'évaluer combien de feuilles changent de classe sur de nouvelles données, par analogie, comme je l'ai écrit plus haut dans la branche. Cela pourrait être une métrique de la qualité de l'approche/modèle.

Idéalement, ce caractère aléatoire n'est pas aussi mauvais que le caractère aléatoire de l'ensemble des données.
 
Maxim Dmitrievsky #:
Dans l'idéal, ce caractère aléatoire n'est pas aussi grave que le caractère aléatoire de l'ensemble de données

Il est possible d'obtenir par hasard un beau modèle à partir du hasard - c'est là le problème, mais si c'était impossible, cela n'aurait pas d'importance.

Ce n'est pas un problème d'entraîner un modèle - le problème est de choisir celui qui a le plus de chances de fonctionner correctement sur de nouvelles données.

C'est l'approche intéressante qui permet d'augmenter ce potentiel. Et pour évaluer l'efficacité du modèle, nous avons besoin d'une sorte de métrique, pas seulement une statistique de la précision de la classification, mais quelque chose d'autre, par exemple, l'évaluation des feuilles individuellement. Il est clair que les indicateurs des prédicteurs changent - c'est pourquoi les feuilles sont si bruyantes, "changeant" les classes réelles. C'est pourquoi il s'agit d'une tâche complexe : il faut de bonnes étiquettes et des prédicteurs stables, et leurs combinaisons ne doivent pas créer de feuilles avec des valeurs rares dans le modèle.

En production, il est déjà nécessaire de surveiller les changements dans la distribution des valeurs des prédicteurs utilisés dans le modèle et de freiner le modèle si les changements sont significatifs et étendus. Toutefois, cette approche nécessite l'accumulation de statistiques, ce qui, pour nous, équivaut à l'accumulation de pertes, ce qui n'est pas une bonne chose. Nous avons besoin d'une méthode plus rapide pour exclure le modèle, mais une méthode raisonnable, qui ne soit pas purement basée sur le drawdown.

Il y a beaucoup de problèmes, et sans les résoudre, nous ne voulons pas donner de l'argent au modèle pour la gestion.

 
Aleksey Vyazmikin #:

Oui, le système binaire est plus compliqué. Mais je ne vois pas en quoi le rationnement peut être utile ici.

Le signe binaire avec 0 et 1 est déjà normalisé, et le reste devrait l'être aussi.

 
Forester #:

La caractéristique binaire avec 0et1 est déjà normalisée, et les autres doivent l'être également.

J'espère comprendre votre pensée.

Mais, lors de la quantification uniforme par les mêmes 32 segments, nous pouvons considérer que le segment "1" est 0 et que le segment "32" est 1. Et il en va de même pour tous les autres chiffres. C'est pourquoi je ne comprends pas quelle est la différence fondamentale ici.

 
Aleksey Vyazmikin #:

J'espère avoir compris le fil de votre pensée.

Mais, à quantification uniforme sur les mêmes 32 segments, il est possible de considérer que le segment "1" est 0, et le segment "32" est 1. Et il en va de même pour tous les autres chiffres. C'est pourquoi je ne comprends pas quelle est la différence fondamentale ici.


Si l'on réduit à 32, alors on étend le binaire 0 et 1 à 0 et 32 (et d'autres, par exemple, avec 5 quanta de 0...5 à 0...32). Pour que tout soit proportionnel. Ou comprimez classiquement tout en un seul hypercube (comme pour les réseaux neuronaux, qui nécessitent une normalisation.) L'essence est la même - dans les deux variantes, nous obtenons la même échelle.