L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 2254

 
Maxim Dmitrievsky:

Je ne pensais pas à grand-chose, juste à une supposition basée sur le fait de fouiller.

hmm vous donnera des chips que le chien n'a jamais vu avant. Mais similaires à celles que vous avez vues. Dans une transformation inverse, ça pourrait avoir un certain effet, je suppose. Ajoutez du bruit.

Il s'agit d'une hypothèse.

Je suis un peu confus ici...

De toute façon, l'ACP est linéaire, elle ne déforme rien, si vous avez toutes les composantes, vous pouvez reconstituer ce que vous avez décomposé sans pertes.

 
mytarmailS:

Je suis déjà confus ici...

de toute façon, l'ACP est linéaire, elle ne déforme rien, si vous avez toutes les composantes, vous pouvez reconstituer ce que vous avez décomposé sans perte.

Il y a donc un piège ailleurs. Il fonctionne bien avec les images avec PCA, et moins bien avec les citations, bien que plus rapide.

Eh bien, c'est compréhensible... les images et les chiffres sont faciles à prévoir, mais le marché n'est pas stationnaire. Si vous utilisez l'ACP, les composantes cessent d'être pertinentes lorsque la volatilité change ou autre chose.

comme les filtres numériques;))

 
Maxim Dmitrievsky:

Votre ACP ne résout pas le problème, les composantes cessent d'être pertinentes lorsque la volatilité change.

Je ne sais pas ce que vous voulez dire, mais...

si vous additionnez toutes les composantes de l'ACP sur les nouvelles données, vous obtenez le même prix tick pour tick, donc... Je ne sais pas ce que vous entendez par pertinence.

 
mytarmailS:

Je ne sais pas ce que vous voulez dire, mais...

Si vous additionnez toutes les composantes PCA sur les nouvelles données, vous obtenez le même prix tick par tick, donc... Je ne sais pas ce que vous entendez par pertinence.

parlons du chien plus tard, j'ai sommeil)

les codeurs n'ont pas travaillé empiriquement

 
Maxim Dmitrievsky:

Parlons du chien plus tard, j'ai sommeil).

les codeurs n'a pas fonctionné empiriquement.

ok

 
mytarmailS:

Tu seras le premier.

En regardant un cours sur la méthode bayésienne 2019, on y trouve des idées intéressantes, mais les formules empêchent la compréhension. Voici une pensée, qui a essayé les approches modernes avec la logique bayésienne. Le conférencier affirme généralement que toute MO sans méthodes bayésiennes d'estimation des probabilités dans la MO n'est qu'un ajustement.


En parlant d'ajustement, je suis de plus en plus enclin à conclure que les modèles CatBoost dégradent leurs résultats sur des échantillons hors formation en raison de l'échantillon non représentatif et de la façon dont le modèle est construit. Le fait est que dans les modèles classiques, les arbres sont symétriques et qu'il n'y a pas d'élagage, ce qui peut conduire à une situation où il y a très peu de données dans une feuille, mais la feuille n'obtient pas un petit poids, et si c'est une partition défectueuse, alors sur des échantillons en dehors de la formation, s'il y a beaucoup d'exemples dans la feuille défectueuse, cela conduira à une distorsion significative des résultats. Et il pourrait y avoir des milliers de ces feuilles. Si l'échantillon était représentatif, il n'y aurait aucun problème car le poids dans la feuille serait adéquat et conforme à la nature de la distribution des données (entropie). Vous devriez essayer de shunter les feuilles avec un petit nombre d'exemples en mettant à zéro leurs poids.

L'idée est que le modèle ne réagisse qu'aux données dont il a connaissance, et non à un jugement du type "si ceci est juste, cela est faux", comme c'est le cas actuellement.
 
Aleksey Vyazmikin:

En regardant un cours sur la méthode bayésienne 2019, il y a quelques idées intéressantes, mais les formules entravent la compréhension. Voici une pensée, qui a essayé les approches modernes avec la logique bayésienne. Le conférencier affirme généralement que toute MO sans méthodes bayésiennes d'estimation des probabilités dans la MO n'est qu'un ajustement.


En parlant d'ajustement, je suis de plus en plus enclin à conclure que les modèles CatBoost dégradent leurs résultats sur des échantillons hors formation en raison de l'échantillon non représentatif et de la façon dont le modèle est construit. Le fait est que dans les modèles classiques, les arbres sont symétriques et qu'il n'y a pas d'élagage, ce qui peut conduire à une situation où il y a très peu de données dans une feuille, mais la feuille n'obtient pas un petit poids, et si c'est une partition défectueuse, alors sur des échantillons en dehors de la formation, s'il y a beaucoup d'exemples dans la feuille défectueuse, cela conduira à une distorsion significative des résultats. Et il pourrait y avoir des milliers de ces feuilles. Si l'échantillon était représentatif, il n'y aurait aucun problème car le poids dans la feuille serait adéquat et conforme à la nature de la distribution des données (entropie). Nous devrions essayer de contourner les feuilles avec un petit nombre d'exemples en mettant à zéro leurs poids.

L'idée est que le modèle ne réagisse qu'aux données dont il a une idée, et non à un jugement du type "si ceci est juste, cela est faux", comme c'est le cas actuellement.

La représentativité est une condition importante.

Le katbust, lorsqu'il est divisé, produit-il des feuilles avec un petit nombre d'exemples par feuille ? La profondeur recommandée est de 6, soit 2^6=64, c'est-à-dire qu'une feuille représentera en moyenne 1/64ème des rangs de l'échantillon entier. Si vous avez au moins 10000 lignes de formation, il y aura environ 156 exemples par feuille en moyenne. Je pense que cela est tout à fait représentatif à mon avis.

Bien que si vous rendez les arbres symétriques, il pourrait y avoir une certaine distorsion. A quelle taille avez-vous vu les feuilles et combien de rangs ont été soumis pour la formation ?

 
elibrarius:

La représentativité est une condition préalable importante.

Est-ce que katbust, lorsqu'il est divisé, produit des feuilles avec un petit nombre d'exemples dans la feuille ? La profondeur recommandée est de 6, soit 2^6=64, c'est-à-dire qu'une feuille aura une moyenne de 1/64ème des lignes de l'échantillon entier. Si vous avez au moins 10000 lignes de formation, il y aura environ 156 exemples par feuille en moyenne. Je pense que cela est tout à fait représentatif à mon avis.

Bien que si vous rendez les arbres symétriques, il pourrait y avoir une certaine distorsion. A quelle taille avez-vous vu les feuilles et combien de rangs ont été soumis pour la formation ?

Pour l'instant, je n'ai pas de chiffres exacts - ce n'est qu'une supposition. Je dois retourner à mes anciens codes, je pense que j'ai eu l'occasion d'obtenir de telles statistiques là-bas - j'ai oublié. Vous avez raison de dire que la moyenne ne semble pas effrayante, mais cela ne veut pas dire qu'il n'y aura pas plusieurs exemples dans une feuille.

Nous voyons que les marges de probabilité extrême sur l'échantillon d'entraînement et sur l'échantillon de test diffèrent généralement de manière significative - je suppose que la raison en est les feuilles avec un petit nombre d'exemples, de telles feuilles sont juste rarement trouvées sur l'échantillon de test.

 

Il y a une visualisation de l'estimation des statistiques d'activation des feuilles de l'arbre - un des anciens modèles.

Le y est le numéro de la feuille et le x est la ligne d'échantillonnage. La couleur indique le coefficient du poids de la feuille modulo.

On peut voir que même ici il y a de rares activations de feuilles, ce qui signifie que l'hypothèse est valide - il s'agit d'un examen d'échantillon.


 
Aleksey Vyazmikin:

Il y a une visualisation de l'estimation des statistiques d'activation des feuilles de l'arbre - un des anciens modèles.

Le y est le numéro de la feuille et le x est la ligne d'échantillonnage. La couleur indique le coefficient du poids de la feuille modulo.

Vous pouvez voir que même ici il y a de rares activations de feuilles, donc l'hypothèse est raisonnable - c'est un échantillonnage.


Une activation rare sur Exam signifie plutôt que le marché a changé et que ce qui se passait sur le trayn a cessé de se produire. Et ce n'est pas nécessairement le cas qu'il y avait peu d'activations sur la feuille de stage là non plus.