L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 1354

 
Yuriy Asaulenko:

Conservez les archives. Voir la pièce jointe.

Learn.csv - entrées. Le tout premier chiffre de chaque ligne est une liaison historique, il doit être supprimé.

Cellule.scv - cible.

Voici le graphique que nous devrions obtenir après une formation sur ces données.

Le filtre est approximativement égal à EMA(16) et la prévision est de 5 min.

Je ferai le test plus tard, quand j'en aurai besoin.

Je ne sais pas si ce graphique est un graphique de formation ou un graphique de test.

Voici le CatBoost sur le test - les 100 dernières valeurs.

Histogramme des déviations.

J'ai pris 4000 pour la formation, 2000 pour la validation, et 100 lignes pour le test. J'ai entraîné 1000 arbres de profondeur 6, formule RMSE (remplacée parPoisson).

Ci-joint l'échantillon et les paramètres, pour la lecture vous devez télécharger CB et le mettre dans le répertoire Setup.

Sur l'échantillon d'entraînement, la même distribution ne ressemble pas à la vôtre.

Ajouté : Application incorrecte du modèle - les tracés de probabilité se sont avérés...

Dossiers :
Setup.zip  587 kb
 
Aleksey Vyazmikin:

Ce n'est pas très clair, vous avez obtenu ce graphique sur quel échantillon - est-ce sur la formation ou sur le test ?

Voici le CatBoost sur le test - les 100 dernières valeurs.

Histogramme des déviations.

J'ai pris 4000 pour la formation, 2000 pour la validation, et 100 lignes pour le test. J'ai formé 1000 arbres avec une profondeur de 6, formule RMSE.

Ci-joint l'échantillon et les paramètres, pour la lecture vous devez télécharger CB et le mettre dans le répertoire Setup.

Sur l'échantillon d'entraînement, la distribution ne ressemble pas non plus à la vôtre.

Mon graphique ne s'entraîne que sur l'ensemble de l'échantillon. Je n'ai pas fait de test sur celui-ci. Sera à peu près identique à la formation.
Où sont passées les valeurs négatives de l'axe des x ? Et la gamme de valeurs de x n'est pas la même que celle de y ? Comment cela ?
J'ai un graphique qui compare les valeurs prévues et les valeurs réelles (cible). Pas de distribution.
 
Yuriy Asaulenko:
Mon graphique ne s'entraîne que sur l'ensemble de l'échantillon. Je n'ai pas fait de test sur celui-ci. Sera à peu près identique à la formation.
Où sont les valeurs négatives sur l'axe des x dans le graphique ? Et la gamme de valeurs de x n'est pas la même que celle de y ? Comment cela ?
J'ai un graphique qui compare les prédictions et les valeurs réelles.

Oui, je n'ai jamais fait de régression auparavant, il y a beaucoup de fonctions obscures de fitness, par opposition à la classification, qui donnent des résultats différents, et j'ai pris la mauvaise valeur.

Voici l'échantillon test.

Et voici l'échantillon d'entraînement - 4000 lignes.

Histogramme des déviations pour l'échantillon de test

Voici le graphique global pour les 3 échantillons.

La métrique qui a été utilisée pour entraîner l'échantillon de test.

Il dit que nous aurions pu arrêter l'entraînement à 250 itérations et le modèle est réentraîné.

 
Aleksey Vyazmikin:

Oui, je n'ai jamais fait de régression auparavant, il y a beaucoup de fonctions d'aptitude obscures, contrairement à la classification, qui donnent des résultats différents, et j'ai pris la mauvaise valeur.

Voici l'échantillon test.

Et voici l'échantillon d'entraînement - 4000 lignes.

Histogramme des déviations pour l'échantillon de test

Voici un graphique général pour 3 échantillons

Ça a l'air d'aller. Dans le test, aussi. bien que recyclé).
 
Yuriy Asaulenko:
Semble correct.

Eh bien, oui, vous pouvez améliorer si vous voulez - je n'ai simplement pas d'expérience avec les modèles de régression.

Les principaux prédicteurs sont donc les outils de travail :)

J'ai joint la version finale avec les paramètres - elle entraîne 10 modèles avec différents semis.

Dossiers :
Setup.zip  588 kb
 
Aleksey Vyazmikin:

Eh bien, oui, vous pouvez améliorer si vous le souhaitez - je n'ai simplement pas d'expérience avec les modèles de régression.

Les principaux prédicteurs sont donc les outils de travail :)
Il y a une série de prix échelonnés comme entrée. - 20 valeurs proches et c'est tout. Il ne s'agit pas de prédicteurs, mais de la formulation du problème - il est soluble. Et votre forêt trouvera elle-même les prédicteurs).
 
Yuriy Asaulenko:
Il y a une série de prix échelonnés à l'entrée. - Il y a 20 valeurs proches et c'est tout. Il ne s'agit pas de prédicteurs, mais de la formulation du problème - il peut être résolu. Et votre forêt trouvera toute seule des prédicteurs).

Oui, il s'agit de l'énoncé du problème, je suis d'accord. C'est juste que je ne vois pas le prix comme une pâte à partir de laquelle des tartes sont moulées, et des prédicteurs sont nécessaires pour façonner ces tartes.

 
Maxim Dmitrievsky:

L'une des techniques classiques permettant d'améliorer un modèle. Ou plutôt, trouver l'optimum. L'application originale de Monte Carlo.

https://en.wikipedia.org/wiki/Importance_sampling

N'avez-vous pas appliqué cette méthode dans votre article ?

 
Maxim Dmitrievsky:

Pour le hors-politique (gradient de politique) RL

https://medium.com/@jonathan_hui/rl-importance-sampling-ebfb28b4a8c6

Pouvez-vous expliquer en russe, avec vos propres mots, quelle est cette idée ? En anglais, pour ainsi dire).

 
Yuriy Asaulenko:

Le filtre LPF que nous avons prédit avec succès. Même maintenant, nous deux, pas seulement les NS, mais la forêt. Essayons maintenant de prédire le prix, ce qui est un exercice tout à fait inutile). Nous préférons prédire la composante RF de la variation attendue de l'espérance de prix, qui (espérance) est actuellement inconnue. Et ici dans le contexte de toutes sortes de mouvements, d'oscillations HF et de tout le reste.

Nous avons donc obtenu ce qui suit : le temps de prédiction est de 5 m sur 1m TF.

Comme d'habitude : x est la prévision, y est la valeur réelle. Eh bien, incliné à 45 degrés, ça ressemble à un rectangle, merci de ne pas être un cercle. Si on se déplace un peu à droite-gauche de zéro sur x, on peut même jouer avec une probabilité d'un peu plus de 50% (voir les zones).

Bien sûr, il serait agréable de construire toutes sortes de lignes de régression et de distributions, mais il est nécessaire de faire des tranches, au moins quelques-unes - c'est pour plus tard.

PS Eh bien, et une prévision utilisant un algorithme légèrement modifié. Même 5 min à l'échelle de temps 1m.

C'est déjà beaucoup mieux). En partant de la prévision >2 et < -2 par х des trades avec des pertes sont difficilement prévisibles si on ferme simplement en 5 min.

La deuxième photo est vraiment bien ! Quelles modifications de l'algorithme ont rendu cela possible ?