L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2382

 
Evgeni Gavrilovi:

de manière aléatoire ? c'est-à-dire comme indiqué ici ? test sur un échantillon aléatoire de 50 %.

oui, vous pouvez le lire dans la documentation de sklearn

j'ai testé la même chose (comme dans la vidéo) sur la version saisonnière... ça ne semble pas améliorer grand chose

 
elibrarius:

Vous parlez d'une sorte de validation croisée standard/ancienne.
Tout d'abord, vous n'avez pas besoin de mélanger les lignes car il y a 0-90 entraînement 90-100 test, puis 10-100 entraînement, 0-10 test, puis 20-100-10 entraînement 10-20 test, etc.
Deuxièmement, suivant le conseil de Prado, vous devez laisser un certain espace (élagage) entre le train et le test, pour éviter que des exemples adjacents du train et du test n'entrent dans votre travail. L'exemple de la formation adjacent à 10-100 exemples de l'essai sera leur indice/chercheur. Pour en savoir plus, cliquez ici https://dou.ua/lenta/articles/ml-vs-financial-math/
Ou bien, voici une photo :

Vous pouvez faire 20% ou autant que vous le souhaitez.

Et enfin, au lieu d'une validation croisée, vous pouvez appliquer une validation en avant. Ce qui fait que la parcelle d'essai ne fait pas le tour du cercle, mais seulement le devant.

Tout ce que vous dites ici est déjà utilisé par moi dans mes expériences.

Le but de ces astuces, avec la division de l'échantillon en morceaux, est de trouver le morceau où le motif inhérent à l'ensemble de l'échantillon est moins bruyant. Moins il y a de bruit et plus les règles qui contribuent à la classification sont prononcées, meilleur sera le modèle. Oui, cette méthode a droit de cité, mais il est bon de l'utiliser lorsqu'on sait que les prédicteurs associés à la cible sont plus nombreux, plus aléatoires et lorsque la taille de l'échantillon est suffisamment grande pour permettre autant de combinaisons de prédicteurs entre eux que possible, et plus il y a de prédicteurs, plus l'échantillon doit être grand. La taille de mon échantillon dépasse rarement 20k lignes (100%) et les prédicteurs sont plus de 2k et évidemment toutes les combinaisons ne rentreront pas dans l'échantillon lui-même et ne seront pas prises en compte par le modèle, donc il y aura toujours un Recall de pas plus de +-50%.

Ma méthode de binarisation est donc basée sur une approche différente - chaque quantum de grille de prédicteurs est évalué pour sa stabilité dans le temps et sa prédisposition à la cible, puis les quanta de prédicteurs sélectionnés sont combinés en un prédicteur binaire, ce qui permet de se débarrasser des quanta de prédicteurs bruyants/splits, la plupart des prédicteurs ne passant tout simplement pas la sélection. Sur la base des résultats de la sélection, un tel échantillonnage de binarisation est déjà construit, ce qui a pour résultat un comportement similaire des prédicteurs sur tous les sites d'entraînement, ce qui devrait aider à la stabilité du modèle en cas d'occurrence d'événements similaires, qui étaient également présents dans l'historique.

 
Aleksey Vyazmikin:

Tout ce que vous dites ici, je l'utilise déjà dans mes expériences.

Le but de ces astuces, avec la division de l'échantillon en morceaux, est de trouver le morceau où le motif inhérent à l'ensemble de l'échantillon est moins bruyant.

Non, il s'agit de trouver les moyennes du modèle (erreur, etc.) sur tous les morceaux de test. Ou la somme des soldes.

La validation croisée vous convient si vous pouvez utiliser les premiers rangs comme test.
La marche en avant ne l'est probablement plus. 20000 lignes, c'est difficile à diviser en plusieurs morceaux pour tester à l'avance.

Votre régime est atypique, donc pas beaucoup de conseils)
 
elibrarius:

Non - trouver les moyennes du modèle (erreur, etc.) sur toutes les pièces d'essai. Ou la somme des soldes.

Donc, qu'est-ce qui ferait que cela se produise et vous devez identifier la parcelle où les relations prévalent, qui sera robuste plus tard, les prédicteurs significatifs et la cible.

elibrarius:

La validation croisée vous conviendra s'il est acceptable d'utiliser les premières lignées comme test.

En avançant, peut-être plus. 20000 lignes sont difficiles à diviser en plusieurs morceaux pour les tester à l'avance.

Vous avez un régime atypique, donc pas beaucoup de conseils)

L'utilisation des premières cordes est inacceptable pour la raison qu'elle a été utilisée pour évaluer les quanta- à 60% de l'échantillon. Ici, toute la procédure d'évaluation est à faire par morceaux individuels - mais à quoi cela sert-il - globalement il n'y en a pas.

Méthode Lasso a montré de meilleurs résultats, CatBoost - je vais certainement comparer sur d'autres échantillons plus tard, mais apparemment il permet de généraliser grandement déchargé prédicteurs binaires, où les unités 10-20%. Mais la question est de savoir comment le faire fonctionner pour l'extraction de revenus.

 
Aleksey Vyazmikin:

Aucune amélioration n'a été apportée en réduisant la régularisation L2. Donc Lasso s'avère meilleur.

C'est mieux... les deux sont mauvais, et il y a quelques pourcents de différence.

 
Maxim Dmitrievsky:

comment c'est mieux... ce qui est là est mauvais, et il y a une différence de quelques pourcents

4 % de précision, c'est beaucoup en termes monétaires - cela augmentera votre rentabilité et vos attentes !

 
Qui a l'eur 5 min pour 10 ans s'il vous plaît envoyez-nous un txt ou csv.
 
J'ai dessiné des prévisions de réseaux neuronaux dans le navigateur. Obtention d'indicateurs + tentative d'indiquer les points d'entrée.
Le lien est dans mon profil.
 
mytarmailS:
Qui a l'eur 5min dans 10 ans s'il vous plaît envoyez-moi un txt ou csv.

Vous ne pouvez pas télécharger le terminal ?

 
Maxim Dmitrievsky:

Vous ne pouvez pas télécharger le terminal ?

Les tests sur la M5 sont cités depuis 10 ans ... Ils devraient leur cacher le terminal avant qu'ils ne mettent en péril le budget familial.