L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 1255

 
Maxim Dmitrievsky:

Si le marché est plus ou moins stable, une tendance ou quelque chose comme ça, alors cette fois-ci ça marchera, du moins pour moi... les modèles sont les mêmes, pourquoi pas ?

j'ai simplifié la courbe d'apprentissage en appuyant sur un bouton et je n'ai pas besoin de prédicteurs ;) c'est une drôle de machine, je pourrais la vendre comme une exposition sur la folie humaine.

Eh bien, je ne me suis pas embêté avec les prédicteurs pour commencer. Je n'ai même pas essayé avec un seul bouton, cependant. Avec un seul bouton, je n'ai rien d'autre que la même optimisation, uniquement de profil. La façon dont on peut le contourner avec un seul bouton est un mystère).

 
Yuriy Asaulenko:

Eh bien, je ne me suis pas embêté avec les prédicteurs pour commencer. Mais je n'ai même pas essayé avec un seul bouton. Je ne peux rien faire avec un bouton, sauf la même optimisation, uniquement en profil. La façon de contourner ce problème avec un seul bouton est un mystère).

J'essaie juste de trouver la meilleure erreur dans mon échantillon de test, c'est tout.

optimiseur optimiseur aha
 
Maxim Dmitrievsky:

Monte Carlo et recherche de la meilleure erreur dans l'échantillon de test, c'est tout.

Je ne peux pas me passer de Monte Carlo). Mais la meilleure erreur n'est pas si simple. L'optimalité est une chose composée de nombreux facteurs et ambiguë, et ce qu'est l'optimum est loin d'être évident.

 
Yuriy Asaulenko:

Vous ne pouvez pas vous passer de Monte Carlo). Et ce n'est pas si simple avec la meilleure erreur. L'optimalité est une chose multifactorielle et ambiguë, et ce qui constitue l'optimum est loin d'être évident.

Je vois. Je prends n'importe quelle équation périodique où l'optimum est évident et le système fera de l'argent dessus au moins pour toujours).

Il n'y a pas d'optimum sur le marché, seulement des locaux

 
 

Lire la théorie sur les arbres.
Je pense à l'élagage (la taille).

Il est possible d'utiliser la règle simple suivante : construire un arbre, couper ou remplacer par un sous-arbre les branches qui n'entraîneront pas une augmentation de l'erreur.

Peut-être est-il plus facile et plus rapide de construire un arbre sans élaguer une feuille, à moins de trouver une division qui réduise l'erreur d'au moins une certaine valeur, par exemple 0,1-0,5% ?
Le résultat devrait être le même, mais plus rapide.

Ou est-il possible qu'après quelques branches avec une amélioration du modèle de 0,0001 %, on en trouve une qui l'améliore de 1 à 5 % d'un coup ?

 
Maxim Dmitrievsky:

Plus rapide comment ? C'est déjà très rapide.

Et tu vas construire ton propre boosting, n'est-ce pas ?

Les méthodes bayésiennes sont lentes et ne conviennent pas aux grands échantillons, mais elles fonctionnent différemment et ne sont pas réentraînées d'emblée. Chaque modèle a ses propres spécificités. J'aime bien le système bayésien, qui permet d'optimiser le CT sans recyclage.

Bonne perspective - ils peuvent être mis à niveau plutôt que recyclés

Si vous avez un million de chaînes avec 200-1000 prédicteurs, c'est probablement un temps long...
Pour élaguer, il faut construire l'arbre jusqu'au bout, puis le tailler.
Et avec l'amélioration de l'arrêt du branchement par erreur min, je pense qu'il y aurait des économies importantes avec un résultat similaire. Dans xgboost, le paramètre est appelé gamma, mais il ne semble pas y avoir d'élagage. Apparemment, les développeurs ont aussi décidé que ces choses sont interchangeables.
 
elibrarius:
Eh bien, si un million de lignes minute avec 200-1000 prédicteurs, c'est probablement un long moment...
Et avec l'élagage - il faut construire l'arbre jusqu'au bout, puis l'élaguer.
Et avec l'amélioration de l'arrêt du branchement par erreur min, je pense qu'il y aura des économies importantes avec un résultat similaire. Dans xgboost, le paramètre s'appelle gamma, mais il ne semble pas y avoir d'élagage. Apparemment, les développeurs ont aussi décidé que ces choses sont interchangeables.

ils savent comment faire, il y a des équipes de spécialistes qui travaillent sur les boosts, les tests

le catbust semble fonctionner correctement, c'est rapide, les arbres sont peu profonds pour commencer.

des millions de données en forex... je doute que ce soit nécessaire

 
À propos, j'ai trouvé une situation où la première division améliore à peine l'erreur et la seconde l'améliore de 100 %.

4 secteurs avec 10 points chacun. 1 division soit le long de l'axe des x, soit le long de l'axe des y. Presque n'améliorera pas l'erreur, elle restera autour de 50%. Par exemple, première division verticale au milieu. Une deuxième division horizontale en son milieu entraîne une très forte amélioration de l'erreur (de 50 % à zéro).
Mais c'est une situation créée artificiellement, cela n'arrive pas dans la vie.
 
La taille des échantillons n'est jamais importante. Si N est trop petit pour obtenir une estimation suffisamment précise, vous devez obtenir plus de données (ou faire plus d'hypothèses). Mais une fois que N est "suffisamment grand", vous pouvez commencer à subdiviser les données pour en savoir plus (par exemple, dans un sondage d'opinion, une fois que vous avez une bonne estimation pour l'ensemble du pays, vous pouvez faire des estimations parmi les hommes et les femmes, les habitants du nord et du sud, les différents groupes d'âge, etc.) N n'est jamais suffisant, car si c'était le cas, vous seriez déjà passé au problème suivant pour lequel vous avez besoin de plus de données.