L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 3163

 
Ivan Butko #:

Avis sur la tentative d'enseigner le forex en apprenant aux agents à jouer à des jeux.

Est-ce qu'il y a des poissons qui ont peut-être essayé quelque chose comme ça, une expérience.
Il s'agit d'un problème typique de RL ou de deepRL ou d'optimisation
Il s'agit essentiellement de la même chose mais différente)
 
Forester #:

J'ai trouvé un autre problème.
J'ai trouvé une bonne variante avec un entraînement une fois par semaine sur 5000 lignes de M5 (3,5 semaines). Et j'ai décidé de déplacer toutes les données sur 300 lignes - comme si l'entraînement n'avait pas lieu le samedi, mais le mardi. En conséquence, le modèle sur les OOS de rentable est devenu non rentable.
Ces nouvelles 300 lignes (environ 8% du total) ont fait ressortir d'autres jetons et d'autres répartitions, qui sont devenus meilleurs pour des données légèrement modifiées.
Nous avons répété le décalage de 300 pour 50000 lignes. Il semblerait que cela ne représente que 0,8 % des nouvelles lignes. Mais les changements sur l'OOS sont également significatifs, même s'ils ne sont pas aussi importants qu'avec 5000 lignes.

En général, il y a un ajustement non seulement à la taille de la fenêtre, mais aussi au début de la fenêtre. De petits décalages font une grande différence dans le résultat. Il n'y a pas de caractéristiques fortes, tout est à la limite de 50/50 ± 1-2%.

Il semble qu'il s'agisse d'un problème courant pour les arbres : le manque de robustesse.

Il y a un faible espoir qu'une amélioration soit possible en passant à des règles de division plus élaborées (en termes de matstat). Il s'agit de quelque chose comme les mêmes "arbres de différence" pour lesquels j'ai récemment donné un lien vers un article. Ou quelque chose comme les statistiques chi-carré CHAID.

Bien entendu, il ne s'agit pas d'une panacée et il n'est pas certain que ces exemples spécifiques de règles de division fonctionneront pour nous. Mais c'est un exemple qui montre que les règles de partage peuvent et doivent être traitées de manière créative.

L'idée principale à retenir du matstat est d'arrêter la croissance de l'arbre lorsqu'une valeur p critique est atteinte, et non pas pour des raisons de gauche.
 
Forester #:

J'ai trouvé un autre problème.
J'ai trouvé une bonne variante avec un entraînement une fois par semaine sur 5000 lignes de M5 (3,5 semaines). Et j'ai décidé de déplacer toutes les données sur 300 lignes - comme si l'entraînement n'avait pas lieu le samedi, mais le mardi. En conséquence, le modèle sur les OOS de rentable est devenu non rentable.
Ces nouvelles 300 lignes (environ 8% du total) ont fait ressortir d'autres jetons et d'autres répartitions, qui sont devenus meilleurs pour des données légèrement modifiées.
Nous avons répété le décalage de 300 pour 50000 lignes. Il semblerait que cela ne représente que 0,8 % des nouvelles lignes. Mais les changements sur l'OOS sont également significatifs, même s'ils ne sont pas aussi importants qu'avec 5000 lignes.

En général, il y a un ajustement non seulement à la taille de la fenêtre, mais aussi au début de la fenêtre. De petits décalages font une grande différence dans le résultat. Il n'y a pas de caractéristiques fortes, tout est à la limite de 50/50 ± 1-2%.

Quel modèle ?

 
СанСаныч Фоменко #:

Quel modèle ?

en bois
 
Forester #:
en bois
Vous devez trouver un ensemble de noyaux qui a un modèle, et ne vous entraîner que sur celui-ci. Il peut s'agir de n'importe quel morceau du graphique, il peut être trouvé par le biais de l'overshooting. Sinon, le bruit ne permet pas au modèle de se concentrer. La tendance actuelle est aux coresets - de petits sous-échantillons représentatifs. C'est assez simple et cela donne des résultats.
 

Article intéressant sur les arbres et l'apprentissage par renforcement dans them.....

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4760114/

============================

idée principale

2.2 Motivation

En bref, le modèle d'arbre d'apprentissage par renforcement (RLT) proposé est un modèle de forêt aléatoire traditionnel avec un type spécial de sélection des variables de séparation et de suppression des variables de bruit. Ces caractéristiques sont rendues disponibles par la mise en œuvre du mécanisme d'apprentissage par renforcement à chaque nœud interne.Considérons tout d'abord un exemple de damier démontrant l'impact de l'apprentissage par renforcement : Supposons que X ~ uni f [ 0, 1 ] p et que E ( Y | x ) = i { i ( i )). X ) = I { I ( I ( X (1) 0 ,5) = I ( X (2 ) >0 ,5)}. La difficulté d'estimer cette structure à l'aide des forêts aléatoires habituelles réside dans le fait qu'aucune des deux variables fortes ne présente d'effets non significatifs.La récompense immédiate , c'est-à-dire la réduction des erreurs de prédiction, de la partition en ces deux variables est asymptotiquement identique à la récompense obtenue par la partition en l'une ou l'autre des variables de bruit. Par conséquent, lorsque p est relativement grand, il est peu probable que X (1 ) ou X (2 ) soit choisi comme variable de séparation. Toutefois, si nous savons à l'avance que la séparation sur X (1 ) ou X (2 ) produira des avantages futurs importants pour les séparations ultérieures, nous pourrions en toute confiance forcer une séparation sur l' une ou l'autre variable, quelles que soient les récompenses immédiates.

=========================

Eh bien, il faut faire un paquetage sur R en conséquence

https://cran.r-project.org/web/packages/RLT/RLT.pdf

Reinforcement Learning Trees
Reinforcement Learning Trees
  • www.ncbi.nlm.nih.gov
In this paper, we introduce a new type of tree-based method, reinforcement learning trees (RLT), which exhibits significantly improved performance over traditional methods such as random forests (Breiman, 2001) under high-dimensional settings. The innovations are three-fold. First, the new method implements reinforcement learning at each...
 
Forester #:
en bois

Quel est le nom exact ? Ou s'agit-il d'une fabrication artisanale ?

J'utilise différents modèles "en bois" depuis de nombreuses années et je n'ai jamais rien vu de tel.

 
mytarmailS #: Toutefois, si nous savons à l'avance que le fractionnement sur X (1 ) ou X (2 ) produira des avantages futurs significatifs pour les fractionnements ultérieurs, nous pourrions en toute confiance forcer un fractionnement sur n'importe quelle variable, indépendamment des récompenses immédiates.

Je peux l'imposer, mais je ne sais pas par quelle fiche il faut passer X1, X2 ou X157.

 
СанСаныч Фоменко #:

Quel est le nom exact ? Ou s'agit-il d'un produit maison ?

J'utilise différents modèles "en bois" depuis de nombreuses années et je n'ai jamais rien vu de tel.

Fait maison. Les possibilités d'expérimentation ne sont pas limitées....
 
Maxim Dmitrievsky #:
Vous devez trouver un ensemble de noyaux qui possède un modèle et vous entraîner uniquement sur celui-ci. Il peut s'agir de n'importe quel morceau du graphe, il est recherché par énumération. Sinon, le bruit ne permet pas au modèle de se concentrer. La tendance actuelle est aux coresets - de petits sous-échantillons représentatifs. C'est assez simple et cela donne des résultats.

Comment chercher ? Passer en revue tous les morceaux (par exemple, 100 par 5000 pp) et voir dans quelle mesure les 500 000 autres lignes de ce modèle prédisent les 500 000 autres lignes ?