L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 1272

 
Maxim Dmitrievsky:

Je suis fatigué d'argumenter sur des choses évidentes, ils ont tout écrit dans l'article. Que chacun le comprenne comme il l'entend.

Avec un peu plus d'abstraction, on comprendra pourquoi jouer contre le marché revient au même.

Et je suggère d'en discuter au moins dans les termes qu'ils utilisent eux-mêmes, et non dans des termes intelligemment inventés. Sinon, l'argument n'est rien.

Nous essayons ici de trouver des analogies avec le trading et le jeu, même en tenant compte de la même dynamique de leur équilibre des probabilités, qui est influencé par les deux côtés du processus. Examinons le problème en détail au lieu d'utiliser la terminologie.

 
Aleksey Vyazmikin:

Essayez de trouver des analogies entre le commerce et les jeux d'argent, même si la dynamique de l'équilibre des probabilités est identique et influencée par les deux côtés du processus. Examinons le problème de manière objective, plutôt que d'utiliser la terminologie comme couverture.

Pour la dernière fois, je n'écrirai plus.

L'agent RL ne se soucie pas de ce contre quoi il joue - le marché ou un autre adversaire dans le SC, il ne le comprend pas car c'est un programme. Le reste est purement votre "savoir-faire"

peu importe que l'adversaire soit statique ou dynamique, dans tous les cas l'agent apprendra la politique optimale.

Tu vas te ressaisir et tu vas trouver une solution. Un jour.

 
Maxim Dmitrievsky:

Pour la dernière fois, je n'en dirai pas plus.

L'agent RL ne se soucie pas de ce contre quoi il joue - le marché ou un autre adversaire dans le SC, il ne le comprend pas car c'est un programme. Le reste est purement votre "savoir-faire"

peu importe que l'adversaire soit statique ou dynamique, dans tous les cas l'agent apprendra la politique optimale.

Tu vas te ressaisir et tu vas trouver une solution. Un jour.

Le nom de la méthode de formation est secondaire. Cela fait longtemps que j'essaie de vous parler des prédicteurs.

Et comment ne pas comprendre que les SN peuvent apprendre à influencer la situation et, selon l'efficacité de cette influence, influencer la probabilité de l'issue de l'événement. Et c'est justement l'avantage d'un tel réseau - la possibilité d'influencer la situation. À chaque image, une décision est prise sur ce qu'il faut faire pour améliorer la performance de l'objectif (ce graphique même), le processus d'activité est à plusieurs étapes, la probabilité finale de victoire ou de défaite n'est pas déterminée au moment où le jeu commence, mais change constamment, y compris en raison des actions des joueurs, et c'est là exactement la plus grande différence avec le trading.

Je ne dis pas qu'il est impossible de créer une méthode RL pour enseigner le trading, je parle de l'efficacité d'un réseau qui influence la situation pour atteindre son objectif, plutôt que de se contenter de deviner passivement ce que fera l'adversaire (où ira le prix).

 
Maxim Dmitrievsky:

Pourquoi montrer de l'émotion, vous feriez mieux d'écrire une réfutation raisonnée de mes arguments.

 
Aleksey Vyazmikin:

C'est ce qu'on appelle une POLITIQUE ou STRATEGIE OPTIMALE, qui prend en compte tous les comportements possibles de l'ennemi.

Lisez un livre, ne vous faites pas honte. Je vous ai déjà écrit 100 fois, ce que vous essayez d'exprimer tient en quelques mots.

Ne soyez pas si drôle.

 
Maxim Dmitrievsky:

C'est ce qu'on appelle une POLITIQUE ou STRATEGIE OPTIMALE, qui prend en compte tous les comportements possibles de l'ennemi.

Lisez un livre, ne vous gênez pas. Je vous ai déjà écrit 100 fois, ce que vous essayez d'exprimer tient en quelques mots.

Ne te moque pas de moi comme ça.

Je ne connais pas ce terme, l'internet est tout aussi réticent à dire quelque chose - donnez-moi un lien, laissez-moi voir si cela s'appelle vraiment ainsi.

Et si ma description correspond à un certain terme, je ne comprends pas vos objections de fond. Il ne s'agit pas des termes, mais de l'influence sur la situation pour atteindre l'objectif à long terme - gagner la partie grâce à une chaîne d'actions, qui peut varier en fonction des actions de l'ennemi.

Il s'agit de l'environnement différent dans lequel la prise de décision a lieu - dans l'un, vous pouvez interagir avec l'environnement et dans l'autre, vous ne pouvez pas - vous vous contentez d'observer à travers la vitre.
 
 

Vous ne savez pas que je ne lis pas de livres étrangers... Je les ai parcourus, oui, ils sont plus avancés que ceux de l'Internet en langue russe.

 
Maxim Dmitrievsky:

si plus de la moitié des mots supplémentaires sont supprimés et qu'il ne reste que la chaîne d'actions (chaînes de Markov) avec des transitions probabilistes, alors il vaut mieux

le reste de l'absurdité peut être laissé de côté.

La division agent/environnement est toujours présente, il n'y a pas d'observation à travers la vitre. Là encore, il s'agit d'un niveau abstrait qui n'est pas accessible à tous. Et là encore, vous vous cognez le front contre le mur parce que vous inventez au lieu d'étudier.

Pour la dernière fois, j'écris et j'arrête cette bacchanale : il n'y a pas d'influence, il y a des probabilités de transitions et des approximations de politiques.

Je ne sais pas comment vous pensez, mais les termes ne font que déformer l'essence de la pensée, s'il ne s'agit pas d'un axiome établi depuis longtemps et qui ne peut être vérifié.

Vous ne pouvez pas fournir une analogie, se référer à la terminologie est improductif.

 
Aleksey Vyazmikin:

Parce que vous ne savez pas que je ne lis pas de livres étrangers... Je les ai parcourus, oui, il y a des choses plus avancées que sur l'internet en langue russe.

Eh bien, il n'y a pas d'autre endroit où lire. Sutton, Barto"training with reinforcement" est traduit en ligne, seulement un vieux livre, mais utile aussi.