L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 1188

 
Dmitriy Skub:
Yuri, vous êtes juste hors sujet - le mot clé ici est fourchette. Cela n'a rien à voir avec le MO)

Déconnecté, c'est sûr. Mais c'est un sujet intéressant. Résumé.

 
Yuriy Asaulenko:

L'automatisation n'y est pas si facile, à mon avis. D'après ce que j'ai compris, c'est difficile avec des solutions typiques - il y a trop de solutions possibles.

La seule chose qui me vient à l'esprit est une BD sur les équipes et les joueurs, dont il existe des centaines, les deux)).

Selon les bookmakers, une équipe peut être appelée différemment : Olympique, Marseille + en latin, au moins 4 variantes. Différents préfixes FK - club de football, PFC - club de football professionnel.

L'automatisation des fourches est un casse-tête.

 

c'est un peu trop simple.

En fait, le point de RL n'est même pas les paquets, mais l'approche, c'est-à-dire le dépassement. Utilisé à la place de la génétique, mais à travers un approximateur de type NS

la principale difficulté est d'échantillonner à partir des bonnes distributions

 
Maxim Dmitrievsky:

c'est trop simple.

En fait, le point de RL n'est même pas les paquets, mais l'approche, c'est-à-dire le dépassement. Utilisé à la place de la génétique, mais à travers un approximateur de type NS

la principale difficulté est d'échantillonner à partir des bonnes distributions

Eh bien, l'exemple simple est plutôt normal, car l'exemple n'a pas besoin d'être compliqué, et le fait qu'il existe déjà des paquets prêts à l'emploi est une bonne chose..... Je ne comprends même pas cet exemple simple (( Je ne comprends pas pourquoi les matrices doivent être remplies de probabilités et pourquoi ces probabilités sont nécessaires et comment elles sont calculées.

 
mytarmailS:

Eh bien, l'exemple simple est plutôt normal, car l'exemple ne doit pas être compliqué, et le fait qu'il existe déjà des paquets prêts à l'emploi est une bonne chose..... Je ne comprends même pas ce simple exemple (( Je ne comprends pas pourquoi les matrices doivent être remplies de probabilités, pourquoi ces probabilités sont nécessaires et comment elles sont calculées.

probabilités des transitions d'état, chaînes de Markov

comme la probabilité d'acheter dans certaines conditions, ou de vendre

la matrice est remplie avec tous les états possibles, puis l'état actuel est sélectionné à partir de celle-ci et le signal est regardé... c'est une table primitive :)

 
Maxim Dmitrievsky:

probabilités des transitions d'état, chaînes de Markov

Eh bien, je l'ai obtenu....

Je ne comprends pas leur rôle dans le code

 
mytarmailS:

Je m'en occupe....

Je ne comprends pas leur rôle dans le code.

Que voulez-vous dire par rôles ? C'est une table de transitions d'état et de probabilités.

 
Maxim Dmitrievsky:

Comment ça, des rôles ? C'est une table de transitions d'états et de probabilités.

Je ne sais pas d'où viennent les probabilités de transition, nous avons 4 directions - gauche, droite, haut, bas. L'algorithme doit trouver le chemin "quelque part" par la bonne combinaison de directions. Avant même que l'algorithme ne commence à chercher la bonne combinaison de probabilités, il a créé une matrice avec des probabilités de transition, mais où a-t-il obtenu ces probabilités ?

Je suis probablement très bête, mais quand même, si je peux me permettre de demander, pourquoi ne pas m'expliquer ?

 
mytarmailS:

Je ne comprends pas d'où viennent les probabilités de transition, nous avons 4 directions - gauche, droite, haut, bas. L'algorithme doit trouver le chemin "quelque part" par une combinaison correcte de directions. Avant même que l'algorithme ne commence à chercher la bonne combinaison de probabilités, il a créé une matrice avec des probabilités de transition, mais où a-t-il obtenu ces probabilités ?

Je suis probablement juste un crétin, mais quand même, si ça ne vous dérange pas de m'expliquer.

Lisez les bases, pas sur R, juste sur internet.

Au départ, les probabilités sont choisies de manière aléatoire, puis tout au long des itérations, elles sont mises à jour par différentes méthodes, principalement la méthode TD. À la fin, elles convergent vers un optimum, c'est-à-dire qu'elles résolvent le problème original, par exemple pour sortir de l'appartement où il y a plusieurs pièces de la manière la plus rapide, sans entrer dans d'autres pièces. À cette fin, une matrice d'états (matrice de valeurs) et une matrice de transitions (matrice de politiques) sont spécifiées, c'est-à-dire que pour chaque état (être dans une certaine pièce), il peut y avoir plusieurs transitions vers d'autres pièces et leurs probabilités. L'essence de la méthode est de maximiser la récompense, c'est-à-dire qu'un agent est pénalisé pour les mauvaises transitions et récompensé pour les bonnes.

 
Maxim Dmitrievsky:

Je n'ai rien vu dans le fil de discussion sur les critères d'information(bayésiens ou d'Akaike). Peut-être sont-ils utilisés par défaut (dans les paquets MoD appliqués) ?