L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 3190

 
Aleksey Nikolayev #:

Reliez-le d'une manière ou d'une autre au bénéfice, au moins approximativement, et comparez le bénéfice réel à un échantillon de bénéfices aléatoires. Pour vérifier qu'il n'y a pas d'erreur, il faut que le bénéfice moyen de l'échantillon soit égal à zéro. Vérifiez l'importance de la positivité du bénéfice réel par rapport à l'échantillon - la règle des trois sigma.

Je ne suis pas prêt à entrer dans les détails de votre tâche, car mes propres tâches sont trop chargées.

Qu'est-ce que le profit a à voir avec cela, lorsque nous parlons de prétraitement des données en vue d'une classification ultérieure ?

Aleksey Nikolayev #:

Vos quanta sont-ils conçus pour l'extraction de bénéfices ? Existe-t-il un schéma à cet effet ? Simplifiez à l'extrême en calculant, même approximativement mais rapidement, un échantillon et vérifiez si le résultat réel se situe dans la queue de cet échantillon.

Votre volonté d'exiger des gens qu'ils plongent dans votre état d'esprit, accompagnée de votre refus total de plonger dans des idées simples et largement connues comme Monte Carlo, est lassante.

Je crois que j'en ai assez.

Chacun a le droit de gérer son temps.

Mais, apparemment, vous n'avez pas compris la question sur laquelle vous avez donné des conseils.

Merci d'avoir essayé de m'aider.

 
Aleksey Vyazmikin #:

Je comprends.

J'ai une autre suggestion à vous faire : et si, pour rendre le processus de construction de la forêt plus gérable, vous preniez comme racine de chaque arbre un sous-échantillon concret du segment quantique sélectionné ?

La profondeur devrait être de 2 à 3 divisions, de sorte que les exemples de classes classifiables par feuille ne soient pas inférieurs à 1 %.

Je pense que le modèle sera plus stable.

Par exemple, si vous sélectionnez 10 quanta/splits, puis entraînez 10 arbres sur des exemples provenant de ces splits ? Cela semble simple à faire.
A propos de la stabilité sur OOS - l'expérience le montrera. Ma stabilité n'est pas respectée lorsque l'on modifie la taille de la fenêtre de données (2 mois et 4) et lorsqu'on la décale même de 2 % (formation le mardi au lieu du samedi). Les arbres se révèlent différents.

Aleksey Vyazmikin #:

J'ai mené une expérience avec l'échantillon sur lequel j'ai publié les gifs, il y a déjà 47% d'unités dans l'échantillon, les données ont été résumées dans le tableau.

...
il s'est avéré que la qualité (utilité) de ces segments quantiques est 10 fois moins bonne que celle des segments originaux.

Lorsque j'ai communiqué avec fxsaber, j'ai supposé qu'une telle détérioration (en temps) était due au mélange effectué par son algorithme. Il n'y a pas de différence aussi importante dans ses données. Apparemment parce qu'il n'a pas toutes les barres à la suite dans le balisage (ou les rangées à la suite), mais avec de grands écarts. Si vos barres sont proches, elles ont un passé et un avenir très similaires, c'est-à-dire que 20 exemples de la classe 1 peuvent être alignés. En les randomisant, vous leur donnez une moyenne de 0101010...., et vous devez remplacer toute la série de 20 "1" par 20 "0". Puisqu'ils sont proches et peuvent être comptés comme un seul exemple. Si ce n'est pas le cas pour vous, ça l'est pour moi (j'évalue toutes les barres à la suite, d'où cette idée).

En général, je pense qu'avec une différence aussi forte de 10 fois, il est possible de ne pas faire 10000 tests. La différence est trop nette dans les 10 premiers tests (tous pires) pour supposer que 10000 autres tests permettront d'égaliser le résultat avec l'original. Si c'était 3 fois pire, 3 fois mieux, 4 fois à peu près égales, alors oui - continuez à accumuler des statistiques.

Si les données sont sérialisées, le problème est qu'une série de 20 1 quelque part dans l'histoire trouvera une série de 20 0 avec un passé similaire. Il s'agit ici d'une randomisation du marché. Il ne s'agit pas de transformer 111111111 en 010101010.

UPD Je pense donc que Monte Carlo sous la forme de 01010101 pour les données de marché ne fonctionnera pas pour les données de marché (si elles sont en série). C'est comme diviser un rectangle et un carré en carrés égaux et essayer ensuite de déterminer à quelle figure primaire appartenait le carré)).

 
Aleksey Vyazmikin #:

J'ai parlé de la séquence stricte à titre d'exemple pour plus de clarté. Et j'ai écrit que la solution de ce problème peut améliorer la stabilité du modèle. Mais la solution peut être différente.

Même sans résoudre le problème susmentionné, la sélection de la table quantique correcte améliore l'apprentissage, ce que j'ai testé sur des dizaines d'échantillons.

J'ai ensuite montré comment vous pouvez rapidement effectuer un prétraitement pour l'entraînement, en nettoyant l'échantillon des données incohérentes. Vous pouvez voir sur les images que vous pouvez même obtenir un modèle rentable sur de nouvelles données avec cette méthode.

En fin de compte, l'approche fonctionne, et son développement est mon objectif.

Par conséquent, dire qu'elle ne fonctionne pas revient à nier la réalité.

Je ne crois pas que le prix soit un pur SB, dont la nature ne peut être au moins partiellement démontée. Si c'est le cas, alors tout le fil de discussion est une erreur.

Je pense que nous devrions organiser une conférence des machinistes. Évidemment avec un buffet et quelque part dans les Émirats arabes unis. Et là, dans une atmosphère formelle puis informelle pour discuter de tout. Sinon, il n'est pas pratique de le faire par le biais du forum.

Le programme serait le suivant : un jour conférence, un jour tout le monde boit, le lendemain tout le monde se bat, se tire la poitrine, puis à nouveau conférence et ainsi de suite en boucle. A la volée :)

Le sponsor et l'orateur principal serait Saber, puis Alexei Nikolaev, puis tous les autres :)
 
Aleksey Vyazmikin #:

Quel est le rapport entre le profit et le prétraitement des données en vue d'une classification ultérieure ?

Quel était l'intérêt de vos nombreux gifs montrant des bilans qui ne cessent de s'alourdir ? Peut-être n'avez-vous tout simplement pas compris la réponse à votre question ?

 
Maxim Dmitrievsky #:
Je pense que nous devrions organiser une conférence sur les machines. Elle devrait comprendre un buffet et se tenir quelque part dans les Émirats arabes unis. Et là, dans une atmosphère formelle puis informelle, nous pourrions discuter de tout. Sinon, il n'est pas pratique de le faire par le biais du forum.

Le programme serait le suivant : une journée de conférence, un jour tout le monde boit, le lendemain tout le monde se bat, se tire la poitrine, puis conférence à nouveau et ainsi de suite en boucle. A la volée :)

Le sponsor et l'orateur principal serait Saber, puis Alexei Nikolaev, puis tous les autres :)

L'idée de l'argent de Saber pour se familiariser avec ses stratégies me semble géniale et bien pensée. Je ne vois même pas ce qui pourrait aller de travers 🤔

 
Aleksey Nikolayev #:

L'idée de l'argent de Saber pour se familiariser avec ses stratégies me semble géniale et bien pensée. Je ne vois même pas ce qui pourrait aller de travers 🤔

😀😀 oublié d'ajouter - sponsor principal comme le plus réussi. Mais tout le monde doit participer.
Je pense qu'il est possible de trouver des gens pour sponsoriser sa conférence.

Le but de la conférence n'est probablement pas de discuter de stratégies spécifiques, mais d'approches générales, de philosophie, d'outils, etc.
 
Forester #:

Par exemple, si vous sélectionnez 10 quanta/segments, formez 10 arbres à l'aide d'exemples tirés de ces segments. Cela semble simple à faire.
A propos de la stabilité sur OOS - l'expérience le montrera. Ma stabilité n'est pas respectée lorsque l'on modifie la taille de la fenêtre de données (2 mois et 4) et lorsqu'on la décale même de 2 % (formation le mardi au lieu du samedi). Les arbres se révèlent différents.

Oui, c'est comme ça - l'approche peut être rendue plus compliquée, bien sûr, mais seulement si vous le souhaitez.

Pour l'instant, si je me souviens bien, le prédicteur dans l'arbre n'atteint que la moitié de l'intervalle, sans chercher le meilleur endroit pour se diviser ?

Quant au succès de l'idée, je suis tout à fait d'accord, mais l'eau ne coule pas non plus sous une pierre couchée.

Forestier :

J'ai pensé à cette détérioration (par moments) lorsque j'ai parlé à fxsaber du mélange avec son algorithme. Il n'a pas une différence aussi forte sur ses données. Apparemment parce qu'il n'a pas toutes les barres dans une rangée dans le balisage (ou des rangées debout dans une rangée), mais avec de grands écarts. Si vos barres sont proches, elles ont un passé et un avenir très similaires, c'est-à-dire que 20 exemples de la classe 1 peuvent être alignés. En les randomisant, vous leur donnez une moyenne de 0101010...., et vous devez remplacer toute la série de 20 "1" par 20 "0". Puisqu'ils sont proches et peuvent être comptés comme un seul exemple. Si ce n'est pas le cas pour vous, c'est le cas pour moi (j'évalue toutes les barres à la suite, c'est pourquoi cette idée m'est venue).


En général, je pense qu'avec une différence aussi forte de 10 fois, il est possible de ne pas faire 10000 tests. La différence est trop évidente dans les 10 premiers tests (tous pires) pour supposer que 10000 autres tests augmenteront le résultat jusqu'à l'égalité avec l'original. Si c'était 3 fois pire, 3 fois mieux, 4 fois à peu près égales, alors oui - continuez à accumuler des statistiques.

Si les données sont sérialisées, le problème est qu'une série de 20 1 quelque part dans l'histoire trouvera une série de 20 0 avec un passé similaire. Il s'agit ici d'une randomisation du marché. Il ne s'agit pas de transformer 111111111 en 010101010.

UPD Je pense donc que Monte Carlo sous la forme de 01010101 pour les données de marché ne fonctionnera pas pour les données de marché (si elles sont en série). C'est comme diviser un rectangle et un carré en carrés égaux et essayer ensuite de déterminer à quelle forme primaire appartient le carré)).

Malheureusement, j'ai fait une erreur lors du traitement des données (j'ai refait le script pour ces tests rapidement et une nuance n'a pas été prise en compte), le tableau est comme ceci comme résultat

La conclusion est que les données peuvent se situer aléatoirement dans les fourchettes des tableaux quantiques et passer le test de stabilité disponible. Les paramètres/critères par défaut ont été utilisés - je vais maintenant essayer de les resserrer et voir le résultat.

Cependant, j'ai déjà écrit qu'environ 30 % seulement des seuils quantiques montrent leur efficacité sur les deux autres échantillons, de sorte que le résultat était généralement prévisible. C'est simplement son étrangeté qui m'a poussé à tout revérifier. Le défi consiste à savoir comment améliorer le résultat de la sélection.

Cependant, le but de la quantification est de sélectionner un groupe avec un décalage de probabilité. Il est possible qu'une feuille stable puisse être trouvée à l'intérieur du groupe par le biais de la division, même si le groupe lui-même se déplace vers une autre cible sur la base de nouvelles données.

Dans l'échantillon sur lequel j'ai fait l'expérience, il y a en moyenne un signal par jour, je pense, et les barres sont donc très éloignées les unes des autres.

Je pense qu'il serait plus intéressant d'examiner les résultats de l'expérience que j'ai suggérée ci-dessus - elle devrait montrer à quelle fréquence les réponses des cibles générées au hasard tombent dans les segments quantiques échantillonnés. Il s'agira justement des "coffres" à espacement fixe, comme Aleksey Nikolayev l'a suggéré dans son abstraction.

Vous pouvez envoyer votre échantillon, je sélectionnerai des segments quantiques, et sur ces données vous pouvez expérimenter la création d'une forêt modifiée, ou je peux vous donner mon échantillon.

 
Maxim Dmitrievsky #:
Je pense que nous devrions organiser une conférence sur les machines. Elle devrait comprendre un buffet et se tenir quelque part dans les Émirats arabes unis. Et là, dans une atmosphère formelle puis informelle, nous pourrions discuter de tout. Sinon, il n'est pas pratique de le faire par le biais du forum.

Le programme serait le suivant : une journée de conférence, un jour tout le monde boit, le lendemain tout le monde se bat, se tire la poitrine, puis conférence à nouveau et ainsi de suite en boucle. A la volée :)

Le sponsor et l'orateur principal serait Saber, puis Alexei Nikolaev, puis tous les autres :)

Fourchette - ça a l'air pas mal, mais le besoin de violence, je ne l'ai pas remarqué moi-même. Je suis attristé de ne pas être compris, mais cela ne provoque pas d'agressivité aussi forte en soi.

 
Aleksey Vyazmikin #:

Furshet - ça a l'air pas mal, mais le besoin de violence, je ne l'ai pas remarqué. Cela me rend triste de ne pas être compris, mais cela ne provoque pas une telle agressivité en soi.

La violence n'est que consensuelle et lorsque les discussions sont terminées, toutes les personnes civilisées...
 
Maxim Dmitrievsky #:
Je pense que nous devrions organiser une conférence sur les machines. Elle devrait comprendre un buffet et se tenir quelque part dans les Émirats arabes unis. Dans une atmosphère formelle puis informelle, nous pourrions discuter de tout et de rien. Sinon, il n'est pas pratique de le faire par le biais du forum.
Le programme serait le suivant : une journée de conférence, une journée où tout le monde boit, le lendemain tout le monde se bat, se tire la poitrine, puis de nouveau une conférence et ainsi de suite. A la volée :)
Le sponsor et l'orateur principal serait Saber, puis Alexei Nikolaev, puis tous les autres :)

Je voulais lire sur l'apprentissage automatique, et ici les humoristes perfectionnent leurs compétences.

J'aimerais voir des blagues humoristiques et d'autres choses sans rapport avec le sujet ailleurs.


Venons-en au sujet.

Vous écrivez que vous pensez que le marché est aléatoire, sur quoi repose cette affirmation ?

Avez-vous des éléments solides pour prouver le caractère aléatoire de l'évolution des prix du marché ?