L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2623

 
JeeyCi #:

et la réponse ne vous était pas destinée - vous ne savez toujours pas lire...

Si vous recommandez un article qui contient des bêtises, vous le gobez (ce qui montre votre compétence), vous recommandez aux autres de le gober aussi....

Question : si cette réponse ne m'était pas adressée, n'est-elle plus délirante ? La question n'est pas rhétorique.
 
JeeyCi #:

Vous n'avez même pas besoin d'un deuxième modèle ici, n'est-ce pas ? - Validation croisée et recherche sur grille pour la sélection de modèles ...

mais peut-être que la matrice de confusion répondra à votre 2ème question (le but du 2ème modèle de votre idée)...

.. . ou

... Je doute juste que vous ayez besoin du 2ème modèle ... imho

C'est exactement l'amélioration de la matrice de confusion qui est revendiquée lors de l'utilisation du second modèle, si vous lisez Prado par exemple. Mais il utilise également le suréchantillonnage d'exemples pour le premier modèle afin d'augmenter le nombre de "vrais positifs" ou autre chose. J'ai déjà oublié, malheureusement.
En utilisant un modèle, vous pouvez améliorer une chose au détriment d'une autre, et avec 2 modèles, vous pouvez tout améliorer, soi-disant. Cherchez un Prado de la Matrice de Confusion ou un Prado de Meta Leibeling. Je suis sur mon téléphone.
Et l'évaluation croisée sera "bonne" après de telles manipulations, il suffit de regarder les nouvelles données pour la balance des capitaux propres du CT pour tout voir en même temps).
 
Maxim Dmitrievsky #:
Voici juste l'amélioration de la matrice de confusion est revendiquée avec le deuxième modèle, si vous lisez le Prado, par exemple. Mais il utilise également des exemples de suréchantillonnage pour le premier modèle afin d'augmenter le nombre de vrais positifs ou autre chose. J'ai déjà oublié, malheureusement.
Avec un modèle, vous pouvez améliorer une chose au détriment d'une autre, et avec 2 modèles, vous pouvez tout améliorer, prétendument. Cherchez Confusion Matrix Prado ou Meta Leibeling Prado. Je suis sur mon téléphone.

L'échantillonnage vers le haut et l'échantillonnage vers le bas sont destinés aux ensembles de données déséquilibrés et aux petits ensembles de formation - si c'est ce que vous voulez dire - c'est-à-dire donner des poids plus élevés aux petites classes et vice versa... Oui, probablement pour les augmenter (tru positif)...

***

et à propos de 2 modèles - eh bien, il est probablement possible de filtrer 2 fois - d'abord les signaux pour fixer les pondérations, puis les transactions sur ces signaux en fonction de ces pondérations (lancées par les entrées dans la deuxième pesée)... bien qu'il semble qu'il soit possible d'apprendre sur les transactions avec le contexte - et de garder le gradient pour les séries temporelles précédentes - bonne idée... MAIS l'implémentation lorsqu'on travaille avec le contexte est encore un peu différente en général - la tâche consiste à utiliser le codage "transaction et son contexte" et le 2ème RNN prend en charge le résultat du traitement du 1er pour le décoder en sortie -- mais cela n'a pas grand chose à voir avec le fait de faire travailler 2 réseaux sur 2 tâches différentes (par exemple, le contexte et les transactions), puisqu'en fait il est traité-passé par 2 réseaux "transaction et contexte" (en tant que paire !!!)... - cela ne résout que le problème de vitesse , mais pas (ou dans une moindre mesure) la validité de la sortie... imho...

mais si vous voulez vraiment séparer le traitement du contexte et de la transaction (contexte séparément, transactions séparément) -- jusqu'à présent, une telle construction me fait penser à un sandwich (ou à de l'huile et du beurre, lubrifiant les interrelations et dépendances des phénomènes les uns des autres - en 2 couches)... Je n'ai pas la prétention d'interpréter votre TechSuite, mais j'ai exprimé mes préoccupations et suggéré qu'il peut encore être utile de le préserver dans le processus de modélisation - à savoir les relations ... ! Je vous souhaite une belle (reflet de la réalité ! pas de l'huile de beurre) architecture de réseau !

p.s. ) comme un éternel problème de la "publicité contextuelle" - "l'essentiel n'est pas de s'éloigner de la réalité" (seulement la configuration de leurs balances est parfois tordue - je ne montrerai pas du doigt qui - ou avec de petits échantillons travaillés dans la mauvaise direction)

 
JeeyCi #:

L'échantillonnage ascendant et l'échantillonnage descendant sont destinés aux ensembles de données déséquilibrés et aux petits ensembles de formation - si c'est ce que vous voulez dire - c'est-à-dire donner plus de poids aux petites classes... Oui, probablement pour les augmenter (tru positif)...

***

et à propos de 2 modèles - eh bien, il est probablement possible de filtrer 2 fois - d'abord les signaux pour fixer les pondérations, puis les transactions sur ces signaux en fonction de ces pondérations (lancées par les entrées à la 2ème pesée)... bien qu'il semble qu'il soit possible d'apprendre sur les transactions avec le contexte - et de garder le gradient pour les séries temporelles précédentes - bonne idée... MAIS l'implémentation lorsqu'on travaille avec le contexte est encore un peu différente en général - la tâche consiste à utiliser le codage "transaction et son contexte" et le 2ème RNN prend en charge le résultat du traitement du 1er pour le décoder en sortie -- mais cela n'a pas grand chose à voir avec le fait de faire travailler 2 réseaux sur 2 tâches différentes (par exemple, le contexte et les transactions), puisqu'en fait il est traité-passé par 2 réseaux "transaction et contexte" (en tant que paire !!!)... - cela ne résout que le problème de vitesse , mais pas (ou dans une moindre mesure) la validité de la sortie... imho...

mais si vous voulez vraiment séparer le traitement du contexte et des transactions (le contexte séparément, les transactions séparément) - jusqu'à présent, une telle construction me fait penser à un sandwich (ou à de l'huile et du beurre, lubrifiant les interrelations et les dépendances des phénomènes les uns des autres - en 2 couches)... Je n'ai pas la prétention d'interpréter votre TechSuite, mais j'ai exprimé mes préoccupations et suggéré qu'il peut encore être utile de le préserver dans le processus de modélisation - à savoir les relations ... ! Je vous souhaite une belle (reflet de la réalité ! pas de l'huile de beurre) architecture de réseau !

p.s. ) comme un éternel problème de la "publicité contextuelle" - "l'essentiel n'est pas de s'éloigner de la réalité" (seule la configuration de leurs échelles est parfois tordue - je ne pointerai pas du doigt qui - ou avec de petits échantillons travaillés dans la mauvaise direction)

Le concept de contexte n'est peut-être pas très utile dans le cas des séries chronologiques. Il n'y a pas de division claire ici, les deux modèles sont impliqués dans la prédiction. L'un est la direction, l'autre le timing. Je dirais qu'ils sont équivalents. La question est de savoir comment optimiser la recherche des meilleures situations de trading sur la base de l'analyse des erreurs du modèle, et si c'est possible. Je peux recycler l'un ou l'autre séquentiellement. Après chaque paire de réentraînement, le résultat doit s'améliorer sur les nouvelles données. Cela signifie qu'il doit être capable d'extraire un modèle d'un échantillon d'entraînement et de s'améliorer progressivement sur de nouvelles données qu'il n'a pas vues. Une tâche non triviale.

J'ai fait passer les exemples mal prédits par le premier modèle dans la classe "ne pas échanger" du second modèle. J'ai jeté l'échantillon de cerceau pour le premier modèle. L'erreur du premier est tombée à presque zéro en conséquence. Le second en a un petit aussi. Mais cela ne signifie pas qu'il sera bon sur les nouvelles données.

C'est une sorte de problème combinatoire : trouver le bon achat et la bonne vente au bon moment.

Il est peut-être impossible de trouver la solution ici
 
Maxim Dmitrievsky #:
Le concept de régularité implique la répétabilité, c'est important !

Si un cluster peut prédire quelque chose avec une probabilité de 90 % et qu'il se répète au moins 200 fois, nous pouvons supposer qu'il s'agit d'un modèle.
Ou ce n'est pas un cluster, c'est un journal.

Lorsque vous avez affaire à un modèle complexe (complexe du mot "complexe"), vous perdez la capacité de fixer la répétabilité des modèles internes, en d'autres termes, vous perdez la capacité de distinguer les modèles de l'ajustement...

En comprenant cela, vous pouvez immédiatement comprendre que les réseaux neuronaux vont à la poubelle, mais les modèles en bois peuvent être décomposés en règles, et dans les règles vous pouvez déjà compter les statistiques
 
mytarmailS #:
Le concept de régularité implique la répétabilité, c'est important !

Si un cluster peut prédire quelque chose avec une probabilité de 90 % et qu'il se répète au moins 200 fois, nous pouvons supposer qu'il s'agit d'un modèle.
Ou ce n'est pas un cluster, c'est un journal.

Lorsque vous avez affaire à un modèle complexe (complexe du mot "complexe"), vous perdez la capacité de fixer la répétabilité des modèles internes, en d'autres termes, vous perdez la capacité de distinguer les modèles de l'ajustement...

En comprenant cela, vous pouvez immédiatement vous rendre compte que les réseaux neuronaux vont à la poubelle, mais que les modèles en bois peuvent être décomposés en règles, et que les règles peuvent déjà compter les statistiques.
Mais il est possible d'entasser beaucoup de fonctionnalités dans des ns s'il n'y a pas de dépendances simples, mais sans possibilité d'analyse. Sinon, nous abandonnerons l'apprentissage automatique et reviendrons à des méthodes simples d'écriture des TS :) Ensuite, nous pouvons simplement écrire des algorithmes simples, observer comment ils fonctionnent (ou ne fonctionnent pas) dans le testeur, ajuster, observer à nouveau, etc.
 

les statistiques sont linéaires, quelle que soit la façon dont on les regarde... les réseaux neuronaux sont des pondérations muettes (ou intelligentes - cela dépend du développeur)... l'utilisation de 2 ou plusieurs couches de ns denses pour la pondération donne des dépendances non linéaires (conventionnellement parlant, car la dépendance est OU corrélation muette est encore une très grande question)... mais tant qu'une corrélation, même stupide, fonctionne, vous pouvez essayer de gagner de l'argent avec... - le moment où il cesse de fonctionner doit être détecté à temps (vous devez remarquer une sorte d'anomalie - aléatoire ou systématique - c'est une autre question - et ensuite, comme d'habitude, décider de votre question de risque/profitabilité)

la commodité de ns réside dans sa flexibilité - vous pouvez obtenir/fournir une "nomenclature" tout à fait différente de celle que vous souhaitez. Il est flexible - vous pouvez obtenir/fournir une "nomenclature" très différente de l'entrée - c'est-à-dire que vous pouvez faire les transformations dont nous avons besoin dans le réseau lui-même... et le faire en mode multithread (dépend de la bibliothèque)... pas seulement des statistiques...

Que vous ayez besoin ou non de statistiques pour trouver une entrée est une autre question...

la connaissance et l'expérience aident plus souvent que le traitement statistique - car le premier se concentre sur les spécificités, le second sur la réduction à un dénominateur commun ...

Chaque chose a sa place - les statistiques aussi...

***

le fait est que pour un robot - il n'y a pas d'autre moyen d'expliquer (et il ne vous expliquera pas d'une autre manière), sauf via des probabilités dérivées de nombres... - C'est ainsi que l'ECONOMIE a fonctionné pendant des siècles - avec les nombres 0 et 1... nous devons donc numériser les entrées pour obtenir des probabilités de sortie et fixer les conditions des intervalles de confiance (auxquels nous faisons confiance, pas nécessairement les statistiques)... et nous pouvons faire confiance à n'importe quoi (c'est subjectif) - soit la logique binaire, soit le résultat pondéré de cette logique binaire (c'est-à-dire les probabilités en % de l'ensemble des solutions potentielles)... -- ... c'est juste une question de goût et d'habitudes, pas un sujet de discussion sur la recherche du Graal...

(et entrer dans une forêt ou entrer dans un réseau neuronal est déjà un détail)

personne n'a interdit l'utilisation conjointe d'arbres/forêts et de réseaux neuronaux dans un même projet... - la question est de savoir où appliquer quoi et quand (la vitesse et la mémoire sont importantes), et non de savoir lequel est le meilleur... - mieux vaut ne pas perdre de temps - équivalent à "le timing en dehors d'une transaction est du temps perdu, tout comme une transaction en dehors du timing est une transaction inconnue".

 
Une si longue diatribe et une si faible conclusion :) Même si l'on fait abstraction du temps, un modèle (régularisé, non ajusté) ne peut pas enseigner un bon ratio de transactions rentables et non rentables, ni l'exclusion des transactions non rentables. Vous ne pouvez pas vous débarrasser de l'erreur de classification, qui est perçue comme une détérioration artificielle des résultats de trading TS, même sur un échantillon de suivi.
 

Aucun modèle ne peut obtenir plus que des probabilités (ce qui est un avantage et un inconvénient de toute numérisation), même si ces probabilités ne sont pas pondérées... Je ne m'empoisonne pas avec des sandwichs et ne conseille personne - personne n'a annulé Bayes (même si on ne le met pas dans le code, et surtout - si on le met dans le code)...

p.s. Et vous devez être un fan de McDonalds... - Hypothèse, je ne vais pas la tester...

L'algorithmique est plus chère que vos conclusions

 
JeeyCi #:

Aucun modèle ne peut obtenir plus que des probabilités (ce qui est un avantage et un inconvénient de toute numérisation), même si ces probabilités ne sont pas pondérées... Je ne m'empoisonne pas avec des sandwichs et ne conseille personne - personne n'a annulé Bayes (même si on ne le met pas dans le code, et surtout - si on le met dans le code)...

p.s. Et vous devez être un fan de McDonalds... - Hypothèse, je ne vais pas la tester...

L'algorithme est plus cher que vos conclusions.

Les sandwichs sont largement utilisés, tout filet profond. Il existe différentes astuces pour différentes tâches. Mais si vous pensez de façon étroite, n'importe quelle photocopieuse est une photocopieuse et n'importe quel hamburger est un McDonald's.
Vous pouvez devenir l'otage de vos propres stéréotypes sans jamais rien tenter. Et les stéréotypes ne viennent pas de la superposition 😀.
Dans ma réponse, implicitement, j'ai utilisé un deuxième modèle de clarification qui distinguait des connaissances généralisées des connaissances spécifiques, plus appropriées à la situation