Statistiques de dépendance entre guillemets (théorie de l'information, corrélation et autres méthodes de sélection de caractéristiques) - page 13
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Non, le problème n'a pas changé. C'est juste un problème atomique, indivisible. Et pour avoir une vue d'ensemble, il faut également analyser la variable Lag.
Je peux afficher des extraits de mes résultats d'il y a quelques mois (mais je les ai sous forme de texte). Il ne s'agit pas d'information mutuelle, comme c'est le cas pour le topicstarter, mais de fréquences matricielles. Il y a aussi les résultats du calcul de la statistique du "test du chi-deux pour l'indépendance des variables" (à l'époque, je ne savais pas ce qu'était l'information mutuelle, mais j'étais déjà préoccupé par une mesure commune de la dépendance des variables et j'ai expérimenté différents critères). Néanmoins, ces chiffres ne sont pas du tout ennuyeux non plus.
Je les posterai demain (enfin, je veux dire aujourd'hui, mais plus tard), car je n'ai pas accès à l'ordinateur sur lequel je calculais.
P.S. Cela n'a rien à voir avec la "régression universelle", etc : (18) est une approche grossièrement mécaniste du prix, alors qu'ici elle est fondamentalement statistique.
Non, le problème n'a pas changé. C'est juste un problème atomique, indivisible. Et pour avoir une vue d'ensemble, il faut également analyser la variable Lag.
Je peux afficher des extraits de mes résultats d'il y a quelques mois (mais je les ai sous forme de texte). Il ne s'agit pas d'information mutuelle, comme c'est le cas pour le topicstarter, mais de fréquences matricielles. Il y a aussi les résultats du calcul de la statistique du "test du chi-deux pour l'indépendance des variables" (à l'époque, je ne savais pas ce qu'était l'information mutuelle, mais j'étais déjà préoccupé par une mesure commune de la dépendance des variables et j'ai expérimenté différents critères). Néanmoins, ces chiffres ne sont pas du tout ennuyeux non plus.
Je les posterai demain (je veux dire aujourd'hui, mais plus tard), car je n'ai pas accès à l'ordinateur sur lequel les calculs ont été effectués pour le moment.
P.S. Cela n'a rien à voir avec la "régression universelle", etc : (18) est une approche grossièrement mécaniste du prix, alors qu'ici elle est fondamentalement statistique.
(18) en mode ATS donne, même si mauvais, mais le résultat, sans utiliser les arrêts et TP, et apporter votre approche statistique fine à ce niveau, puis nous allons comparer.
Or du 25.11.2009 au 02.09.2011, H4, 0.1 lot, drawdown max 10.32%, MO 27,6
Pas de discussion, c'est logique. Commençons par le point 1.
1. "Définir exactement ce que nous prenons" : D'abord - la cellule de travail, puis l'indivisible.
Fixez le nombre entier Lag. Il s'agira de la "distance entre les barres", c'est-à-dire le module de la différence de leurs indices à l'horizon temporel spécifié dans MT4.
Objectif : déterminer s'il existe une relation statistique entre les deux variables aléatoires suivantes : 1) le retour de la barre "maître" d'indice sh, et 2) le retour de la barre "esclave" d'indice sh+Lag.
C'est ce que nous prenons : toutes les paires de barres dont la distance entre elles est égale à Lag. C'est extrêmement précis.
Où et de quoi faut-il douter ? Traitons d'abord le premier point. Si cela fonctionne, passons au deuxième point.
C'est presque un ACF, mais la formule est différente. L'ACF fait partie intégrante des statistiques. Il est idéal pour rechercher des dépendances de toutes sortes. Toute nouvelle chose doit commencer par indiquer les similitudes et les différences avec des choses similaires communément connues et bien établies. Si cela n'est pas fait, l'idée n'est pas négociable dans les maisons les plus miteuses de Londres. C'est ce dont j'ai parlé tout au long de ce fil. Vous devriez toujours commencer par un tour d'horizon de la littérature. Pas de circonlocution - pas de bazar dans la citation de votre post.
Suivant. Je vois sh, je comprends que ACF est compté à partir de sh=1, pas à partir d'un endroit arbitraire. Mais il y a un FAC. En quoi votre suggestion ressemble ou diffère-t-elle de celle-ci. Mais n'obscurcissez pas le sujet (les dépendances dans la BP) avec des mots de TI.
Ce n'est pas nécessairement un FAC. Et vous avez tout faux sur le fait qu'ACF recherche des dépendances de toutes sortes. Jetez un coup d'œil à la corrélation. Les limites de l'analyse de corrélation se trouvent vers la fin de l'article, où se trouve l'image. C'est pourquoi j'ai abandonné ACF. Les corrélations linéaires entre les barres détectées par la corrélation de Pearson sont trop faibles et éphémères.
Vous devriez toujours commencer par un tour d'horizon de la littérature. Pas de circonlocution - pas de bazar dans la citation de votre post.
De cette façon, nous ne pourrons pas bouger pendant un long moment. Mais en général, je suis d'accord avec vous : une certaine forme d'argumentation est toujours nécessaire. Je vais y réfléchir - si vous n'êtes pas satisfait de la dernière phrase du paragraphe précédent, concernant les dépendances linéaires.
Mais n'obscurcissez pas le sujet (les dépendances dans la BP) avec des mots de TI.
Vous avez donc décidé de m'interdire d'utiliser TI pour trouver des dépendances ?
2 yosuf : Je ne vais pas me mesurer à vous. Continuez à améliorer votre outil, mais n'entrez pas dans ce fil, s'il vous plaît. C'est une réflexion après coup ici.
J'ai trouvé un article sur l'entropie de l'information (Wiki). Citation 1 de là :
C'est l'entropie, l'entropie conventionnelle. C'est la définition que vous interprétez ?
Oui, je suis prêt à accepter que les lettres de l'alphabet soient statistiquement indépendantes afin qu'il n'y ait pas de redondance ou de dépendance. C'est en gros ce que fait l'archiveur, qui crée un alphabet clairement différent de celui utilisé pour créer le texte.
Mais ce n'est pas ce que nous comptons ! Sur ce que nous comptons, ensuite.
Le discours du topicstarter (et le mien aussi) ne portait pas sur l'entropie de l'information, mais, bon sang, sur l' information mutuelle (encore Wiki) ! !!
L'information mutuelle est une fonction statistique de deux variables aléatoires décrivant la quantité d'information contenue dans une variable aléatoire par rapport à l'autre.
L'information mutuelle est définie par l'entropie et l'entropie conditionnelle de deux variables aléatoires [la formule de I(X,Y) est la suivante
Pour rappel, il découle des mêmes pédivoques que la formule de calcul de l'information mutuelle peut être la suivante :
Information mutuelle (entre X et Y) = Entropie (X) - Entropie conditionnelle (entre X et Y)
À condition de ne pas écrire des formules effrayantes tirées de sources américaines, mais de se baser sur des définitions.
Ici, X et Y sont deux systèmes différents, et il existe une dépendance entre eux, sur X et Y.
Si nous voulons l'information mutuelle totale, alors c'est comme pour le topicstarter :
Information mutuelle totale (entre X et Y) = Entropie (X) + Entropie (Y) - Entropie du système combiné (X et Y)
Pourquoi est-il écrit "entropie du système combiné" et non "entropie conditionnelle", car en fait l'entropie totale du système de deux systèmes peut être soit indépendante soit conditionnelle. Il est clair que si X et Y ne sont pas liés, et indépendants, alors on doit les compter comme des probabilités conjointes (théorème de l'addition des entropies), et s'il y a un lien, alors comme conditionnel.
Maintenant pour nos intérêts. Comment tout ce contournement peut être appliqué au marché. Supposons que le modèle soit le suivant. Il existe un système X - marché (alphabet), il possède un nombre fini et défini d'états (symboles) qui apparaissent avec une certaine fréquence (probabilités des symboles). Il existe un deuxième système Y - un registre des devis. Les citations (alphabet) ont également un ensemble limité de symboles avec certaines fréquences. Que peut-on déduire de tout cela ?
1. Vous devez connaître l'alphabet du marché. Il s'y passe toujours quelque chose, des achats et des ventes, quelqu'un fait faillite, quelqu'un invente une nouvelle monnaie, une hystérie collective se produit, etc. C'est-à-dire que l'alphabet est très vaste et peut difficilement être décrit aussi facilement.
2. Même s'il est possible de décrire l'alphabet du marché, la question de la stationnarité des processus qui s'y déroulent se pose. Il est nécessaire de comprendre que TI est absolument orienté sur la constance des propriétés.
L'alphabet du second système, les citations. Il est différent de l'alphabet du marché. C'est probablement déjà le cas. Et vous devez savoir lequel. Si nous divisons simplement la gamme de changements des cotations sur la période en quantiles et en faisons un alphabet, qu'obtenons-nous ? Plus précisément, obtenons-nous la cartographie complète ou partielle de l'information de l'alphabet du marché dans l'alphabet des cotations ? Quelle partie de l'information est perdue ? Ou peut-être que rien n'est perdu et que l'alphabet du marché est juste redondant. Etc.
C'est loin d'être un FAC, ou même pas du tout. Et vous avez tort de dire qu'ACF recherche des dépendances de toutes sortes. Regardez la corrélation. On retrouve les limites de l'analyse de corrélation vers la fin de l'article, où se trouve l'image. C'est pourquoi j'ai abandonné ACF. Les corrélations linéaires entre les barres détectées par la corrélation de Pearson ne m'intéressent pas, car elles sont trop faibles et éphémères.
L'élaboration de la corrélation est son point fort, mais en même temps, vous avez attribué à son point faible les limites connues de la corrélation. Mais ce sont précisément ces limites qui nous permettent de raisonner utilement sur une quantité appelée "ACF", sur la probabilité de confiance dans cette quantité, sur les conditions de calcul de cette confiance, et plus généralement d'évaluer la licéité de tout raisonnement sur ces quantités, selon que les limites de corrélation sont respectées ou non. Même en ayant tout maîtrisé, armé d'un outil, dans la pratique on rencontre de sérieuses difficultés et on tombe constamment dans la fornication.
Essayez d'écrire la même chose sur le sujet de l'actualité.
ACF montre les tendances de manière très concrète et, avec ACF, recherche les cycles. Et à quoi ressemble la "dépendance à l'égard de l'information", quel genre de bête est-elle et comment se manifeste-t-elle entre guillemets ou par paliers ? Il existe de nombreuses publications sur la psychologie du marché, où l'on peut trouver une explication de la formation des tendances et des cycles, mais quelle est la base psychologique de la "dépendance informationnelle", dans quelles publications est-elle écrite ? et affecte-t-elle les cotations ? Sur quelle base peut-on se fier aux images qui en résultent ? Où sont les probabilités de crédibilité du résultat ? Où sont les conditions d'applicabilité de tout cela ? Juste des questions. Ce sujet me rappelle de plus en plus le sujet avec hfenks (si je me souviens bien), qui s'est aussi penché sans le savoir sur le sujet des dépendances.
Du point de vue de la thèse, exclusivement préliminaire, il y a des signes de nouveauté scientifique, mais sans comparaison avec la corrélation, ce ne sont que des déchets vides (désolé).
Juste pour signaler qu'il découle des mêmes pédivoques que la formule de calcul de l'information mutuelle pourrait être la suivante : [...]
Pourquoi est-il écrit "entropie du système fusionné" et non "entropie conditionnelle", car en fait l'entropie totale du système de deux systèmes peut être à la fois indépendante et conditionnelle. Il est clair que si X et Y sont non corrélés et indépendants, on doit les compter comme des probabilités conjointes (théorème de l'addition des entropies), et s'il y a une connexion, alors comme conditionnelles.
Je me doutais que vous le feriez remarquer. Heureusement, dans tous les cas, les formules écrites à l'aide de probabilités (plutôt que d'entropies) restent les mêmes - indépendamment de ce qui est là en fonction de quoi ou non. Ce raisonnement n'apporte donc rien de nouveau.
Il existe un système X - marché (alphabet), il possède un nombre fini et défini d'états (symboles) qui apparaissent avec une certaine fréquence (probabilités des symboles). Il existe un deuxième système Y - un registre des devis. Les citations (alphabet) ont également un ensemble limité de symboles avec certaines fréquences. Que peut-on déduire de tout cela ?
Tout à fait exact. La moitié du terver/matstat parle des théorèmes de limite centrale et de leurs implications, qui concernent spécifiquement la distribution normale. Il s'agit d'une distribution parfaitement "élaborée". Néanmoins, il existe certaines variables aléatoires qui n'y obéissent pas, même dans la limite. Pourquoi devrais-je m'occuper spécifiquement de la corrélation de Pearson juste parce qu'elle est parfaitement élaborée ?
ACF montre spécifiquement les tendances et, avec CHAKF, recherche les cycles.
Ni les cycles ni les tendances ne présentent encore d'intérêt au stade de l'exploration des données. Ce sont les dépendances qui ne sont pas détectées par ACF en principe qui sont intéressantes.
Et qu'est-ce que la "dépendance à l'égard de l'information", quelle est cette bête et comment se manifeste-t-elle entre guillemets ? ou par paliers ? Il existe de nombreuses publications sur la psychologie du marché, où l'on peut trouver une explication de la formation des tendances et des cycles, mais quelle est la base psychologique de la "dépendance informationnelle", dans quelles publications est-elle écrite ? et affecte-t-elle les cotations ? Sur quelle base peut-on se fier aux images qui en résultent ? Où sont les probabilités de crédibilité du résultat ? Où sont les conditions d'applicabilité de tout cela ? Ce fil de discussion me rappelle de plus en plus le fil de discussion avec hfenks (si je me souviens bien), qui a également déblatéré sans le savoir sur les dépendances.
Vous posez trop de questions. Je vous pose la question suivante : connaissez-vous au moins un chercheur qui, avant de commencer quelque chose de très nouveau et de très étrange, commencerait par démontrer de manière complète et absolue l'applicabilité de cette nouveauté - puis procéderait à l'obtention de résultats dont l'idée lui viendrait en une fraction de seconde ? En général, c'est l'inverse qui se produit : on applique d'abord la nouveauté sans se soucier de l'étayage et de la rigueur, puis, si quelque chose d'intéressant apparaît, l'étayage commence. Vous comprenez ce que je veux dire ?
Et en parlant de hrenfx: il a aussi fait une analyse basée sur la corrélation de Pearson.
Du point de vue de la thèse, exclusivement préliminaire, il y a des signes de nouveauté scientifique, mais sans comparaison avec la corrélation, tout cela n'est que du vent (désolé).
Ce n'est pas grave. Eh bien, nous ne discutons pas ici d'une dissertation, mais simplement d'une idée curieuse, dont quelque chose pourrait sortir à l'avenir. Je suis bien conscient que ce n'est pas le cas. Alors pourquoi perdre du temps sur une justification tendue ?
Tout à fait exact. La moitié du terver/matstat parle des théorèmes de limite centrale et de leurs implications, qui concernent spécifiquement la distribution normale. Il s'agit d'une distribution parfaitement "élaborée". Néanmoins, il existe certaines variables aléatoires qui n'y obéissent pas, même dans la limite. Pourquoi devrais-je m'occuper spécifiquement de la corrélation de Pearson juste parce qu'elle est parfaitement élaborée ?
Ni les cycles ni les tendances au stade de l'extraction de données ne présentent encore d'intérêt. Ce sont les dépendances qui nous intéressent qui sont fondamentalement indétectables par ACF.
Vous posez trop de questions. Je vous pose également la question suivante : connaissez-vous au moins un chercheur qui, avant de commencer quelque chose de très nouveau et de très étrange, justifierait d'abord complètement et à cent pour cent l'applicabilité de cette nouveauté - et procéderait ensuite à l'obtention de résultats dont l'idée lui viendrait en une fraction de seconde ? En général, c'est l'inverse qui se produit : on applique d'abord la nouveauté sans se soucier de l'étayage et de la rigueur, puis, si quelque chose d'intéressant apparaît, l'étayage commence. Vous voyez ce que je veux dire ?
Et en parlant de hrenfx: il a aussi fait une analyse basée sur la corrélation de Pearson.
Ce n'est pas grave. Eh bien, nous ne discutons pas ici d'une dissertation, mais simplement d'une idée curieuse, dont quelque chose pourrait sortir à l'avenir. Je suis bien conscient que ce n'est pas le cas. Alors pourquoi perdre du temps sur une justification tendue ?
Pourquoi devrais-je m'occuper spécifiquement de la corrélation de Pearson juste parce qu'elle est parfaitement élaborée ?
Pratiquement précieux. Et on arrive à traiter des processus aléatoires non stationnaires avec des distributions inconnues.
En général, c'est l'inverse : au début, on applique la nouveauté sans se soucier des justifications et de toutes sortes de contraintes, puis, si l'on obtient quelque chose d'intéressant, on procède aux justifications. Vous me comprenez ?
Non. On mesure d'abord la ford, puis tout le reste. Dans tous les conseils scientifiques auxquels j'ai assisté de mon temps, votre discours serait le dernier pour toujours.
Pourquoi alors perdre du temps avec des justifications étirées ?
L'étirement n'est pas nécessaire. Mais il faut comprendre ce dont il est question au niveau de la comparaison avec l'existant.
Je me doutais que vous le feriez remarquer. Heureusement, dans tous les cas, les formules écrites à l'aide de probabilités (plutôt que d'entropies) restent les mêmes - indépendamment de ce qui est là en fonction de quoi ou non. Ce raisonnement n'apporte donc rien de nouveau.
A mon avis, même si elle est erronée, l'essence de la formule ne peut pas changer, ainsi que les conditions de son applicabilité, du fait qu'elle est écrite par d'autres symboles.
J'attire votre attention sur le fait qu'il ne s'agit plus du système envisagé par le topicstarter. Je ne suis pas naïf au point de parler sérieusement d'apprendre l'alphabet du marché. Et j'essaie de me fixer des objectifs réalistes.