Statistiques de dépendance entre guillemets (théorie de l'information, corrélation et autres méthodes de sélection de caractéristiques) - page 3

 
alexeymosc:

J'ai essayé de rechercher des corrélations dans les cotations d'un instrument financier en utilisant des méthodes statistiques. Pour commencer, j'ai pris l'indice Dow Jones Industrial, des données quotidiennes, et j'ai transformé la série en une série d'incréments de pourcentage.

Les incréments sont hétéroscédastiques. Si vous voulez prévoir la direction du mouvement des prix, vous devez en tenir compte.

Pour prédire la volatilité, il est préférable d'utiliser des modèles plus spécifiques au lieu de NS.

 

Réponse faa1947:

"A propos de la "linéarité" et de la "non-linéarité", je serais également prudent, car cette question peut et doit être posée dans le cadre du modèle avec lequel vous approchez la série chronologique. En analysant les coefficients de ce modèle, vous pouvez conclure que ces coefficients sont : des constantes (ou presque constantes), des fonctions déterministes ou des fonctions stochastiques. Il s'agit d'un processus parfaitement concret et constructif d'analyse du type de dépendances. Et qu'y a-t-il de constructif à découvrir cette dépendance à l'information ? Et encore une fois, comment le voyez-vous sur la série chronologique originale ?"


Je pourrais également faire un lien avec la composante économique, mais désolé, il suffit de lire les réponses à mon premier message dans le fil de discussion, il s'agit juste de cela : la volatilité intraday est cyclique. Et l'information mutuelle l'a montré. La situation est tout à fait différente pour les échelles quotidiennes et supérieures, car il n'y a pas de cycles évidents.

Comment le voir dans la série initiale ? Rien de plus facile, regardez l'historique pendant au moins une demi-année sur les barres horaires et notez s'il y a une différence de volatilité (dans la taille des bougies) selon le temps. Et en ce qui concerne les barres quotidiennes, je n'ai personnellement pas trouvé de cycles naturels ou toute autre logique quotidienne ou économique. C'est juste une structure de dépendance interne dans les prix.

Et je ne fais pas encore d'approximation de la série chronologique, j'extrais des données sur les prix qui me permettent de regarder les prix connus sous un angle légèrement différent. Ici, vous voyez l'absence de dépendances dans les incréments, et je vois que vous utilisez l'autocorrélation. Ça m'en dit long. Il n'y a pas de dépendance linéaire et il n'y en a jamais eu, et il n'y a pas besoin de montrer constamment des autocorrélogrammes, j'en ai eu assez moi-même depuis longtemps déjà, et ils étaient les mêmes que les vôtres. )

 
anonymous:

Les incréments sont hétéroscédastiques. Si vous voulez prédire la direction du mouvement des prix, vous devez nécessairement en tenir compte.

Pour prévoir la volatilité, il est préférable d'utiliser des modèles plus spécifiques au lieu de NS.


Et quels sont les modèles qui sont plus spécifiques au forex par opposition, disons, à la NS ? Je suis juste intéressé par votre opinion. Il y a beaucoup de modèles dans le monde.
 
alexeymosc:

Et quels sont les modèles qui sont plus spécifiques au forex par rapport à, disons, la NS ? Je suis simplement intéressé par votre opinion. Il y a beaucoup de modèles dans le monde.

Je ne parlais pas de modèles spécifiques au forex (il en existe beaucoup, notamment pour les produits dérivés : https://en.wikipedia.org/wiki/Vanna_Volga), mais de modèles spécifiques à la volatilité (il en existe beaucoup, outre ARCH).

La NS n'est pas une approche spécifique au Forex, car elle est utilisée partout (ou même vice versa - là où l'on est trop paresseux pour construire des modèles normaux et où l'on dispose de beaucoup de ressources informatiques, elle est utilisée).

Les approches de la prédiction de la volatilité et de la direction des prix devraient être différentes. Pour la première, il n'est pas nécessaire d'utiliser la NS (complication injustifiée), pour la seconde, vous pouvez essayer.

 

faa1947, veuillez faire plus attention à la mise en page de vos messages. Parfois, vous ne pouvez pas séparer immédiatement ce que vous citez de votre réponse.

Venons-en au fait :

faa1947: Как мне кажется, увеличение объема выборки представляет интерес только в рамках предельной теоремы о сходимости по вероятности к нормальному закону. Хочу Вас разочаровать, что если мы не ставим перед собой такой задачи, то простое увеличение выборки ничего не дает. Ниже привожу увеличение выборки в 10 раз.

Un doigt dans le ciel, désolé. De quelle normalité dans la limite parlez-vous ? Normalité de quoi ? La distribution des rendements ? À ce stade, cette hypothèse ne me fait ni chaud ni froid. Je n'ai pas besoin d'hypothèse sur la distribution des rendements et sur la loi vers laquelle ils tendent.

Personnellement, j'ai l'exigence suivante à ma montre : puisque j'avais l'intention d'utiliser le critère d'indépendance des variables aléatoires du chi-deux (je le voulais), la taille de l'échantillon devait être telle que toute fréquence d'un événement commun soit garantie d'au moins 5. Cette contrainte doit également être connue de vous. C'est pourquoi un échantillon aussi faible sur les horloges est sorti.

Mais c'est moi. Je ne sais pas pourquoi Alexeymosc a utilisé un échantillon aussi large que possible. Mais je peux deviner : il a probablement voulu établir un modèle pour l'ensemble de la série et non pour une partie de celle-ci.

faa1947 : Je ferais plutôt attention à la "linéarité" et à la "non-linéarité", car cette question peut et doit être posée dans le cadre d'un modèle, par lequel on approche les séries temporelles. En analysant les coefficients de ce modèle, vous pouvez conclure que ces coefficients sont : des constantes (ou presque constantes), des fonctions déterministes ou des fonctions stochastiques. Il s'agit d'un processus parfaitement concret et constructif d'analyse du type de dépendances.

Il n'y a pas encore de modèle. Seulement Data Mining avec des méthodes statistiques non-paramétriques.

Je suis convaincu qu'il s'agit précisément d'une relation non linéaire : il n'y a pas de relation linéaire significative détectable par la corrélation de Pearson à des décalages supérieurs à 10. Vous le savez vous-même. Mais on trouve également des relations à des décalages beaucoupplus importants. Ils sont donc non linéaires !

faa1947 : Et qu'est-ce qui est constructif pour détecter cette dépendance de l'information ? Et encore une fois, comment le voyez-vous sur la série chronologique originale ?

Ce n'est pas facile à voir, ici je suis d'accord avec vous. Nous ne connaissons que la quantité moyenne d'informations transmises à la barre du zéro depuis une histoire assez lointaine - et le mécanisme de cette "attaque d'informations du passé" ne nous est pas connu. Nous devons encore réussir à convertir ces bits nus en un outil de prévision. Qui a dit que ce serait facile ?

Les incréments sont hétéroscédastiques. Si vous voulez prévoir la direction du mouvement des prix, vous devez nécessairement en tenir compte.

Je suis extrêmement ignorant des modèles économétriques modernes, y compris ARCH et la famille connexe. Pouvez-vous expliquer sur vos doigts pourquoi il faut en tenir compte à un stade où aucun modèle de comportement incrémental n'est construit ? Pas de modèle, juste une application brutale de la théorie de l'information. Merci.

 
anonymous:

Je ne parlais pas de modèles spécifiques au forex (il en existe beaucoup, notamment pour les produits dérivés : https://en.wikipedia.org/wiki/Vanna_Volga), mais de modèles spécifiques à la volatilité (il en existe beaucoup, outre ARCH).

La NS n'est pas une approche spécifique au Forex, car elle est utilisée partout (ou même vice versa - là où l'on est trop paresseux pour construire des modèles normaux et où l'on dispose de beaucoup de ressources informatiques, elle est utilisée).

Les approches de la prédiction de la volatilité et de la direction des prix devraient être différentes. Pour le premier cas, il n'est pas nécessaire d'utiliser le SN (complication déraisonnable), pour le second, vous pouvez essayer.


Je suis d'accord en principe avec NS, bien que la méthode elle-même ne soit pas si simple. Il existe également de nombreuses conventions qu'il est souhaitable et parfois obligatoire de suivre (du prétraitement des données et de la sélection des variables pertinentes à la construction des réseaux). Et en général, il y a les gens qui aiment appliquer les connaissances qu'ils connaissent aux phénomènes étudiés, et il y a ceux qui commencent à étudier à partir de zéro, et les derniers préféreraient probablement la NS. IMHO.

Mais je ne vais pas prédire la volatilité, j'essaie toujours de prédire la direction du mouvement des prix. Dans ce problème, j'utilise NS.

 
alexeymosc:

Réponse faa1947:


...la volatilité intraday est cyclique. Et l'information mutuelle l'a montré.

Vos informations mutuelles ne m'ont rien montré. Vous devez vous assurer qu'il n'y a pas de constituants déterministes dans la BP avant de procéder au traitement des statistiques. S'ils sont présents dans BP, ils "notent" les statistiques et toutes les enquêtes ne sont pas dignes de confiance. Je dois vous décevoir car la définition de la volatilité par la BP initiale est erronée. Je parviens à construire des modèles avec les paramètres suivants : Une volatilité de 44 pips et sa fluctuation de plus moins deux pips, c'est-à-dire que je peux la considérer comme constante. La volatilité qui reste à analyser dépend fortement du modèle appliqué.

Et je ne fais pas encore d'approximation des séries chronologiques, j'extrais des données sur les prix qui me permettent de regarder les prix habituels sous un angle légèrement différent. Vous voyez ici l'absence de dépendances dans les incréments.

De la fumée devant la locomotive. En fait, au niveau des manuels, l'ordre d'analyse de la BP est défini : stationnaire/non stationnaire - pour les non-stationnaires, le choix de la méthode de transformation est stationnaire. Cette première étape consistera certainement à supprimer la tendance. Ensuite, voyons.

 

Je ne comprends pas ce que vous faites ici. J'ai décidé de rafraîchir mes connaissances sur la théorie de l'information (IT) et je l'ai cherchée dans le glossaire :

TI considère la notion d'"information" uniquement sous l'angle quantitatif, sans référence à sa valeur ou même à sa signification. Avec une telle approche, une page de texte dactylographié contient au maximum toujours approximativement la même quantité d'informations, déterminée uniquement par le nombre de caractères et d'espaces (c'est-à-dire de caractères) sur la page et ne dépendant pas de ce qui est imprimé sur celle-ci, y compris dans le cas d'un ensemble de caractères sans signification et chaotique. Pour la modélisation des systèmes de communication, cette approche est valable, car ils sont conçus pour transmettre des informations représentées par n'importe quel jeu de caractères sans erreur sur le canal de communication. Dans les cas où il est essentiel de considérer la valeur et la signification de l'information, l'approche quantitative est inapplicable. Cette circonstance impose des restrictions essentielles aux champs d'applications possibles de la CT. Le fait de ne pas en tenir compte a conduit, aux premiers stades du développement, à une surestimation de l'importance appliquée.

À cet égard, j'ai trois réponses possibles :

1. Vous êtes sûr que le dictionnaire ment et ce n'est pas vraiment le cas.

2. Vous en êtes aux "premières étapes du développement" et n'avez pas encore entrepris d'évaluation de la "pertinence appliquée".

3. Vous êtes quelque chose d'autre.

 
Mathemat:

Je suis extrêmement ignorant des modèles économétriques modernes...

Cela clarifie beaucoup de choses. En fait, l'économétrie est une science (j'insiste sur le mot science) qui étudie les séries chronologiques économiques depuis au moins 100 ans. La société des économétriciens aux États-Unis a été créée dans les années 30. A en juger par vos posts, c'est une science pour laquelle vous êtes doué. Vous n'êtes pas seul sur ce forum et pour l'anecdote : selon les développeurs de ce site, il y a une erreur grammaticale dans le mot "économétrie" et ses dérivés.

 
faa1947: Vos informations mutuelles ne m'ont rien montré. Vous devez vous assurer qu'il n'y a pas de composants déterministes avant de faire un traitement statistique de la BP.

Encore une fois, 25, un pouce dans le ciel. L'étude n'a pas été faite par rapport à une série de prix, mais par rapport à leurs rendements. C'est d'abord.

Deuxièmement, le prétraitement des données comme celui que vous avez mentionné est déterminé principalement par les objectifs de l'analyse, et non par des exigences dogmatiques imposées à l'étude sans tenir compte des objectifs.

De la fumée devant la locomotive. En fait, au niveau des manuels, l'ordre d'analyse de la BP est défini : stationnaire/non stationnaire - pour les non-stationnaires, le choix de la méthode de transformation est stationnaire. Cette première étape consistera certainement à supprimer la tendance. Nous verrons ensuite.

Voir mon objection ci-dessus. Faites correspondre les méthodes de recherche à ses objectifs ! Et enfin, arrêtez de marmonner vos sorts à propos de la stationnarité, de la déstendance et d'autres choses qui n'ont rien à voir avec le sujet de l'étude.

2 HideYourRichess : Je suis un peu en vacances aujourd'hui, donc je suis temporairement libre de dire ce que je pense :) Avons-nous une confrontation religieuse sur ce qu'est l'information ?

2 faa1947:

En fait, l'économétrie est une science (j'insiste sur le mot science) qui étudie les séries chronologiques économiques depuis au moins 100 ans.

OK, que ce soit une science. Si je me souviens bien, l'économétrie aime beaucoup imposer ses modèles aux données financières. Je ne les impose pas. Alors je ne fais pas d'économétrie. D'autres questions ?