Statistiques de dépendance entre guillemets (théorie de l'information, corrélation et autres méthodes de sélection de caractéristiques) - page 31

 
Avals: Il n'est pas nécessaire de prédire tout le temps :) Seulement à des moments discrets.

Et le plus souvent, le système devrait dire : "restons sur la touche, j'ai une crise du modèle de l'univers". Je suppose qu'il s'agit d'une qualité utile de tout système de négociation intelligent, qui reflète la réalité chaotique du marché : il ne permet qu'un léger aperçu de l'avenir à certains moments.

Candid : En général, à en juger par le fait que les messages restent en suspens, mon temps dans ce fil est soit passé, soit pas encore arrivé :). Il est probablement temps pour la fontaine de se reposer :).

Probablement pas encore :).

Et honnêtement, je n'allais pas encore activer le sujet, mais après qu'il soit apparu, j'ai supposé qu'il y aurait une discussion sur ce développement. Mais je ne le regrette pas, car la discussion a permis de clarifier certaines choses.

Candidat : J'ai supposé dès le début que la méthodologie détecte toutes les dépendances, à la fois utiles pour les prévisions et inutiles. En ce qui concerne la volatilité, il existe des preuves concrètes pour soutenir une telle hypothèse ici.

La volatilité est un acteur sérieux dans ce jeu d'information, mais je pense qu'elle n'est pas encore le roi et le dieu.

 

Je vais continuer le thème, plutôt pour les esthètes. Peut-être que ce sera la fin du sujet. Ou peut-être qu'un autre s'ouvrira.

Je posterai les résultats de mes expériences.

 

Un graphique montrant la quantité d'information mutuelle sur les retards de 1 à 250 pour la barre zéro (plus précisément, les incréments de prix p[0] - p[1]) pour EURUSD D1.




Ensuite, essayons de conserver la volatilité originale de la série (en gardant les modules d'incrément) tout en mélangeant les signes des incréments. On obtient.



Un graphique similaire et la somme de l'information mutuelle est très similaire. Cela signifie que la suppression du signe du gradient n'a pas affecté l'information mutuelle. Afin de confirmer l'insignifiance du signe, essayons ce qui suit. Laissons la séquence des signes des incréments comme dans le format original mais mélangeons les modules des incréments en ayant brisé la structure de la volatilité. Maintenant, nous avons.




Le graphique a un aspect différent. La somme a considérablement diminué. Ainsi, après avoir supprimé la volatilité, avec la présence de la séquence originale de signes d'incrémentation, nous avons beaucoup moins d'informations sur la barre de zéro.


Maintenant, mélangeons les signes d'incrémentation et la séquence du module d'incrémentation, c'est-à-dire que nous nous débarrassons de la volatilité et de la séquence des signes qui ont lieu dans la série originale.




Nous obtenons à peu près la même chose, même la somme est plus élevée. Nous supposons que la série sans volatilité est presque la même qu'une série complètement aléatoire (dont la loi de distribution est toutefois préservée).


Afin de ne pas faire plusieurs réalisations pour chaque expérience, effectuons un test statistique de l'hypothèse sur la différence entre les valeurs d'information mutuelle obtenues pour différentes séries.

Test de Kolmogorov-Smirnov pour l'information mutuelle de la série originale et de la série à volatilité préservée. p > 0,1. L'hypothèse de différence est rejetée.

Pour les séries originales et les séries dont le signe des incréments a été conservé : p < 0,01. L'hypothèse d'une différence est confirmée.

Test pour la série avec le signe retenu et la série aléatoire. p < 0,1. Un résultat ambigu, mais la somme de l'information mutuelle pour la série aléatoire est encore plus grande, donc je suis enclin à accepter l'hypothèse d'une différence, ou au moins d'une absence de supériorité sur la série aléatoire.

Conclusion : cette méthodologie, travaillant avec les incréments de prix de clôture, permet de détecter les dépendances de la volatilité des prix, alors que les dépendances des signes d'incréments ne sont pas détectables, voire pas du tout. Il est impossible de prédire la direction du mouvement des prix avec cette méthodologie.

 

Je n'ai pas abordé le sujet depuis un mois : j'ai été très occupé par d'autres choses, et je n'ai donc pas eu le temps de m'en occuper.

Je suis d'accord avec le verdict dans son principe. Mais seulement sur les jours. J'ai déjà soupçonné et dit auparavant (et pas seulement moi) qu'il y a beaucoup plus de chaos sur les jours que sur les périodes plus courtes.

Il faut également tenir compte du fait que les bars contenant trop d'informations n'ont pas été éliminés. Je pense que cela affecte grandement le résultat.

En bref, la sélection des données qui seront éventuellement fournies à l'entrée du réseau neuronal devrait être abordée beaucoup plus sérieusement. Il s'avère donc que pour tirer profit du réseau neuronal, vous devez le nourrir de délices de premier ordre extrêmement exempts de saletés. Et pour l'instant, ce n'est pas encore un mets délicat, mais un esturgeon étoilé non capturé.

 
Mathemat:

Je n'ai pas abordé le sujet depuis un mois : j'ai été très occupé par d'autres choses, et je n'ai donc pas eu le temps de m'en occuper.

Je suis d'accord en principe avec le verdict. Mais seulement sur les jours. J'ai déjà soupçonné et dit auparavant (et pas seulement moi) qu'il y a beaucoup plus de chaos sur les jours que sur les périodes plus courtes.

Il faut également tenir compte du fait que les bars contenant trop d'informations n'ont pas été éliminés. Je pense que cela affecte grandement le résultat.

En bref, la sélection des données qui seront éventuellement fournies à l'entrée du réseau neuronal devrait être abordée beaucoup plus sérieusement. Il s'avère donc que pour tirer profit du réseau neuronal, il faut le nourrir avec des produits de première qualité extrêmement peu salissants. Et pour l'instant, ce n'est toujours pas un mets délicat, mais un esturgeon étoilé non capturé.

Alexei, tout d'abord, je suis heureux de vous voir dans le fil. Je suis d'accord avec votre opinion. J'ai également entendu et réfléchi à la grande quantité de chaos dans les journaux intimes. Mon opinion est la suivante : sur les grands TF, la fonction de série temporelle n'est pas aussi lisse que sur les 1 minute et 5 minutes, et encore moins sur les ticks. Si l'on apprend à prédire plusieurs barres à l'avance sur de petites TF, il y aura de la puissance. Bien sûr, je peux aussi calculer l'information mutuelle pour les minutes, ce sera encore plus intéressant. Je vais peut-être le faire aussi pour les tiques, je vais le prendre sur le site de Gain Capital. Mais le problème de l'utilisation des informations provenant de l'ensemble des barres n'est pas résolu, je suis bloqué sur ce point. Désolé.

Je suis tout à fait d'accord avec le fait que les "étoilés" n'ont pas été pris. Et le problème des informations redondantes est important à cet égard. Si nous prenons des informations sur des barres spécifiques, nous soulevons fondamentalement la question de l'importance de chaque décalage pris.

Tout compte fait, mais on se revoit à l'antenne.

 
alexeymosc: Bien sûr, je peux aussi calculer les informations réciproques pour les minutes, ce serait même intéressant. Je peux le faire pour les tiques aussi, je les prendrai sur le site de Gain Capital.

Pour des minutes, et encore moins pour des ticks, c'est probablement trop de gaspillage en termes de temps et d'utilisation des ressources du PC. Je compte prendre des heures et les compter. Nous verrons bien.

Le problème le plus grave ici n'est pas en surface, mais à l'intérieur : l'histoire passée n'est pas une constante pour le DC. Les barres apparaissent et disparaissent tout le temps. Et les changements locaux de l'histoire passée peuvent sérieusement affecter le résultat (ou plutôt la matrice). Je suis extrêmement mal à l'aise avec ça. Je cherche un moyen de résoudre le problème de la permanence de l'histoire et, en même temps, de réduire le nombre de calculs d'un ordre de grandeur.

 
alexeymosc:

Alexei, tout d'abord, je suis heureux de vous voir dans le fil. Je suis d'accord avec votre opinion. J'ai également entendu et pensé à la grande quantité de chaos qui règne ces jours-ci. Mon opinion est la suivante : sur les grands TF, la fonction de série temporelle n'est pas aussi lisse que sur les minutes et les cinq minutes, et encore moins sur les ticks. Si l'on apprend à prédire plusieurs barres à l'avance sur de petites TF, il y aura de la puissance. Bien sûr, je peux aussi calculer l'information mutuelle pour les minutes, ce sera encore plus intéressant. Je vais peut-être le faire aussi pour les tiques, je vais le prendre sur le site de Gain Capital. Mais le problème de l'utilisation des informations provenant de l'ensemble des barres n'est pas résolu, je suis bloqué sur ce point. Désolé.

Je suis tout à fait d'accord avec le fait que les "étoilés" n'ont pas été pris. Et le problème des informations redondantes est important à cet égard. Si nous prenons des informations sur des barres spécifiques, nous soulevons, fondamentalement, la question de l'importance de chaque décalage pris.

Tout compte fait, mais on se revoit à l'antenne.

Sur les TF de grande taille, la fonction de série temporelle n'est peut-être pas aussi lisse que sur les minutes et les cinq minutes, et encore plus sur les ticks, mais elle est plus prévisible. Sur les TF plus petites, en particulier sur les minutes, la fonction de série temporelle révèle un modèle, à ma connaissance, en quelques centaines ou même milliers de barres, alors qu'en dix (-s) barres, la proportion de composantes aléatoires d'un éventuel modèle général est très élevée.
 
yosuf:
Peut-être que sur les grandes échelles de temps, la fonction des séries temporelles n'est pas aussi lisse que sur les échelles de 1 minute et de 5 minutes, et encore moins sur les ticks, mais elle est plus prévisible. Sur les échelles de temps plus petites, en particulier sur les échelles de 1 minute, la fonction des séries temporelles montre une régularité sur plusieurs centaines ou même milliers de mesures, tandis que sur des dizaines (-s) de mesures, la proportion de composantes aléatoires d'un éventuel modèle général est très élevée.

Je suis d'accord, Yusuf. Il y a aussi cette opinion. C'est pourquoi j'ai pris les barres quotidiennes, d'ailleurs. Mais, fait intéressant, la somme des informations mutuelles pour le même nombre de décalages est plus grande pour les barres horaires que pour les barres diurnes. Même si c'est surtout de la volatilité, mais un fait est un fait. Il se peut donc que des délais plus courts conviennent mieux à un modèle de prédiction particulier.

 
Mathemat:

Pour des minutes, et encore moins pour des ticks, c'est probablement trop de gaspillage en termes de temps et d'utilisation des ressources du PC. Je compte prendre des heures et les compter. Nous verrons bien.

Le problème le plus grave ici n'est pas en surface, mais à l'intérieur : l'histoire passée n'est pas une constante pour le DC. Les barres apparaissent et disparaissent tout le temps. Et les changements locaux de l'histoire passée peuvent sérieusement affecter le résultat (ou plutôt la matrice). Je suis extrêmement mal à l'aise avec ça. Je cherche un moyen de résoudre le problème de la constance de l'histoire et, en même temps, de réduire le nombre de calculs d'un ordre de grandeur.

C'est un très bon point. Bien que je n'aie pas creusé moi-même le problème des barres volatiles dans l'histoire, mais le point est clair pour moi, Alexey. Je pense que nous devrions mesurer sur un signal dérivé de la série temporelle, plutôt que sur la série temporelle elle-même. Il serait peut-être plus judicieux de prendre le prix moyen pondéré dans la période considérée, les pics étant ainsi atténués. D'ailleurs, je l'ai fait une fois : j'ai pris le prix intraday moyen pondéré calculé par la clôture horaire (en fait, c'est une MA avec une période de 24, mais les valeurs de cette ondelette espacées de 24 pas sont utilisées pour le calcul). Et j'ai calculé l'information mutuelle. J'ai été surpris. Le décalage n°1 a montré un maximum d'informations, les autres décalages ont montré 10 fois ou plus moins d'informations. Une différence marquée par rapport à la série de prix quotidiens d'origine...
 
Vous êtes conscient de l'impact de l'agrégation de la volatilité sur les délais inférieurs et pourtant vous tirez des conclusions selon lesquelles les délais supérieurs seraient plus bruyants. La seule base pour cela est votre croyance. Si vous voulez vraiment comparer différentes échelles de temps, alors ne les comparez pas directement, mais leurs résidus des effets de la volatilité, sinon tout cela ressemble à une croyance de votre part.