Statistiques de dépendance entre guillemets (théorie de l'information, corrélation et autres méthodes de sélection de caractéristiques)

 

Bonjour !

J'ai décidé de développer légèrement le sujet abordé par Alexey (Mathemat) dans l'un des fils du forum.

J'ai essayé de rechercher des dépendances dans les cotations d'un instrument financier en utilisant des méthodes statistiques. Pour commencer, j'ai pris l'indice Dow Jones Industrial, des données quotidiennes, et j'ai transformé une série de séries en série d'incréments de pourcentage.

L'article est en fait ici : http://habrahabr.ru/blogs/data_mining/127394/

Je voudrais continuer pour les cotations FX, je posterai les résultats ici.

 

Bravo, Alexey, je ne m'attendais pas à ce que ce soit toi qui surprenne ton homonyme (pardonnez-moi pour l'amour de Dieu, mais j'ai quand même une idée du niveau moyen de maturité sur notre forum).

Je suis heureux que vous procédiez de la même manière que moi, jusqu'à l'information mutuelle I() et l'estimation approximative en centièmes de bit. C'est vrai, je n'ai pas utilisé le test de Kolmogorov-Smirnov. Et je n'ai pas pris des jours, mais des heures (il y a plus de données et les conclusions sont plus fiables). И... J'ai discrétisé les incréments d'une manière légèrement différente.

C'est vraiment un peu fort pour un hubr, je suppose. Ils ne sont que des informaticiens, bien que très intelligents :) (Regardez le commentaire de Cher qui a obtenu la note +3, c'est-à-dire le maximum).

J'ai quelques questions à vous poser - je vous écrirai en personne un peu plus tard. Et pour l'instant, je vais observer : tout à coup, quelqu'un d'autre de bien informé va surgir...

 

Alexey, merci... Heureux que vous ayez apprécié, en fait, j'ai finalement été enthousiasmé par l'idée après avoir lu le résumé des résultats de vos recherches.

Certains aspects spécifiques de la recherche pourraient être modifiés, bien sûr. J'ai moi-même longtemps réfléchi à la manière de mieux discrétiser les valeurs, et je me suis arrêté à un moyen aussi simple que l'arrondi.

Et j'ai déjà fait l'analyse pour l'EURUSD H1 également. J'ai pris un devis chez Alpari pour 10 ans (64500 bars). C'est ici :

Et avec des flèches, j'ai marqué les décalages hebdomadaires : ils se distinguent en quelque sorte, à mon avis.

Et voici à quoi ressemble la fonction d'autocorrélation de cette série :

Dans l'ensemble, vous pouvez constater une stricte cyclicité de 24 heures. Cela aussi peut être discuté.

Au fait, j'ai arrondi les incréments ici aussi, à 10 points (à cause de cela, l'entropie des données s'est avérée être d'environ 2,5 bits). De plus, je ne pouvais pas passer à travers plus de variables, par exemple dans le cas d'une plongée dans une année d'histoire. Excel accroche l'ordinateur, engloutissant 4 Go de RAM. Je ne pouvais pas le faire physiquement, mais l'idée était là.

 

D'ailleurs, le chi-carré donne à peu près la même image : avec un décalage croissant, toutes les 24 mesures, il y a un pic décent de la valeur du critère.

P.S. Je voudrais souligner qu'ici, l'ACF n'est pas calculé par un nombre de retours, mais par le flux d'informations moyen, délivré par les cotations passées à la barre de zéro. Si nous prenons une barre de zéro spécifique pour les calculs, le flux d'informations vers celle-ci sera calculé différemment.

 
alexeymosc:

On peut conclure que dans les données de la finance naturelle (au moins pour l'indice DJI), il existe des relations arbitraires statistiquement significatives entre les incréments des cotations. C'est-à-dire qu'une telle série de données ne peut être considérée comme aléatoire. En théorie, il est possible de prédire les valeurs futures d'une telle série, par exemple en utilisant des réseaux neuronaux.

Le fait qu'une relation ait été trouvée peut s'expliquer par le fait bien connu que la volatilité dépend des valeurs précédentes. Vous pouvez même le voir à l'œil nu par votre graphique des incréments. Il existe des modèles théoriques qui décrivent la dépendance de la volatilité - comme ARCH/GARCH.

C'est pourquoi les cycles de 24 heures sont formés dans une journée - le bœuf sur le marché des changes a un comportement cyclique stationnaire :

Il s'agit simplement des heures d'ouverture et de fermeture des différents centres financiers. L'activité commerciale change. Si vous utilisez une pièce de monnaie comme source de données)))), alors elle commence à être lancée plus souvent, puis moins souvent en même temps.

De plus, il existe un cycle hebdomadaire de vol, mais il est moins prononcé que pour les marchés boursiers. Juste un décalage de 5 en incréments quotidiens ;)

Ce n'est donc pas un argument pour prédire la direction des changements de cotation (qui est ce qui nous intéresse). La comparaison doit se faire avec une série aléatoire générée à partir de la volatilité réelle (par exemple, le volume en ticks). C'est-à-dire la dépendance de la dispersion dans la distribution pendant la génération. Sinon, de nombreux tests statistiques déterminent exactement la dépendance de la volatilité, et non la variance des incréments.

 
alexeymosc:

En général, un cycle strict de 24 heures est visible. Cela aussi peut être discuté.

Qu'y a-t-il à discuter ? C'est un fait connu depuis longtemps, la cyclicité intraday. Cela a même été souligné par des personnes qui ne comprennent pas du tout les mathématiques, mais qui comprennent le marché. En outre, il existe une cyclicité même au sein des sessions de négociation de certaines salles de marché. Elle ne s'approche pas de la compréhension de ce qui devrait être fait, en soi. On peut cependant en tirer un petit avantage.
 
Avals:

Sinon, de nombreux tests statistiques déterminent exactement la dépendance de la volatilité, plutôt que les corrections des incréments.


Et c'est correct. J'y suis venu moi-même, je n'ai simplement pas posté toutes mes pensées ici.
 
Mathemat:

D'ailleurs, le chi-carré donne à peu près la même image : avec un décalage croissant, toutes les 24 mesures, il y a un pic décent de la valeur du critère.

P.S. Je voudrais souligner qu'ici, l'ACF n'est pas calculé par un nombre de retours, mais par le flux d'informations moyen, délivré par les cotations passées à la barre de zéro. Si nous prenons une barre de zéro spécifique pour les calculs, le flux d'informations vers celle-ci sera calculé différemment.


Oui, l'histogramme est calculé par les valeurs d'information mutuelle et je l'ai juste mis en avant pour confirmer l'idée de cyclicité.
 
HideYourRichess:
Qu'y a-t-il à discuter ? C'est un fait connu depuis longtemps, la cyclicité intraday. Cela a même été souligné par des personnes qui ne comprennent pas du tout les mathématiques, mais qui comprennent le marché. En outre, il existe une cyclicité même au sein des sessions de négociation de certaines salles de marché. Elle ne s'approche pas de la compréhension de ce qui devrait être fait, en soi. On peut cependant en tirer un petit avantage.

Je le comprends. Nous devrions prendre le délai d'un jour ou plus.
 
alexeymosc:

Je ne comprends pas d'où vient cette beauté cyclique ?

Voici le résultat pour les 100 derniers jours.

Graphique initial :


Il semble y avoir une tendance au départ, ou une tendance latérale tout court. Vérifions-le avec la bière rôtie.

Cela semble ridicule, mais la probabilité que la distribution soit normale est de 80% !

Regardons l'autocorrélation :



Où est la cyclicité ? Je ne le vois pas, mais je vois la tendance. Tant qu'il y a une tendance, tout raisonnement statistique n'est pas pertinent. Faisons un lissage Hodrick-Prescott. Résultat :


Veuillez noter le lambda anti-théorique. Maintenant, regardons le résidu, qui s'appelle Cycle ici :

Le résidu du lissage HP est, en fait, tout à fait normal !

Il n'y a pas de tendances. Il existe peut-être un caractère cyclique (3 - 13,14), mais cela nécessite des preuves plus sérieuses.


 

Tout d'abord, la cyclicité ne se trouve pas sur le graphique journalier, mais sur le graphique horaire ! J'y ai écrit, d'ailleurs.

Et pour les graphiques journaliers, le résultat ne sera pas cyclique, vous avez raison.