Une corrélation nulle entre les échantillons ne signifie pas nécessairement qu'il n'y a pas de relation linéaire. - page 46

 

C'est à mon tour de donner un exemple avec une photo.

Supposons qu'il existe un échantillon de deux processus (non aléatoires, mais après tout un processus non aléatoire est un cas dégénéré d'un processus aléatoire, donc cela fera l'affaire pour un exemple) sur l'intervalle t = -10 ... 10 :

x1(t) = cos(2*pi*t)

x2(t) = sint(2*pi*t) + h(t), où h(t) est le pas de Heaviside,

et la fréquence d'échantillonnage est assez grande (beaucoup plus grande que la fréquence des sinus et des cosinus eux-mêmes) fd >> 1

Voici les graphiques de ces processus :


De toute évidence, en raison de l'orthogonalité du sinus/cosinus, la valeur du coefficient de corrélation instantané est nulle dans tout l'échantillon, sauf au point 0, où le CQ est difficile à déterminer de quelque manière que ce soit en raison de la discontinuité du processus.

Néanmoins, lorsque nous substituons stupidement des processus donnés dans la formule du coefficient de corrélation linéaire, nous obtenons des résultats absurdes : la moyenne arithmétique du temps pour le deuxième processus pendant la période de temps n'est pas 0 mais 1/2, et nous sommes obligés de l'écrire dans la formule, avec une valeur de sortie différente de 0, et l'échantillon le plus court est pris (pour l'intervalle [-10;10] le coefficient calculé de cette façon sera un, et pour l'intervalle, par exemple [-3;3], - un autre). Cela peut être facilement vérifié avec la procédure de contrôle de qualité intégrée dans n'importe quel logiciel, même dans Excel.

Ici, déjà intuitivement, il devrait y avoir un sentiment de contradiction : si on divise un échantillon en deux par un point t=0 et de la même manière on calcule un KK pour chaque partie, dans les deux cas on obtient 0, mais il s'avère qu'en joignant deux parties " zéro " ensemble on n'a pas zéro ? Comment est-ce possible ?

La raison en est que la non-stationnarité du processus x2(t) n'est pas prise en compte, et donc le fait que dans ce cas nous ne pouvons pas prendre la moyenne arithmétique dans le temps comme une estimation de la moyenne. De plus, par construction, nous savons comment cette moyenne évolue dans le temps. Par conséquent, la procédure de calcul doit réduire précisément les deux parties, sur la base de la connaissance a priori des processus, à une forme permettant d'affirmer la stationnarité.

En d'autres termes, la formule du QC linéaire ne doit pas substituer x1(t) et x2(t), mais x1(t) et x2'(t) = x2(t)-h(t), c'est-à-dire isoler le terme stationnaire du second processus. Le résultat du calcul de la formule coïncidera alors avec l'attente.

 
Integer:

Ne parlez pas de n'importe qui, soyez précis, nom du manuel, citez-le avec sa définition. Même si vous êtes sûr d'avoir bien compris la définition, comment pouvez-vous en être sûr ? N'avez-vous pas essayé de toucher le coefficient de corrélation avec vos propres mains (pour expérimenter, jouer) pour comprendre, réaliser, sentir ce que c'est ?

Comment peux-tu être si coincé au point de devoir t'abaisser à ce point ?

Je ne sais pas ce qu'est un twist (à moins que ce soit une sorte de danse), j'ai cherché la définition de la corrélation sur wikipedia :

Essayez-vous d'évaluer de manière critique ce qui est écrit sur la barrière quelque part ? Qu'est-ce que cela a à voir avec les variables aléatoires ? Seul un connard a pu écrire cette définition. Si c'est la même chose dans tous les manuels de hip-hop ou autre, alors tous ces manuels ont été écrits par des connards qui ne comprennent pas ce qu'est la corrélation et qui ont bousillé le cerveau des étudiants.


TViST (théorie des probabilités et statistiques pour faire court) est ma matière principale, je l'ai étudiée à l'institut et j'ai passé l'examen pendant 5 semestres, avec mention. Eh bien, honnêtement, je ne vais pas notarier les captures d'écran ici. Quiconque le souhaite peut ouvrir n'importe quel, je répète, n'importe quel manuel, qui apparaîtra à portée de main, bien que notre, bien qu'étranger, et être convaincu, qu'à la définition de la corrélation il s'agit d'une question, et que non. Si l'on considère qu'ils ont tous été écrits par des connards, alors on ne devrait pas les lire du tout ? Non, je préfère classer ce forum dans la catégorie des clôtures et évaluer de manière critique d'abord ce qui est écrit ici et ensuite ce qui est écrit là-bas.

 
alsu:


Ici déjà, intuitivement, il devrait y avoir un sentiment de contradiction : après tout, si on divise l'échantillon en deux par t=0 et qu'on calcule le CQ de chaque partie de la même manière, on obtient 0 dans les deux cas, mais il s'avère qu'en cousant ensemble deux parties "zéro", on n'a pas zéro ??? Comment est-ce possible ?

Non. Je ne regarde pas. Zéro pour une moitié, non-zéro pour l'autre moitié.
 
alsu:

TViST (théorie des probabilités et statistiques pour faire court) est ma matière principale, je l'ai étudiée à l'institut et j'ai passé l'examen pendant 5 semestres, avec mention. Eh bien, honnêtement, je ne vais pas notarier les captures d'écran ici. Quiconque le souhaite peut ouvrir n'importe quel, je répète, n'importe quel manuel, qui apparaîtra à portée de main, bien que notre, bien qu'étranger, et être convaincu, qu'à la définition de la corrélation il s'agit d'une question, et que non. Si l'on considère qu'ils ont tous été écrits par des connards, alors on ne devrait pas les lire du tout ? Non, je préfère classer ce forum dans la catégorie des clôtures et évaluer de manière critique d'abord ce qui est écrit ici et ensuite ce qui est écrit là-bas.

Étrangement, il semble que mon professeur, qui m'a enseigné à l'institut de corrélation, n'ait pas lu ces manuels... chanceux pour ses étudiants :)

 
alsu: ... De toute évidence, en raison de l'orthogonalité des sinus/cosinus, la valeur du coefficient de corrélation instantané dans tout l'échantillon est nulle, sauf au point 0, où le CC est difficile à déterminer de quelque manière que ce soit en raison de la discontinuité du processus.
Entier: Non. Je ne regarde pas. Zéro pour une moitié, pas zéro pour l'autre.

Oui, pour l'autre moitié pas zéro. Déception visuelle.


Une question complémentaire :

Chers amis, quelles données pour les séries chronologiques de prix (FX) utilisez-vous pour tirer des conclusions sur la stationnarité, les distributions, l'ergodicité, la corrélation et d'autres éléments statistiques ? La question ne souffre d'aucune ambiguïté. Il suffit souvent de prendre l'une des meilleures lectures du bracelet quantifiées par le temps astronomique ? Mais c'est... comment dire... inacceptable. Il est logique d'analyser la séquence des relevés de prix des transactions "réelles", en tenant compte des volumes réels. C'est peut-être là le but - préparer les données pour l'analyse.

 

Discussion intéressante. Peut-être qu'ils iront au fond des choses ici au moins.

J'ai essayé à plusieurs reprises de trouver cette question, j'ai parlé à des personnes intelligentes (il semblerait), mais il semble que personne ne comprenne, ils se contentent de gonfler leurs joues )))).

La signification physique de la corrélation est le cosinus de l'angle entre les vecteurs (où les coordonnées des vecteurs sont les deux échantillons initiaux).

Ainsi, QC ne fait que "comparer" les formes des courbes, il n'est pas affecté par la mise à l'échelle (modification de la longueur du vecteur) ou le déplacement (déplacement de l'origine du vecteur).

Je ne sais pas pour les citations, mais en traitement du signal, le QC n'est valable que pour I(1). En particulier, il est assez bon pour détecter la périodicité des signaux.

Je voudrais comprendre quel est le sens de l'utilisation de QC pour I(0), car il s'agit d'une comparaison des "formes" de deux séries presque totalement aléatoires, il ne peut y avoir, par définition, aucune similitude de formes.

Et tout cela pour une application locale.


Séparément, j'aimerais comprendre la signification du calcul des QC, distributions et autres statistiques pour l'ensemble de la série en une seule fois. Il s'agit de la température moyenne d'un hôpital pendant N années, à quoi cela sert-il ?

Il n'y a pas de stationnarité de I(1) ou de I(0) sur le marché.

 
airbas: Sur le marché, il n'y a pas de stationnarité ni dans I(1) ni dans I(0).

De quels I(1) et I(0) parlez-vous pour le marché ?

I(0) est par définition un processus stationnaire . Où est-il dans les citations ?
 
Demi:
Oui ? Et on m'a appris un jour que le coefficient de corrélation du cosinus et du sinus varie de façon régulière de -1 à +1. Il s'avère que c'est 0.........

De -1 à +1, la fonction de corrélation croisée change. Et le coefficient de corrélation de l'échantillon est un _nombre_. Et ce nombre est une constante pour deux échantillons donnés à l'avance. Si nous prenons comme échantillons les valeurs d'une paire de fonctions orthogonales sur une grille uniforme, le coefficient sera égal à zéro. Cela découle de la définition des fonctions orthogonales - l'intégrale de la définition écrite comme une somme sera étonnamment similaire à la définition de la covariance d'échantillon.

Entier:

Le coefficient de corrélation ne montre rien d'autre et le calcul de la corrélation n'a rien à voir avec la normalité, l'ergodicité ou la stationnarité. Quel genre de manuels lisez-vous ?

Si l'essentiel pour vous est de substituer des chiffres dans la formule et d'obtenir un nombre, la stationnarité et l'ergodicité ne sont pas importantes.

La propriété d'ergodicité permet d'estimer la fonction de corrélation pour la population générale sur la base d'un échantillon de cette population. Si cette propriété n'est pas remplie, le nombre obtenu par la formule peut être rejeté.

Avec la stationnarité, il est plus facile de donner un exemple. Prenons une paire de processus aléatoires, dont les différentiels stochastiques ont la forme :

dX(t) = mu_1 * dt + sigma_1 * dW_1 ;

dY(t) = mu_2 * dt + sigma_2 * dW_2 ;

dW_1, dW_2 sont des processus de Wiener corrélés (avec une corrélation rho) ;

mu_1, mu_2, sigma_1, sigma_2 sont des constantes positives.

L'exemple est que le coefficient de corrélation sur une paire de séries indifférenciées tendra vers l'unité (pour n'importe quels mu_1 et mu_2 - vers le signe (mu_1 * mu_2)) avec une taille d'échantillon croissante, indépendamment de la corrélation entre les incréments. Le point essentiel est que dans le processus I(1), la moyenne de l'échantillon ne converge pas vers une constante.

mu_1=0,01 ; mu_2=0,05 ; sigma_1=1 ; sigma_2=1 ; rho=0,5 :

mu <- c(0.01, 0.05)
sigma <- matrix(c(1, 0.5, 0.5, 1), 2, 2)

simulate.random.walks <- function (num.points, integrated = T) {
  ret.val <- matrix(rnorm(num.points * 2), num.points, 2) %*% chol(sigma)
  ret.val <- do.call(cbind, lapply(1 : 2, function (i) { ret.val[, i] + mu[i] } ))
  if (integrated) ret.val <- apply(ret.val, 2, cumsum)
  ret.val
}

num.points.grid <- trunc(exp(seq(log(10 ^ 2), log(10 ^ 6), length.out = 25)))
cor.integrated <- sapply(
  num.points.grid,
  function (num.points) { cor(simulate.random.walks(num.points, T))[1, 2] }
  )
cor.non.integrated <- sapply(
  num.points.grid,
  function (num.points) { cor(simulate.random.walks(num.points, F))[1, 2] }
  )

png(filename='c:/Users/User/Desktop/bgg.png', 800, 600)
par(mfrow = c(2, 1))
plot(num.points.grid, cor.integrated, xlog = T, t = 'o')
abline(h = 1, col = 'red', lty = 'dashed')
plot(num.points.grid, cor.non.integrated, xlog = T, t = 'o')
abline(h = 0.5, col = 'red', lty = 'dashed')
dev.off()

airbas:

Je ne sais pas ce qu'il en est pour les citations, mais dans le traitement du signal, le CQ est seulement pour I(1) et est valide. En particulier, il est assez bon pour détecter la périodicité des signaux.

Savez-vous de quelle université vous êtes diplômé ? Je saurai qui doit faire l'objet d'une vérification plus approfondie de sa perception lors des entretiens d'embauche.

Integer, j'ai la même question pour vous, si elle n'est pas trop difficile.

GaryKa:

Chère, quelles données utilisez-vous pour les séries chronologiques de prix (FX) lorsque vous tirez des conclusions sur la stationnarité, les distributions, l'ergodicité, la corrélation et d'autres choses statistiques ? La question ne souffre d'aucune ambiguïté. Il suffit souvent de prendre l'une des meilleures lectures du bracelet quantifiées par le temps astronomique ? Mais c'est... comment dire... inacceptable. Il est logique d'analyser la séquence des relevés de prix des transactions "réelles", en tenant compte des volumes réels. C'est peut-être là le but - préparer les données pour l'analyse.


Lisez les définitions dans n'importe quel manuel scolaire et vous comprendrez l'essentiel. Cela ne fait aucune différence que vous utilisiez le cours acheteur, le cours vendeur ou le cours moyen. Les caractéristiques numériques peuvent être légèrement différentes, mais les conclusions sur la stationnarité seront les mêmes.

 

Vérifiez ensuite si vous êtes en mesure de le faire :

Свойство эргодичности позволяет оценивать корреляционную функцию для генеральной совокупности на основе выборки из оной. Если это свойство не выполняется - число, полученное по формуле, можно выкинуть.

 
Anonyme, vous savez, je lis régulièrement le forum, presque tout le forum, je n'ai pas vu un seul post de votre part qui soit adéquat.