Eine Stichprobenkorrelation von Null bedeutet nicht zwangsläufig, dass es keine lineare Beziehung gibt. - Seite 46

 

Jetzt bin ich an der Reihe, ein Beispiel mit einem Bild zu geben.

Angenommen, es gibt eine Stichprobe von zwei Prozessen (nicht zufällig, aber schließlich ist ein nicht zufälliger Prozess ein degenerierter Fall eines zufälligen Prozesses, so dass es für ein Beispiel ausreicht) auf dem Intervall t = -10 ... 10:

x1(t) = cos(2*pi*t)

x2(t) = sint(2*pi*t) + h(t), wobei h(t) die Heaviside-Stufe ist,

und die Abtastrate ziemlich groß ist (viel größer als die Frequenz der Sinus- und Kosinuskurven selbst) fd >> 1

Hier sind die Diagramme zu diesen Prozessen:


Es liegt auf der Hand, dass aufgrund der Orthogonalität von Sinus/Cosinus der Wert des momentanen Korrelationskoeffizienten in der gesamten Probe gleich Null ist, mit Ausnahme des Punktes 0, wo der QC aufgrund der Diskontinuität des Prozesses schwer zu bestimmen ist.

Wenn wir jedoch dummerweise die gegebenen Prozesse in die Formel für den linearen Korrelationskoeffizienten einsetzen, erhalten wir Unsinn: das arithmetische Mittel der Zeit für den zweiten Prozess im Laufe der Zeit stellt sich nicht als 0, sondern als 1/2 heraus, und wir sind gezwungen, es in die Formel zu schreiben, wobei wir einen von 0 verschiedenen Ausgangswert haben, und die kürzere Stichprobe wird genommen (für das Intervall [-10;10] wird der so berechnete Koeffizient einer sein und für das Intervall, zum Beispiel [-3;3] - ein anderer). Dies kann mit dem integrierten QC-Verfahren in jedem Paket, sogar in Excel, leicht überprüft werden.

Hier sollte sich schon intuitiv ein Gefühl des Widerspruchs einstellen: Wenn wir eine Probe durch einen Punkt t=0 in zwei Teile teilen und auf dieselbe Weise für jeden Teil einen KK berechnen, erhalten wir in beiden Fällen 0, aber es stellt sich heraus, dass wir durch das Zusammenfügen zweier "Null"-Teile nicht Null haben? Wie kann das sein?

Der Grund dafür ist, dass die Nicht-Stationarität des Prozesses x2(t) nicht berücksichtigt wird und daher in diesem Fall das arithmetische Mittel über die Zeit nicht als Schätzung des Mittelwerts verwendet werden kann. Außerdem wissen wir aufgrund der Konstruktion, wie sich dieser Durchschnitt im Laufe der Zeit tatsächlich verändert. Daher muss das Berechnungsverfahren beide Teile auf der Grundlage von A-priori-Kenntnissen über die Prozesse präzise auf eine Form reduzieren, die die Behauptung der Stationarität ermöglicht.

Mit anderen Worten: Die Formel für die lineare QC sollte nicht x1(t) und x2(t) ersetzen, sondern x1(t) und x2'(t) = x2(t)-h(t), d. h. den stationären Term vom zweiten Prozess isolieren. Dann wird das Ergebnis der Formelberechnung mit der Erwartung übereinstimmen.

 
Integer:

Sprechen Sie nicht über irgendetwas, sondern seien Sie konkret, nennen Sie das Lehrbuch, zitieren Sie daraus und geben Sie die Definition an. Sind Sie trotzdem sicher, dass Sie die Definition richtig verstanden haben, wie können Sie so sicher sein? Haben Sie nicht versucht, den Korrelationskoeffizienten mit Ihren eigenen Händen zu berühren (zu experimentieren, zu spielen), um zu verstehen, zu erkennen, zu fühlen, was er ist?

Wie kann man nur so hochnäsig sein, dass man sich so weit nach unten beugen muss?

Ich weiß nicht, was ein Twist ist (es sei denn, es handelt sich um eine Art Tanz), ich habe die Definition von Korrelation auf Wikipedia nachgeschlagen:

Versuchen Sie, kritisch zu beurteilen, was irgendwo auf dem Zaun geschrieben steht? Was hat das mit Zufallswerten zu tun? Nur ein Arschloch kann diese Definition geschrieben haben. Wenn es in allen Lehrbüchern über Hip-Hop oder was auch immer dasselbe ist, dann wurden all diese Lehrbücher von Arschlöchern geschrieben, die nicht verstehen, was Korrelation ist, und die Gehirne der Schüler versaut haben.


TViST (Wahrscheinlichkeitsrechnung und Statistik) ist mein Hauptfach, ich habe es am Institut studiert und die Prüfung nach 5 Semestern mit Auszeichnung bestanden. Nun, ehrlich gesagt, werde ich hier keine Screenshots beglaubigen. Jeder, der will, kann jedes, ich wiederhole, jedes Lehrbuch aufschlagen, das zur Hand erscheint, obwohl unser, obwohl fremd, und sich überzeugen, was bei der Definition der Korrelation eine Frage ist, und was nicht. Wenn man der Meinung ist, dass sie alle von Arschlöchern geschrieben wurden, sollte man sie dann überhaupt nicht lesen? Nein, ich würde dieses Forum eher in die Kategorie der Zäune einordnen und kritisch bewerten, was hier und was dort geschrieben wird.

 
alsu:


Schon intuitiv sollte hier ein Gefühl des Widerspruchs aufkommen: Wenn wir nämlich die Probe durch t=0 halbieren und den QC für jeden Teil auf die gleiche Weise berechnen, erhalten wir in beiden Fällen 0, aber es stellt sich heraus, dass wir durch das Zusammennähen von zwei "Null"-Teilen nicht Null haben??? Wie kann das sein?

Nein. Ich suche nicht. Null für die eine Hälfte, Nicht-Null für die andere Hälfte.
 
alsu:

TViST (Wahrscheinlichkeitsrechnung und Statistik) ist mein Hauptfach, ich habe es im Institut studiert und die Prüfung nach 5 Semestern mit Auszeichnung bestanden. Nun, ehrlich gesagt, werde ich hier keine Screenshots beglaubigen. Jeder, der will, kann ein beliebiges, ich wiederhole, ein beliebiges Lehrbuch aufschlagen, das zur Hand ist, wenn auch unser, wenn auch fremdes, und sich davon überzeugen, was bei der Definition der Korrelation gesagt wird, und was nicht. Wenn man der Meinung ist, dass sie alle von Arschlöchern geschrieben wurden, sollte man sie dann überhaupt nicht lesen? Nein, ich würde dieses Forum eher in die Kategorie der Zäune einordnen und kritisch bewerten, was hier und was dort geschrieben wird.

Seltsamerweise scheint mein Lehrer, der mich am Korrelationsinstitut unterrichtete, diese Lehrbücher nicht gelesen zu haben... Glück für seine Schüler:)

 
alsu: ... Aufgrund der Orthogonalität von Sinus/Cosinus ist der Wert des momentanen Korrelationskoeffizienten in der gesamten Stichprobe gleich Null, mit Ausnahme des Punktes 0, wo der CC aufgrund der Diskontinuität des Prozesses schwer zu bestimmen ist.
Integer: Nein. Nicht suchen. Für die eine Hälfte null, für die andere Hälfte nicht null.

Ja, für die andere Hälfte nicht Null. Visuelle Täuschung.


Eine Folgefrage:

Sehr geehrte Damen und Herren, welche Daten für Preiszeitreihen (FX) verwenden Sie, wenn Sie Schlussfolgerungen über Stationarität, Verteilungen, Ergodizität, Korrelation und andere statistische Dinge ziehen? Die Frage ist unstrittig. Einfach oft eine der besten Bandmessungen, gemessen in astronomischer Zeit, vornehmen? Aber das ist ... wie soll ich es sagen... inakzeptabel. Es ist sinnvoll, die Abfolge der Kurswerte von "echten" Geschäften unter Berücksichtigung der realen Volumina zu analysieren. Vielleicht ist das der Sinn der Sache - die Daten für die Analyse vorzubereiten.

 

Interessante Diskussion. Vielleicht gehen sie zumindest hier der Sache auf den Grund.

Ich habe immer wieder versucht, diese Frage zu klären, habe mit klugen (wie es scheint) Leuten gesprochen, aber es scheint, dass niemand es versteht, sondern nur die Backen aufbläst )))

Die physikalische Bedeutung der Korrelation ist der Kosinus des Winkels zwischen den Vektoren (wobei die Koordinaten der Vektoren beide Ausgangswerte sind).

QC "vergleicht" also nur Kurvenformen, es wird nicht durch Skalierung (Änderung der Vektorlänge) oder Verschiebung (Verschiebung des Vektorursprungs) beeinflusst.

Ich weiß nicht, wie es mit Zitaten aussieht, aber in der Signalverarbeitung gilt QC nur für I(1). Insbesondere die Periodizität von Signalen lässt sich damit recht gut erkennen.

Ich würde gerne verstehen, welchen Sinn die Verwendung von QC für I(0) hat, denn es handelt sich um einen Vergleich der "Formen" von zwei fast völlig zufälligen Reihen, es kann per Definition keine Ähnlichkeit der Formen geben.

Und das alles für die lokale Anwendung.


Unabhängig davon würde ich gerne verstehen, was es bedeutet, QC, Verteilungen und andere Statistiken für die gesamte Serie auf einmal zu berechnen. Das ist die durchschnittliche Temperatur eines Krankenhauses in N Jahren, was soll das bringen?

Weder I(1) noch I(0) sind auf dem Markt stationär.

 
airbas: Auf dem Markt gibt es weder bei I(1) noch bei I(0) Stationarität.

Von welchen I(1) und I(0) sprechen Sie für den Markt?

I(0) ist per Definition ein stationärer Prozess. Wo steht das in den Zitaten?
 
Demi:
Ja? Und mir wurde einmal beigebracht, dass der Korrelationskoeffizient von Kosinus und Sinus gleichmäßig von -1 bis +1 variiert. Es stellt sich heraus, dass es 0........ ist.

Von -1 bis +1 ändert sich die Kreuzkorrelationsfunktion. Und der Stichprobenkorrelationskoeffizient ist eine _Zahl_. Und diese Zahl ist eine Konstante für zwei im Voraus festgelegte Stichproben. Nimmt man die Werte eines Paares orthogonaler Funktionen auf einem einheitlichen Gitter als Stichprobe, so ist der Koeffizient gleich Null. Dies ergibt sich aus der Definition der orthogonalen Funktionen - das Integral der Definition, das als Summe geschrieben wird, ist der Definition der Stichprobenkovarianz überraschend ähnlich.

Ganzzahlig:

Der Korrelationskoeffizient zeigt nichts anderes an, und die Berechnung der Korrelation hat nichts mit Normalität oder Ergodizität oder Stationarität zu tun. Welche Art von Lehrbüchern lesen Sie?

Wenn es Ihnen hauptsächlich darum geht, Zahlen in die Formel einzusetzen und eine Zahl zu erhalten, sind Stationarität und Ergodizität nicht wichtig.

Die Eigenschaft der Ergodizität ermöglicht es, die Korrelationsfunktion für die allgemeine Bevölkerung auf der Grundlage einer Stichprobe dieser Bevölkerung zu schätzen. Wenn diese Eigenschaft nicht erfüllt ist, kann die durch die Formel erhaltene Zahl verworfen werden.

Bei Stationarität ist es einfacher, ein Beispiel zu nennen. Man nehme ein Paar von Zufallsprozessen, deren stochastische Differentiale die Form haben:

dX(t) = mu_1 * dt + sigma_1 * dW_1;

dY(t) = mu_2 * dt + sigma_2 * dW_2;

dW_1, dW_2 sind korrelierte Wiener Prozesse (mit rho-Korrelation);

mu_1, mu_2, sigma_1, sigma_2 sind positive Konstanten.

Das Beispiel zeigt, dass der Korrelationskoeffizient eines Paares von undifferenzierten Reihen mit zunehmendem Stichprobenumfang gegen Eins tendiert (für jedes mu_1 und mu_2 - zu sign(mu_1 * mu_2) ), unabhängig von der Korrelation zwischen den Inkrementen. Der springende Punkt ist, dass beim I(1)-Prozess der Stichprobendurchschnitt nicht zu einer Konstante konvergiert.

mu_1=0,01; mu_2=0,05; sigma_1=1; sigma_2=1; rho=0,5:

mu <- c(0.01, 0.05)
sigma <- matrix(c(1, 0.5, 0.5, 1), 2, 2)

simulate.random.walks <- function (num.points, integrated = T) {
  ret.val <- matrix(rnorm(num.points * 2), num.points, 2) %*% chol(sigma)
  ret.val <- do.call(cbind, lapply(1 : 2, function (i) { ret.val[, i] + mu[i] } ))
  if (integrated) ret.val <- apply(ret.val, 2, cumsum)
  ret.val
}

num.points.grid <- trunc(exp(seq(log(10 ^ 2), log(10 ^ 6), length.out = 25)))
cor.integrated <- sapply(
  num.points.grid,
  function (num.points) { cor(simulate.random.walks(num.points, T))[1, 2] }
  )
cor.non.integrated <- sapply(
  num.points.grid,
  function (num.points) { cor(simulate.random.walks(num.points, F))[1, 2] }
  )

png(filename='c:/Users/User/Desktop/bgg.png', 800, 600)
par(mfrow = c(2, 1))
plot(num.points.grid, cor.integrated, xlog = T, t = 'o')
abline(h = 1, col = 'red', lty = 'dashed')
plot(num.points.grid, cor.non.integrated, xlog = T, t = 'o')
abline(h = 0.5, col = 'red', lty = 'dashed')
dev.off()

airbas:

Ich weiß nicht, wie es sich mit Zitaten verhält, aber in der Signalverarbeitung gilt QC nur für I(1) und ist gültig. Insbesondere die Periodizität von Signalen lässt sich damit recht gut erkennen.

Wissen Sie, an welcher Universität Sie Ihren Abschluss gemacht haben? Ich werde wissen, wer bei Vorstellungsgesprächen gründlicher auf seine Wahrnehmungsfähigkeit geprüft werden muss.

Integer, ich habe die gleiche Frage an Sie, wenn es nicht zu schwierig ist.

GaryKa:

Sehr geehrte Damen und Herren, welche Daten verwenden Sie für die Preiszeitreihen (FX), wenn Sie Schlussfolgerungen über Stationarität, Verteilungen, Ergodizität, Korrelation und andere statistische Dinge ziehen? Die Frage ist unstrittig. Einfach oft eine der besten Bandmessungen, gemessen in astronomischer Zeit, vornehmen? Aber das ist ... wie soll ich es sagen... inakzeptabel. Es ist sinnvoll, die Abfolge der Kurswerte von "echten" Geschäften unter Berücksichtigung der realen Volumina zu analysieren. Vielleicht ist das der Sinn der Sache - die Daten für die Analyse vorzubereiten.


Lesen Sie die Definitionen in einem beliebigen Lehrbuch, um das Wesentliche zu verstehen. Es macht überhaupt keinen Unterschied, ob Sie Bid/Ask/Midprice verwenden. Die numerischen Merkmale können leicht unterschiedlich sein, aber die Schlussfolgerungen bezüglich der Stationarität sind die gleichen.

 

Überprüfen Sie sich anschließend selbst auf Angemessenheit:

Свойство эргодичности позволяет оценивать корреляционную функцию для генеральной совокупности на основе выборки из оной. Если это свойство не выполняется - число, полученное по формуле, можно выкинуть.

 
Anonym, wissen Sie, ich lese das Forum regelmäßig, fast das ganze Forum, ich habe nicht einen einzigen Beitrag von Ihnen gesehen, der angemessen ist.