样本相关性为零并不一定意味着没有线性关系 - 页 46

 

现在轮到我用图片来举例了。

假设在区间t=-10...10上有两个过程的样本(不是随机的,但毕竟非随机过程是随机过程的退化情况,所以它可以作为一个例子)。

x1(t) = cos(2*pi*t)

x2(t) = sint(2*pi*t) + h(t),其中h(t)是Heaviside步骤。

并且采样率相当大(远大于正弦和余弦本身的频率) fd >> 1

下面是这些过程的图表。


显然,由于正弦/余弦的正交性,瞬时相关系数的值在整个样品中为零,除了0点,由于过程的不连续性,QC难以以任何方式确定。

然而,当我们愚蠢地把给定的过程代入线性相关系数的公式时,我们得到的是无稽之谈:第二个过程的时间的算术平均数在时间内不是0而是1/2,我们被迫把它写进公式,有一个不同于0的输出值,并采取较短的样本(对于区间[-10;10],以这种方式计算的系数将是一个,对于区间,例如[-3;3] -另一个)。这可以很容易地用任何软件包中的内置QC程序来检查,甚至在Excel中也可以。

在这里,直觉上应该有一种矛盾的感觉:如果我们用一个点t=0将一个样本一分为二,并以同样的方式计算每一部分的KK,在这两种情况下我们都得到了0,但事实证明,将两个 "零 "的部分连接在一起,我们得到的不是零?这怎么可能呢?

原因是没有考虑到过程x2(t)的非平稳性,因此在这种情况下,我们不能把一段时间的算术平均值作为平均值的估计值。此外,根据结构,我们知道这个平均值实际上是如何随时间变化的。因此,计算程序必须在对过程的先验知识的基础上,精确地将这两部分减少到可以断言为静止的形式。

换句话说,线性质控的公式不应该用x1(t)和x2(t)代替,而是用x1(t)和x2'(t)=x2(t)-h(t)代替,即把静止项从第二个过程中分离出来。那么公式计算的结果将与期望值相吻合。

 
Integer:

不要谈论任何一个人,要具体,教科书的名称,引用它的定义。即使如此,你确定你的定义是正确的,你怎么能如此确定呢?没有尝试过用自己的手去触摸相关系数(去实验、去玩),去理解、认识、感受它是什么?

你怎么能如此固步自封,以至于要如此委曲求全呢?

我不知道什么是转折(除非是某种舞蹈),我在维基百科上查了相关的定义。

你是否试图批判性地评估写在某处栅栏上的东西?这与随机值有什么关系?只有一些混蛋才能写出这个定义。如果在所有关于嘻哈 或什么的教科书中都是一样的,那么所有这些教科书都是由不明白什么是相关性的混蛋写的,并且把学生的脑子搞坏了。


TViST(概率论和统计学的简称)是我的专业,我在学院学习,通过了5个学期的考试,成绩优异。好吧,说实话,我不打算在这里对截图进行公证。任何人都可以打开任何,我重复,任何 教科书,这将出现在手边,虽然我们的,虽然外国的,并被说服,什么在定义的相关性,这是一个问题,什么不是。如果人们认为所有这些书都是由混蛋写的,那么就根本不应该读这些书?不,我宁愿把这个论坛归入篱笆一类,首先批判性地评估这里写的东西,然后评估那里写的东西。

 
alsu:


这里直觉上已经有一种矛盾感:毕竟,如果我们把样本按t=0分成两半,并以同样的方式计算每一部分的QC,我们在两种情况下都得到0,但事实证明,把两个 "零 "的部分缝在一起,我们得到的不是零?这怎么可能呢?

不,不看。一半为零,另一半为非零。
 
alsu:

TViST(概率论和统计学的简称)是我的主修科目,我在学院学习,通过了5个学期的考试,成绩优异。好吧,说实话,我不打算在这里对截图进行公证。任何人都可以打开任何,我重复,任何 教科书,这将出现在手边,虽然我们的,虽然外国的,并被说服,什么在定义的相关性,这是一个问题,什么不是。如果人们认为所有这些书都是由混蛋写的,那么就根本不应该读这些书?不,我宁愿把这个论坛归入篱笆一类,首先批判性地评估这里写的东西,然后评估那里写的东西。

奇怪的是,在相关学院教我的老师似乎并没有读过这些教科书......。为他的学生感到幸运:)

 
alsu:...显然,由于正弦/余弦的正交性,整个样本的瞬时相关系数值为零,除了在0点,由于过程的不连续性,CC很难以任何方式确定。
整数:不对。不看。一半是零,另一半不是零。

是的,对于另一半不是零。视觉欺骗。


一个后续问题。

亲爱的,在得出关于静止性、分布、反复性、相关性和其他统计学东西的结论时,你们使用什么价格时间序列(外汇)的数据?这个问题是没有异议的。只是经常采取一个由天文时间量化的最佳带读数?但这是......。怎么说呢无法接受。分析 "真实 "交易的价格读数序列是有意义的,同时考虑到真实交易量。也许这就是问题所在--在为分析准备数据时。

 

有趣的讨论。也许他们至少会在这里查出真相。

我曾多次试图找出这个问题,与聪明人(似乎)交谈,但似乎没有人明白,只是鼓起腮帮子))。

相关性的物理意义是矢量之间角度的余弦(其中矢量的坐标都是初始样本)。

因此,QC实际上只 "比较 "曲线形状,它不受缩放(改变矢量长度)或位移(移动矢量原点)的影响。

我不知道报价,但在信号处理中,QC只对I(1)有效。特别是,它在检测信号周期性方面相当出色。

我想了解对I(0)使用QC的意义是什么,因为它是两个几乎完全随机的系列的 "形式 "的比较,根据定义,不可能有任何形式的相似性。

而这都是针对当地的应用。


另外,我想了解一次计算整个系列的质量控制、分布和其他统计数据的意义。这是N年来的医院平均温度,有什么意义呢?

市场上的I(1)或I(0)都不存在静止性。

 
airbas: 在市场上,无论是I(1)还是I(0),都不存在静止性。

你所说的市场的I(1)和I(0)是指什么?

根据定义,I(0)是一个固定的 过程。引文中哪里有?
 
Demi:
是吗?而我曾经被告知,余弦和正弦的相关系数在-1到+1之间平稳变化。原来是0........

从-1到+1,交叉相关_功能发生变化。而样本的相关系数是一个_数字。而这个数字是事先给定的两个样本的常数。如果我们把均匀网格上的一对正交函数的值作为样本,那么系数将等于零。这是从正交函数的定义得出的--写成和的定义的积分将与样本协方差的定义惊人地相似。

整数

相关系数没有显示其他东西,相关的计算与正态性或反复性或静止性无关。你在读什么样的教科书?

如果对你来说主要是把数字代入公式并得到一个数字,静止性和遍历性就不重要了。

遍历性的特性使你可以在一般人群的样本基础上估计该人群的相关函数。如果这个属性不满足,由公式得到的数字可以被抛出。

有了静止性,举个例子就更容易了。取一对随机过程,其随机差值的形式为:。

dX(t) = mu_1 * dt + sigma_1 * dW_1。

dY(t) = mu_2 * dt + sigma_2 * dW_2。

dW_1,dW_2是相关的维纳过程(有rho相关)。

mu_1, mu_2, sigma_1, sigma_2是正常数。

整个问题是,在I(1)过程中,样本平均值不会收敛到一个常数。

mu_1=0.01;mu_2=0.05;sigma_1=1;sigma_2=1;rho=0.5。

mu <- c(0.01, 0.05)
sigma <- matrix(c(1, 0.5, 0.5, 1), 2, 2)

simulate.random.walks <- function (num.points, integrated = T) {
  ret.val <- matrix(rnorm(num.points * 2), num.points, 2) %*% chol(sigma)
  ret.val <- do.call(cbind, lapply(1 : 2, function (i) { ret.val[, i] + mu[i] } ))
  if (integrated) ret.val <- apply(ret.val, 2, cumsum)
  ret.val
}

num.points.grid <- trunc(exp(seq(log(10 ^ 2), log(10 ^ 6), length.out = 25)))
cor.integrated <- sapply(
  num.points.grid,
  function (num.points) { cor(simulate.random.walks(num.points, T))[1, 2] }
  )
cor.non.integrated <- sapply(
  num.points.grid,
  function (num.points) { cor(simulate.random.walks(num.points, F))[1, 2] }
  )

png(filename='c:/Users/User/Desktop/bgg.png', 800, 600)
par(mfrow = c(2, 1))
plot(num.points.grid, cor.integrated, xlog = T, t = 'o')
abline(h = 1, col = 'red', lty = 'dashed')
plot(num.points.grid, cor.non.integrated, xlog = T, t = 'o')
abline(h = 0.5, col = 'red', lty = 'dashed')
dev.off()

气巴斯

我不知道对于报价,但在信号处理中,QC只对I(1)有效。特别是,它在检测信号的周期性方面相当出色。

你知道你毕业于哪所大学吗?我将知道谁需要在面试时更彻底地检查感知是否充分。

Integer,我有同样的问题要问你,如果不是太难的话。

GaryKa:

亲爱的,在得出关于静止性、分布、反复性、相关性和其他统计学上的结论时,你用什么数据来计算价格时间序列(外汇)?这个问题是没有异议的。只是经常采取一个由天文时间量化的最佳带读数?但这是......。怎么说呢无法接受。分析 "真实 "交易的价格读数序列是有意义的,同时考虑到真实交易量。也许这就是问题所在--在为分析准备数据时。


阅读任何教科书中的定义,就会明白其中的要点。你是否使用买入价/卖出价/中间价完全没有区别。数字特征可能略有不同,但关于静止性的结论将是相同的。

 

事后检查自己是否足够。

Свойство эргодичности позволяет оценивать корреляционную функцию для генеральной совокупности на основе выборки из оной. Если это свойство не выполняется - число, полученное по формуле, можно выкинуть.

 
匿名者,你知道,我经常看论坛,几乎是整个论坛,我没有看到你的任何一个帖子是足够的。