样本相关性为零并不一定意味着没有线性关系

trol222 2011.03.22 08:34 #381

在这里，从hrenfx 22.03.2011 00:43 的链接上的评论喜欢它。

有关联！有关联！有关联:)
这并不意味着一个是另一个的结果。
但这些现象是相关的。
(然后人们可能开始发明解释)。
但这不是问题的关键。
问题是，从某种角度来看，有可能预测一个人与另一个人的关系。到一定程度为止。)
当然，清楚地了解连接的机制将使人们能够预测连接何时结束。
但是...
但也只是通过不断地分析相关性--有可能预测它何时会结束。)

trol222 2011.03.22 08:50 #382

就像Grove：有一种相关性--不可能不是))))))))))。

hrenfx 2011.03.22 09:12 #383

Neutron:

我部分同意，但决不是全部同意。如果你想就你提出的问题进行实质性的讨论，你首先要读一读我的几篇揭示我对这个问题看法的帖子。我不得不多次重复自己，所以我不会再这样做了。刚刚通过PM给你发了两个我的帖子的链接。

Alexander Puzikov 2011.05.04 11:18 #384

hrenfx

下午好，我一直在关注你的主题，我对你的逻辑很感兴趣。

我有一个问题--你是否尝试从recycle2改写相关指标到mt5？

Vasiliy Sokolov 2013.04.08 11:31 #385

在我的研究中，我需要定性地评估这些系列之间的关系，因此我决定使用相关系数。结论是令人失望的--经典统计学建议使用的方法对于寻找系列之间的非明显关系几乎毫无用处。例如，让我们来看看黄金期货周线图和它的未平仓合约。

很明显，这两者之间有直接的关联。是的，这不是很强烈和明显，但当金价上涨时，黄金期货的未平仓合约价值更高，当它下跌时--更低。

稍后，我们将找到黄金价格和其OI之间的相关系数。但首先，让我们考虑最常见的皮尔逊相关公式。

如果你仔细观察，就会发现该公式将数据去趋势化（x-x中位数），通过整个样本的标准差来调整波动率，然后计算多长时间，两个系列都在同一方向上。显然，计算需要I(0)形式的第一次差分，因为在I(1)的情况下，我们是在埋伏，因为我们所处理的系列总是正的（价格总是大于零），但关于这一点也在后面。

皮尔逊相关：0.02234314

Kendel相关度：0.002866038

斯佩尔曼相关：0.002046104

也就是说，事实上，在所有情况下都没有发现相关性。但我们敏锐的眼睛呢？我们是否在想象这一切？而黄金和公开利息之间的相关性与从摩洛哥进口香蕉和该国的出生率之间的相关性一样吗？

也许原因是一个指标相对于另一个指标的滞后。滞后的情况就是不匹配的。如果OI先涨，黄金才做呢？- 哦，那就有可能靠这个赚钱了 :)让我们用交叉相关函数来测试这个想法。

有点难以令人信服。有一些两个数值从样本中脱颖而出，总的来说，这里的情况就像没有关系一样，因此滞后性没有起到作用。

好的。然后让我们试着计算I(1)系列的相关度。谁说在任何情况下都不应该这样做？让我们对结果有一个高估 - 但高估总比没有结果好。为此，我们进行了一个实验，让我们生成100个BP并计算它们的相关矩阵。平均值将显示估计值会被高估多少，简单地说，当在I（1）系列上工作时，我们是否会考虑到这一点？

这里有一个R上的脚本，可以做到这一切。

#
# corexp - эксперимент выявляющий особенности корреляционных функций при работе с I(1) рядами
# exp - количество экспериментов
# lenght - длинна каждой серии
# cortype - тип корреляции (pearson - КК Пирсона, kendall - КК Кендалла, spearman - КК Спирмана)
# retrange - Истина, если требуется сгенерировать I(1) ряды
#
corexp <- function(exp = 10, lenght = 1000, cortype = 'pearson', retrange = TRUE)
{
   bp <- matrix(ncol = exp, nrow = lenght)
   for(i in 1:exp)
   {
      bp[,i] <- rnorm(lenght, mean = 0.000117, sd = 0.0048)
      if(retrange == FALSE)
            bp[,i] <- cumsum(bp[,i])
   }
   #Рассчитываем матрицу корреляций
   mcor <- matrix(ncol=exp, nrow=exp)
   for(k in 1:exp)
   {
      for(i in 1:exp)
      {
         mcor[k,i] <- cor(bp[,k], bp[,i], method = cortype)
      }
   }
   return(mcor)
}

# Статистика корреляций
# При желании считаем здесь все что угодно
corstat <- function(m)
{
   m[m == 1] <- NaN
   mean(m, na.rm = TRUE)
}

让我们实际看一下这个 "平均值"：0.153359。这似乎很好--它被高估了，低至15%。但还有一个陷阱。我们看一下相关矩阵的分布。

在这种情况下，平均值根本没有被定义，或者说任何相关的数值都和其他数值一样频繁。这都是关于我们的BP的正向偏差，这是由黑体字突出的参数设置的。毕竟，我们处理的所有价格都是正值，也就是说，它们都在正区。

1.正如你所看到的，I（1）系列根本无法使用。对于那些关系不明显、没有严格功能的系列，相关系数是绝对无用的。

2.对相关系数的特定实现的选择并不从根本上影响任何东西。这三个常见的系数中没有一个能够揭示黄金与其公开利益之间的关系，尽管这种关系显然是存在的。

Дмитрий 2013.04.08 11:45 #386

C-4:

皮尔逊相关：0.02234314

Kendel相关度：0.002866038

斯佩尔曼相关：0.002046104

我们能不能看一下原始系列？例如，它们在Excel中是否可用？

Vasiliy Sokolov 2013.04.08 12:11 #387

原始行不被保存。这里是CSV格式的其中一代。

附加的文件：

bp.txt 2010 kb

Дмитрий 2013.04.08 12:22 #388

C-4:
原始行不被保存。这里是CSV格式的其中一代。

你的公开利益数据的来源行是什么？

Vasiliy Sokolov 2013.04.08 12:31 #389

这里是与黄金价格一致的OI数据。

附加的文件：

gold_oi_2.txt 19 kb

Дмитрий 2013.04.08 12:45 #390

样本相关性为零并不一定意味着没有线性关系 - 页 39