引文中的依赖性统计(信息论、相关和其他特征选择方法)。 - 页 2

 
alexeymosc:

首先,周期性不是在日线图上,而是在小时图上!这是不可能的。顺便说一下,我在那里写过。

而对于日线图来说,其结果不会是周期性的,你是对的。

请原谅,我们重复一下小时图。

原图为120小时。

我在图中没有看到周期性,趋势是存在的。让我们检查一下是否正常。

在烤肉啤酒上,这一点都不正常。检查ACF。

有趋势而无周期性--结果不同。

如果有一个趋势,就没有必要做统计分析。让我们用同样的Hodrick进行解读。

残余的是白噪声。看看其中的循环。


当然有波浪,但它并不坚实,与你的相比,一点也不美丽。我认为整个区别在于去趋势化。如果不去除去势的成分,就不可能进行统计。

 
你正在做你自己的事情。与我的工作完全没有联系 )))让我们从我用一系列增量工作的事实开始。然后,如果你把这个系列的值进行调制(即正负值)并建立一个自回归图,我打赌你会得到一个周期为24的漂亮的周期性。这在逻辑上更接近于我的业务。
 
昨天我在Hubra的一篇文章中加入了关于信息理论的摘录。它可能有助于理解寻找重要变量的过程。
 
alexeymosc:
你在做你自己的事情。与我正在做的事情一点关系都没有 )))让我们从我用一些增量工作的事实开始。然后,如果你把这个系列的值进行模数化(也就是正负值)并建立一个自回归图,我打赌你会得到一个周期为24的漂亮的周期性。这在逻辑上更接近于我的业务。

随你怎么说。我计算的增量是每一个连续的增量与前一个增量之差。我得到一个图表。

对于这些增量,我计算了ACF

请注意最后一栏是条形图之间没有相关性的概率。

我取增量的平方。这里是图表。

这些都是波动的峰值,增量的周期性与之有什么关系?也许是波动的周期性?这也很有意思。让我们检查一下增殖的周期性。

那么,这里没有周期性,注意最后一栏--没有相关性的概率极高。

还有两个数字很有意思。让我们检查一下增量的正常性。

请注意,根据Jarque-Bera的说法,正态性的概率等于零!

这是一种什么样的分布?我希望它是正常的。我一直认为用增量来工作的想法是值得怀疑的,因为增量是后来者与前者的区别。

最后。由于某些原因,我无法得到你的结果。

 

faa1947,你的计算与话题发起人所说的平均信息流 毫无关系。你是在处理过去5天的数据,而阿列克谢的 图表 处理十几年来的手表数据的结果。阿列克谢的 是一个统计数字,而你的是一个单独的、孤立的案例,在讨论的背景下证明不了什么。

专题讨论会所显示的周期性与波动性或回报没有直接关系。这不是一个价格周期,而是 一个in-forma-tsion-na-na。 横轴上是滞后,纵轴上是平均相互信息,单位是比特。而自回归图是阿列克谢 为了迷惑大家而提到的:)这不是回报率的自相关!这不是回报率的自相关。我们根本不谈这个问题,因为这些信息的依赖性在大多数情况下显然是非线性的,而且它们根本无法被ACF回报所检测到。

你仔细阅读了关于hubra的文章吗?它与你所喜爱的静止性无关,也与回报流的正常性无关,甚至与波动的条件周期性也无关。当然,在这里检查静止性也是很好的,但从信息上来说,这将是一个非常不同的类型(如果有的话)。

2 阿瓦尔斯: 我恐怕找不到深入的tick历史,无法直接测试你的波动性假设。是的,而且这里的计算在数量上将是完全疯狂的(它们已经相当庞大了)。我们将通过直接预测的尝试来判断所发现的情况(当然,如果它能成功的话;有很多很多的陷阱)。

 
Mathemat:

阿列克谢的 是一个统计数字,而你的是一个单独的、孤立的案例,在讨论的背景下证明不了什么。

我只想指出,当观察值的数量超过30个时,t统计数字会收敛为z统计数字。对我来说,10000次观察就一定比1000次好,这是个大新闻。为了揭示每小时数据的每周周期性--你需要几周的时间。但这是题外话了。


主题启动器显示的周期性与波动性或回报率无关。这根本不是一个价格周期,而是 一个in-form-ma-tsion-na-na。

更重要的是该方法的方法论 价值。对我来说,任何数学计算都必须有一个定性的经济解释,这是不言自明的。信息周期性是一些揭示数据周期性的公式,它本身就是一种递增关系。回去后,我们必须能够回到原来的时间序列,找到这些地方,并找到经济解释,也就是说,回到价格是必须的,否则只是另一种数学上的聪明。这就是为什么我把这个话题与常规周期联系起来。
 
Mathemat: 这不是回报率的自相关!这是不可能的。我们根本不谈这个问题,因为这些信息的依赖性在大多数情况下显然是非线性的,根本无法通过ACF回报来检测。

实际上,在文章的结尾处应用了数学统计的通常方法。

我弥补了我的误解,并采取了邻近的价格比例。

价格比的图表。

检查是否正常

令人惊讶的是,常态性被严格拒绝。

我们绘制ACF--它是滞后期之间的依赖关系+从ACF的依赖关系中清理出来的部分ACF

注意最后一栏--没有依赖关系的概率非常高。

我对这些图片有明确的经济解释,有报价表的支持。在最初的报价上是如何确认的,经济理由是什么?没有这些问题的答案,我就无法理解 "信息依赖 "的含义。

 
对你来说,最简单的答案是。你使用的是自相关,也就是说,你只是在寻找线性依赖关系。相互信息表明存在任意的 依赖关系,这就是所有的差异来自于此。另外,我用统计学上冗余的几千和几万个增量的样本进行了实验,而你用了一个星期。那一周可能是任何事情,这是一个特殊的情况。你的结果没有任何意义。
 
faa1947: 信息化的周期性是指在数据中揭示周期性的一些公式,它本身就是一种递增的关系。

从根本上说是错误的。在数据中不存在任何周期性的问题,如递增关系。

信息的依赖性被揭示出来,这根本不需要导致增量比率的周期性。这就是数据挖掘的特点,它使识别不在表面的结构成为可能。

回到过去,我们必须能够回到最初的时间序列,找到那些位置,并找到一个经济解释,也就是说,回到价格是必须的,否则只是另一种数学上的巧妙做法。这就是为什么我把这个话题与常规周期联系起来。

是的,他们应该,我没有争论。 不一定要有经济解释。这足以让我们回到价格上。但你把这种现象与正常周期联系起来是错误的。我不至于盲目到没有注意到图表上缺乏明显的周期性。

阿列克谢 已经告诉你线性和非线性依赖之间的区别。

 
alexeymosc:
对你来说,最简单的答案。你使用的是自相关,也就是说,你完全是在寻找线性的依赖关系。相互信息表明存在任意种类 的依赖关系,因此所有的差异都是如此。另外,我用几千和几万个增量的统计学上的冗余样本进行了实验,而你用了一个星期。那一周可能是任何事情,这是一个特殊的情况。你的结果没有任何意义。

另外,我是用几千和几万个增量的统计学上的冗余样本做实验,而你用了一个星期。那一周可能是任何事情,这是一个特殊的情况。你的结果没有任何意义。

在我看来,只有 在概率收敛于正态法的极限定理中,增加样本量才有意义。我想让你失望的是,如果我们不给自己设定这样一个目标,那么简单地增加样本量就没有任何作用。下面我给出一个增加10倍的样本。

作为下一个价格与前一个价格的比率的增量图。

这个图形的平方。

该图与你的有些相似。我有一个关于这个图的经济解释的问题,但你没有给出答案


下一步。


如果你与一个小10倍的样本进行比较,没有任何变化



这里有一些新的东西:没有关系的概率是零。


相互信息表明存在任意种类 的依赖关系,因此所有的差异都是如此。

我也会对 "线性 "和 "非线性 "保持谨慎,因为这个问题可以而且必须放在模型的框架内,你通过这个模型对时间序列 进行近似。通过分析这个模型的系数,你可以得出结论,这些系数是:常数(或几乎是常数),确定性的函数或随机性的函数。这是一个完全具体和建设性的分析依赖关系类型的过程 而发现这种信息依赖的建设性意义是什么?再说一遍,你在原始时间序列上是怎么看的?