引文中的依赖性统计(信息论、相关和其他特征选择方法)。 - 页 11

 
HideYourRichess:

信息熵的概念是由香农针对独立符号提出的。如果你不相信我,请查阅学术字典。我不会再在这个问题上与你争论了。你不能计算市场的信息熵,因为你不知道字母表,你不知道符号的频率,符号的独立性也是未知的。

下一个问题,条件熵,只是在原始字母之间存在依赖关系的情况下。这个东西和讨论的信息熵不一样。

我不明白你从存档者的例子中得出什么结论,但我要说的是。归档者的任务是将条件熵转换为信息熵。也就是说,要创建一个完美定义的有限字母表,其中的字符,在所产生的序列中,将尽可能地独立。如果你在字母层面上混淆了文学文本的有序结构,那些字母序列当然会被打破,压缩效果也会变差。到了一个完全随机的字母集不能再被压缩的程度。


我发现你对这个问题的表述一开始就很矛盾。如果我们在计算相互信息的结果中得到一个不同于0的值,那么我们就采取了一个具有依赖性的字母表。如果我们研究独立的数值,那么相互信息将总是0(或非常接近这个数值)。
 
相互熵不等同于传统熵,也不等同于信息熵。
 
TheXpert: 什么是不按字母顺序排列的数字?

字母表--但不是数字系统。

字母选择。

好吧,那就这样吧。我是这样构建字母表的。

我找到了整个历史上收益的无条件分布(欧元兑美元,H1,约10年)。直方图或多或少是已知的。它是一条类似于高斯钟的曲线,但在零附近和尾部有差异。我不会在这里画它。

然后我选择我将把分布分成多少个量级。说,到30岁。这将是字母表。在这里,它是。

0: [-10000.000; -305.000),2166
1: [-305.000; -210.000),2167
2: [-210.000; -161.000),2166
3: [-161.000; -130.000),2166
4: [-130.000; -110.000),2166
5: [-110.000; -90.000), 2167
6: [-90.000; -80.000), 2166
7: [-80.000; -60.000),2166
8: [-60.000; -50.000),2166
9: [-50.000; -40.000),2167
10: [-40.000; -30.000),2166
11: [-30.000; -20.000),2166
12: [-20.000; -10.000), 2166
13: [-10.000; -10.000), 2167
14: [-10.000; 0。000),2166
15:[0.000;10.000),2166
16:[10.000;20.000),2167
17:[20.000;24.000),2166
18:[24.000;30.000),2166
19:[30.000;40.000),2166
20:[40.000;50.000),2167
21:[50.000;62.000),2166
22:[62.000;80。000),2166
23: [80.000; 90.000),2166
24: [90.000; 110.000),2167
25: [110.000; 136.000),2166
26: [136.000; 170.000),2166
27: [170.000; 211.000),2166
28: [211.000; 300.000), 2167
29: [300.000; 10000.000), 2167

解释:首先是四分位数(从0到29)。然后是半区间,它描述了五位数 点位的量化边界。例如,量化指标22对应的是62至80点的正收益。而最后一个数字是属于该四分位数的数值的数量(以控制细分为四分位数的正确性)。

是的,对于大的回报来说,这不是很好看,因为在现实中回报可以达到约3000个新点。这些尾巴很肥,没办法......。

在计算卡方标准时,这个字母对我来说特别方便。这很方便,因为即使是非常严重的偏离独立性,联合命中的最小频率也不低于5(这是chi-square的正确性条件)。也许选择不同的英文字母会更好。

而在一般情况下,比如说,量子数为50,最外层的量子数的内边界就会被推回到大约380个新点(而不是之前的300)。这个好些了,但仍然不大。

 
Mathemat:

然后我选择我想把分布分成多少个量级。比方说30。这将是字母表。这就是它的作用。

如果你不介意的话,你能告诉我如何用字母表分析数据吗? 我目前正在努力解决一个类似的问题,到目前为止,我在Matlab中使用NS进行分析。

除了NS之外,是否有办法分析以字母形式呈现的数据?

 
Mathemat:

这是很现实的。我没有注意到任何限制,但在MQL4中是可以做和和对数的。我不知道谢尔盖夫 做了什么。但据我从其他渠道了解,计算中最困难的部分是计算伽马函数。TI是不可能的。


人们根据Y.Sultonov的文章"用于市场价格预测的通用回归模型 " 写了这个指标-- Kodobase中。

那里有 类似的结构吗?还是没有?

 
HideYourRichess:
相互熵与传统熵不一样,与信息熵也不一样。

你正在偏离问题。如果我们要求系统独立于随机值,那么应用互信息统计的目的是什么?在这种情况下,相互信息将为零。到处都写着这一点。

我还要说,把熵的概念引入TC是典型的苏联学派的做法。美国人给出了以下经典的相互信息计算公式。

也就是说,这里不存在熵这个概念。

 
HideYourRichess: 香农提出了独立符号的信息熵的概念。如果你不相信我,请查阅学术字典。

找到一篇关于信息熵的文章(Wiki)。从那里引用1句话。

是产生统计上独立的信息的源的每个基本信息的信息量。

它是熵,常规的熵。这就是你所说的定义吗?

是的,我愿意同意字母表中的字母在统计学上必须是 独立的,这样才不会有冗余或依赖性。这大概就是存档者在做的事情,创建一个明显不同于用于创建文本的字母表。

但这不是我们要计算的!我们正在计算的是下一步。

此外,你已经从同一个地方得到了引文2。
条件熵

如果一个字母的符号序列不是独立的(例如,在法语 中,"q "几乎总是跟在 "u "后面,而苏联报纸中的 "先锋 "一词通常跟在 "生产 "或 "劳动 "后面),那么这种符号序列所携带的信息量(以及由此产生的熵)显然要少一些。条件熵是用来说明这种事实的。

这是不一样的,你已经写过了。

HideYourRichess : 下一个问题,条件熵,正是原始字母表的字符之间存在依赖关系时的情况。这个东西和有关的信息熵是不一样的。

题主的演讲(我也是)不是关于信息熵的,而是,该死的, 相互信息(又是维基)!!!。

相互信息 是两个随机变量的统计函数,描述了一个随机变量相对于另一个变量所包含的信息量。

相互信息通过两个随机变量条件熵 定义为[接下来是I(X,Y)的公式

现在说说你最后的论点。

HideYourRichess : 档案员的任务是将条件熵转化为信息熵。也就是说,要创建一个完美定义的有界字母表,其中的字符,在产生的序列中,将尽可能地独立。如果你在字母层面上混淆了文学文本的有序结构,那些字母序列当然会被打破,压缩效果也会变差。到了一个完全随机的字母集不能再被压缩的程度。那又怎样?这和集市有什么关系?

争论的焦点是,它不是关于你所说的信息熵,而是关于相互信息。就这样了。句号。争论已经结束。

 
IgorM:

如果你不介意的话,你能告诉我如何用字母表分析数据吗? 我目前正在努力解决一个类似的问题,到目前为止,我在Matlab中使用NS进行分析。

除了NS之外,还有没有其他方法来分析以字母形式表示的数据?

说实话,我并不真正理解你的问题。只要给字母表中的每个字符指定一个序列号 - 然后像往常一样分析这些数字。也许有一些具体的东西,但我并不清楚。

罗曼: 人们根据苏尔托诺夫的文章"市场价格预测的通用回归模型 " 写了这个指标-- kodobase中。

那里 是否有一些类似的结构?还是没有?

那里甚至没有一丝一毫的泰尔/统计学或信息论的内容!优素福 在这个主题里发了他的帖子,但结果是事后才想到的,因为它与讨论的主题无关。虽然...是的,对数似乎是存在的...
 
Mathemat:

那里甚至没有一丝一毫的泰尔/统计学或信息理论的内容!虽然...是的,有对数,我想...

我只是说, 这里这里 曲线和方块 在我看来很像......:-)),包括伽马分布的存在,因此解决的方法应该是非常相似的

这样的事情可能吗,至少是经常性的?

 

问题是,伽马分布函数出现在文章中,仿佛是凭空出现的,据说是通过解决一个确定性的运动困境--但不是统计或观察性分析的结果。罗曼,到目前为止,我没有看到在解决方法上有任何相似之处--即使是常规的。

但如果你仔细观察,还是可以发现一些相似之处--比如说,在 "分配 "这个词中,也可以看到优素福的 文章:)