引文中的依赖性统计（信息论、相关和其他特征选择方法）。

Alexey Burnakov 2011.09.05 14:02 #101

HideYourRichess:

信息熵的概念是由香农针对独立符号提出的。如果你不相信我，请查阅学术字典。我不会再在这个问题上与你争论了。你不能计算市场的信息熵，因为你不知道字母表，你不知道符号的频率，符号的独立性也是未知的。

下一个问题，条件熵，只是在原始字母之间存在依赖关系的情况下。这个东西和讨论的信息熵不一样。

我不明白你从存档者的例子中得出什么结论，但我要说的是。归档者的任务是将条件熵转换为信息熵。也就是说，要创建一个完美定义的有限字母表，其中的字符，在所产生的序列中，将尽可能地独立。如果你在字母层面上混淆了文学文本的有序结构，那些字母序列当然会被打破，压缩效果也会变差。到了一个完全随机的字母集不能再被压缩的程度。

我发现你对这个问题的表述一开始就很矛盾。如果我们在计算相互信息的结果中得到一个不同于0的值，那么我们就采取了一个具有依赖性的字母表。如果我们研究独立的数值，那么相互信息将总是0（或非常接近这个数值）。

Hide 2011.09.05 14:09 #102

相互熵不等同于传统熵，也不等同于信息熵。

Sceptic Philozoff 2011.09.05 14:17 #103

TheXpert: 什么是不按字母顺序排列的数字？

字母表--但不是数字系统。

字母选择。

好吧，那就这样吧。我是这样构建字母表的。

我找到了整个历史上收益的无条件分布（欧元兑美元，H1，约10年）。直方图或多或少是已知的。它是一条类似于高斯钟的曲线，但在零附近和尾部有差异。我不会在这里画它。

然后我选择我将把分布分成多少个量级。说，到30岁。这将是字母表。在这里，它是。

0: [-10000.000; -305.000),2166
1: [-305.000; -210.000),2167
2: [-210.000; -161.000),2166
3: [-161.000; -130.000),2166
4: [-130.000; -110.000),2166
5: [-110.000; -90.000), 2167
6: [-90.000; -80.000), 2166
7: [-80.000; -60.000),2166
8: [-60.000; -50.000),2166
9: [-50.000; -40.000),2167
10: [-40.000; -30.000),2166
11: [-30.000; -20.000),2166
12: [-20.000; -10.000), 2166
13: [-10.000; -10.000), 2167
14: [-10.000; 0。000）,2166
15：[0.000；10.000）,2166
16：[10.000；20.000）,2167
17：[20.000；24.000）,2166
18：[24.000；30.000）,2166
19：[30.000；40.000）,2166
20：[40.000；50.000），2167
21：[50.000；62.000），2166
22：[62.000；80。000）,2166
23: [80.000; 90.000）,2166
24: [90.000; 110.000）,2167
25: [110.000; 136.000）,2166
26: [136.000; 170.000）,2166
27: [170.000; 211.000）,2166
28: [211.000; 300.000）, 2167
29: [300.000; 10000.000）, 2167

解释：首先是四分位数（从0到29）。然后是半区间，它描述了五位数点位的量化边界。例如，量化指标22对应的是62至80点的正收益。而最后一个数字是属于该四分位数的数值的数量（以控制细分为四分位数的正确性）。

是的，对于大的回报来说，这不是很好看，因为在现实中回报可以达到约3000个新点。这些尾巴很肥，没办法......。

在计算卡方标准时，这个字母对我来说特别方便。这很方便，因为即使是非常严重的偏离独立性，联合命中的最小频率也不低于5（这是chi-square的正确性条件）。也许选择不同的英文字母会更好。

而在一般情况下，比如说，量子数为50，最外层的量子数的内边界就会被推回到大约380个新点（而不是之前的300）。这个好些了，但仍然不大。

Dependency statistics in quotes Lot size, contract size, Any questions from newcomers

Igor Makanu 2011.09.05 14:21 #104

Mathemat:

然后我选择我想把分布分成多少个量级。比方说30。这将是字母表。这就是它的作用。

如果你不介意的话，你能告诉我如何用字母表分析数据吗？我目前正在努力解决一个类似的问题，到目前为止，我在Matlab中使用NS进行分析。

除了NS之外，是否有办法分析以字母形式呈现的数据？

Роман 2011.09.05 14:26 #105

Mathemat:

这是很现实的。我没有注意到任何限制，但在MQL4中是可以做和和对数的。我不知道谢尔盖夫 做了什么。但据我从其他渠道了解，计算中最困难的部分是计算伽马函数。TI是不可能的。

人们根据Y.Sultonov的文章"用于市场价格预测的通用回归模型 " 写了这个指标--在 Kodobase中。

那里有 类似的结构吗？还是没有？

Alexey Burnakov 2011.09.05 14:39 #106

HideYourRichess:
相互熵与传统熵不一样，与信息熵也不一样。

你正在偏离问题。如果我们要求系统独立于随机值，那么应用互信息统计的目的是什么？在这种情况下，相互信息将为零。到处都写着这一点。

我还要说，把熵的概念引入TC是典型的苏联学派的做法。美国人给出了以下经典的相互信息计算公式。

也就是说，这里不存在熵这个概念。

Sceptic Philozoff 2011.09.05 14:58 #107

HideYourRichess: 香农提出了独立符号的信息熵的概念。如果你不相信我，请查阅学术字典。

找到一篇关于信息熵的文章（Wiki）。从那里引用1句话。

熵是产生统计上独立的信息的源的每个基本信息的信息量。

它是熵，常规的熵。这就是你所说的定义吗？

是的，我愿意同意字母表中的字母在统计学上必须是独立的，这样才不会有冗余或依赖性。这大概就是存档者在做的事情，创建一个明显不同于用于创建文本的字母表。

但这不是我们要计算的!我们正在计算的是下一步。

此外，你已经从同一个地方得到了引文2。

条件熵

如果一个字母的符号序列不是独立的（例如，在法语中，"q "几乎总是跟在 "u "后面，而苏联报纸中的 "先锋 "一词通常跟在 "生产 "或 "劳动 "后面），那么这种符号序列所携带的信息量（以及由此产生的熵）显然要少一些。条件熵是用来说明这种事实的。

这是不一样的，你已经写过了。

HideYourRichess : 下一个问题，条件熵，正是原始字母表的字符之间存在依赖关系时的情况。这个东西和有关的信息熵是不一样的。

题主的演讲（我也是）不是关于信息熵的，而是，该死的， 相互信息（又是维基）！！！。

相互信息 是两个随机变量的统计函数，描述了一个随机变量相对于另一个变量所包含的信息量。

相互信息通过两个随机变量的熵和条件熵定义为[接下来是I（X,Y）的公式

现在说说你最后的论点。

HideYourRichess : 档案员的任务是将条件熵转化为信息熵。也就是说，要创建一个完美定义的有界字母表，其中的字符，在产生的序列中，将尽可能地独立。如果你在字母层面上混淆了文学文本的有序结构，那些字母序列当然会被打破，压缩效果也会变差。到了一个完全随机的字母集不能再被压缩的程度。那又怎样？这和集市有什么关系？

争论的焦点是，它不是关于你所说的信息熵，而是关于相互信息。就这样了。句号。争论已经结束。

Sceptic Philozoff 2011.09.05 15:17 #108

IgorM:

如果你不介意的话，你能告诉我如何用字母表分析数据吗？我目前正在努力解决一个类似的问题，到目前为止，我在Matlab中使用NS进行分析。

除了NS之外，还有没有其他方法来分析以字母形式表示的数据？

说实话，我并不真正理解你的问题。只要给字母表中的每个字符指定一个序列号 - 然后像往常一样分析这些数字。也许有一些具体的东西，但我并不清楚。

罗曼： 人们根据苏尔托诺夫的文章"市场价格预测的通用回归模型 " 写了这个指标--在 kodobase中。

那里是否有一些类似的结构？还是没有？

那里甚至没有一丝一毫的泰尔/统计学或信息论的内容!优素福 在这个主题里发了他的帖子，但结果是事后才想到的，因为它与讨论的主题无关。虽然...是的，对数似乎是存在的...

Роман 2011.09.05 15:38 #109

Mathemat:

那里甚至没有一丝一毫的泰尔/统计学或信息理论的内容!虽然...是的，有对数，我想...

我只是说，这里和这里的 曲线和方块 在我看来很像......:-))，包括伽马分布的存在，因此解决的方法应该是非常相似的。

这样的事情可能吗，至少是经常性的？

Sceptic Philozoff 2011.09.05 15:54 #110

问题是，伽马分布函数出现在文章中，仿佛是凭空出现的，据说是通过解决一个确定性的运动困境--但不是统计或观察性分析的结果。罗曼，到目前为止，我没有看到在解决方法上有任何相似之处--即使是常规的。

但如果你仔细观察，还是可以发现一些相似之处--比如说，在 "分配 "这个词中，也可以看到优素福的 文章:)

引文中的依赖性统计（信息论、相关和其他特征选择方法）。 - 页 11