引文中的依赖性统计(信息论、相关和其他特征选择方法)。 - 页 11 1...456789101112131415161718...74 新评论 Alexey Burnakov 2011.09.05 14:02 #101 HideYourRichess: 信息熵的概念是由香农针对独立符号提出的。如果你不相信我,请查阅学术字典。我不会再在这个问题上与你争论了。你不能计算市场的信息熵,因为你不知道字母表,你不知道符号的频率,符号的独立性也是未知的。 下一个问题,条件熵,只是在原始字母之间存在依赖关系的情况下。这个东西和讨论的信息熵不一样。 我不明白你从存档者的例子中得出什么结论,但我要说的是。归档者的任务是将条件熵转换为信息熵。也就是说,要创建一个完美定义的有限字母表,其中的字符,在所产生的序列中,将尽可能地独立。如果你在字母层面上混淆了文学文本的有序结构,那些字母序列当然会被打破,压缩效果也会变差。到了一个完全随机的字母集不能再被压缩的程度。 我发现你对这个问题的表述一开始就很矛盾。如果我们在计算相互信息的结果中得到一个不同于0的值,那么我们就采取了一个具有依赖性的字母表。如果我们研究独立的数值,那么相互信息将总是0(或非常接近这个数值)。 Hide 2011.09.05 14:09 #102 相互熵不等同于传统熵,也不等同于信息熵。 Sceptic Philozoff 2011.09.05 14:17 #103 TheXpert: 什么是不按字母顺序排列的数字?字母表--但不是数字系统。 字母选择。 好吧,那就这样吧。我是这样构建字母表的。 我找到了整个历史上收益的无条件分布(欧元兑美元,H1,约10年)。直方图或多或少是已知的。它是一条类似于高斯钟的曲线,但在零附近和尾部有差异。我不会在这里画它。 然后我选择我将把分布分成多少个量级。说,到30岁。这将是字母表。在这里,它是。 0: [-10000.000; -305.000),2166 1: [-305.000; -210.000),2167 2: [-210.000; -161.000),2166 3: [-161.000; -130.000),2166 4: [-130.000; -110.000),2166 5: [-110.000; -90.000), 2167 6: [-90.000; -80.000), 2166 7: [-80.000; -60.000),2166 8: [-60.000; -50.000),2166 9: [-50.000; -40.000),2167 10: [-40.000; -30.000),2166 11: [-30.000; -20.000),2166 12: [-20.000; -10.000), 2166 13: [-10.000; -10.000), 2167 14: [-10.000; 0。000),2166 15:[0.000;10.000),2166 16:[10.000;20.000),2167 17:[20.000;24.000),2166 18:[24.000;30.000),2166 19:[30.000;40.000),2166 20:[40.000;50.000),2167 21:[50.000;62.000),2166 22:[62.000;80。000),2166 23: [80.000; 90.000),2166 24: [90.000; 110.000),2167 25: [110.000; 136.000),2166 26: [136.000; 170.000),2166 27: [170.000; 211.000),2166 28: [211.000; 300.000), 2167 29: [300.000; 10000.000), 2167 解释:首先是四分位数(从0到29)。然后是半区间,它描述了五位数 点位的量化边界。例如,量化指标22对应的是62至80点的正收益。而最后一个数字是属于该四分位数的数值的数量(以控制细分为四分位数的正确性)。 是的,对于大的回报来说,这不是很好看,因为在现实中回报可以达到约3000个新点。这些尾巴很肥,没办法......。 在计算卡方标准时,这个字母对我来说特别方便。这很方便,因为即使是非常严重的偏离独立性,联合命中的最小频率也不低于5(这是chi-square的正确性条件)。也许选择不同的英文字母会更好。 而在一般情况下,比如说,量子数为50,最外层的量子数的内边界就会被推回到大约380个新点(而不是之前的300)。这个好些了,但仍然不大。 Dependency statistics in quotes Lot size, contract size, Any questions from newcomers Igor Makanu 2011.09.05 14:21 #104 Mathemat: 然后我选择我想把分布分成多少个量级。比方说30。这将是字母表。这就是它的作用。 如果你不介意的话,你能告诉我如何用字母表分析数据吗? 我目前正在努力解决一个类似的问题,到目前为止,我在Matlab中使用NS进行分析。 除了NS之外,是否有办法分析以字母形式呈现的数据? Роман 2011.09.05 14:26 #105 Mathemat: 这是很现实的。我没有注意到任何限制,但在MQL4中是可以做和和对数的。我不知道谢尔盖夫 做了什么。但据我从其他渠道了解,计算中最困难的部分是计算伽马函数。TI是不可能的。 人们根据Y.Sultonov的文章"用于市场价格预测的通用回归模型 " 写了这个指标--在 Kodobase中。 那里有 类似的结构吗?还是没有? Alexey Burnakov 2011.09.05 14:39 #106 HideYourRichess: 相互熵与传统熵不一样,与信息熵也不一样。 你正在偏离问题。如果我们要求系统独立于随机值,那么应用互信息统计的目的是什么?在这种情况下,相互信息将为零。到处都写着这一点。 我还要说,把熵的概念引入TC是典型的苏联学派的做法。美国人给出了以下经典的相互信息计算公式。 也就是说,这里不存在熵这个概念。 Sceptic Philozoff 2011.09.05 14:58 #107 HideYourRichess: 香农提出了独立符号的信息熵的概念。如果你不相信我,请查阅学术字典。 找到一篇关于信息熵的文章(Wiki)。从那里引用1句话。 熵 是产生统计上独立的信息的源的每个基本信息的信息量。 它是熵,常规的熵。这就是你所说的定义吗? 是的,我愿意同意字母表中的字母在统计学上必须是 独立的,这样才不会有冗余或依赖性。这大概就是存档者在做的事情,创建一个明显不同于用于创建文本的字母表。 但这不是我们要计算的!我们正在计算的是下一步。 此外,你已经从同一个地方得到了引文2。条件熵如果一个字母的符号序列不是独立的(例如,在法语 中,"q "几乎总是跟在 "u "后面,而苏联报纸中的 "先锋 "一词通常跟在 "生产 "或 "劳动 "后面),那么这种符号序列所携带的信息量(以及由此产生的熵)显然要少一些。条件熵是用来说明这种事实的。 这是不一样的,你已经写过了。 HideYourRichess : 下一个问题,条件熵,正是原始字母表的字符之间存在依赖关系时的情况。这个东西和有关的信息熵是不一样的。 题主的演讲(我也是)不是关于信息熵的,而是,该死的, 相互信息(又是维基)!!!。 相互信息 是两个随机变量的统计函数,描述了一个随机变量相对于另一个变量所包含的信息量。 相互信息通过两个随机变量 的熵 和条件熵 定义为[接下来是I(X,Y)的公式 现在说说你最后的论点。 HideYourRichess : 档案员的任务是将条件熵转化为信息熵。也就是说,要创建一个完美定义的有界字母表,其中的字符,在产生的序列中,将尽可能地独立。如果你在字母层面上混淆了文学文本的有序结构,那些字母序列当然会被打破,压缩效果也会变差。到了一个完全随机的字母集不能再被压缩的程度。那又怎样?这和集市有什么关系? 争论的焦点是,它不是关于你所说的信息熵,而是关于相互信息。就这样了。句号。争论已经结束。 Sceptic Philozoff 2011.09.05 15:17 #108 IgorM: 如果你不介意的话,你能告诉我如何用字母表分析数据吗? 我目前正在努力解决一个类似的问题,到目前为止,我在Matlab中使用NS进行分析。 除了NS之外,还有没有其他方法来分析以字母形式表示的数据? 说实话,我并不真正理解你的问题。只要给字母表中的每个字符指定一个序列号 - 然后像往常一样分析这些数字。也许有一些具体的东西,但我并不清楚。 罗曼: 人们根据苏尔托诺夫的文章"市场价格预测的通用回归模型 " 写了这个指标--在 kodobase中。 那里 是否有一些类似的结构?还是没有? 那里甚至没有一丝一毫的泰尔/统计学或信息论的内容!优素福 在这个主题里发了他的帖子,但结果是事后才想到的,因为它与讨论的主题无关。虽然...是的,对数似乎是存在的... Роман 2011.09.05 15:38 #109 Mathemat: 那里甚至没有一丝一毫的泰尔/统计学或信息理论的内容!虽然...是的,有对数,我想... 我只是说, 这里 和这里 的 曲线和方块 在我看来很像......:-)),包括伽马分布的存在,因此解决的方法应该是非常相似的。 这样的事情可能吗,至少是经常性的? Sceptic Philozoff 2011.09.05 15:54 #110 问题是,伽马分布函数出现在文章中,仿佛是凭空出现的,据说是通过解决一个确定性的运动困境--但不是统计或观察性分析的结果。罗曼,到目前为止,我没有看到在解决方法上有任何相似之处--即使是常规的。 但如果你仔细观察,还是可以发现一些相似之处--比如说,在 "分配 "这个词中,也可以看到优素福的 文章:) 1...456789101112131415161718...74 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
信息熵的概念是由香农针对独立符号提出的。如果你不相信我,请查阅学术字典。我不会再在这个问题上与你争论了。你不能计算市场的信息熵,因为你不知道字母表,你不知道符号的频率,符号的独立性也是未知的。
下一个问题,条件熵,只是在原始字母之间存在依赖关系的情况下。这个东西和讨论的信息熵不一样。
我不明白你从存档者的例子中得出什么结论,但我要说的是。归档者的任务是将条件熵转换为信息熵。也就是说,要创建一个完美定义的有限字母表,其中的字符,在所产生的序列中,将尽可能地独立。如果你在字母层面上混淆了文学文本的有序结构,那些字母序列当然会被打破,压缩效果也会变差。到了一个完全随机的字母集不能再被压缩的程度。
我发现你对这个问题的表述一开始就很矛盾。如果我们在计算相互信息的结果中得到一个不同于0的值,那么我们就采取了一个具有依赖性的字母表。如果我们研究独立的数值,那么相互信息将总是0(或非常接近这个数值)。
字母表--但不是数字系统。
字母选择。
好吧,那就这样吧。我是这样构建字母表的。
我找到了整个历史上收益的无条件分布(欧元兑美元,H1,约10年)。直方图或多或少是已知的。它是一条类似于高斯钟的曲线,但在零附近和尾部有差异。我不会在这里画它。
然后我选择我将把分布分成多少个量级。说,到30岁。这将是字母表。在这里,它是。
0: [-10000.000; -305.000),2166
1: [-305.000; -210.000),2167
2: [-210.000; -161.000),2166
3: [-161.000; -130.000),2166
4: [-130.000; -110.000),2166
5: [-110.000; -90.000), 2167
6: [-90.000; -80.000), 2166
7: [-80.000; -60.000),2166
8: [-60.000; -50.000),2166
9: [-50.000; -40.000),2167
10: [-40.000; -30.000),2166
11: [-30.000; -20.000),2166
12: [-20.000; -10.000), 2166
13: [-10.000; -10.000), 2167
14: [-10.000; 0。000),2166
15:[0.000;10.000),2166
16:[10.000;20.000),2167
17:[20.000;24.000),2166
18:[24.000;30.000),2166
19:[30.000;40.000),2166
20:[40.000;50.000),2167
21:[50.000;62.000),2166
22:[62.000;80。000),2166
23: [80.000; 90.000),2166
24: [90.000; 110.000),2167
25: [110.000; 136.000),2166
26: [136.000; 170.000),2166
27: [170.000; 211.000),2166
28: [211.000; 300.000), 2167
29: [300.000; 10000.000), 2167
解释:首先是四分位数(从0到29)。然后是半区间,它描述了五位数 点位的量化边界。例如,量化指标22对应的是62至80点的正收益。而最后一个数字是属于该四分位数的数值的数量(以控制细分为四分位数的正确性)。
是的,对于大的回报来说,这不是很好看,因为在现实中回报可以达到约3000个新点。这些尾巴很肥,没办法......。
在计算卡方标准时,这个字母对我来说特别方便。这很方便,因为即使是非常严重的偏离独立性,联合命中的最小频率也不低于5(这是chi-square的正确性条件)。也许选择不同的英文字母会更好。
而在一般情况下,比如说,量子数为50,最外层的量子数的内边界就会被推回到大约380个新点(而不是之前的300)。这个好些了,但仍然不大。
然后我选择我想把分布分成多少个量级。比方说30。这将是字母表。这就是它的作用。
如果你不介意的话,你能告诉我如何用字母表分析数据吗? 我目前正在努力解决一个类似的问题,到目前为止,我在Matlab中使用NS进行分析。
除了NS之外,是否有办法分析以字母形式呈现的数据?
这是很现实的。我没有注意到任何限制,但在MQL4中是可以做和和对数的。我不知道谢尔盖夫 做了什么。但据我从其他渠道了解,计算中最困难的部分是计算伽马函数。TI是不可能的。
人们根据Y.Sultonov的文章"用于市场价格预测的通用回归模型 " 写了这个指标--在 Kodobase中。
那里有 类似的结构吗?还是没有?
相互熵与传统熵不一样,与信息熵也不一样。
你正在偏离问题。如果我们要求系统独立于随机值,那么应用互信息统计的目的是什么?在这种情况下,相互信息将为零。到处都写着这一点。
我还要说,把熵的概念引入TC是典型的苏联学派的做法。美国人给出了以下经典的相互信息计算公式。
也就是说,这里不存在熵这个概念。
找到一篇关于信息熵的文章(Wiki)。从那里引用1句话。
熵 是产生统计上独立的信息的源的每个基本信息的信息量。
它是熵,常规的熵。这就是你所说的定义吗?
是的,我愿意同意字母表中的字母在统计学上必须是 独立的,这样才不会有冗余或依赖性。这大概就是存档者在做的事情,创建一个明显不同于用于创建文本的字母表。
但这不是我们要计算的!我们正在计算的是下一步。
此外,你已经从同一个地方得到了引文2。如果一个字母的符号序列不是独立的(例如,在法语 中,"q "几乎总是跟在 "u "后面,而苏联报纸中的 "先锋 "一词通常跟在 "生产 "或 "劳动 "后面),那么这种符号序列所携带的信息量(以及由此产生的熵)显然要少一些。条件熵是用来说明这种事实的。
这是不一样的,你已经写过了。
HideYourRichess : 下一个问题,条件熵,正是原始字母表的字符之间存在依赖关系时的情况。这个东西和有关的信息熵是不一样的。
题主的演讲(我也是)不是关于信息熵的,而是,该死的, 相互信息(又是维基)!!!。
相互信息 是两个随机变量的统计函数,描述了一个随机变量相对于另一个变量所包含的信息量。
相互信息通过两个随机变量 的熵 和条件熵 定义为[接下来是I(X,Y)的公式
现在说说你最后的论点。
HideYourRichess : 档案员的任务是将条件熵转化为信息熵。也就是说,要创建一个完美定义的有界字母表,其中的字符,在产生的序列中,将尽可能地独立。如果你在字母层面上混淆了文学文本的有序结构,那些字母序列当然会被打破,压缩效果也会变差。到了一个完全随机的字母集不能再被压缩的程度。那又怎样?这和集市有什么关系?
争论的焦点是,它不是关于你所说的信息熵,而是关于相互信息。就这样了。句号。争论已经结束。
如果你不介意的话,你能告诉我如何用字母表分析数据吗? 我目前正在努力解决一个类似的问题,到目前为止,我在Matlab中使用NS进行分析。
除了NS之外,还有没有其他方法来分析以字母形式表示的数据?
说实话,我并不真正理解你的问题。只要给字母表中的每个字符指定一个序列号 - 然后像往常一样分析这些数字。也许有一些具体的东西,但我并不清楚。
罗曼: 人们根据苏尔托诺夫的文章"市场价格预测的通用回归模型 " 写了这个指标--在 kodobase中。
那里 是否有一些类似的结构?还是没有?
那里甚至没有一丝一毫的泰尔/统计学或信息理论的内容!虽然...是的,有对数,我想...
我只是说, 这里 和这里 的 曲线和方块 在我看来很像......:-)),包括伽马分布的存在,因此解决的方法应该是非常相似的。
这样的事情可能吗,至少是经常性的?
问题是,伽马分布函数出现在文章中,仿佛是凭空出现的,据说是通过解决一个确定性的运动困境--但不是统计或观察性分析的结果。罗曼,到目前为止,我没有看到在解决方法上有任何相似之处--即使是常规的。
但如果你仔细观察,还是可以发现一些相似之处--比如说,在 "分配 "这个词中,也可以看到优素福的 文章:)