引文中的依赖性统计（信息论、相关和其他特征选择方法）。

TheXpert 2011.09.05 12:01 #91

谈论一种不同的依赖性。

在任何文本之外，"a "如何依赖于 "b"？它没有，也就是说，你不能从其他字符中得到 "a"。

依靠说1、2、3、4、5、6呢？很明显，这不是一套非常合适的字母表，不管你怎么标示。

不是吗？

Avals 2011.09.05 12:11 #92

TheXpert:

谈论一种不同的依赖性。

在任何文本之外，"a "如何依赖于 "b"？它没有，也就是说，你不能从其他字符中得到 "a"。

依靠说1、2、3、4、5、6呢？很明显，无论你怎么标注，这都不是一套非常合适的字母表。

难道不是这样吗？

为什么不呢？十六进制的数字系统。这是一个正常的字母表 - 和二进制一样好 :)

而俄语字母Y、Y、Y可以由其他字母衍生出来。

TheXpert 2011.09.05 12:15 #93

Avals:

而俄语字母yu、ya、yo可以由其他字母衍生出来。

不是字母，而是声音 :)

还是像那个笑话一样？"多么简单的俄语啊 -- "yosh "这个词是用两个字母拼成的！"

Avals 2011.09.05 12:56 #94

TheXpert:

不是字母，而是声音 :)

还是像那个笑话一样？"多么简单的俄语啊--"yosh "一词是用两个字母拼成的！"

好了，别发牢骚了）））。在其他语言中也有这样的例子，一个字符被几个字符所取代，即一个字符可以由其他字符衍生出来。我只是不大明白其中的原理。而且，无论如何，你如何确定它是否是正确的字母？

TheXpert 2011.09.05 13:10 #95

我也有点困惑，但直觉告诉我，HideYourRichess 是对的。

与数字系统的比较可能不大正确。一个数字可以由一个单一的数字来表示，而引号则有许多表示方法，即一个符号可以通过其他符号由大量（更确切地说，是无限）的变体来表示，即

a == tsdrmiikepi == fsrpl == mflncp == javlporpor == fwlfrmilfpf == 。

这是不对的，我认为。

Alexey Burnakov 2011.09.05 13:16 #96

先生们，我看到德国研究人员的一篇文章，正好是这个话题的脉络。当我找到它时，我会发布它。也就是说，我没有提出任何新的东西，一切都已经研究了至少10年了。

有一位研究人员Battiti（你可以通过相互信息特征选择这几个字搜索文章）。他是在相互信息的帮助下选择变量的方法之父。在那里，该同志用不同来源的实验数据工作，特别是用有关太阳活动的数据（它通常是一个受欢迎的数值来源）。而结果证实了I(X,Y)统计对预后的作用。我必须阅读一下它是如何将随机值离散到那里并创建一个字母表的。似乎还没有人对这个理论如此费心（像当地的老一辈人）。

Sceptic Philozoff 2011.09.05 13:21 #97

数字系统与此有什么关系，TheXpert？我不明白为什么话题会转到数字系统上。

说实话，我没有看到HideYourRichess的 任何论点以任何方式干扰TI对引文的应用。

TheXpert 2011.09.05 13:30 #98

Mathemat:

数字系统与此有什么关系，TheXpert？我不明白为什么话题会转到数字系统上。

不是翻脸，只是一个意见问题。数字作为一种字母有什么问题？

说实话，我没有看到HideYourRichess的 任何论点以任何方式干扰TI对引文的应用。

字母选择。

______

塔基我可能更愿意读它。

Avals 2011.09.05 13:49 #99

TheXpert:

我也有点困惑，但直觉告诉我，HideYourRichess 是对的。

与数字系统的比较可能不大正确。一个数字由一个单一的数字表示，而引号则由许多变体表示，也就是说，一个符号可以通过其他符号由大量（更确切地说，是无限）的变体表示，即

a == tsdrmiikepi == fsrpl == mflncp == yawlporpor == fwlfrmilfpf == 。

不是很好，我认为。

用不同的语言写 "紊乱 "这个词，也是如此 :) 甚至同一个字母也能给出同义词的例子，或者是过时的词。

s.w.一个数字也可以用无数种方式表示，这取决于微积分，它实际上是一个字母表。

字母表是一种名义上的东西--由人类发明的，用于用较少的字符列出大量的物体和现象。当然，字符必须是一个离散的集合。对它没有其他严格的要求 - 这是一个可用性的问题。

Hide 2011.09.05 13:50 #100

Mathemat:

Mathemat:

HideYourRichess，如果你认为整个服务器是由伯努利数列或大数定律决定的，你就大错特错了。

我不认为如此，我知道这是一个事实。

那是五个!我想要两个!

HideYourRichess: 你难道不明白，我们在那里谈论的是一连串独立的事件？

你说的是什么独立事件？关于来源的一连串的字母字符？不，它们不一定是独立的，这已经向你解释过了。一个普通的俄罗斯文学文本是一连串的从属字母。如果它们是独立的，文学文本被存档者压缩的情况会比实际情况差很多。拿一些文学作品的文本进行洗牌，比较原始和洗牌后的归档结果。

还是说你认为信源和接收机的组合是独立的变量？

信息熵的概念是由香农为独立字符提出的。如果你不相信我，请查阅学术字典。我不会再在这个问题上与你争论了。你无法计算市场的信息熵，因为你不知道字母表，你不知道符号的频率，而且符号的独立性也是未知的（但我们知道市场参与者的行动是非常依赖的）。

下一个问题，即条件熵，正是在原始字母表的字符之间存在依赖关系的情况下。这个东西和刚才讨论的信息熵不一样。

我不明白存档者的例子使你得出什么结论，但我要说的是。归档者的任务是将条件熵转换为信息熵。也就是说，要创建一个完美定义的有限字母表，其中的字符，在所产生的序列中，将尽可能地独立。如果你在字母层面上混淆了文学文本的有序结构，那些字母序列当然会被打破，压缩效果也会变差。到了一个完全随机的字母集不能再被压缩的程度。那又怎样？这跟它有什么关系？

引文中的依赖性统计（信息论、相关和其他特征选择方法）。 - 页 10