引文中的依赖性统计(信息论、相关和其他特征选择方法)。 - 页 10

 

谈论一种不同的依赖性。

在任何文本之外,"a "如何依赖于 "b"?它没有,也就是说,你不能从其他字符中得到 "a"。

依靠说1、2、3、4、5、6呢?很明显,这不是一套非常合适的字母表,不管你怎么标示。

不是吗?

 
TheXpert:

谈论一种不同的依赖性。

在任何文本之外,"a "如何依赖于 "b"?它没有,也就是说,你不能从其他字符中得到 "a"。

依靠说1、2、3、4、5、6呢?很明显,无论你怎么标注,这都不是一套非常合适的字母表。

难道不是这样吗?

为什么不呢?十六进制的数字系统。这是一个正常的字母表 - 和二进制一样好 :)

而俄语字母Y、Y、Y可以由其他字母衍生出来。

 
Avals:

而俄语字母yu、ya、yo可以由其他字母衍生出来。

不是字母,而是声音 :)

还是像那个笑话一样?"多么简单的俄语啊 -- "yosh "这个词是用两个字母拼成的!"

 
TheXpert:

不是字母,而是声音 :)

还是像那个笑话一样?"多么简单的俄语啊--"yosh "一词是用两个字母拼成的!"

好了,别发牢骚了)))。在其他语言中也有这样的例子,一个字符被几个字符所取代,即一个字符可以由其他字符衍生出来。我只是不大明白其中的原理。而且,无论如何,你如何确定它是否是正确的字母?
 

我也有点困惑,但直觉告诉我,HideYourRichess 是对的

与数字系统的比较可能不大正确。一个数字可以由一个单一的数字来表示,而引号则有许多表示方法,即一个符号可以通过其他符号由大量(更确切地说,是无限)的变体来表示,即

a == tsdrmiikepi == fsrpl == mflncp == javlporpor == fwlfrmilfpf == 。

这是不对的,我认为。

 

先生们,我看到德国研究人员的一篇文章,正好是这个话题的脉络。当我找到它时,我会发布它。也就是说,我没有提出任何新的东西,一切都已经研究了至少10年了。

有一位研究人员Battiti(你可以通过相互信息特征选择这几个字搜索文章)。他是在相互信息的帮助下选择变量的方法之父。在那里,该同志用不同来源的实验数据工作,特别是用有关太阳活动的数据(它通常是一个受欢迎的数值来源)。而结果证实了I(X,Y)统计对预后的作用。我必须阅读一下它是如何将随机值离散到那里并创建一个字母表的。似乎还没有人对这个理论如此费心(像当地的老一辈人)。

 

数字系统与此有什么关系,TheXpert?我不明白为什么话题会转到数字系统上。

说实话,我没有看到HideYourRichess的 任何论点以任何方式干扰TI对引文的应用。

 
Mathemat:

数字系统与此有什么关系,TheXpert?我不明白为什么话题会转到数字系统上。

不是翻脸,只是一个意见问题。数字作为一种字母有什么问题?

说实话,我没有看到HideYourRichess的 任何论点以任何方式干扰TI对引文的应用。

字母选择。

______

塔基我可能更愿意读它。

 
TheXpert:

我也有点困惑,但直觉告诉我,HideYourRichess 是对的。

与数字系统的比较可能不大正确。一个数字由一个单一的数字表示,而引号则由许多变体表示,也就是说,一个符号可以通过其他符号由大量(更确切地说,是无限)的变体表示,即

a == tsdrmiikepi == fsrpl == mflncp == yawlporpor == fwlfrmilfpf == 。

不是很好,我认为。


用不同的语言写 "紊乱 "这个词,也是如此 :) 甚至同一个字母也能给出同义词的例子,或者是过时的词。

s.w.一个数字也可以用无数种方式表示,这取决于微积分,它实际上是一个字母表。

字母表是一种名义上的东西--由人类发明的,用于用较少的字符列出大量的物体和现象。当然,字符必须是一个离散的集合。对它没有其他严格的要求 - 这是一个可用性的问题。

 
Mathemat:

Mathemat:

HideYourRichess,如果你认为整个服务器是由伯努利数列或大数定律决定的,你就大错特错了。

我不认为如此,我知道这是一个事实。

那是五个!我想要两个!
HideYourRichess: 你难道不明白,我们在那里谈论的是一连串独立的事件?

你说的是什么独立事件?关于来源的一连串的字母字符?不,它们不一定是独立的,这已经向你解释过了。一个普通的俄罗斯文学文本是一连串的从属字母。如果它们是独立的,文学文本被存档者压缩的情况会比实际情况差很多。拿一些文学作品的文本进行洗牌,比较原始和洗牌后的归档结果。

还是说你认为信源和接收机的组合是独立的变量?

信息熵的概念是由香农 为独立字符提出的。如果你不相信我,请查阅学术字典。我不会再在这个问题上与你争论了。你无法计算市场的信息熵,因为你不知道字母表,你不知道符号的频率,而且符号的独立性也是未知的(但我们知道市场参与者的行动是非常依赖的)。

下一个问题,即条件熵,正是在原始字母表的字符之间存在依赖关系的情况下。这个东西和刚才讨论的信息熵不一样。

我不明白存档者的例子使你得出什么结论,但我要说的是。归档者的任务是将条件熵转换为信息熵。也就是说,要创建一个完美定义的有限字母表,其中的字符,在所产生的序列中,将尽可能地独立。如果你在字母层面上混淆了文学文本的有序结构,那些字母序列当然会被打破,压缩效果也会变差。到了一个完全随机的字母集不能再被压缩的程度。那又怎样?这跟它有什么关系?