引文中的依赖性统计(信息论、相关和其他特征选择方法)。 - 页 7

 
TheXpert:

如果你使用的是相对增量,它们怎么可能是离散的?

第二个问题 -- -- 字符数是多少 ) ?


而且我们对它们进行谨慎处理。有两个主要方案:它们是量值(使PDF相等)和等距(PDF与原始数据上的结果非常相似)。

字符的数量由研究人员设定。

 
Mathemat: 而对于我这个任务,TI主要是一个数据挖掘 工具。如何处理这些数据是另一回事。重要的是,我们确实看到了肉眼看不到的东西。那你说的是什么其他科学呢?

我在软件包STATISTICS中打开了 "数据挖掘 "标签--大约有20个章节和独立程序的名称。所有这些都完全符合这一领域的教科书和专著,但没有关于数据挖掘的TI

 
alexeymosc:
显然,在我们对过程的解释中,似乎这些都是回报的离散值。

如果你不涉及 "经济和其他意义",那么我们谈论的是什么过程?一个过程是一个 "物理 "现象,它有原因和后果。例如,一个苹果落在牛顿头上的过程。在应用于市场时,购买和销售的过程。这一切在市场上是什么?

下一点。ter.ver是ter.inf的基础,它要求有关的事件或符号的独立性。否则,这些数学仪器的使用是不正确的。独立性是在什么地方奠定的?假设我从投机的意图出发,买了一些股票(我指的是真实的市场,而不是经纪公司),而价格发生了回报。过了一段时间后,我决定卖掉这些股票,另一个回报发生了。这两个事件很明显是通过我和我的投机冲动相互关联的。由于市场上有很多像我这样的傻瓜,而且他们都以同样的方式买入和卖出,所以所有的回报都变成了联系--取决于。那么,你为什么要从独立的事件中运用一个数学仪器来处理依赖性事件呢?这是否正确?

在这一点上,一切都远远不够明显。

 
faa1947:

我在软件包STATISTICS中打开了 "数据挖掘 "选项卡--大约20个章节和个别程序的名称。所有这些都与该领域的教科书和专著完全一致,但没有关于数据挖掘的TI


这是统计学的一个缺陷。顺便说一句,我自己也在使用它。
 
alexeymosc:

而且我们对它们进行谨慎处理。有两个主要方案:这两个方案是量值(使PDF相等)和等距(PDF与原始数据上的结果非常相似)。

字符的数量由研究人员设定。

也就是说,如果我们不知道市场的字母,让我们自己想出一个字母,这就是我们要研究的。

当然,我可能是错的,我也经常这样做,但这种做法在我看来并不是一个好办法。

 
HideYourRichess:

也就是说,如果我们不知道市场的字母,那就自己编造它,并准确地研究它。

当然,我可能是错的,我也经常这样做,但这种做法在我看来并不是一个好办法。


你看,我不想争论,我也不喜欢这样,但这就是研究人员对连续变量的做法,他们把它们离散化。没有其他办法,替代办法是根本不把TI应用于连续变量。

如何做到这一点是一个单独的话题。有一种方法可以通过连续值分布分析来确定字母表的字符数(称为Parzen Windows - google规则......),但我没有在这种情况下使用它,我想我已经失去了一点。

 
你似乎根本不明白你在说什么。好吧,祝你好运。
 
HideYourRichess:
你似乎根本不明白你在说什么。好吧,祝你好运。

我理解你关于增量的独立性的推理。我不确定我是否能完全同意。我也会就这个问题咨询Mathemat。
 
HideYourRichess:

如果你不涉及 "经济和其他意义",那么我们谈论的是什么过程?一个过程是一个 "物理 "现象,它有原因和后果。例如,一个苹果落在牛顿头上的过程。在应用于市场时,购买和销售的过程。这一切在市场上是什么地方?

下一点。Ter.ver是ter.inf.的基础,要求有关事件或符号的独立性。否则,这些数学仪器的使用是不正确的。独立性的内在体现在哪里?假设我从投机的意图出发,买了一些股票(我指的是真实的市场,而不是经纪公司),而价格发生了回报。过了一段时间后,我决定卖掉这些股票,另一个回报发生了。这两个事件通过我和我的投机意图很明显地相互联系在一起。由于市场上有很多像我这样的傻瓜,而且他们都以同样的方式买入和卖出,所以所有的回报都变成了联系--取决于。那么,你为什么要从独立的事件中运用一个数学仪器来处理依赖性事件呢?这是否正确?

在这一点上,一切都远远不够明显。


在这种情况下,按照我的理解,独立并不是必须的,而恰恰是评价的对象。
 
许多应用TI的例子,在俄语中是指对俄语和其他语言的字母的分析,以及对单词和短语(单词序列)的分析。而所有这些字符在统计上并不是先验独立的,通过这些例子来估计相互信息,这是一个显示依赖程度 的值。因此,所研究的价值的先验独立性不是正确应用TI的先决条件。