交易中的机器学习:理论、模型、实践和算法交易 - 页 3312

 
Ivan Butko #:

你能告诉我什么不是垃圾 吗?我从未见过有人谈论干净的输入数据。但我在论坛上经常听到垃圾数据。

它们是什么?如果你说的是垃圾,那么你就没有垃圾,否则就没有什么可比性了。

这是一种定向运动,一种矢量。

但要把它从垃圾中取出来,却是一项挑战。

例如,我会尝试将我的 指标加载到神经元中作为预测器,并尝试识别垃圾和垃圾收集器的迹象。

 
СанСаныч Фоменко #:

让我澄清一下我的观点。

任何 MO 算法都试图减少误差。减少误差对垃圾更有效,因为在垃圾中减少误差的 "方便 "值更为常见。因此,可以肯定的是,垃圾中预测因子的 "重要性 "要高于非垃圾中预测因子的 "重要性"。这就是为什么要进行预处理,而预处理比实际的模型拟合更耗费人力。

在我们考虑的这个人造例子中(不是市场数据),
,U 轴的数据不是垃圾数据,而且在定义类别方面非常出色。而 X 轴的数据则是垃圾,因为两个类别几乎是平均混合的。

只需通过 Y=0.5,树就能轻松地将数据分成图片中的 1 个和 2 个示例,且类别绝对纯净,即类别概率 =100%。在测试 X 轴上的拆分时,纯度约为 50%,算法会在 Y 上选择更纯净的拆分。

第三个例子更为复杂。
从 0.2 到 0.8 的叶子的纯度约为 50%,也就是说,它和任何 X 轴分割的叶子一样垃圾。
进一步分割是没有意义的,因为你不会使用类别概率为 50%的叶子。
如果你做了一件蠢事,将这一垃圾部分划分为一片叶子中的 1 个例子,那么 Y 轴和 X 轴上的拆分都将被使用。 好吧,如果我们在一片叶子中有 1 个例子,那么它的纯度当然=100%。但这些都不是有代表性的纸张。只有初学者才会这么做。

前 3 张就足够了,或者你可以停止划分叶片,至少是叶片中实例总数的 1-5-10%。在这个例子中,使用纯度大于 90% 的叶片,这就是前两张叶片:U<0.2 和 U>0.8。


 
Renat Akhtyamov #:

...我会尝试将我的 指示器充电到神经元作为预测器,并尝试识别垃圾和清道夫的迹象......

是什么阻止了你的尝试?

 
Andrey Dik #:

没有人知道什么是垃圾,什么不是,这些都是假设。

如果我们确切地知道什么是什么,就不会有一个 3K 页的主题了))。

我们只是假设超出了这样或那样的限度就是 "垃圾",而这些限度也是假设的。这就是为什么 "垃圾进-垃圾出 "只不过是一句漂亮话,对一个研究者来说是垃圾的东西,对另一个研究者来说就不是垃圾。这就像艾略特的波浪。

没有必要为每个人签名。

您很可能不知道哪些例子是 "垃圾",哪些不是。对您来说,这是一个假设的概念。如果你知道什么是什么,你就不会坐在这个主题里为每个人写深思熟虑的概括了。

你什么时候才能了解国防部的基本情况?这是一个反问句。

 
Vladimir Perervenko #:

你不必为每个人签名。

你很可能不知道哪些例子是 "垃圾",哪些不是。对你来说,这是一个假设的概念。如果你知道什么是 "垃圾",你就不会坐在这个话题里对每个人进行深刻的概括了

你什么时候才能了解国防部的基本情况?这是一个反问句。


你的帖子并没有表明你知道什么是垃圾,什么不是。
此外,有趣的是,如果你知道什么不是垃圾,那就没有必要学习 MO。

这就是 IO 的目的和目标--把苍蝇和肉片分开。

如果你知道,那你还在这里做什么?

 

在物理学中,影响我们所需信号的信号通常被视为垃圾。任何信号、任何行动都是由某些东西引起的,之所以称之为垃圾,是因为它没有必要,也不能对研究者所需的信号做出正确的评估。因此,自然界中没有垃圾))))))))))。

在这里,当寻找价格、低效率或其他方面的规律时,需要评估的信号是一些真实事件或其整体对价格的影响。其他所有影响都是垃圾。

不主张课程判断的真实性))))。

 
Valeriy Yastremskiy #:

在物理学中,影响我们所需信号的信号通常被视为垃圾。任何信号、任何行动都是由某些东西引起的,之所以称之为垃圾,是因为它没有必要,也不能对研究者所需的信号做出正确的评估。因此,自然界中没有垃圾))))))。

在这里,当寻找价格、低效率或其他方面的规律时,需要评估的信号是一些真实事件或其整体对价格的影响。但所有其他影响因素都是垃圾。

不主张课程判断的真实性))))。

如果我们深入研究 DSP 理论,它是这样的:

最初已知一个不含垃圾的有用信号(如趋势线或某些曲线)

然后,在下一个时间点,从信号总量中减去有用信号,找出不需要的信号,即垃圾信号。

 
特征垃圾的评估与特定目标特征相关,反之亦然。如果不存在因果关系,那么整个数据集或其中的一个组成部分就是垃圾。而且往往不是特征,而是不正确的标记。

因为即使是垃圾,也可以用有用的方式进行分割。例如,按类型或大小排序。
 
Ivan Butko #:

你能告诉我什么不是垃圾吗? 我从未见过有人谈论干净的输入数据。但我在论坛上经常听到垃圾数据。

它们是什么?如果你说的是垃圾,那么你就没有垃圾,否则就没有什么可比性了。

不是垃圾,而是与教师有关或受教师影响的预测指标。这里有一个代理 软件包,里面装满了区分垃圾和非垃圾的算法。顺便说一句,R 中远不止这一个。

例如,mashka 对于教师的价格增量就是垃圾,任何平滑算法也是垃圾。

proxy: Distance and Similarity Measures
proxy: Distance and Similarity Measures
  • cran.r-project.org
Provides an extensible framework for the efficient calculation of auto- and cross-proximities, along with implementations of the most popular ones.
 
mytarmailS #:
预处理的目的是规范化,而不是垃圾。
碎片是特征选择,部分是特征工程

Sanych,别再给不成熟的人灌输垃圾了。

如果您指的是作为模型一部分的特征选择,我完全不同意,因为作为模型一部分的特征选择 就是垃圾。