交易中的机器学习：理论、模型、实践和算法交易

Renat Akhtyamov 2023.10.25 08:08 #33111

Ivan Butko #:

你能告诉我什么不是垃圾吗？我从未见过有人谈论干净的输入数据。但我在论坛上经常听到垃圾数据。

它们是什么？如果你说的是垃圾，那么你就没有垃圾，否则就没有什么可比性了。

这是一种定向运动，一种矢量。

但要把它从垃圾中取出来，却是一项挑战。

例如，我会尝试将我的指标加载到神经元中作为预测器，并尝试识别垃圾和垃圾收集器的迹象。

Forester 2023.10.25 08:27 #33112

СанСаныч Фоменко #:

让我澄清一下我的观点。

任何 MO 算法都试图减少误差。减少误差对垃圾更有效，因为在垃圾中减少误差的 "方便 "值更为常见。因此，可以肯定的是，垃圾中预测因子的 "重要性 "要高于非垃圾中预测因子的 "重要性"。这就是为什么要进行预处理，而预处理比实际的模型拟合更耗费人力。

在我们考虑的这个人造例子中（不是市场数据），
，U 轴的数据不是垃圾数据，而且在定义类别方面非常出色。而 X 轴的数据则是垃圾，因为两个类别几乎是平均混合的。

只需通过 Y=0.5，树就能轻松地将数据分成图片中的 1 个和 2 个示例，且类别绝对纯净，即类别概率 =100%。在测试 X 轴上的拆分时，纯度约为 50%，算法会在 Y 上选择更纯净的拆分。

第三个例子更为复杂。
从 0.2 到 0.8 的叶子的纯度约为 50%，也就是说，它和任何 X 轴分割的叶子一样垃圾。
进一步分割是没有意义的，因为你不会使用类别概率为 50%的叶子。
如果你做了一件蠢事，将这一垃圾部分划分为一片叶子中的 1 个例子，那么 Y 轴和 X 轴上的拆分都将被使用。好吧，如果我们在一片叶子中有 1 个例子，那么它的纯度当然=100%。但这些都不是有代表性的纸张。只有初学者才会这么做。

前 3 张就足够了，或者你可以停止划分叶片，至少是叶片中实例总数的 1-5-10%。在这个例子中，使用纯度大于 90% 的叶片，这就是前两张叶片：U<0.2 和 U>0.8。

Machine learning in trading: A new VPS needed Big Expert Advisor example

Grigori.S.B 2023.10.25 08:54 #33113

Renat Akhtyamov #:

...我会尝试将我的指示器充电到神经元作为预测器，并尝试识别垃圾和清道夫的迹象......

是什么阻止了你的尝试？

Vladimir Perervenko 2023.10.25 09:41 #33114

Andrey Dik #:

没有人知道什么是垃圾，什么不是，这些都是假设。

如果我们确切地知道什么是什么，就不会有一个 3K 页的主题了））。

我们只是假设超出了这样或那样的限度就是 "垃圾"，而这些限度也是假设的。这就是为什么 "垃圾进-垃圾出 "只不过是一句漂亮话，对一个研究者来说是垃圾的东西，对另一个研究者来说就不是垃圾。这就像艾略特的波浪。

没有必要为每个人签名。

您很可能不知道哪些例子是 "垃圾"，哪些不是。对您来说，这是一个假设的概念。如果你知道什么是什么，你就不会坐在这个主题里为每个人写深思熟虑的概括了。

你什么时候才能了解国防部的基本情况？这是一个反问句。

Andrey Dik 2023.10.25 09:47 #33115

Vladimir Perervenko #:

你不必为每个人签名。

你很可能不知道哪些例子是 "垃圾"，哪些不是。对你来说，这是一个假设的概念。如果你知道什么是 "垃圾"，你就不会坐在这个话题里对每个人进行深刻的概括了。

你什么时候才能了解国防部的基本情况？这是一个反问句。

你的帖子并没有表明你知道什么是垃圾，什么不是。

此外，有趣的是，如果你知道什么不是垃圾，那就没有必要学习 MO。

这就是 IO 的目的和目标--把苍蝇和肉片分开。

如果你知道，那你还在这里做什么？

Valeriy Yastremskiy 2023.10.25 10:09 #33116

在物理学中，影响我们所需信号的信号通常被视为垃圾。任何信号、任何行动都是由某些东西引起的，之所以称之为垃圾，是因为它没有必要，也不能对研究者所需的信号做出正确的评估。因此，自然界中没有垃圾))))))))))。

在这里，当寻找价格、低效率或其他方面的规律时，需要评估的信号是一些真实事件或其整体对价格的影响。其他所有影响都是垃圾。

不主张课程判断的真实性))))。

Renat Akhtyamov 2023.10.25 10:13 #33117

Valeriy Yastremskiy #:

在物理学中，影响我们所需信号的信号通常被视为垃圾。任何信号、任何行动都是由某些东西引起的，之所以称之为垃圾，是因为它没有必要，也不能对研究者所需的信号做出正确的评估。因此，自然界中没有垃圾))))))。

在这里，当寻找价格、低效率或其他方面的规律时，需要评估的信号是一些真实事件或其整体对价格的影响。但所有其他影响因素都是垃圾。

不主张课程判断的真实性))))。

如果我们深入研究 DSP 理论，它是这样的：

最初已知一个不含垃圾的有用信号（如趋势线或某些曲线）

然后，在下一个时间点，从信号总量中减去有用信号，找出不需要的信号，即垃圾信号。

Maxim Dmitrievsky 2023.10.25 10:18 #33118

特征垃圾的评估与特定目标特征相关，反之亦然。如果不存在因果关系，那么整个数据集或其中的一个组成部分就是垃圾。而且往往不是特征，而是不正确的标记。

因为即使是垃圾，也可以用有用的方式进行分割。例如，按类型或大小排序。

СанСаныч Фоменко 2023.10.25 12:02 #33119

Ivan Butko #:

你能告诉我什么不是垃圾吗？ 我从未见过有人谈论干净的输入数据。但我在论坛上经常听到垃圾数据。

它们是什么？如果你说的是垃圾，那么你就没有垃圾，否则就没有什么可比性了。

不是垃圾，而是与教师有关或受教师影响的预测指标。这里有一个代理软件包，里面装满了区分垃圾和非垃圾的算法。顺便说一句，R 中远不止这一个。

例如，mashka 对于教师的价格增量就是垃圾，任何平滑算法也是垃圾。

proxy: Distance and Similarity Measures

cran.r-project.org

Provides an extensible framework for the efficient calculation of auto- and cross-proximities, along with implementations of the most popular ones.

СанСаныч Фоменко 2023.10.25 12:04 #33120

mytarmailS #:

预处理的目的是规范化，而不是垃圾。

碎片是特征选择，部分是特征工程

Sanych，别再给不成熟的人灌输垃圾了。

如果您指的是作为模型一部分的特征选择，我完全不同意，因为作为模型一部分的特征选择 就是垃圾。

交易中的机器学习：理论、模型、实践和算法交易 - 页 3312