交易中的机器学习：理论、模型、实践和算法交易

Forester 2022.10.19 08:29 #27911

Maxim Dmitrievsky #:
一年多前，我也用聚类法做了同样的事情，然后确定了图片中的平均水平，并以此为基础下单。分为向上、向下、均值回归 3 个群组。

有趣的是，无论你使用什么特殊手段，都无法从随机中获得任何好的结果

是的，显然你无法从价格中得到任何东西。没有别的了。还有证券交易所的交易量。
显然，FA 是唯一能给出东西的东西。而且最好还是手动操作。但即使是这样，您也可能搞错了，假新闻正在积极发挥作用。

СанСаныч Фоменко 2022.10.19 08:54 #27912

Maxim Dmitrievsky #:

我通过向后移动属性来检查属性的信息量。也就是说，我们取的不是属性历史的最后值，而是向过去缩进。我进行了 50 次缩进。(从 0 到 -50 小节）

右栏以条为单位缩进，左栏为互信息。缩进是按照芯片和标签之间 互信息 的升序排列的。

结果表明，最后的价格并不总是比之前的价格好，在 -11 条时，价格相对于零条有一定的上升：

指示性

您说的 "相互信息 "是什么意思？信息对价格的影响是否有趣？相互影响是否有趣？如何计算 "相互信息"？

Maxim Dmitrievsky 2022.10.19 08:59 #27913

СанСаныч Фоменко #:

您说的 "相互信息 "是什么意思？档案对标签的影响有趣吗？相互影响有趣吗？如何计算 "互信息"？

你的问题把我难住了

Forester 2022.10.19 09:01 #27914

Maxim Dmitrievsky #:

我通过向后移动属性来检查属性的信息量。也就是说，我们取的不是属性历史的最后值，而是向过去缩进。我进行了 50 次缩进。(从 0 到 -50 小节）

右栏以条为单位缩进，左栏为互信息。缩进是按照芯片和标签之间互信息的升序排列的。

结果表明，最后的价格并不总是比之前的价格好，在 -11 条时，价格相对于零条有一定的上升：

指示性

H1 修复？

0   0.001554  23
1   0.001612  22
2   0.001708  15
3   0.001783  24

看起来像是昼夜周期。22-24 小时的信息量最大。所以今天会和昨天一样。

СанСаныч Фоменко 2022.10.19 09:19 #27915

Maxim Dmitrievsky #:

你的问题难倒我了

为什么 "绊倒"？

对我来说，一个特征、芯片、预测器与一个标签的影响、联系和预测能力可以用下面的例子来解释。

假设有一个标签 "人"，它有两个值：男性和女性。

假设有一个 "服装 "标签，它有两个值：裤子和裙子，而不同裤子和裙子的值有成百上千个。

假设男性只穿裤子，女性只穿裙子。那么这样的标尺确定标签时不会出现错误，即预测误差 = 0%。我们可以认为，该样本对标签的影响、约束和预测是 100% 的。如果将来保持这样的条件，误差将不会改变，将 =- 0%。

在现代社会中，情况并非如此，因此会出现预测误差，误差的大小尚不可知，而且可能会因填写的信息不同而变化。

有很多方法都是以软件包的形式实现的，例如，在我们的例子中，对于女性对长裤和男性对裙子的喜爱程度，就会显示出芯片与标记的连接与 100% 的连接存在一定的差异。

图表很好地说明了这一点。

一个无用功能的例子：

相当有前途的芯片示例。交叉点是预测错误。在上一张图中，一个芯片与另一个芯片完全重叠--预测误差为 50%。

这是衡量第一张图中芯片之间的差异，还是第二张图中芯片之间的差异？估计值相差 2.5 倍。但数字是相对的。所有特征都是垃圾吗？

Maxim Dmitrievsky 2022.10.19 10:16 #27916

好吧，我不想引用维基百科，你可以去谷歌上找找看。衡量联系的标准可以是几何的，如相关性，也可以是信息的，如 Mi。

我不明白为什么我要和别人的懒惰作斗争，你自己以前也承认过）。

给一个好方法，你不需要大量的数据包。名字就足够了。

СанСаныч Фоменко 2022.10.19 10:23 #27917

Maxim Dmitrievsky 几何的，如相关性，也可以是信息的，如 Mi。

我不明白我为什么要和别人的懒惰作斗争，而我自己也曾经承认自己的懒惰 )

是啊，好吧，好吧。就这样吧

Maxim Dmitrievsky 2022.10.19 10:29 #27918

СанСаныч Фоменко #:

好吧那就这样吧

你不仅没有给出任何结果，还引用了很多好的软件包，而且还让我帮你猜测你到底是什么意思。如果要讨论具体的东西，就写得具体一点，有具体的结果。

这是一个关于扩展分布的平庸例子，请告诉我如何有效地获得它们。

信息关系是由你命名的。它的基础是熵和互信息。你需要写 500 遍吗？熵是为一个序列定义的，互信息是为两个序列定义的。

Forester 2022.10.19 10:58 #27919

2 年前，我比较了评估https://www.mql5.com/ru/blogs/post/737458 重要性的方法。

模型本身就是一个样本。我对其进行了 N 次训练（根据特征的数量），去掉了其中一个特征。
去掉一个特征后，结果恶化得越厉害，这个特征就越重要。也有一些芯片去掉后结果有所改善，即它显然是噪声。

确定特征重要性的所有变体都与示例重要性不相似。互信息和其他软件包恐怕也不一致。

Сравнение разных методов оценки важности предикторов.

www.mql5.com

Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За

СанСаныч Фоменко 2022.10.19 12:52 #27920

elibrarius #:

最好不要使用与模型无关的方法和软件包来评估特征，而应使用模型本身。
2 年前我比较了重要性评估方法https://www.mql5.com/ru/blogs/post/737458

模型本身被当作样本。我训练了 N 次（根据特征的数量），去掉了其中一个特征。
去掉一个特征后，结果恶化得越厉害，这个特征就越重要。也有一些芯片去掉后结果有所改善，即它显然是噪声。

确定特征重要性的所有变体都与示例重要性不相似。互信息和其他软件包恐怕也不一致。

近似来说，您说得很对--如果您的意思是通过模型的性能指标来评估模型，那么就应该有一个最终得分。

但是，有一个细微差别大于一切。

通过性能来评估模型是对历史数据的评估。但模型在未来会有怎样的表现呢？

如果我们评估的是特征本身，我们可以运行一个窗口，统计每个特征得分值的变化。而且，在我看来，最好使用那些重要度得分波动较小的特征，最好小于 10%。我的小说集在 500 小节时的 sd 波动从 10% 到 120%（根据记忆）。这意味着分数在 10%的范围内波动，即我们看到的数字就是它。但在 120% 的范围内，我们看到的重要性分数值就是小说。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2792