交易中的机器学习:理论、模型、实践和算法交易 - 页 2792

 
Maxim Dmitrievsky #:
一年多前,我也用聚类法做了同样的事情,然后确定了图片中的平均水平,并以此为基础下单。分为向上、向下、均值回归 3 个群组。
有趣的是,无论你使用什么特殊手段,都无法从随机中获得任何好的结果

是的,显然你无法从价格中得到任何东西。没有别的了。还有证券交易所的交易量。
显然,FA 是唯一能给出东西的东西。而且最好还是手动操作。但即使是这样,您也可能搞错了,假新闻正在积极发挥作用。

 
Maxim Dmitrievsky #:

我通过向后移动属性来检查属性的信息量。也就是说,我们取的不是属性历史的最后值,而是向过去缩进。我进行了 50 次缩进。(从 0 到 -50 小节)

右栏以条为单位缩进,左栏为互信息。缩进是按照芯片和标签之间 互信息 的升序排列的。

结果表明,最后的价格并不总是比之前的价格好,在 -11 条时,价格相对于零条有一定的上升:

指示性

您说的 "相互信息 "是什么意思?信息对价格的影响是否有趣?相互影响是否有趣?如何计算 "相互信息"?

 
СанСаныч Фоменко #:

您说的 "相互信息 "是什么意思?档案对标签的影响有趣吗?相互影响有趣吗?如何计算 "互信息"?

你的问题把我难住了

 
Maxim Dmitrievsky #:

我通过向后移动属性来检查属性的信息量。也就是说,我们取的不是属性历史的最后值,而是向过去缩进。我进行了 50 次缩进。(从 0 到 -50 小节)

右栏以条为单位缩进,左栏为互信息。缩进是按照芯片和标签之间互信息的升序排列的。

结果表明,最后的价格并不总是比之前的价格好,在 -11 条时,价格相对于零条有一定的上升:

指示性

H1 修复?

0   0.001554  23
1   0.001612  22
2   0.001708  15
3   0.001783  24
看起来像是昼夜周期。22-24 小时的信息量最大。所以今天会和昨天一样。
 
Maxim Dmitrievsky #:

你的问题难倒我了

为什么 "绊倒"?

对我来说,一个特征、芯片、预测器与一个标签的影响、联系和预测能力可以用下面的例子来解释。

假设有一个标签 "人",它有两个值:男性和女性。

假设有一个 "服装 "标签,它有两个值:裤子和裙子,而不同裤子和裙子的值有成百上千个。

假设男性只穿裤子,女性只穿裙子。那么这样的标尺确定标签时不会出现错误,即预测误差 = 0%。我们可以认为,该样本对标签的影响、约束和预测是 100% 的。如果将来保持这样的条件,误差将不会改变,将 =- 0%。

在现代社会中,情况并非如此,因此会出现预测误差,误差的大小尚不可知,而且可能会因填写的信息不同而变化。

有很多方法都是以软件包的形式实现的,例如,在我们的例子中,对于女性对长裤和男性对裙子的喜爱程度,就会显示出芯片与标记的连接与 100% 的连接存在一定的差异。


图表很好地说明了这一点。

一个无用功能的例子:


相当有前途的芯片示例。交叉点是预测错误。在上一张图中,一个芯片与另一个芯片完全重叠--预测误差为 50%。


这是衡量第一张图中芯片之间的差异,还是第二张图中芯片之间的差异?估计值相差 2.5 倍。但数字是相对的。所有特征都是垃圾吗?

 
好吧,我不想引用维基百科,你可以去谷歌上找找看。衡量联系的标准可以是几何的,如相关性,也可以是信息的,如 Mi。

我不明白为什么我要和别人的懒惰作斗争,你自己以前也承认过)。

给一个好方法,你不需要大量的数据包。名字就足够了。
 
Maxim Dmitrievsky 几何 的,如相关性,也可以是信息的,如 Mi。

我不明白我为什么要和别人的懒惰作斗争,而我自己也曾经承认自己的懒惰 )

是啊,好吧,好吧。就这样吧

 
СанСаныч Фоменко #:

好吧那就这样吧

你不仅没有给出任何结果,还引用了很多好的软件包,而且还让我帮你猜测你到底是什么意思。如果要讨论具体的东西,就写得具体一点,有具体的结果。

这是一个关于扩展分布的平庸例子,请告诉我如何有效地获得它们。
信息关系是由你命名的。它的基础是熵和互信息。你需要写 500 遍吗?熵是为一个序列定义的,互信息是为两个序列定义的。
 


2 年前,我比较了评估https://www.mql5.com/ru/blogs/post/737458 重要性的方法。

模型本身就是一个样本。我对其进行了 N 次训练(根据特征的数量),去掉了其中一个特征。
去掉一个特征后,结果恶化得越厉害,这个特征就越重要。也有一些芯片去掉后结果有所改善,即它显然是噪声。

确定特征重要性的所有变体都与示例重要性不相似。 互信息和其他软件包恐怕也不一致。

Сравнение разных методов оценки важности предикторов.
Сравнение разных методов оценки важности предикторов.
  • www.mql5.com
Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За
 
elibrarius #:

最好不要使用与模型无关的方法和软件包来评估特征,而应使用模型本身
2 年前我比较了重要性评估方法https://www.mql5.com/ru/blogs/post/737458

模型本身被当作样本。我训练了 N 次(根据特征的数量),去掉了其中一个特征。
去掉一个特征后,结果恶化得越厉害,这个特征就越重要。也有一些芯片去掉后结果有所改善,即它显然是噪声。

确定特征重要性的所有变体都与示例重要性不相似。 互信息和其他软件包恐怕也不一致。

近似来说,您说得很对--如果您的意思是通过模型的性能指标来评估模型,那么就应该有一个最终得分。

但是,有一个细微差别大于一切。

通过性能来评估模型是对历史数据的评估。但模型在未来会有怎样的表现呢?

如果我们评估的是特征本身,我们可以运行一个窗口,统计每个特征得分值的变化。而且,在我看来,最好使用那些重要度得分波动较小的特征,最好小于 10%。我的小说集在 500 小节时的 sd 波动从 10% 到 120%(根据记忆)。这意味着分数在 10%的范围内波动,即我们看到的数字就是它。但在 120% 的范围内,我们看到的重要性分数值就是小说。