交易中的机器学习：理论、模型、实践和算法交易

Maxim Dmitrievsky 2017.08.25 07:19 #4691

Mihail Marchukajtes:

不过，真正的重点是这个。如果在测试部分有一个不好的分割，分割是否正确并不重要，重要的是分割很弱。而模型的工作时间不超过训练区间的50%，那么该模型被认为是过度训练....。IMHO

顺便说一下，你是否记得，在你关于序列的文章中，你建议连续计算几个信号，在那里反转......信号叠加

我想出了一个有趣的解决方案，通过模糊逻辑来实现类似的东西，并将其建立在学习过程中......我稍后会发表一些东西 :)

СанСаныч Фоменко 2017.08.25 07:26 #4692

Maxim Dmitrievsky:

有时大脑开始崩溃......关于外汇中的噪音，它不是一个无线电信号，是吗？外汇中的噪音从何而来？

外汇中的 "噪音 "概念已经被我在这个主题中广泛讨论。我是自己做的，还是从别人那里抄来的--我不记得了，这也不重要。在任何情况下，我都在这个主题中张贴了类似文章的链接。

我对 "噪音 "的理解是与目标变量没有关系的所有或部分预测因素，是一种咖啡渣。

让我用一个例子来解释（我重复我之前写的）。

让我们来看看一个由两个阶层组成的目标：男人和女人。

让我们来看看一个预测因素：服装。

只有两个预测值：长裤和裙子。在某些国家，这个预测器具有100%的预测能力，即裙子预测女性，长裤预测男性。这个预测器完全没有噪音。分类误差=0。不存在过度训练。

这个例子很牵强，预测器 "衣服 "可以包含名字为 "unisex "的衣服。对我们来说，这意味着这样的衣服男人和女人都可以穿，也就是说，对于我们的目标变量，"中性 "服装根本没有预测能力--这是我对SHUM的理解。

如果我们拿一个有 "长裤"、"裙子 "和 "中性 "值的预测器，那么 "中性 "将成为分类错误的来源。如果 "中性 "服装的比例是30%，那么理论上我们可以实现模型学习误差=30%，但在这样一个预测器上，29%的误差意味着1%的模型过度训练

我在实践中使用这个方法。由于这一点，我能够为随机森林选择预测器，其误差小于30%。这个人不是一个过度训练的模型。在训练、同一文件内的测试样本和其他外部文件上的误差是差不多的。

在我的例子中，减少错误是什么意思？这意味着要找到其值，即噪声值，将小于那非常的30%的预测器。我没有成功。也许有人会成功。

但如果没有这种分析，使用任何MO模型都是一种空洞的做法，是在咖啡的基础上进行数字的智力游戏。

PS。

上述误差通常不取决于模型的类型。尝试了不同的脚手架、ada变体--大致相同。但NS，也就是nnet，给出的结果明显更差。

Maxim Dmitrievsky 2017.08.25 07:48 #4693

桑桑-弗门科。

我已经在这个主题中相当广泛地讨论了外汇中的 "噪音 "概念。我不记得我是自己发明的还是从别人那里借来的，这并不重要。在任何情况下，我都在这个主题中张贴了类似文章的链接。

我对 "噪音 "的理解是与目标变量没有关系的所有或部分预测因素，是一种咖啡渣。

让我用一个例子来解释（我重复我之前写的）。

让我们来看看一个由两个阶层组成的目标：男人和女人。

让我们来看看一个预测因素：服装。

只有两个预测值：长裤和裙子。在某些国家，这个预测器具有100%的预测能力，即裙子预测女性，长裤预测男性。这个预测器完全没有噪音。分类误差=0。不存在过度训练。

这个例子很牵强，预测器 "衣服 "可以包含名称为 "unisex "的衣服。对我们来说，这意味着这样的衣服男人和女人都可以穿，也就是说，对于我们的目标变量，"中性 "服装根本没有预测能力--这是我对SHUM的理解。

如果我们拿一个有 "长裤"、"裙子 "和 "中性 "值的预测器，那么 "中性 "将成为分类错误的来源。如果 "中性 "服装的比例为30%，理论上有可能实现模型学习误差=30%，但在这样一个预测器上，29%的误差将意味着1%的模型过度训练!

只是我们事先不知道这种噪声预测器能在多大程度上提供最小的误差，如果在真实条件下选择预测器时......只是筛选出无信息的预测器，就这样。

但总的来说，似乎很清楚 )

СанСаныч Фоменко 2017.08.25 08:09 #4694

马克西姆-德米特里耶夫斯基。

......只需筛选出无信息的信息即可。

这是一个深刻的误解：误差最小化算法是有效的，这可以从许多不同的方面来理解。含有比NOT噪声更多多样性的噪声是最合适的。该算法从咖啡渣中吸取泡沫。

Maxim Dmitrievsky 2017.08.25 08:17 #4695

桑桑尼茨-弗门科。

这是一个深刻的误解：误差最小化算法是有效的，这可以从许多不同的方面来理解。包含更多种类的噪声比非噪声更合适。该算法从咖啡渣中吸取泡沫。

我的意思是Jpredictor......它有点自己筛选出噪音的东西。

因此，它更多的是用于实验，而不是试图真正了解那里发生了什么 )

我想试试这个H2O平台，它只是一个带增压功能的森林......也许你听说过？人们说它还不错，还有Mcroft的和Xgbboost。

https://www.h2o.ai/

Vladimir Perervenko 2017.08.25 10:41 #4696

对于那些没有看过的人，我建议看看这个主题

Vladimir Perervenko 2017.08.25 10:44 #4697

蜥蜴_。

阿法和米山不是矿工））））
对鹦鹉打手枪的时候会做。+ LightGBM, + CatBoost.
想得到一个更好的切口--把python和所有的GPU...

许多R包在GPU上运行良好。

你是否运行过SatBoost？如此感兴趣。

祝好运

Vladimir Perervenko 2017.08.25 10:48 #4698

马克西姆-德米特里耶夫斯基。
我是说Jpredictor......它自己会过滤掉噪音特征。

无论如何，这个话题更多的是为了实验，而不是为了试图真正了解那里发生了什么 )

我想试试这个H2O平台，它只是一个带有助推功能的森林......也许你听说过吗？人们说它是可以的，还有MCROFT的和XGBBOOST。

https://www.h2o.ai/

它是用Java编写的，使用大量的内存。它的工作原理不比类似的R包好，也不比它差。它有一个缺点，也有一个优点--持续改进，没有后向兼容性。

实验是可以的，但我不建议用于工作（IMHO）。

祝好运

Vladimir Perervenko 2017.08.25 10:56 #4699

桑桑尼茨-弗门科。

这是一个深刻的误解：误差最小化算法是有效的，这可以从许多不同的方面来理解。包含更多种类的噪声比非噪声更合适。该算法从咖啡渣中吸取泡沫。

"噪声 "和 "过度拟合 "是行话，每个人的定义都不一样。直觉上，我们理解 "学习 "和 "过度拟合 "之间的区别--但很难将其转化为程序语言。我对它的定义很简单--当测试误差开始增长时，就是 "过度训练 "的开始（与 "过度拟合 "不同）。如果我找到了，我会给你发一个链接，让你在英语网上看到关于这个问题的有趣讨论。

祝好运

Vladimir Perervenko 2017.08.25 11:06 #4700

桑桑尼茨-弗门科。

我已经在这个主题中相当广泛地讨论了外汇中的 "噪音 "概念。我不记得我是自己发明的还是从别人那里借来的，这并不重要。在任何情况下，我都在这个主题中张贴了类似文章的链接。

我对 "噪音 "的理解是与目标变量没有关系的所有或部分预测因素，是一种咖啡渣。

让我用一个例子来解释（我重复我之前写的）。

让我们来看看一个由两个阶层组成的目标：男人和女人。

让我们来看看一个预测因素：服装。

只有两个预测值：长裤和裙子。在某些国家，这个预测器具有100%的预测能力，即裙子预测女性，长裤预测男性。这个预测器完全没有噪音。分类误差=0。不存在过度训练。

这个例子很牵强，预测器 "衣服 "可以包含名字为 "unisex "的衣服。对我们来说，这意味着这样的衣服男人和女人都可以穿，也就是说，对于我们的目标变量，"中性 "服装根本没有预测能力--这是我对SHUM的理解。

如果我们拿一个有 "长裤"、"裙子 "和 "中性 "值的预测器，那么 "中性 "将成为分类错误的来源。如果 "中性 "服装的比例为30%，理论上可以实现模型学习误差=30%，但在这样的预测器上，29%的误差意味着1%的模型过度训练!

我在实践中使用这个方法。由于这一点，我能够为随机森林选择预测器，其误差小于30%。这个人不是一个过度训练的模型。训练时，在同一文件内的测试样本和其他外部文件上的误差是差不多的。

在我的例子中，减少错误是什么意思？这意味着要找到其值，即噪声值，将小于那非常的30%的预测器。我没有成功。也许有人会成功。

但如果没有这种分析，使用任何MO模型都是一种空洞的做法，是在咖啡的基础上进行数字的智力游戏。

PS。

上述误差通常不取决于模型的类型。尝试了不同的脚手架、ada变体--大致相同。但另一方面，nnet NS的结果明显较差。

你可以删除不相关的例子，隔离主要或独立的成分，最后进行离散处理。你是否对预测器进行了预处理？我希望离群值被移除（对森林而言，不是关键）。

你听起来很悲观。

只有我吗？

祝好运

交易中的机器学习：理论、模型、实践和算法交易 - 页 470