交易中的机器学习：理论、模型、实践和算法交易

Alexey Burnakov 2016.08.03 14:41 #861

桑桑尼茨-弗门科。

所有软件包（模型）可分为两类。

基本良好
原则上不适合。

那些 "基本良好 "的软件包的性能大致相同，差异并不明显。

问题不是出在模型上，而是出在预测器的集合和它们的预处理上。如果我们采取一些预测器的集合，建立一个不过度训练的模型的可能性，以及误差的大小对模型的变化没有什么影响。因此，人们应该从那些 "原则上适合 "的模型中选择最简单、最快的模型。

PS。

从我自己的经验来看。在我看来，在构建TS的过程中，超过75%的劳动投入是对预测器的选择，如果能设法为一个特定的目标变量挑选出这样一套预测器。

桑桑尼奇，你好。

而如果通过你的方法，对于3个不相交的数据区间，我们得到不同的预测值，那么它们是非平稳的（噪声等），我们应该遵循吗？

mytarmailS 2016.08.03 15:00 #862

桑桑尼茨-弗门科。

所有软件包（模型）可分为两类。

基本良好
原则上不适合。

那些 "基本良好 "的软件包的性能大致相同，差异并不明显。

问题不是出在模型上，而是出在预测器的集合和它们的预处理上。如果我们采取一些预测器的集合，建立一个不过度训练的模型的可能性，以及误差的大小对模型的变化没有什么影响。因此，人们应该从那些 "原则上适合 "的模型中选择最简单、最快的模型。

PS。

从我自己的经验来看。在构建TC的过程中，超过75%的劳动投入是对预测因子的选择，如果有可能为一个特定的目标变量选择这样一套预测因子的话。

什么模型，你在说什么......。这就像一个人问"现在是什么时候？" 而答案是"你想让我跳什么？":)

千万不要，请不要再这样做了，写10行文字比读两行问题更容易。

mytarmailS 2016.08.03 17:07 #863

mytarmailS:

也许有人会感兴趣，我发现了一个可以模拟交易和建立交易系统的软件包，叫做quantstrat

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

转帖

СанСаныч Фоменко 2016.08.03 17:36 #864

阿列克谢-伯纳科夫。

桑桑尼奇，你好。

但是，如果按照你的方法，我们在3个不相交的训练数据段上得到了不同的预测因子的意义，那么它们就是非平稳的（噪声等），我们应该遵循吗？

预测因子的重要性只获得一次--当模型被训练时。那么这个模型是可应用的，而不是可训练的。

Alexey Burnakov 2016.08.03 17:36 #865

桑桑尼茨-弗门科。
预测器的相关性只获得一次--当模型被训练时。那么这个模式是可应用的，而不是教的。

我记得，你在那里要教好几遍？

СанСаныч Фоменко 2016.08.03 17:48 #866

阿列克谢-伯纳科夫：
你要教好几遍，我记得？

不可能!

再一次。

1.我们取一大块时间序列预测因子，例如10 000个观测值（线）。

2.我们把它分成两部分，严格按照机械方式：第一部分7000，第二部分3000。

3.我们将第一部分随机分为三部分：用于训练、测试和验证

4.我们在训练样本上教授（适合-适合）模型。

5.将训练好的模型应用于测试和验证样本。

6.如果在所有三个样本上--训练、测试和验证--误差大致相等，那么第7条。

7.在第二部分上应用该模型，它的时间序列是一个不间断的时间序列。

8.如果这一部分的误差也与前三部分大致相等，那么。

这组预测器不会导致模型的重新训练
是所有四组数据（三组随机数据和一组顺序数据）的误差，是一个很难通过模型拟合减少的误差。

我的模型错误表现如下：ada、randomforest、SVM和它们的许多品种。联网的情况要糟糕得多。

Alexey Burnakov 2016.08.03 18:19 #867

桑桑尼茨-弗门科。

不可能!

再一次。

1.取一大块时间序列预测因子，例如10,000个观测值（线）。

2.我们把它分成两部分，严格按照机械方式：第一部分7000，第二部分3000。

3.我们将第一部分随机分为三部分：用于训练、测试和验证

4.我们在训练样本上教授（适合-适合）模型。

5.将训练好的模型应用于测试和验证样本。

6.如果在所有三个样本上--训练、测试和验证--误差大致相等，那么第7条。

7.在第二部分上应用该模型，它的时间序列是一个不间断的时间序列。

8.如果这一部分的误差也与前三部分大致相等，那么。

这组预测器不会导致模型的重新训练
是所有四组数据（三组随机数据和一组顺序数据）的误差，是一个很难通过模型拟合减少的误差。

我的模型错误表现如下：ada、randomforest、SVM和它们的许多品种。联网的情况要糟糕得多。

给你。谢谢你。

我在训练上的效果比在其他样本上好得多。而在交叉验证上，结果更接近于最终的出样。

我认为你关于所有样本的误差相等的论述说明了欠拟合模型。也就是说，在任何地方都是一样的。

СанСаныч Фоменко 2016.08.03 18:25 #868

阿列克谢-伯纳科夫。

....，也就是说，各地的情况都一样，都很一般。

马马虎虎只是缺乏大脑和时间。

你必须从目标变量开始，然后为它选择预测器，然后用数学进行双重检查，或者这样。总之，这个过程很缓慢，我无法将其正式化。

Alexey Burnakov 2016.08.03 19:36 #869

桑桑尼茨-弗门科。

一般般--只是没有足够的大脑和时间。

你必须从目标变量开始，然后你必须用预测器来匹配它，然后用数学来反复检查它们，可以这么说。无论如何，这个过程对我来说是痛苦的，也是不能形式化的。

特别是在意义上，它是折磨人的。我不是这个意思。

如果你在任何地方都同样出色，那就是一种成就。但更多的时候，它将是同样糟糕的，这是一个薄弱的模型允许你实现的。

mytarmailS 2016.08.03 21:32 #870

该主题似乎是死的....

交易中的机器学习：理论、模型、实践和算法交易 - 页 87