交易中的机器学习:理论、模型、实践和算法交易 - 页 87

 
桑桑尼茨-弗门科

所有软件包(模型)可分为两类。

  • 基本良好
  • 原则上不适合。

那些 "基本良好 "的软件包的性能大致相同,差异并不明显。

问题不是出在模型上,而是出在预测器的集合和它们的预处理上。如果我们采取一些预测器的集合,建立一个不过度训练的模型的可能性,以及误差的大小对模型的变化没有什么影响。因此,人们应该从那些 "原则上适合 "的模型中选择最简单、最快的模型。

PS。

从我自己的经验来看。在我看来,在构建TS的过程中,超过75%的劳动投入是对预测器的选择,如果能设法为一个特定的目标变量挑选出这样一套预测器。

桑桑尼奇,你好。

而如果通过你的方法,对于3个不相交的数据区间,我们得到不同的预测值,那么它们是非平稳的(噪声等),我们应该遵循吗?

 
桑桑尼茨-弗门科

所有软件包(模型)可分为两类。

  • 基本良好
  • 原则上不适合。

那些 "基本良好 "的软件包的性能大致相同,差异并不明显。

问题不是出在模型上,而是出在预测器的集合和它们的预处理上。如果我们采取一些预测器的集合,建立一个不过度训练的模型的可能性,以及误差的大小对模型的变化没有什么影响。因此,人们应该从那些 "原则上适合 "的模型中选择最简单、最快的模型。

PS。

从我自己的经验来看。在构建TC的过程中,超过75%的劳动投入是对预测因子的选择,如果有可能为一个特定的目标变量选择这样一套预测因子的话。

什么模型,你在说什么......。这就像一个人问"现在是什么时候?" 而答案是"你想让我跳什么?":)

千万不要,请不要再这样做了,写10行文字比读两行问题更容易。

 
mytarmailS:

也许有人会感兴趣,我发现了一个可以模拟交易和建立交易系统的软件包,叫做quantstrat

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

转帖
 
阿列克谢-伯纳科夫

桑桑尼奇,你好。

但是,如果按照你的方法,我们在3个不相交的训练数据段上得到了不同的预测因子的意义,那么它们就是非平稳的(噪声等),我们应该遵循吗?

预测因子的重要性只获得一次--当模型被训练时。那么这个模型是可应用的,而不是可训练的。
 
桑桑尼茨-弗门科
预测器的相关性只获得一次--当模型被训练时。那么这个模式是可应用的,而不是教的。
我记得,你在那里要教好几遍?
 
阿列克谢-伯纳科夫
你要教好几遍,我记得?

不可能!

再一次。

1.我们取一大块时间序列预测因子,例如10 000个观测值(线)。

2.我们把它分成两部分,严格按照机械方式:第一部分7000,第二部分3000。

3.我们将第一部分随机分为三部分:用于训练、测试和验证

4.我们在训练样本上教授(适合-适合)模型。

5.将训练好的模型应用于测试和验证样本。

6.如果在所有三个样本上--训练、测试和验证--误差大致相等,那么第7条。

7.在第二部分上应用该模型,它的时间序列是一个不间断的时间序列

8.如果这一部分的误差也与前三部分大致相等,那么。

  • 这组预测器不会导致模型的重新训练
  • 是所有四组数据(三组随机数据和一组顺序数据)的误差,是一个很难通过模型拟合减少的误差。
我的模型错误表现如下:ada、randomforest、SVM和它们的许多品种。联网的情况要糟糕得多。

 
桑桑尼茨-弗门科

不可能!

再一次。

1.取一大块时间序列预测因子,例如10,000个观测值(线)。

2.我们把它分成两部分,严格按照机械方式:第一部分7000,第二部分3000。

3.我们将第一部分随机分为三部分:用于训练、测试和验证

4.我们在训练样本上教授(适合-适合)模型。

5.将训练好的模型应用于测试和验证样本。

6.如果在所有三个样本上--训练、测试和验证--误差大致相等,那么第7条。

7.在第二部分上应用该模型,它的时间序列是一个不间断的时间序列。

8.如果这一部分的误差也与前三部分大致相等,那么。

  • 这组预测器不会导致模型的重新训练
  • 是所有四组数据(三组随机数据和一组顺序数据)的误差,是一个很难通过模型拟合减少的误差。
我的模型错误表现如下:ada、randomforest、SVM和它们的许多品种。联网的情况要糟糕得多。

给你。谢谢你。

我在训练上的效果比在其他样本上好得多。而在交叉验证上,结果更接近于最终的出样。

我认为你关于所有样本的误差相等的论述说明了欠拟合模型。也就是说,在任何地方都是一样的。
 
阿列克谢-伯纳科夫
....,也就是说,各地的情况都一样,都很一般。

马马虎虎只是缺乏大脑和时间。

你必须从目标变量开始,然后为它选择预测器,然后用数学进行双重检查,或者这样。总之,这个过程很缓慢,我无法将其正式化。

 
桑桑尼茨-弗门科

一般般--只是没有足够的大脑和时间。

你必须从目标变量开始,然后你必须用预测器来匹配它,然后用数学来反复检查它们,可以这么说。无论如何,这个过程对我来说是痛苦的,也是不能形式化的。

特别是在意义上,它是折磨人的。我不是这个意思。

如果你在任何地方都同样出色,那就是一种成就。但更多的时候,它将是同样糟糕的,这是一个薄弱的模型允许你实现的。
 
该主题似乎是死的....