贝叶斯回归 - 有没有人用这种算法做了一个EA？ - 交易系统 - MQL5 算法交易论坛

Alexey Burnakov 2016.03.22 10:53 #501

Дмитрий:
而你如何确定 "最佳 "组合？

用5次迭代进行交叉验证。但不是通常的随机选择例子的方法，而是适应时间序列的方法--按时间隔离例子。该博客描述了这一切。

5次测试犯规中目标指标的平均值表示训练参数的最佳组合。

然后，该模型在整个训练样本上进行训练，并在另一个样本上进行验证。

Alexey Burnakov 2016.03.22 12:23 #502

我想知道我在实验中还应该改变什么。试着改变交叉验证的案例索引逻辑，没有改善。
想到把输入的东西变成离散的形式。
另一个选择是从一个复杂的模型下降到一个更简单的模型。一个复杂的模型是一个加速的决策森林。比较简单的是加速线性回归模型，其中正则化参数也可以调整。
但问题是，仅仅通过改变设计方面的东西就能将55%的准确率提高到60%是很难的。
建筑委员会的模型也是如此，最多只能提供一小部分的改进。开发和培训架构需要更长的时间。
有一个想法是看一下重要的预测因素，如果它们经常处于窗口的边缘（724分钟），那么你可以把窗口延长到每天1440分钟。但这样一来，样本的数量将减少一半，因为我将以1440 +-的随机项增量来取。
此外，还可以预测另一个目标，例如价格水平分解（止盈/止损）或一般 "方向"，例如线性回归系数。

一切都需要时间。但我肯定会再花几个月的时间来做这个实验。也许会有东西出来。

СанСаныч Фоменко 2016.03.22 17:57 #503

基本问题是预测因子的清单。在证明了预测因素清单的合理性之后，我们可以继续讨论其他问题。

Alexey Burnakov 2016.03.22 19:50 #504

СанСаныч Фоменко:
基本问题是预测因子的清单。在证明了预测因素清单的合理性之后，我们可以继续讨论其余的问题。

谢谢你。我也倾向于增加更多的预测因素。

Алексей Тарабанов 2016.03.22 20:06 #505

Alexey Burnakov:
谢谢你。我也倾向于增加更多的预测因素。

你认为你使用的预测器的数量不够吗？

Alexey Burnakov 2016.03.22 20:27 #506

Алексей Тарабанов:
你认为你使用的预测器的数量不够吗？

我不太清楚。

或者现有的预测器没有携带足够的信息。

要么关系随着时间的推移发生了很大的变化，普遍性就会降低

要么是预测者本身随着时间的推移改变了分布参数。

对于第一点，可以增加更多，选择最好的总是可以的。

在其他方面，数据的处理可能有帮助，但不是百分之百。

我倾向于所有这些因素的组合。问题是，在交叉验证上，准确率仍然是55%-60%，而且随着预测范围的增加而下降。所以，预测器也没有给出关于训练样本的多少信息。

那是如果我在测试中看到高准确度，而在验证中却急剧下降，实验的构造正确，所以依赖关系是非平稳的。

Алексей Тарабанов 2016.03.22 21:37 #507

Alexey Burnakov:
我不太清楚。

要么现有的预测器没有携带足够的信息。

要么关系随着时间的推移发生了很大的变化，普遍性就会降低

要么是预测者本身随着时间的推移改变了分布参数。

对于第一点，可以增加更多，选择最好的总是可以的。

在其他方面，数据的处理可能有帮助，但不是百分之百。

我倾向于所有这些因素的组合。问题是，在交叉验证上，准确率仍然是55%-60%，而且随着预测范围的增加而下降。所以，预测器也没有给出关于训练样本的多少信息。

也就是说，如果我在测试中看到了高准确率，而在验证中却急剧下降，在实验构建正确的情况下，那么依赖关系是非平稳的。

很可能他们会这样做。

СанСаныч Фоменко 2016.03.23 08:00 #508

Alexey Burnakov:
我并不确定。

要么现有的预测器没有携带足够的信息。

要么关系随着时间的推移发生了很大的变化，普遍性就会降低

要么是预测者本身随着时间的推移改变了分布参数。

对于第一点，可以增加更多，选择最好的总是可以的。

在其他方面，数据的处理可能有帮助，但不是百分之百。

我倾向于所有这些因素的组合。问题是，在交叉验证上，准确率仍然是55%-60%，而且随着预测范围的增加而下降。所以，预测器也没有给出关于训练样本的多少信息。

那是如果我看到在测试上有很高的准确度，而在验证上却急剧下降，实验构造正确，所以依赖关系是非平稳的。

我已经写过了，我再讲一遍。

我多次进行了关于选择预测器的工作，包括按要求进行。结果如下

所以。

让我们采取一些预测因素的集合，不少于50个，最好超过100个。

我所处理的所有预测器组（即我并不要求概括）都可以分为两部分。

与目标变量相关的预测因素部分
与目标变量无关的预测器部分--噪声

我写 "关系 "的时候非常小心，很刻意地不使用任何术语。

预测因素的例子。

挥手--与目标变量ZZ没有关系
价格与raspka的偏差与目标变量ZZ有关

请注意，我指定的是目标变量。对于另一个目标变量，它可能是相反的情况

将这两组预测因子放在原来的预测因子集中，问题在于确定重要性的标准工具不起作用。因此，需要一些工具，我已经开发并使用了这些工具，它们可以对噪声预测器进行粗略的筛选。应该指出的是，这里并没有明确的规定。该算法对有效和名义预测因子分别进行量化。小于2（一些相对值）是肯定的噪音。在2和3之间：可以使用，但最好不要....

噪声的问题是，与噪声有关的预测因子会使与之无关的预测因子失色。例如，Randomforest、ada、svm算法由于某种原因更多的是在这些噪声预测器上建立模型。

在筛选出噪声预测器之后，在我的数据集中，大约有80%的预测器（！），我们把剩下的预测器列表拿出来，开始应用R的工具来确定变量的重要性。用于训练模型的实际预测器数量约为NOT噪声预测器的一半，即约为原始集的10%。

我确定窗口中预测因素的重要性。随着窗口的移动，来自基本20%的预测因子列表一直在变化。即用12-15个预测因子来建立模型，但随着窗口在报价后的移动，它们是不同的。

原因是什么？

好吧，重点是，从噪声中清除预测器的集合，导致创建的模型没有被重新训练。

在数量上。

在全套预测器上，有可能建立预测误差为3%-5%的模型!而任何将样本分成若干部分的算法，即所谓的 "样本外"--OOV，都证实了这个结果。这一点在raatle中得到了很好的体现，它总是将原始样本分成若干部分，并对结果非常满意。

但是。

如果初始样本包含噪声预测器，那么如果我们采取真正的 "样本外"，即例如从2015年6月1日到2016年1月1日的训练样本，然后对1月1日之后的样本进行计算，我们可以轻松获得50%和70%的误差，而不是3%-5%的误差此外，离1月1日越远，结果就越差。

模型被重新训练

如果我对原始的噪声预测器集进行清理，结果如下，对Randomforest、ada SVM以及其他几个模型也是如此--即模型在我的案例中什么也没解决，结果是：在任何集上的预测误差都是30%左右。通过应用R的预测器重要性工具，我们可以进一步将误差降低到25%左右。对于目标变量ZZ，不可能改善这一结果。

Alexey Burnakov 2016.03.23 12:20 #509

СанСаныч Фоменко:

我已经写过了，我再讲一遍。

我曾多次做过选择预测器的工作，包括受人之托。结果如下

所以。

让我们采取一些预测因素的集合，不要少于50个，最好是超过100个。

我所处理的所有预测器组（即我并不要求概括）都可以分为两部分。

与目标变量相关的预测因素部分
与目标变量无关的预测器部分--噪声

我写 "关系 "的时候非常小心，很刻意地不使用任何术语。

预测因素的例子。

挥手--与目标变量ZZ没有关系
价格与raspka的偏差与目标变量ZZ有关

请注意，我指定的是目标变量。对于另一个目标变量，它可能是相反的情况

将这两组预测因子放在原来的预测因子集中，问题在于确定重要性的标准工具不起作用。因此，需要一些工具，我已经开发并使用了这些工具，它们可以对噪声预测器进行粗略的筛选。应该指出的是，这里并没有明确的规定。该算法对有效和名义预测因子分别进行量化。小于2（一些相对值）是肯定的噪音。在2和3之间：可以使用，但最好不要....

噪声的问题是，与噪声有关的预测因子会使与之无关的预测因子失色。例如，Randomforest、ada和svm算法出于某种原因，更多的是在这些噪声预测器上建立模型。

在筛选出噪声预测器之后，在我的数据集中，大约有80%的预测器（！），我们把剩下的预测器列表拿出来，开始应用R的工具来确定变量的重要性。用来训练模型的实际预测器数量约为NOT噪声预测器的一半，即约为原始集的10%。

我确定窗口中预测因素的重要性。随着窗口的移动，来自基本20%的预测因子列表一直在变化。即用12-15个预测因子来建立模型，但随着窗口在报价后的移动，它们是不同的。

原因是什么？

好吧，重点是，从噪声中清除预测器的集合，导致创建的模型没有被重新训练。

在数量上。

在全套预测器上，有可能建立预测误差为3%-5%的模型!而任何将样本分成若干部分的算法，即所谓的 "样本外"--OOV，都证实了这个结果。这一点在raatle中得到了很好的体现，它总是将原始样本分成若干部分，并对结果非常满意。

但是。

如果初始样本包含噪声预测器，那么如果我们采取真正的 "样本外"，即例如从2015年6月1日到2016年1月1日的训练样本，然后对1月1日之后的样本进行计算，我们可以轻松获得50%和70%的误差，而不是3%-5%的误差此外，离1月1日越远，结果就越差。

模型被重新训练

如果我对原始的噪声预测器集进行清理，结果如下，对Randomforest、ada SVM以及其他几个模型也是如此--即模型在我的案例中什么都没解决，结果如下：在任何集上的预测误差都是30%左右。通过应用R的预测器重要性工具，我们可以进一步将误差降低到25%左右。对于目标变量ZZ，不可能改善这一结果。

谢谢你。

我明白你在想什么。从上述所有内容中，我看到了一种可能性，即计算预测者在训练样本的几个部分上的重要性，然后比较列表并选择重复的部分。

对于手动选择，我不能说什么，我更喜欢马上使用机器。

SZZ：我会尝试应用我自制的方法，基于相互信息函数，此外还有决策森林中的变量的重要性。我稍后会给你看结果。

Alexey Burnakov 2016.03.23 12:40 #510

СанСаныч Фоменко:

噪声的问题是，与噪声有关的预测因子会堵塞与之无关的预测因子。例如，Randomforest、ada和svm算法出于某种原因，更多的是在这些噪声预测器上建立模型。

问题：SVM是否考虑到了变量之间的相互作用，还是只是加权的各个部分的总和？

贝叶斯回归 - 有没有人用这种算法做了一个EA？ - 页 51