贝叶斯回归 - 有没有人用这种算法做了一个EA? - 页 51

 
Дмитрий:
而你如何确定 "最佳 "组合?
用5次迭代进行交叉验证。但不是通常的随机选择例子的方法,而是适应时间序列 的方法--按时间隔离例子。该博客描述了这一切。

5次测试犯规中目标指标的平均值表示训练参数的最佳组合。

然后,该模型在整个训练样本上进行训练,并在另一个样本上进行验证。
 
  • 我想知道我在实验中还应该改变什么。试着改变交叉验证的案例索引逻辑,没有改善。
  • 想到把输入的东西变成离散的形式。
  • 另一个选择是从一个复杂的模型下降到一个更简单的模型。一个复杂的模型是一个加速的决策森林。比较简单的是加速线性回归模型,其中正则化参数也可以调整。
  • 但问题是,仅仅通过改变设计方面的东西就能将55%的准确率提高到60%是很难的。
  • 建筑委员会的模型也是如此,最多只能提供一小部分的改进。开发和培训架构需要更长的时间。
  • 有一个想法是看一下重要的预测因素,如果它们经常处于窗口的边缘(724分钟),那么你可以把窗口延长到每天1440分钟。但这样一来,样本的数量将减少一半,因为我将以1440 +-的随机项增量来取。
  • 此外,还可以预测另一个目标,例如价格水平分解(止盈/止损)或一般 "方向",例如线性回归系数
一切都需要时间。但我肯定会再花几个月的时间来做这个实验。也许会有东西出来。
 
基本问题是预测因子的清单。在证明了预测因素清单的合理性之后,我们可以继续讨论其他问题。
 
СанСаныч Фоменко:
基本问题是预测因子的清单。在证明了预测因素清单的合理性之后,我们可以继续讨论其余的问题。
谢谢你。我也倾向于增加更多的预测因素。
 
Alexey Burnakov:
谢谢你。我也倾向于增加更多的预测因素。
你认为你使用的预测器的数量不够吗?
 
Алексей Тарабанов:
你认为你使用的预测器的数量不够吗?
我不太清楚。

或者现有的预测器没有携带足够的信息。
要么关系随着时间的推移发生了很大的变化,普遍性就会降低
要么是预测者本身随着时间的推移改变了分布参数。

对于第一点,可以增加更多,选择最好的总是可以的。
在其他方面,数据的处理可能有帮助,但不是百分之百。

我倾向于所有这些因素的组合。问题是,在交叉验证上,准确率仍然是55%-60%,而且随着预测范围的增加而下降。所以,预测器也没有给出关于训练样本的多少信息。

那是如果我在测试中看到高准确度,而在验证中却急剧下降,实验的构造正确,所以依赖关系是非平稳的。
 
Alexey Burnakov:
我不太清楚。

要么现有的预测器没有携带足够的信息。
要么关系随着时间的推移发生了很大的变化,普遍性就会降低
要么是预测者本身随着时间的推移改变了分布参数。

对于第一点,可以增加更多,选择最好的总是可以的。
在其他方面,数据的处理可能有帮助,但不是百分之百。

我倾向于所有这些因素的组合。问题是,在交叉验证上,准确率仍然是55%-60%,而且随着预测范围的增加而下降。所以,预测器也没有给出关于训练样本的多少信息。

也就是说,如果我在测试中看到了高准确率,而在验证中却急剧下降,在实验构建正确的情况下,那么依赖关系是非平稳的。
很可能他们会这样做。
 
Alexey Burnakov:
我并不确定。

要么现有的预测器没有携带足够的信息。
要么关系随着时间的推移发生了很大的变化,普遍性就会降低
要么是预测者本身随着时间的推移改变了分布参数。

对于第一点,可以增加更多,选择最好的总是可以的。
在其他方面,数据的处理可能有帮助,但不是百分之百。

我倾向于所有这些因素的组合。问题是,在交叉验证上,准确率仍然是55%-60%,而且随着预测范围的增加而下降。所以,预测器也没有给出关于训练样本的多少信息。

那是如果我看到在测试上有很高的准确度,而在验证上却急剧下降,实验构造正确,所以依赖关系是非平稳的。

我已经写过了,我再讲一遍。

我多次进行了关于选择预测器的 工作,包括按要求进行。结果如下

所以。

让我们采取一些预测因素的集合,不少于50个,最好超过100个。

我所处理的所有预测器组(即我并不要求概括)都可以分为两部分。

  • 与目标变量相关 的预测因素部分
  • 与目标变量无关 的预测器部分--噪声

我写 "关系 "的时候非常小心,很刻意地不使用任何术语。

预测因素的例子。

  • 挥手--与目标变量ZZ没有关系
  • 价格与raspka的偏差与目标变量ZZ有关

请注意,我指定的是目标变量。对于另一个目标变量,它可能是相反的情况

将这两组预测因子放在原来的预测因子集中,问题在于确定重要性的标准工具不起作用。因此,需要一些工具,我已经开发并使用了这些工具,它们可以对噪声预测器进行粗略的筛选。应该指出的是,这里并没有明确的规定。该算法对有效和名义预测因子分别进行量化。小于2(一些相对值)是肯定的噪音。在2和3之间:可以使用,但最好不要....

噪声的问题是,与噪声有关的预测因子会使与之无关的预测因子失色。例如,Randomforest、ada、svm算法由于某种原因更多的是在这些噪声预测器上建立模型。

在筛选出噪声预测器之后,在我的数据集中,大约有80%的预测器(!),我们把剩下的预测器列表拿出来,开始应用R的工具来确定变量的重要性。用于训练模型的实际预测器数量约为NOT噪声预测器的一半,即约为原始集的10%。

我确定窗口中预测因素的重要性。随着窗口的移动,来自基本20%的预测因子列表一直在变化。即用12-15个预测因子来建立模型,但随着窗口在报价后的移动,它们是不同的。

原因是什么?

好吧,重点是,从噪声中清除预测器的集合,导致创建的模型没有 被重新训练。

在数量上。

在全套预测器上,有可能建立预测误差为3%-5%的模型!而任何将样本分成若干部分的算法,即所谓的 "样本外"--OOV,都证实了这个结果。这一点在raatle中得到了很好的体现,它总是将原始样本分成若干部分,并对结果非常满意。

但是。

如果初始样本包含噪声预测器,那么如果我们采取真正的 "样本外",即例如从2015年6月1日到2016年1月1日的训练样本,然后对1月1日之后的样本进行计算,我们可以轻松获得50%和70%的误差,而不是3%-5%的误差此外,离1月1日越远,结果就越差。

模型被重新训练

如果我对原始的噪声预测器集进行清理,结果如下,对Randomforest、ada SVM以及其他几个模型也是如此--即模型在我的案例中什么也没解决,结果是:在任何集上的预测误差都是30%左右。通过应用R的预测器重要性工具,我们可以进一步将误差降低到25%左右。对于目标变量ZZ,不可能改善这一结果。

 
СанСаныч Фоменко:

我已经写过了,我再讲一遍。

我曾多次做过选择预测器的工作,包括受人之托。结果如下

所以。

让我们采取一些预测因素的集合,不要少于50个,最好是超过100个。

我所处理的所有预测器组(即我并不要求概括)都可以分为两部分。

  • 与目标变量相关 的预测因素部分
  • 与目标变量无关 的预测器部分--噪声

我写 "关系 "的时候非常小心,很刻意地不使用任何术语。

预测因素的例子。

  • 挥手--与目标变量ZZ没有关系
  • 价格与raspka的偏差与目标变量ZZ有关

请注意,我指定的是目标变量。对于另一个目标变量,它可能是相反的情况

将这两组预测因子放在原来的预测因子集中,问题在于确定重要性的标准工具不起作用。因此,需要一些工具,我已经开发并使用了这些工具,它们可以对噪声预测器进行粗略的筛选。应该指出的是,这里并没有明确的规定。该算法对有效和名义预测因子分别进行量化。小于2(一些相对值)是肯定的噪音。在2和3之间:可以使用,但最好不要....

噪声的问题是,与噪声有关的预测因子会使与之无关的预测因子失色。例如,Randomforest、ada和svm算法出于某种原因,更多的是在这些噪声预测器上建立模型。

在筛选出噪声预测器之后,在我的数据集中,大约有80%的预测器(!),我们把剩下的预测器列表拿出来,开始应用R的工具来确定变量的重要性。用来训练模型的实际预测器数量约为NOT噪声预测器的一半,即约为原始集的10%。

我确定窗口中预测因素的重要性。随着窗口的移动,来自基本20%的预测因子列表一直在变化。即用12-15个预测因子来建立模型,但随着窗口在报价后的移动,它们是不同的。

原因是什么?

好吧,重点是,从噪声中清除预测器的集合,导致创建的模型没有 被重新训练。

在数量上。

在全套预测器上,有可能建立预测误差为3%-5%的模型!而任何将样本分成若干部分的算法,即所谓的 "样本外"--OOV,都证实了这个结果。这一点在raatle中得到了很好的体现,它总是将原始样本分成若干部分,并对结果非常满意。

但是。

如果初始样本包含噪声预测器,那么如果我们采取真正的 "样本外",即例如从2015年6月1日到2016年1月1日的训练样本,然后对1月1日之后的样本进行计算,我们可以轻松获得50%和70%的误差,而不是3%-5%的误差此外,离1月1日越远,结果就越差。

模型被重新训练

如果我对原始的噪声预测器集进行清理,结果如下,对Randomforest、ada SVM以及其他几个模型也是如此--即模型在我的案例中什么都没解决,结果如下:在任何集上的预测误差都是30%左右。通过应用R的预测器重要性工具,我们可以进一步将误差降低到25%左右。对于目标变量ZZ,不可能改善这一结果。

谢谢你。

我明白你在想什么。从上述所有内容中,我看到了一种可能性,即计算预测者在训练样本的几个部分上的重要性,然后比较列表并选择重复的部分。

对于手动选择,我不能说什么,我更喜欢马上使用机器。

SZZ:我会尝试应用我自制的方法,基于相互信息函数,此外还有决策森林中的变量的重要性。我稍后会给你看结果。

 
СанСаныч Фоменко:


噪声的问题是,与噪声有关的预测因子会堵塞与之无关的预测因子。例如,Randomforest、ada和svm算法出于某种原因,更多的是在这些噪声预测器上建立模型。


问题:SVM是否考虑到了变量之间的相互作用,还是只是加权的各个部分的总和?