贝叶斯回归 - 有没有人用这种算法做了一个EA? - 页 51 1...444546474849505152535455 新评论 Alexey Burnakov 2016.03.22 10:53 #501 Дмитрий: 而你如何确定 "最佳 "组合? 用5次迭代进行交叉验证。但不是通常的随机选择例子的方法,而是适应时间序列 的方法--按时间隔离例子。该博客描述了这一切。5次测试犯规中目标指标的平均值表示训练参数的最佳组合。然后,该模型在整个训练样本上进行训练,并在另一个样本上进行验证。 Alexey Burnakov 2016.03.22 12:23 #502 我想知道我在实验中还应该改变什么。试着改变交叉验证的案例索引逻辑,没有改善。想到把输入的东西变成离散的形式。另一个选择是从一个复杂的模型下降到一个更简单的模型。一个复杂的模型是一个加速的决策森林。比较简单的是加速线性回归模型,其中正则化参数也可以调整。但问题是,仅仅通过改变设计方面的东西就能将55%的准确率提高到60%是很难的。建筑委员会的模型也是如此,最多只能提供一小部分的改进。开发和培训架构需要更长的时间。有一个想法是看一下重要的预测因素,如果它们经常处于窗口的边缘(724分钟),那么你可以把窗口延长到每天1440分钟。但这样一来,样本的数量将减少一半,因为我将以1440 +-的随机项增量来取。此外,还可以预测另一个目标,例如价格水平分解(止盈/止损)或一般 "方向",例如线性回归系数。一切都需要时间。但我肯定会再花几个月的时间来做这个实验。也许会有东西出来。 СанСаныч Фоменко 2016.03.22 17:57 #503 基本问题是预测因子的清单。在证明了预测因素清单的合理性之后,我们可以继续讨论其他问题。 Alexey Burnakov 2016.03.22 19:50 #504 СанСаныч Фоменко: 基本问题是预测因子的清单。在证明了预测因素清单的合理性之后,我们可以继续讨论其余的问题。 谢谢你。我也倾向于增加更多的预测因素。 Алексей Тарабанов 2016.03.22 20:06 #505 Alexey Burnakov: 谢谢你。我也倾向于增加更多的预测因素。 你认为你使用的预测器的数量不够吗? Alexey Burnakov 2016.03.22 20:27 #506 Алексей Тарабанов: 你认为你使用的预测器的数量不够吗? 我不太清楚。或者现有的预测器没有携带足够的信息。要么关系随着时间的推移发生了很大的变化,普遍性就会降低要么是预测者本身随着时间的推移改变了分布参数。对于第一点,可以增加更多,选择最好的总是可以的。在其他方面,数据的处理可能有帮助,但不是百分之百。我倾向于所有这些因素的组合。问题是,在交叉验证上,准确率仍然是55%-60%,而且随着预测范围的增加而下降。所以,预测器也没有给出关于训练样本的多少信息。那是如果我在测试中看到高准确度,而在验证中却急剧下降,实验的构造正确,所以依赖关系是非平稳的。 Алексей Тарабанов 2016.03.22 21:37 #507 Alexey Burnakov: 我不太清楚。要么现有的预测器没有携带足够的信息。要么关系随着时间的推移发生了很大的变化,普遍性就会降低要么是预测者本身随着时间的推移改变了分布参数。对于第一点,可以增加更多,选择最好的总是可以的。在其他方面,数据的处理可能有帮助,但不是百分之百。我倾向于所有这些因素的组合。问题是,在交叉验证上,准确率仍然是55%-60%,而且随着预测范围的增加而下降。所以,预测器也没有给出关于训练样本的多少信息。也就是说,如果我在测试中看到了高准确率,而在验证中却急剧下降,在实验构建正确的情况下,那么依赖关系是非平稳的。 很可能他们会这样做。 СанСаныч Фоменко 2016.03.23 08:00 #508 Alexey Burnakov: 我并不确定。要么现有的预测器没有携带足够的信息。要么关系随着时间的推移发生了很大的变化,普遍性就会降低要么是预测者本身随着时间的推移改变了分布参数。对于第一点,可以增加更多,选择最好的总是可以的。在其他方面,数据的处理可能有帮助,但不是百分之百。我倾向于所有这些因素的组合。问题是,在交叉验证上,准确率仍然是55%-60%,而且随着预测范围的增加而下降。所以,预测器也没有给出关于训练样本的多少信息。那是如果我看到在测试上有很高的准确度,而在验证上却急剧下降,实验构造正确,所以依赖关系是非平稳的。我已经写过了,我再讲一遍。我多次进行了关于选择预测器的 工作,包括按要求进行。结果如下所以。让我们采取一些预测因素的集合,不少于50个,最好超过100个。 我所处理的所有预测器组(即我并不要求概括)都可以分为两部分。与目标变量相关 的预测因素部分与目标变量无关 的预测器部分--噪声我写 "关系 "的时候非常小心,很刻意地不使用任何术语。预测因素的例子。挥手--与目标变量ZZ没有关系价格与raspka的偏差与目标变量ZZ有关请注意,我指定的是目标变量。对于另一个目标变量,它可能是相反的情况将这两组预测因子放在原来的预测因子集中,问题在于确定重要性的标准工具不起作用。因此,需要一些工具,我已经开发并使用了这些工具,它们可以对噪声预测器进行粗略的筛选。应该指出的是,这里并没有明确的规定。该算法对有效和名义预测因子分别进行量化。小于2(一些相对值)是肯定的噪音。在2和3之间:可以使用,但最好不要....噪声的问题是,与噪声有关的预测因子会使与之无关的预测因子失色。例如,Randomforest、ada、svm算法由于某种原因更多的是在这些噪声预测器上建立模型。在筛选出噪声预测器之后,在我的数据集中,大约有80%的预测器(!),我们把剩下的预测器列表拿出来,开始应用R的工具来确定变量的重要性。用于训练模型的实际预测器数量约为NOT噪声预测器的一半,即约为原始集的10%。我确定窗口中预测因素的重要性。随着窗口的移动,来自基本20%的预测因子列表一直在变化。即用12-15个预测因子来建立模型,但随着窗口在报价后的移动,它们是不同的。原因是什么?好吧,重点是,从噪声中清除预测器的集合,导致创建的模型没有 被重新训练。在数量上。在全套预测器上,有可能建立预测误差为3%-5%的模型!而任何将样本分成若干部分的算法,即所谓的 "样本外"--OOV,都证实了这个结果。这一点在raatle中得到了很好的体现,它总是将原始样本分成若干部分,并对结果非常满意。但是。如果初始样本包含噪声预测器,那么如果我们采取真正的 "样本外",即例如从2015年6月1日到2016年1月1日的训练样本,然后对1月1日之后的样本进行计算,我们可以轻松获得50%和70%的误差,而不是3%-5%的误差此外,离1月1日越远,结果就越差。模型被重新训练如果我对原始的噪声预测器集进行清理,结果如下,对Randomforest、ada SVM以及其他几个模型也是如此--即模型在我的案例中什么也没解决,结果是:在任何集上的预测误差都是30%左右。通过应用R的预测器重要性工具,我们可以进一步将误差降低到25%左右。对于目标变量ZZ,不可能改善这一结果。 Alexey Burnakov 2016.03.23 12:20 #509 СанСаныч Фоменко:我已经写过了,我再讲一遍。我曾多次做过选择预测器的工作,包括受人之托。结果如下所以。让我们采取一些预测因素的集合,不要少于50个,最好是超过100个。 我所处理的所有预测器组(即我并不要求概括)都可以分为两部分。与目标变量相关 的预测因素部分与目标变量无关 的预测器部分--噪声我写 "关系 "的时候非常小心,很刻意地不使用任何术语。预测因素的例子。挥手--与目标变量ZZ没有关系价格与raspka的偏差与目标变量ZZ有关请注意,我指定的是目标变量。对于另一个目标变量,它可能是相反的情况将这两组预测因子放在原来的预测因子集中,问题在于确定重要性的标准工具不起作用。因此,需要一些工具,我已经开发并使用了这些工具,它们可以对噪声预测器进行粗略的筛选。应该指出的是,这里并没有明确的规定。该算法对有效和名义预测因子分别进行量化。小于2(一些相对值)是肯定的噪音。在2和3之间:可以使用,但最好不要....噪声的问题是,与噪声有关的预测因子会使与之无关的预测因子失色。例如,Randomforest、ada和svm算法出于某种原因,更多的是在这些噪声预测器上建立模型。在筛选出噪声预测器之后,在我的数据集中,大约有80%的预测器(!),我们把剩下的预测器列表拿出来,开始应用R的工具来确定变量的重要性。用来训练模型的实际预测器数量约为NOT噪声预测器的一半,即约为原始集的10%。我确定窗口中预测因素的重要性。随着窗口的移动,来自基本20%的预测因子列表一直在变化。即用12-15个预测因子来建立模型,但随着窗口在报价后的移动,它们是不同的。原因是什么?好吧,重点是,从噪声中清除预测器的集合,导致创建的模型没有 被重新训练。在数量上。在全套预测器上,有可能建立预测误差为3%-5%的模型!而任何将样本分成若干部分的算法,即所谓的 "样本外"--OOV,都证实了这个结果。这一点在raatle中得到了很好的体现,它总是将原始样本分成若干部分,并对结果非常满意。但是。如果初始样本包含噪声预测器,那么如果我们采取真正的 "样本外",即例如从2015年6月1日到2016年1月1日的训练样本,然后对1月1日之后的样本进行计算,我们可以轻松获得50%和70%的误差,而不是3%-5%的误差此外,离1月1日越远,结果就越差。模型被重新训练如果我对原始的噪声预测器集进行清理,结果如下,对Randomforest、ada SVM以及其他几个模型也是如此--即模型在我的案例中什么都没解决,结果如下:在任何集上的预测误差都是30%左右。通过应用R的预测器重要性工具,我们可以进一步将误差降低到25%左右。对于目标变量ZZ,不可能改善这一结果。谢谢你。我明白你在想什么。从上述所有内容中,我看到了一种可能性,即计算预测者在训练样本的几个部分上的重要性,然后比较列表并选择重复的部分。对于手动选择,我不能说什么,我更喜欢马上使用机器。SZZ:我会尝试应用我自制的方法,基于相互信息函数,此外还有决策森林中的变量的重要性。我稍后会给你看结果。 Alexey Burnakov 2016.03.23 12:40 #510 СанСаныч Фоменко:噪声的问题是,与噪声有关的预测因子会堵塞与之无关的预测因子。例如,Randomforest、ada和svm算法出于某种原因,更多的是在这些噪声预测器上建立模型。 问题:SVM是否考虑到了变量之间的相互作用,还是只是加权的各个部分的总和? 1...444546474849505152535455 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
而你如何确定 "最佳 "组合?
基本问题是预测因子的清单。在证明了预测因素清单的合理性之后,我们可以继续讨论其余的问题。
谢谢你。我也倾向于增加更多的预测因素。
你认为你使用的预测器的数量不够吗?
我不太清楚。
我并不确定。
我已经写过了,我再讲一遍。
我多次进行了关于选择预测器的 工作,包括按要求进行。结果如下
所以。
让我们采取一些预测因素的集合,不少于50个,最好超过100个。
我所处理的所有预测器组(即我并不要求概括)都可以分为两部分。
我写 "关系 "的时候非常小心,很刻意地不使用任何术语。
预测因素的例子。
请注意,我指定的是目标变量。对于另一个目标变量,它可能是相反的情况
将这两组预测因子放在原来的预测因子集中,问题在于确定重要性的标准工具不起作用。因此,需要一些工具,我已经开发并使用了这些工具,它们可以对噪声预测器进行粗略的筛选。应该指出的是,这里并没有明确的规定。该算法对有效和名义预测因子分别进行量化。小于2(一些相对值)是肯定的噪音。在2和3之间:可以使用,但最好不要....
噪声的问题是,与噪声有关的预测因子会使与之无关的预测因子失色。例如,Randomforest、ada、svm算法由于某种原因更多的是在这些噪声预测器上建立模型。
在筛选出噪声预测器之后,在我的数据集中,大约有80%的预测器(!),我们把剩下的预测器列表拿出来,开始应用R的工具来确定变量的重要性。用于训练模型的实际预测器数量约为NOT噪声预测器的一半,即约为原始集的10%。
我确定窗口中预测因素的重要性。随着窗口的移动,来自基本20%的预测因子列表一直在变化。即用12-15个预测因子来建立模型,但随着窗口在报价后的移动,它们是不同的。
原因是什么?
好吧,重点是,从噪声中清除预测器的集合,导致创建的模型没有 被重新训练。
在数量上。
在全套预测器上,有可能建立预测误差为3%-5%的模型!而任何将样本分成若干部分的算法,即所谓的 "样本外"--OOV,都证实了这个结果。这一点在raatle中得到了很好的体现,它总是将原始样本分成若干部分,并对结果非常满意。
但是。
如果初始样本包含噪声预测器,那么如果我们采取真正的 "样本外",即例如从2015年6月1日到2016年1月1日的训练样本,然后对1月1日之后的样本进行计算,我们可以轻松获得50%和70%的误差,而不是3%-5%的误差此外,离1月1日越远,结果就越差。
模型被重新训练
如果我对原始的噪声预测器集进行清理,结果如下,对Randomforest、ada SVM以及其他几个模型也是如此--即模型在我的案例中什么也没解决,结果是:在任何集上的预测误差都是30%左右。通过应用R的预测器重要性工具,我们可以进一步将误差降低到25%左右。对于目标变量ZZ,不可能改善这一结果。
我已经写过了,我再讲一遍。
我曾多次做过选择预测器的工作,包括受人之托。结果如下
所以。
让我们采取一些预测因素的集合,不要少于50个,最好是超过100个。
我所处理的所有预测器组(即我并不要求概括)都可以分为两部分。
我写 "关系 "的时候非常小心,很刻意地不使用任何术语。
预测因素的例子。
请注意,我指定的是目标变量。对于另一个目标变量,它可能是相反的情况
将这两组预测因子放在原来的预测因子集中,问题在于确定重要性的标准工具不起作用。因此,需要一些工具,我已经开发并使用了这些工具,它们可以对噪声预测器进行粗略的筛选。应该指出的是,这里并没有明确的规定。该算法对有效和名义预测因子分别进行量化。小于2(一些相对值)是肯定的噪音。在2和3之间:可以使用,但最好不要....
噪声的问题是,与噪声有关的预测因子会使与之无关的预测因子失色。例如,Randomforest、ada和svm算法出于某种原因,更多的是在这些噪声预测器上建立模型。
在筛选出噪声预测器之后,在我的数据集中,大约有80%的预测器(!),我们把剩下的预测器列表拿出来,开始应用R的工具来确定变量的重要性。用来训练模型的实际预测器数量约为NOT噪声预测器的一半,即约为原始集的10%。
我确定窗口中预测因素的重要性。随着窗口的移动,来自基本20%的预测因子列表一直在变化。即用12-15个预测因子来建立模型,但随着窗口在报价后的移动,它们是不同的。
原因是什么?
好吧,重点是,从噪声中清除预测器的集合,导致创建的模型没有 被重新训练。
在数量上。
在全套预测器上,有可能建立预测误差为3%-5%的模型!而任何将样本分成若干部分的算法,即所谓的 "样本外"--OOV,都证实了这个结果。这一点在raatle中得到了很好的体现,它总是将原始样本分成若干部分,并对结果非常满意。
但是。
如果初始样本包含噪声预测器,那么如果我们采取真正的 "样本外",即例如从2015年6月1日到2016年1月1日的训练样本,然后对1月1日之后的样本进行计算,我们可以轻松获得50%和70%的误差,而不是3%-5%的误差此外,离1月1日越远,结果就越差。
模型被重新训练
如果我对原始的噪声预测器集进行清理,结果如下,对Randomforest、ada SVM以及其他几个模型也是如此--即模型在我的案例中什么都没解决,结果如下:在任何集上的预测误差都是30%左右。通过应用R的预测器重要性工具,我们可以进一步将误差降低到25%左右。对于目标变量ZZ,不可能改善这一结果。
谢谢你。
我明白你在想什么。从上述所有内容中,我看到了一种可能性,即计算预测者在训练样本的几个部分上的重要性,然后比较列表并选择重复的部分。
对于手动选择,我不能说什么,我更喜欢马上使用机器。
SZZ:我会尝试应用我自制的方法,基于相互信息函数,此外还有决策森林中的变量的重要性。我稍后会给你看结果。
噪声的问题是,与噪声有关的预测因子会堵塞与之无关的预测因子。例如,Randomforest、ada和svm算法出于某种原因,更多的是在这些噪声预测器上建立模型。