交易中的机器学习:理论、模型、实践和算法交易 - 页 743

 
Mihail Marchukajtes:

通过混合所有的数据,我们试图从这组数据中获得真正的潜力,而不是幸运的有序性的巧合。因此,当你洗牌的时候,你真的看到了数据的作用......So....

关键是,如果你不及时分离训练和测试,模型就会过度适应。一个夸张但能说明问题的例子:没有经过变换的绝对增量被用作预测器。我们使用一个宽度为15的滑动窗口,即每次送入15个增量预测器,并向右移动 一个值。相邻的数据集字符串的类别更有可能重合而不是不同,即如果第n个字符串的类别是1,那么第n+1个字符串就很有可能是1。 字符串之间只能有微小的差异,第n+1个字符串与第n个字符串只有一个数值的差异。有14个匹配值。因此,如果你从这样的数据集中取第一条线来训练,第二条线来测试,第三条线来训练等等,那么这个模型将工作得非常好,因为在测试中有许多线实际上与模型在训练中训练的数值相吻合。只有模型的OOS会很糟糕(如果你指的是真正的OOS,它不包括测试)。
 
弗拉基米尔-佩雷文科

当涉及到使用模型估计预测器 时,我认为最先进的软件包是RandomUniformForest。它从不同的角度非常详细地论述了预测器的重要性。我建议你看一下它。在我的一篇文章中,我详细地描述了它。

我拒绝使用预测因子的模型选择。限于所用模型的具体情况。

祝好运

我一直在写完全不同的东西:我对建立模型时预测器的使用强度不感兴趣,因为我认为建立模型最 "方便 "的预测器是与目标变量关系不大的预测器,因为人们总能在这样的预测器中找到 "方便 "的值,最终预测器的重要性将反映建立模型时的 "方便 "程度

我一直在写关于预测能力的文章,以及关于预测能力的影响。的预测者对目标变量的影响。上面表达了其中的一个想法(相互信息),我已经多次表达了我的这个想法。这些都是数学上的想法。更有效的是经济理念,因为在那里你可以挑选领先于目标变量的预测器。


所以再说一遍:我对模型中变量的重要性不感兴趣,我感兴趣的是预测器对目标变量的影响。


PS。

我已经检查了你推荐的软件包:结果几乎一样。

 
Slasher111:
重点是,如果你不按时间分开训练和测试,模型就会过度拟合。一个夸张但能说明问题的例子:我们有绝对增量作为预测器,没有任何转换。我们使用一个宽度为15的滑动窗口,即每次送入15个增量预测器,并向右移动 一个值。相邻的数据集字符串的类别更有可能重合而不是不同,即如果第n个字符串的类别是1,那么第n+1个字符串很有可能是1。 这些字符串之间只能有微小的差异,第n+1个字符串与第n个字符串只有一个数值的差异。有14个匹配值。因此,如果你从这样的数据集中取第一条线来训练,第二条线来测试,第三条线来训练等等,那么这个模型将工作得非常好,因为在测试中有许多线实际上与模型在训练中训练的数值相吻合。只有模型的OOS会很糟糕(如果你指的是真正的OOS,它不包括测试)。

这是一个非常好的观点。我在上面发布的关于学习测试和验证的随机抽样的那个惊人的、圣杯式的结果,正是对它的解释。而如果你排除了碰巧在不同集里的近距离观察,你会得到像我这样的一切--一场灾难。

 
Mihail Marchukajtes:

记得我说过,我收到的是一个从2018年1月31日到现在一直在收益的模型,而这是这个模型从2018年5月3日到现在这两周的表现。测试结果。

对于一个靠40分训练的老太太来说,这已经是很好的成绩了,而且现在已经有1.5个月的时间在进行OOS。

这是她从2018年1月31日开始的全部OOS。

而你仍然认为它是一个合适的????只是提醒一下,截图显示的是OOS部分。

你在3个月内遇到一个上升趋势,在休息时你会受到影响。

你应该采取一些简单的东西,比如每周一买入,随着市场的上涨,你会惊讶地发现它比你的效果更好。

 

你检查一切过度训练和样本本身的错误,这对统计学和理解算法的作用当然很有趣。但最后的想法是拿钱。那么为什么不在测试中检查可预测性呢?....在我的测试中,结果是50/50,但由于我将目标变量设置在moose小于利润的类中,所以在测试中结果是相当平稳的增长。顺便说一下,在测试中它只是一个坚实的前进,机器是在交易开始前的数据上训练的....。我应该补充一点,最重要的是输入预测器,它们的数量和它们描述目标的实际能力。

这里有一张图片测试

 
所讨论的许多方法都是非常过时的,它们在20世纪80年代是相关的...
 
阿纳托利-扎因奇科夫斯基

你检查一切过度训练和样本本身的错误,这对统计学和理解算法的作用当然很有趣。但最后的想法是拿钱。那么为什么不立即检查测试中的可预测性呢?....在我的测试中,结果是50/50,但由于我将目标变量设置在moose小于利润的类中,在测试中结果是相当平稳的增长。顺便说一下,在测试中它只是一个坚实的前进,机器是在交易开始前的数据上训练的....。我应该补充说,最重要的是输入预测器,它们的数量和它们描述目标的实际能力。

然而,再培训是非常重要的,因为例如在提升(梯度森林)中,你可以得到一个非常成功的模型,但在向前看时,它将是无用的,但你自己知道。

 
预测器的选择 很重要,但脚手架不知道如何对它们之间的关系因素进行建模,所以它是一个愚蠢的拟合,而用变量关系的形式变化进行巧妙的建模,不幸的是非常耗费时间。
 
超越梦想者

再培训仍然是一个重要的问题,因为,例如在提升(梯度森林)中,你可以得到一个惊人的模型,但在前进的过程中,你会得到一个褪色的模型,但你自己知道它

没有人说要永远使用,有一个时期,你可以重新训练,再去)))。

 
超越梦想者
预测器的选择很重要,但森林不知道如何对它们之间的关系因素进行建模,所以这是一个愚蠢的拟合,而以变量关系的形式进行智能建模,不幸的是,这是一件非常耗时的事情

而这些联系是无法从数学上找到的,所以这是一个愚蠢的配合或市场研究 :)

愚蠢的装配也是一件很酷的事情,实际上,如果使用概括性的方法。