交易中的机器学习：理论、模型、实践和算法交易

Slasher111 2018.03.14 11:51 #7421

Mihail Marchukajtes:

通过混合所有的数据，我们试图从这组数据中获得真正的潜力，而不是幸运的有序性的巧合。因此，当你洗牌的时候，你真的看到了数据的作用......So....

关键是，如果你不及时分离训练和测试，模型就会过度适应。一个夸张但能说明问题的例子：没有经过变换的绝对增量被用作预测器。我们使用一个宽度为15的滑动窗口，即每次送入15个增量预测器，并向右移动一个值。相邻的数据集字符串的类别更有可能重合而不是不同，即如果第n个字符串的类别是1，那么第n+1个字符串就很有可能是1。字符串之间只能有微小的差异，第n+1个字符串与第n个字符串只有一个数值的差异。有14个匹配值。因此，如果你从这样的数据集中取第一条线来训练，第二条线来测试，第三条线来训练等等，那么这个模型将工作得非常好，因为在测试中有许多线实际上与模型在训练中训练的数值相吻合。只有模型的OOS会很糟糕（如果你指的是真正的OOS，它不包括测试）。

СанСаныч Фоменко 2018.03.14 12:09 #7422

弗拉基米尔-佩雷文科。

当涉及到使用模型估计预测器 时，我认为最先进的软件包是RandomUniformForest。它从不同的角度非常详细地论述了预测器的重要性。我建议你看一下它。在我的一篇文章中，我详细地描述了它。

我拒绝使用预测因子的模型选择。限于所用模型的具体情况。

祝好运

我一直在写完全不同的东西：我对建立模型时预测器的使用强度不感兴趣，因为我认为建立模型最 "方便 "的预测器是与目标变量关系不大的预测器，因为人们总能在这样的预测器中找到 "方便 "的值，最终预测器的重要性将反映建立模型时的 "方便 "程度

我一直在写关于预测能力的文章，以及关于预测能力的影响。的预测者对目标变量的影响。上面表达了其中的一个想法（相互信息），我已经多次表达了我的这个想法。这些都是数学上的想法。更有效的是经济理念，因为在那里你可以挑选领先于目标变量的预测器。

所以再说一遍：我对模型中变量的重要性不感兴趣，我感兴趣的是预测器对目标变量的影响。

PS。

我已经检查了你推荐的软件包：结果几乎一样。

СанСаныч Фоменко 2018.03.14 12:28 #7423

Slasher111:
重点是，如果你不按时间分开训练和测试，模型就会过度拟合。一个夸张但能说明问题的例子：我们有绝对增量作为预测器，没有任何转换。我们使用一个宽度为15的滑动窗口，即每次送入15个增量预测器，并向右移动一个值。相邻的数据集字符串的类别更有可能重合而不是不同，即如果第n个字符串的类别是1，那么第n+1个字符串很有可能是1。这些字符串之间只能有微小的差异，第n+1个字符串与第n个字符串只有一个数值的差异。有14个匹配值。因此，如果你从这样的数据集中取第一条线来训练，第二条线来测试，第三条线来训练等等，那么这个模型将工作得非常好，因为在测试中有许多线实际上与模型在训练中训练的数值相吻合。只有模型的OOS会很糟糕（如果你指的是真正的OOS，它不包括测试）。

这是一个非常好的观点。我在上面发布的关于学习测试和验证的随机抽样的那个惊人的、圣杯式的结果，正是对它的解释。而如果你排除了碰巧在不同集里的近距离观察，你会得到像我这样的一切--一场灾难。

Maxim Dmitrievsky 2018.03.14 12:33 #7424

Mihail Marchukajtes:

记得我说过，我收到的是一个从2018年1月31日到现在一直在收益的模型，而这是这个模型从2018年5月3日到现在这两周的表现。测试结果。

对于一个靠40分训练的老太太来说，这已经是很好的成绩了，而且现在已经有1.5个月的时间在进行OOS。

这是她从2018年1月31日开始的全部OOS。

而你仍然认为它是一个合适的????只是提醒一下，截图显示的是OOS部分。

你在3个月内遇到一个上升趋势，在休息时你会受到影响。

你应该采取一些简单的东西，比如每周一买入，随着市场的上涨，你会惊讶地发现它比你的效果更好。

Anatolii Zainchkovskii 2018.03.14 12:37 #7425

你检查一切过度训练和样本本身的错误，这对统计学和理解算法的作用当然很有趣。但最后的想法是拿钱。那么为什么不在测试中检查可预测性呢？....在我的测试中，结果是50/50，但由于我将目标变量设置在moose小于利润的类中，所以在测试中结果是相当平稳的增长。顺便说一下，在测试中它只是一个坚实的前进，机器是在交易开始前的数据上训练的....。我应该补充一点，最重要的是输入预测器，它们的数量和它们描述目标的实际能力。

这里有一张图片

transcendreamer 2018.03.14 12:39 #7426

所讨论的许多方法都是非常过时的，它们在20世纪80年代是相关的...

transcendreamer 2018.03.14 12:40 #7427

阿纳托利-扎因奇科夫斯基。

你检查一切过度训练和样本本身的错误，这对统计学和理解算法的作用当然很有趣。但最后的想法是拿钱。那么为什么不立即检查测试中的可预测性呢？....在我的测试中，结果是50/50，但由于我将目标变量设置在moose小于利润的类中，在测试中结果是相当平稳的增长。顺便说一下，在测试中它只是一个坚实的前进，机器是在交易开始前的数据上训练的....。我应该补充说，最重要的是输入预测器，它们的数量和它们描述目标的实际能力。

然而，再培训是非常重要的，因为例如在提升（梯度森林）中，你可以得到一个非常成功的模型，但在向前看时，它将是无用的，但你自己知道。

transcendreamer 2018.03.14 12:41 #7428

预测器的选择很重要，但脚手架不知道如何对它们之间的关系因素进行建模，所以它是一个愚蠢的拟合，而用变量关系的形式变化进行巧妙的建模，不幸的是非常耗费时间。

Anatolii Zainchkovskii 2018.03.14 12:42 #7429

超越梦想者。

再培训仍然是一个重要的问题，因为，例如在提升（梯度森林）中，你可以得到一个惊人的模型，但在前进的过程中，你会得到一个褪色的模型，但你自己知道它

没有人说要永远使用，有一个时期，你可以重新训练，再去）））。

Maxim Dmitrievsky 2018.03.15 03:35 #7430

超越梦想者。
预测器的选择很重要，但森林不知道如何对它们之间的关系因素进行建模，所以这是一个愚蠢的拟合，而以变量关系的形式进行智能建模，不幸的是，这是一件非常耗时的事情

而这些联系是无法从数学上找到的，所以这是一个愚蠢的配合或市场研究 :)

愚蠢的装配也是一件很酷的事情，实际上，如果使用概括性的方法。

交易中的机器学习：理论、模型、实践和算法交易 - 页 743