交易中的机器学习:理论、模型、实践和算法交易 - 页 2382

 
Evgeni Gavrilovi:

随机?即如这里所示? 对50%的随机样本进行测试

是的,你可以在sklearn文档中读到它。

在季节性版本上进行了同样的测试(如视频中)......似乎没有什么改善。

 
elibrarius:

你说的是某种标准/古老的交叉验证。
首先,你不需要把线混在一起,而是分块服用,因为有0-90训练90-100测试,然后10-100训练,0-10测试,然后20-100-10训练10-20测试,等等。
其次,根据普拉多的建议,你必须在训练和测试之间留出一些空间(修剪),以避免训练和测试中相邻的例子进入你的工作。与测试中的10-100个例子相邻的火车上的例子将是他们的提示/寻求者。在这里阅读更多信息 https://dou.ua/lenta/articles/ml-vs-financial-math/
或者这里有一张图片。

你可以做20%或更多,只要你喜欢。

最后,代替交叉验证,你可以应用滚动式前进。这并不是围绕着圆圈的测试情节,而是只有前面的测试。

你在这里说的一切都已经被我用在我的实验中了。

这些技巧的目的是什么,把样本分成几块,是为了找到整个样本中固有的模式噪音较小的那块。有助于分类的规则噪音越小/越明显,模型就越好。是的,这种方法有其生命力,但当你知道与目标相关的预测因子越多,随机性越大,而且样本量大到可以容纳尽可能多的预测因子组合时,这种方法就好用了,而且预测因子越多,样本就需要越大。我的样本量很少超过2万行(100%),而预测因子超过2千,显然所有的组合都不符合样本本身,不会被模型所考虑,因此召回率总是不超过+-50%。

因此,我的二进制化方法是基于不同的方法--每个预测器的网格量子都被评估为在时间上的稳定性和对目标的倾向性,然后被选中的预测器量子被合并为一个二进制预测器,从而从嘈杂的预测器量子/分裂中清除,大部分的预测器根本没有通过选择。根据选择的结果,已经建立了这样的二进制采样,因此我们在所有的训练地点都有类似的预测器行为,这应该有助于模型在类似事件发生时的稳定性,这在历史上也是如此。

 
Aleksey Vyazmikin:

你在这里说的一切我已经在我的实验中使用了。

这些技巧的目的是什么,将样本分成几块,是为了 找到 整个样本中固有的模式噪音较小的 那块

不 - 找到所有测试块的模型平均数(误差等)。或余额的总和。

如果可以接受使用早期行作为测试,交叉验证对你来说是没有问题的。
往前走可能就没有了。20000行很难分成很多块来提前测试。

你的计划是不典型的,所以没有什么建议)
 
elibrarius:

没有--找到所有测试件的模型平均数(误差等)。或余额的总和。

因此,什么会使这种情况发生,你需要确定关系占优势的情节,这将是强大的以后,重要的预测因素和目标。

elibrarius:

如果可以接受使用早期线作为测试,交叉验证将适合你。

往前走,也许不再是了。20000行很难分成很多块来提前测试。

你有一个不典型的计划,所以没有什么建议)

使用早期字符串是不可接受的,原因是它被用来评估量子--在60%的样本中。在这里,整个评估程序是由单个块来做的--但这有什么意义--在全球范围内是没有的。

方法Lasso显示了更好的结果,CatBoost--我当然会在以后的其他样本上进行比较,但显然它可以大大地概括出二进制预测器,其中单位10-20%。但如何使其在收入提取方面发挥作用是一个问题。

 
Aleksey Vyazmikin:

减少L2正则化,没有任何改善。所以拉索的结果更好。

这更好......两者都不好,而且有几个百分点的差别。

 
Maxim Dmitrievsky:

怎么会好呢......那里的东西是坏的,而且有几个百分点的差异

4%的准确率在货币方面是一个很大的数字--它将提高你的利润率和期望值!

 
谁有10年的欧元5分硬币,请发给我们一个txt或csv。
 
我在浏览器中绘制了神经网络预测图。得到了指标+试图表明进入点。
链接在我的个人资料中。
 
mytarmailS:
谁有10年内的欧元5分钟,请给我发一个txt或csv。

你不能下载终端吗?

附加的文件:
 
Maxim Dmitrievsky:

你不能下载终端吗?

在M5上的测试报价为10年......。你需要在他们给家庭预算带来麻烦之前将终端隐藏起来。