交易中的机器学习:理论、模型、实践和算法交易 - 页 2551

 
Maxim Dmitrievsky#:

事后使用简历结果的正确方法是什么?

我优化模型的超参数(学习树的深度或叶子中的例子数量,树的数量,等等)和数据集(行的数量,特征的组合是可能的)。

我运行所有这些变体,然后通过向前估值的最佳总结果选择模型和数据集参数的最佳变体。我认为交叉验证更糟糕,而向前滚动是对现实中会发生的事情的复制:交易一个星期,再训练一个星期,再训练,等等。

取出找到的最佳模型参数,然后在整个数据集上训练它们

对整个数据集进行训练是不符合逻辑的。
什么是最好的历史深度,我们应该在同一个深度上继续训练。我的模型在M5的50,000行(几乎一年)上训练了N次,可能会显示所有前锋的总和为52%,如果我们使用相同的参数,但只在历史深度上有差异,即70,000行或30,000行,它将少于所有前锋的总和为50%。

原因是叶子不会包含相同的例子。树木可能有更多或更少的叶子,等等。我认为,对于不同大小的数据集,你应该改变深度或叶子中的例子数量。

 
elibrarius#:

我优化模型的超参数(树的训练深度或叶子中的例子数量,树的数量,等等)和数据集(行的数量,特征的组合是可能的)。

我运行所有这些变体,然后通过向前估值的最佳总结果选择模型和数据集参数的最佳变体。在我看来,交叉验证更糟糕,valking forward是对现实中的情况的复制:交易了一周--重新训练,又一周,又重新训练,等等。

在整个数据集上--不符合逻辑。
你所拥有的最好的历史深度是什么,你将继续以同样的深度进行训练。我的模型在M5的50,000行(几乎一年)上训练了N次,可能会显示所有前锋之和的52%。 如果我们使用相同的参数,但只在历史深度上有区别,即70,000行或30,000行,它将少于所有前锋之和的50%。

原因是叶子不会包含相同的例子。树木可能有更多或更少的叶子,等等。我认为对于不同大小的数据集,你需要改变叶子中的深度或例子的数量。

嗯,在我看来,需要用cv来评估数据集的质量,而不是评估某个特定模型的稳健性。如果k-folds上的平均误差可以接受,那么我们可以在这个数据集上训练一个模型,它也会很好。我们可以借用用于cv的模型中的平均参数。
 
Maxim Dmitrievsky#:
嗯,在我看来,需要用cv来评估数据集的质量,而不是某个特定模型的稳健性。如果k-folds上的平均误差可以接受,那么我们就可以在这个数据集上训练模型,它也会很好。你可以借用用于cv的模型中的平均参数。
从数据集中,我们将一直采取不同的块状物。我将对数据集(线和特征的数量)和模型参数进行优化。
 
Aleksey Nikolayev#:

也许可以检查考试中的每一个观察结果,看它是否是相对于考试的某种意义上的异常值。

这就是我想知道的事情。

我的观点是,市场是波动性和周期性的,在理论上,任何模型,假设事件重复发生(否则训练就没有意义),在其存在的不同时期会有很高的准确性,很可能在测试部分,只是会有另一个市场,另一个波段。训练是在最明显的模式上进行的,但我们是否有权认为它们会有同样的稳定性!我认为一个模型的质量取决于描述稳定模式的预测因素,因此我们应该在那些对样本中不同部分的结果具有典型意义的例子上进行训练。

 
mytarmailS#:
你可以通过木制模型来做这件事...
将模型分解成规则,对规则进行所需的统计分析(可重复性等),看规则是否出现在新的数据上...

"intrees "包的5行代码和去

我已经用叶子做了很久了,但它不太一样--它不能让我发现样本中的非典型例子。

 
Vladimir Perervenko#:

NoiseFiltersR请看这篇文章

看了这篇文章,据我所知,这个软件包并没有带来明显的效果--增加了大约3%,但它很有趣--你能解释一下它的工作原理吗?

 
elibrarius#:
我们将一直从数据集中抽取不同的块。我同时优化了数据集(线条和特征的数量)和模型参数。

我忘了,你是否有当前小时蜡烛的目标颜色/类型?

 
Aleksey Nikolayev#:

虽然噪声预测器或多或少都很清楚,但噪声的例子却不那么好。我想知道更多关于它们是如何被定义的(就理论而言,而不是所使用的包/函数的名称,当然,在R中总是有参考文章的)。很明显,在分类时应该有一个 "不交易 "的类别,因为力争一直在市场中被认为是一个错误。但是,如何以或多或少的正式形式正确地描述这个类,并不十分清楚。

处理有噪声的例子有三个选项:删除、重新分区(纠正标记)和为有噪声的例子创建一个单独的类。根据我的经验,大约25%的样本是 "噪音"。质量改进约为5%,它取决于模型和数据准备。我偶尔会应用它。

使用预测器时还有一个问题--它们的漂移。而这个问题在测试和运行中都需要被识别和考虑到。所附的文章翻译(在网上找其他的),还有一个漂流瓶 的包装。它不是唯一的。但问题是,在选择预测器时,你不仅需要考虑它们的重要性,还需要考虑它们的漂移。对于高漂移的人来说,把它们扔掉或改造它们,对于低漂移的人来说,在测试和工作时把它们考虑进去(正确)。

祝好运

附加的文件:
Drift1.zip  2238 kb
 
Aleksey Vyazmikin#:

忘记了,你的目标是当前小时线蜡烛的颜色/类型吗?

烛台的颜色即使有30%的误差,也可能是亏损的。我们不知道我们可能从中获得多少利润......在价格的缓慢移动中(隔夜),颜色通常是很好猜测的,1个错过的强势日蜡烛图可能抵得上10个小的隔夜蜡烛图。我认为猜测烛台的颜色又是一种随机输出(由于随机尺寸)。
这就是为什么我用TP、SL做了分类。如果它们是相等的,那么52%的成功交易已经获利。如果TP=2*SL。那么>33%的成功交易将是盈利的。我最好的成绩是在2年多的时间里,TP=SL的交易成功率为52-53%。但总的来说,我在考虑使用固定TP/SL的回归。更准确地说,我在考虑做一个基于回归的分类。
 

我有几年没上论坛了,它还在那里,就像歌里唱的那样:"你曾经是什么,你一直是什么,草原雄鹰,潇洒哥萨克......"。

统计学以一个公理开始,作为一个公理,它没有被讨论。


"垃圾进,垃圾出"。


原则上,没有也不可能有能从垃圾中获得甜头的数学方法。要么 一组预测因素可以阻止教师,要么 没有

而模型实际上并没有发挥任何作用,交叉验证和其他计算密集型的变态行为也是如此。


PS。

顺便说一下,模型中预测因子的 "重要性 "与预测教师的能力无关。