交易中的机器学习:理论、模型、实践和算法交易 - 页 932

 
elibrarius
把它复制到你的博客,也许有人会需要它。在这里寻找东西是不现实的。

博客上也有这个代码。但这是相当基本的 "如何制作kfold "的东西,有很多东西需要针对你的具体任务进行重新加工。另外,如果你在遗传学中启用了多线程,elmnn会忽略已安装的gpsfold颗粒,每个线程都会得到不同的东西,而且是不可复制的,对于这种情况(遗传学中的多线程),请参见Vladimir Perervenko的文章和他控制gpsfold的方法。

 
马克西姆-德米特里耶夫斯基

仍然有一个额外的维度,你必须以某种方式画出一条穿过它的曲线,也许会有一个很大的误差

辍学会增加误差,不是吗?

辍学相当于停用了一个神经元。如果它有噪音,那就好了。
而他们为什么要发明一些增加误差的东西--只要有助于减少误差,一切都有意义。
 
elibrarius
辍学相当于关闭了一个神经元。如果它很吵,那就很好。
而你为什么会想到增加误差的东西--如果它有助于减少误差,一切都有意义。

咳咳......增加误差应该是为了消除过度训练。并非总是如此,但还能怎样?

这就是为什么他们说0.5是一个很好的外汇芝罘区。对我来说,在0.3-0.4时,它或多或少地开始工作,如果较少,则通常会过度。

我的意思是,我明白这个笑话,对吗? 他们认为自己很酷,事实上,他们只是把模型训练得很差,它或多或少没有泄露任何东西,因为它是半心半意的交易。

 
交易员博士

Python也应该是这样。

我明白了,Python离我很远,在所有...难道没有人做一个GUI包装器来与NS一起工作吗?

交易员博士

我今晚会运行这个算法,明天给你看出来的东西。

谢谢你,这将是有教育意义的。

交易员博士

在外汇中,实现100%的准确率并希望模型能很好地工作通常是不可能的,你需要几个月的时间来选择预测器,甚至是一个能很好地配合的目标。通常在达到高于50%的准确率后,该模型就开始记忆训练实例,而不是在其中寻找逻辑模式。所以新数据的结果会越来越差。在你的数据上,我得到了这个60%的最佳值--当训练和测试数据上的结果大致相同时,但随着更详细的树的分区和更高的精度,森林在新数据上显示出越来越差的结果。

有什么好着急的,如果不浪费,还有时间。

然而,我不太理解记忆和学习之间的区别,在我看来,所有这些MO应该在数据集中找到特征,并将预期的结果与记忆的结果进行核对,但要考虑到数据的变形,并相应地根据变形情况给出预测。这就是我的想法,直到我开始捣鼓这一切。

我只是很惊讶,这棵树是用不同的预测器集来解决的,这意味着在建立它的时候,并不是所有的数据和知识都被审查了,正是这种情况使我能够对进一步分支的可允许性做出假设。

 
马克西姆-德米特里耶夫斯基

咳咳......通过增加误差,过度训练似乎可以被消除。并非总是如此,但还能怎样呢?

这也是。更确切地说,这是主要任务。我有删除神经元与删除输入的联想。也许这是不对的。

是的,而在第一层的dropconnect 就像删除输入一样。

 
埃利布留斯

这也是。更确切地说--这是主要任务。我对删除神经元和删除输入有一种联想。这可能是不正确的。

移除神经元就是移除自由度 = 误差增加,粗放化

如果你从回归中删除几个项,就等于删除了输入,而在一个完全连贯的NS中,为什么

Dropconnect,从名字上看,是的,似乎是这样的

 
马克西姆-德米特里耶夫斯基

移除神经元就是移除自由度 = 误差增加,粗放化

如果从回归中去掉一些成员,就相当于去掉了输入,在一个完全连接的NS中,为什么?

Dropconnect,从名字上看,--是的,似乎是这样。

但是,对于Dropconnect来说,这个任务也很复杂。例如,50个输入,50个神经元。
通过删除1个输入,我们也删除了50个神经元的50个连接。
而要删除所有50个连接,是删除1个输入的50倍难度。并以这种方式通过所有50个输入...那是50^50的变化。很明显,这是一项无望的任务。处理输入比较容易--我们只有2^50 )))。
 
elibrarius

这个问题不只是针对你,也是针对所有人。

在实践中是这样的,也就是说,如果有噪声预测器,那么NS不能脱离50-55%。如果拿起,甚至可以发出70%。

但为什么会这样呢?
1)那么,NS在训练过程中应该自动为噪声预测器选择接近0的权重(相当于把它们排除在选择之外)。我们在支部开始时的任务中看到了这一点。
2)如果不通过训练来低估重量,那么至少辍学应该把他们筛选出来......

已经写过很多次了:噪声预测器对模型更友好--噪声中总有一些值可以改善学习结果。所以过程是相反的--噪音预测者得到更多的权重,而不是像你建议的那样。这在小样本中尤其明显,小样本的观测值少于1000个。超过5000个观测值的样本不会受到如此影响,但你仍然需要预先筛选噪声预测器

 
elibrarius
但在Dropconnect方面,任务也很困难。例如,50个输入,50个神经元。
通过删除1个输入,我们也删除了50个神经元的50个连接。
而为了删除1个输入而删除所有50个连接,难度是50倍。并以这种方式删除所有50个输入...显然,这是一项无望的任务。处理投入的问题比较容易。
反正投入更重要,玩模型只是萨满教,一般情况下不应该有大的收获。我做了一个脚手架的组合,在放弃单个脚手架后,我可以在误差上提高0.05,有时提高0.1(traine和test之间的差异)。这并不能解决主要问题。在高级神经网络中,我不知道如何。
 
桑桑尼茨-弗门科

已经写过很多次了:噪声预测器对模型更友好--噪声中总有一些值可以改善学习结果。所以过程是相反的--噪音预测者得到更多的权重,而不是像你建议的那样。这在小样本中尤其明显,小样本的观测值少于1000个。超过5000个观测值的样本不会受到如此影响,但你仍然需要预先筛选噪声预测器

也许有一种技术,可以根据分析师观点的重要性,优先考虑在NS/Tree/Forest中使用的预测器?