交易中的机器学习:理论、模型、实践和算法交易 - 页 393

 
Mihail Marchukajtes:
大家好!!!!我很高兴这个话题没有死,还活着,所以我有一个问题要问公众。我有一个用于训练的数据集,但不幸的是,它变得如此之大,训练时间太长。谁能用自己的经验建立一个模型,然后我们一起看看它的效果如何!!!!!。

尝试留下输入(按从0开始的顺序,0是第1列)。

0,4,50,53,59,61,64,92,98,101,104,

附加的文件:
 

我能够计算出数据集的截断部分,这是样本外网络的结果,但我不得不完全镜像该模型。

这是05.29的作品,我认为它很不错。


 
elibrarius

试着留下输入(按顺序从0开始,0是第1列)。

0,4,50,53,59,61,64,92,98,101,104,


优化器的优势是什么,它可以删除不必要的列。这就是为什么它需要这么长时间。但现在我将尝试优化完整的数据集,但根据你的建议,然后看看样本外的结果会如何。
 
Mihail Marchukajtes:

优化器的优势在于它可以删除不必要的列。这就是为什么它需要这么长的时间来计算。但现在我将尝试优化完整的数据集,考虑到你的建议,然后看看样本外的结果会是什么,好吗?


干得好!!!。我已经开始训练了,考虑到柱子少了很多,我想很快就能算出来,我会公布结果的 :-)

这是正确的,第一次训练的结果是55%的可概括性。

 

奇怪的是,有了这些输入,模型也需要反转,然后在同一地区,人们可以得到以下股权

这有点糟糕,但仍然可以应用。

我希望我们能在优化器上运行整个数据集。我认为那样的话,更多的柱子会被选中,概括水平会更高,因此在非抽样区的网络质量也会更高......

 
Mihail Marchukajtes:


干得好!!!。我已经开始训练了,因为柱子的数量明显减少了,我想它会很快计数的,我会公布结果的 :-)

这是正确的,第一次训练的结果是55%的可推广性。

55%的可概括性是什么?
正常的MLP给出11-5-1。
训练的平均误差(60.0%)情节=0.057(5.7%) nLearns=2 NGrad=332 NHess=0 NCholesky=0 codResp=2
验证时的平均误差(20.0%)情节=0.038(3.8%)nLearns=2 NGrad=332 NHess=0 NCholesky=0 codResp=2
测试的平均误差(20.0%)情节=0.023(2.3%)nLearns=2 NGrad=332 NHess=0 NCholesky=0 codResp=2
 
elibrarius:
55%的普适性是什么?
传统的MLP 11-5-1给出:
训练的平均误差(60.0%) plot =0.057(5.7%) nLearns=2 NGrad=332 NHess=0 NCholesky=0 codResp=2
验证的平均误差(20。0%)部分=0.038(3.8%) nLearns=2 NGrad=332 NHess=0 NCholesky=0 codResp=2
测试的平均误差(20.0%)部分=0.023(2.3%) nLearns=2 NGrad=332 NHess=0 NCholesky=0 codResp=2


我甚至不知道该怎么回答。唯一的办法是引用报告中的一个例子。优化的结果 可能是这样的:如何解释由每个人自己决定,但当优化完成后,结果看起来如下。

* 归纳能力的敏感度:55.12820512820513%。

* 归纳能力的特异性:55.5045871559633%。

* 归纳能力: 55.309734513274336%。

* 真正的积极因素:129

* 假阳性率:105

* 真负数:121

* 假阴性率:97

* 有统计的样本中的总模式:452个

在红色部分,我强调了概括能力的总体结果。第一个是猜中1的百分比,第二个是猜中0的百分比,第三个是总数。


 
Mihail Marchukajtes:


我不知道该说些什么。除了从报告中举出一个例子。优化结果 看起来是这样的,你可以用任何方式来解释它,但当优化完成后,结果看起来如下。

* 归纳能力的敏感度:55.12820512820513%。

* 归纳能力的特异性:55.5045871559633%。

* 归纳能力: 55.309734513274336%。

* 真正的积极因素:129

* 假阳性率:105

* 真负数:121

* 假阴性率:97

* 有统计的样本中的总模式:452个

在红色部分,我强调了概括能力的总体结果。第一个是猜中单数的百分比,第二个是猜中零数的百分比,第三个是总数。


MLP有95%的时间是在猜测......我认为你做错了自行车)没有冒犯的意思。
我也在制作自己的自行车,但基于几十年来经过验证的MLP(正如他们所说,已经过时了,需要更酷的东西来工作)。 所以我很支持自行车,也许你的代码在某个地方有一些错误的逻辑?我在测试不同的变体时,已经在我的体内发现了一些。包括解决了这个主题的第一个帖子的问题。但这些同样的过滤器,在你的问题中切断了不必要的东西--在那个()中切断了需要的东西。所以我认为我需要使用输入的权重来做筛选,在完整的数据上实地运行。
 
elibrarius
MLP有95%的时间是在猜测......我认为你做错了自行车)没有冒犯的意思。
我也在做自己的自行车,但基于几十年来经过验证的MLP(他们说已经过时了,需要更酷的东西来工作)。 所以我很支持自行车,也许你的代码中某个地方有逻辑错误?我在测试不同的变体时,已经在我的体内发现了一些。


问题是我不是一个程序员。这个优化器不是我写的,我只是用它,无论如何,你指定的输入给出了55%的概括性,这比猜测要好,因此我们看到样本外的结果有正的利润。现在唯一阻止我的是,模型需要是镜像的,那么它将获得,如果模型是直的,那么它将失去......。

但如果我们在所有的输入上运行优化器,我想模型会更复杂,会选择更多的输入。而且从理论上讲,这样的模式应该能更好、更长久地发挥作用。但我不能在完整的数据集上运行优化器--我想它需要一个月的时间来读取。所以我的希望是在GPU上运行优化器,然后我们再看看。

 
Mihail Marchukajtes:


问题是,我不会编程。这个优化器不是我写的,我只是用它,无论如何,你指定的输入给出了55%的概括,这比猜测要好,因此我们看到样本外的结果有正的利润。现在唯一阻止我的是,模型应该是镜像的,那么它就会增加,如果模型是直的,那么它就会失去。

但如果我们在所有的输入上运行优化器,我想模型会更复杂,会选择更多的输入。而且从理论上讲,这样的模式应该能更好、更长久地发挥作用。但我不能在完整的数据集上运行优化器--我想它需要一个月的时间来读取。所以我的希望是在GPU上运行优化器,然后我们再看看。

如果你要启动一个月的东西,请使用不间断电源,我在大约2个计算周内就把灯切了))。
而且不要等待GPU,重写代码可能需要更长的时间,如果作者没有做,几乎没有人会完成这个任务。