交易中的机器学习:理论、模型、实践和算法交易 - 页 162

 
桑桑尼茨-弗门科

谢谢,我已经看过了。

我认为作者太乐观了。

过度训练的问题在原则上是无法解决的。

...

从理论上讲,从普遍的拉普拉斯确定性的角度来看,它是可以解决的,例如,如果所有必要的因素都是事先知道的,并且可以获得这些因素的信息。但在实践中,这种 "可决定性 "有很多问题(不是所有的因素都是已知的,也不是所有的因素都是可用的,而那些可用的因素,往往是有噪声的)。

桑桑尼茨-弗门科


...

在我看来,如果输入的预测因子没有首先从噪声中清除,即与目标变量 "不相关",那么 "粗化 "方法就不起作用,其他使用预测因子 "重要性 "概念的方法也不起作用。

根据你的信念,并基于我对jPrediction的经验的确认,似乎正是它应该是的?

但悲剧的是,并不是每个经验都能证实上述说法。这完全取决于使用什么样的机器学习方法。

例如,Viktor Tsaregorodtsev对具有BackPropagation的神经网络进行了研究,并根据结果得出了完全相反的结论,在他的文章"减少神经网络的规模并不导致增加泛化能力"中,我引用如下。

"这与消除嘈杂的、无信息的特征 和冗余的神经元是强制性的和有用的 观点相矛盾。"

换句话说,事实证明,无一例外地对所有机器学习方法得出任何一般性结论是绝对没有用的(做一个一刀切的方法)。对某些方法来说,这种 "结论 "是正确的,而对另一些方法来说,它们可能被证明是有故意的缺陷的。

 
尤里-雷舍托夫

在jPrediction中,增加模型的复杂性是指逐渐增加预测器的数量。因为在jPrediction中,隐藏层的神经元数量是2^(2*n+1),其中n是预测器的数量。因此,随着预测器数量的增加,模型的复杂性(隐藏层的神经元数量)也在增加。


如果有100个预测器,那么根据你的公式,隐藏层的神经元数量将几乎等于宇宙中的原子数量(我甚至不敢想200个预测器)。你似乎有神圣的资源--计算和时间。



 
安德烈-迪克

CC刚刚举了一个非常不幸的例子,同时继续坚持他的无知......

你说的 "其他力量 "是什么意思?同样的力作用在球和绒毛上--重力(重量)和风流的力量分布在身体的一半面积上。

...

安德鲁,我提醒你,这个主题是关于机器学习,而不是物理问题。

请善待自己,不要在分心的话题上犯傻,这个主题不欢迎这样的人。

如果你这么急于吹嘘你的物理知识,那就另外开一个主题,专门讨论这个问题。

特别是你试图以聪明的面孔挑战这个比喻,把自己放在一个故意的愚蠢位置。

 
尤里-雷舍托夫

安德鲁,我提醒你,这个主题是关于机器学习,而不是物理问题。

请善待自己,不要在分心的话题上犯傻,这个主题不欢迎这样的人。

如果你想吹嘘你的物理学知识,请单独开一个关于物理学的主题。

当你试图装出一副聪明的面孔来挑战一个隐喻,把自己放在一个故意愚蠢的位置上时,更是如此。

好吧,如果你认为基于错误例子的比喻有任何价值,我就不进一步干涉了。

我很抱歉。请原谅我。

 
sibirqk:

如果有100个预测器,根据你的公式,隐藏层的神经元数量将接近宇宙中的原子数量(我甚至不敢想200个预测器)。你似乎有神圣的资源--计算和时间。

我不在乎是否有10,000个预测者。并不确定所有这些都是有信息的。也就是说,jPrediction会在其中找到几个信息量最大的,逐渐使模型复杂化。一旦可归纳性开始下降,它就会停止。

它没有来神的资源。一台普通的个人电脑就很足够了。

 
安德烈-迪克

好吧,如果你认为基于错误例子的隐喻有任何价值,那么从现在开始我就不干涉了。

我很抱歉。请原谅我。

隐喻除了修辞价值外没有其他价值,无论其在修辞上是否成功。而挑剔他们是一种错误的做法。

当然接受道歉。

 
尤里-雷舍托夫
隐喻除了修辞之外没有其他价值,不管它们在修辞上是否成功。而挑剔他们是一种错误的做法。

如果说的东西没有价值,那就是新陈代谢。我不认为CC是有意要bola-bola-bola-bola,这只是他的方式。

而当他们想通过比较的方式用通俗易懂的语言传达一个想法时,就会使用隐喻。因此,一个例子对政治家来说是好的,而其他例子对核物理学家来说是可以理解的,所以政治家和核物理学家互相理解,他们使用比较、隐喻。因此,这些隐喻有一个明确的目的--促进对话者的理解。

不要紧,算了吧。

 
安德烈-迪克

如果说的东西没有价值,那么它就是新陈代谢。我不认为CC是有意要bola-bola-bola,只是对他来说是这样的。

他所做的只是给出了一个糟糕的比喻。那又怎样?为了这个,把他放到墙上?

我们都是人,我们有时都会犯错误。

另一件事是,因为有这么多的浮夸,过度降低了话题的信息价值。而这还不够好。

 
尤里-雷舍托夫

在理论上,从拉普拉斯普遍决定论的角度来看,它是可以解决的,例如,如果所有的必要因素都是已知的,并且有信息获取的途径。但在实践中,这样的 "可决定性 "有很多问题(不是所有的因素都是已知的,也不是所有的因素都是可用的,而那些可用的因素往往是有噪声的)。

根据你的信念,并根据我用jPrediction进行的实验确认,这似乎正是它应该有的样子?

但问题是,并不是每个经验都能证实上述说法。这完全取决于使用什么样的机器学习方法。

例如,Victor Tsaregorodtsev对带有BackPropagation的神经网络做了一些研究,结果在他的文章《缩小神经网络的规模并不能带来更高的泛化能力》中得出了完全相反的结论,我引用一下。

"这与消除嘈杂的、无信息的特征 和冗余的神经元在实践中是强制性的和有用的 观点相矛盾。"

换句话说,事实证明,无一例外地对所有机器学习方法得出任何一般性结论是绝对没有用的(做一个一刀切的方法)。对某些方法来说,这样的 "结论 "是正确的,而对另一些方法来说,则可能是故意的错误。

如果你看看randomforest算法作者的第一篇出版物,作者很严肃地声称rf根本不容易出现过度训练,并举了很多例子。randomforest软件包本身就是为了排除哪怕是最轻微的过度训练的嫌疑而建立的。

同时,训练最多的算法是Randomforest。我本人也曾烧伤过自己。

我只相信通过以下方法得到的数字。

我们采取两个在时间上彼此相随的文件。

我们将第一个文件随机分为三个部分:教学、测试和验证。

  • 我们在训练部分进行教学,而训练部分又被用来教授算法,在评估部分--样本AOB--被称为样本外。我们得到了学习错误。我们通过交叉验证算法得到ALE的切片,也就是说,它一直是不同的。
  • 我们在第一个文件的测试和验证部分检查训练好的模型。
  • 我们得到应用先前训练的模型的误差。这三个错误应该是接近的。

转到第二个文件,它在时间上落后于第一个文件。

将训练好的模型应用于这第二个文件。由此产生的错误不应该与3个错误有很大差别。

这导致了四个误差值,它们之间的差异不大

对我来说,这是没有过度训练的唯一证据。如果我们在测试器中也得到一个接近这四个的错误,我们可以进行交易。

这就是我所相信的一切。

绝大多数的机器学习出版物都没有在任何第二文件的模拟物上进行测试。原因是微不足道的。这些算法并没有应用于时间序列。而事实证明,对一号文件的随机分割是相当充分的。而这确实是手写识别的情况,比如说。

 

关于我的比喻和类比。

我毕业于应用数学专业。而我的老师相信,我和我的所有同学一样,有能力掌握任何数学工具。而我的老师认为我们未来工作中的主要问题是解决某一特定工具对某一实际问题的适用性 问题。这是我一生都在做的事情,但掌握任何工具....。在R国,有成百上千的人,那又怎样?

所有这些在我的地址上捣乱的人......。

驳斥巨魔只是为了养活它。

当然,我希望我可以清理一下这个话题,这是一个伟大的话题。