交易中的机器学习:理论、模型、实践和算法交易 - 页 555

 
马克西姆-德米特里耶夫斯基

所以我不知道今生该相信什么......一切都要反复检查。


基准是救命稻草))))

各种转换和削减。最上面的是原始数据。

train = rms sample with light sql. test = OOS. time = rms time in sec.


 
关于数据集的排放,市场可以使用这种方法
 

我有时会从这个论坛上想。这一切都很安静,很沉闷。而突然出现一些人,如弗拉基米尔或维扎_或最可疑的podotr,并开始展示大师级的课程。他们是谁?各位,请出示护照和教育文凭!:))))

 
桑桑尼茨-弗门科

只有那些与目标变量有关系的预测因子才应该被使用。不管是 "线性 "还是 "非线性",都与措辞非常准确的 "有关系 "无关。

这一点和文中的其他内容都很清楚,但在一个固有的非线性模型中,属性与目标的相关性与此有什么关系?

我写过为什么在回归模型中需要它,但在分类中不需要,因为它不是目标而是类......去深入了解我在写什么 :)

 
马克西姆-德米特里耶夫斯基

这一点和文中的其他内容都很清楚,但在一个固有的非线性模型中,属性与目标的相关性与此有什么关系?

我写了为什么在回归模型中需要它,但在分类中不需要,因为它不是目标,而是类......更深入地阅读我写的东西 :)


我不需要读得更深--我完全理解你,但你根本不理解我。

我写的是 过度训练(overfitting)--这是所有分类模型的主要敌人。过度拟合模型的行为在未来是不确定的。

为了打击这种完全的邪恶,我认为有两种工具。

1.从噪声中摆脱预测器的输入集

2.仔细测试。

所有这些我都是根据自己的计算结果写的,我向你保证有很大的量,我已经做了一年多了。

我懒得去搜索,然后形成一个可读的psot,因为我没有目的去说服任何人。


PS。

你一直坚持认为噪音预测者是无害的,甚至是有用的--你不是第一个,有很多这样的人,他们被称为占星家。

 
桑桑尼茨-弗门科

你一直坚持认为噪音预测器是无害的,甚至是有用的--你不是第一个,有很多这样的人,他们被称为占星家。


我在哪里写过这样的东西?

 
马克西姆-德米特里耶夫斯基

我在哪里写过这个?

重新阅读你的帖子。

ну это и все далее по тексту понятно, но причем здесь корреляция признака с целевой в изначально нелинейной модели

а я написал зачем она (корреляция) нужна в случае регрессионной, а в классификации нет, потому что там вообще не целевая а классы



事实证明,我的猜测,我认为我们的分歧是基于以下几点。

你反对相关性,我从来没有写过预测变量和目标变量之间的相关性。

这就是所谓的谈话。

我一直写道:预测者必须 目标变量有关 。我从来都不是指"关系"这个词意义上的相关、线性、非线性回归。此外,分类算法给出的所有预测器 "重要性 "算法也让我不满意。


看看我的例子:目标:性别,有男性/女性的类别,预测因素:服装,有裙子/裤子的价值。

 
SanSanych Fomenko:

重新阅读你的帖子。



事实证明,我的猜测,我认为我们的分歧是基于以下几点。

你反对相关性,我从来没有写过预测变量和目标变量之间的相关性。

这就是所谓的谈话。

我一直写道:预测者必须 目标变量有关 。我从来都不是指"关系"这个词意义上的相关、线性、非线性回归。此外,分类算法给出的所有预测器 "重要性 "算法也让我不满意。


看看我的例子:目标:性别,有男性/女性的类别,预测因素:服装,有裙子/裤子的价值。


是的,只是有时它被写成特征与目标应该完全相关,即应该有一个线性的依赖关系。

我写道,对于回归模型 来说,至少有一个性状应该与目标有线性关系,这可能是合理的。

关于 "关系",我当然同意 :)

 
Vizard_

基准化拯救)))

各种转换和削减。最上面一个是原始数据。

训练 = r.采样与光平方测试 = OOS.时间 = r.时间(秒)。



即使是远期的好结果也不一定是随后在卡片上产出利润的前兆 :)

上面已经提到了交叉验证,我认为这是最好的办法。

 
过度学习--发生在大权重(~10^18)的情况下,是多重共线性的结果,导致不稳定的A(x,w)模型。


过度学习的处理方法是:提前停止模型学习,限制权重的增长(L1(Lasso)和L2正则化),限制网络中的连接(Dropout),也可能应用惩罚函数(ElacticNet,Lasso)。

而L1正则化导致了对特征的选择,因为它对其权重系数进行了归零。

去除 "噪音 "特征就是选择特征。这方面是有方法的。这并不总是有利于模型,所以有时会使用L2正则化(有助于解决多重共线性的问题)。


SanSanych Fomenko,你关于特征和目标关系的说法有点自以为是。因为你怎么能断言一些尚未被证明的东西;这正是MO模型的建立目的。一个已建成的工作模型给出了一些估计,即与 "某某 "的精确度有关系。

而长裤和短裙的例子,显示了研究者对研究地区知识的匮乏,因为在这样一个模型中,你抛开了关于地点、时间、居住地区的经纬度等有价值的特征。


在建立一个模型之前,你应该了解被调查的领域,因为魔鬼和天才一样,都在细节中。


PS。有争论是一件好事。它们有助于打磨观点,教你为论文提供良好的论据,并导致共同的真理。