交易中的机器学习:理论、模型、实践和算法交易 - 页 1778

 
德米特里

而预测的能力是由什么决定的?

嗯,不是相关的...

也许通过滞后估计的交叉相关...

迪米特里

通过愚蠢地把世界上所有的东西都塞进模型里?

为什么不呢?在训练中,交叉验证会剔除不需要的东西,或者一些统计...

你怎么知道 "什么是什么"你怎么知道 "什么是什么",直到你检查它?

 
阿列克谢-维亚兹米 金。

你仍然没有说如何在上面交易--所以我不知道要编造什么样的TS。

怎么会呢,这很明显))。ZZ上涨意味着买入,下跌意味着卖出。

你会预测ZZ的方向,不是吗?

 
mytarmailS:

不是靠相关的...

也许通过滞后估计的交叉相关...

为什么不呢?交叉验证将剔除你在培训中不需要的东西,或一些统计数据...

你怎么知道 "什么是什么"直到你测试它?

好吧,我想详细谈谈冗余的问题,特别是与NS有关的问题,但我很懒。

顺便说一句,正是这个问题常常成为模型预测能力差的原因。

 
mytarmailS:

怎么会呢,这很明显))。ZZ上涨是买,下跌是卖。

你在预测ZZ的方向,是吗?

这将变成一种抽搐,可能。

你是否尝试过用窗口对分类指标进行平均化/平滑化,以消除异常值?

 
阿列克谢-维亚兹米 金。

这将变成一个抽搐,可能。

你是否尝试过用窗口对分类指标进行平均化/平滑化,以消除异常值?

在这种情况下,平均数等于滞后数。你需要提高分类的质量,平滑是不可能的。

按原样试一试吧!

Dmitriy:

好吧,我想详细谈谈冗余的问题,特别是与NS有关的问题,但我很懒。

顺便说一下,这个问题往往是导致模型预测能力差的原因。

这就是为什么我认为在这个方向上,标志可以已经被AMO或工作规则所训练,那些标志应该是定性的、压缩的信息,我在前一页的小实验证明了这一点。

我仍然不明白如何预测相关关系(我不知道)。

 
mytarmailS:


而如何通过关联性来预测,我还是不明白(

预测再次....

相关系数有助于提前确定最重要的预测因素--因变量和预测因素之间的相关度越高,该变量对模型的意义就越大。

因此,在你的例子中,有两条路可以走。第一个,你的是每次把一个预测器替换到模型中,看看预测的准确性提高了多少。那是一段很长的时间。

第二种,利用相关系数提前筛选出不重要的预测因子,使模型产生噪音。


简单地说,冗余问题就是你可以在模型中增加100+1个新的预测因子,但100个预测因子会使预测质量增加0,01%,而1个会增加10%。而且,用这100个新的预测因子使模型超载是没有意义的--过度拟合

 
mytarmailS:


顺便说一句,在大量的预测因子上,树是垃圾,随机森林 是规则。

 
德米特里

预测再次....

相关系数有助于提前确定最重要的预测因素--因变量和预测因素之间的相关度越高,该变量对模型的意义就越大。

因此,在你的例子中,有两条路可以走。第一个,你的是每次把一个预测器替换到模型中,看看预测的准确性提高了多少。那是一段很长的时间。

第二,使用相关系数提前筛选出不重要的预测因素,这些预测因素会给模型带来噪音。

好吧,相关性只是筛选出的选项之一,而且绝对不是最好的。你也可以使用协整、交叉相关、非线性相关等,效果会更好,但它们在层次上都低于简单的分类误差,这就是为什么我选择性状预测 误差 的标准。

迪米特里

顺便说一句,在大量的预测因子上,树是垃圾,随机森林是规则。

我部分同意,但从广义上讲,森林是相同的规则,唯一的区别是复杂性。

在R中,有一个包可以将200棵树的森林压缩成一到三条规则,通过去除所有不必要的和多余的规则,分类质量的损失是0.5-2%,这是一个信息的压缩,我们应该努力提高可解释性。

 
mytarmailS:

在这种情况下,平均化等于滞后。你需要提高分类的质量,平滑是不可能的。

按原样试一试吧!

这不是一个选项。单位里有太多的干扰。

当然,你可以将激活阈值转移到0.65 - 买入,0.35 - 卖出。


 
阿列克谢-维亚兹米 金。

这不是一个选项。公寓里有太多的囤积物。

当然,你可以将激活阈值转移到0.65 - 买入,0.35 - 卖出。

给我看一个有交易的图表