交易中的机器学习:理论、模型、实践和算法交易 - 页 2254

 
Maxim Dmitrievsky:

我没有多想,只是根据打探到的情况进行猜测。

hmm会给你狗以前没有见过的芯片。但与你所见的那些人相似。在反向转化中,它可能有一些影响,我想。添加一些噪音。

这是一个假设。

我在这里有点困惑了......

无论如何,PCA是线性的,它不会扭曲任何东西,如果你有所有的成分,你可以把你分解的东西放回去 而没有损失

 
mytarmailS:

我在这里已经很困惑了......

无论如何,PCA是线性的,它不会扭曲任何东西,如果你有所有的成分,你可以把你分解的东西重新组合在一起 ,没有损失

因此,在其他地方有一个陷阱。用PCA处理图像时效果很好,用引号时则更差,不过速度更快。

嗯,这是可以理解的......图片和数字很容易预测,但市场是不稳定的。如果你使用PCA,当波动率发生变化或其他情况时,成分就不再相关了。

数字滤波器 一样)))

 
Maxim Dmitrievsky:

你的PCA并不能解决这个问题,当波动性发生变化时,成分就不再相关了

我不知道你是什么意思,但是...

如果你把新数据 上的所有PCA成分加起来,你会得到相同的价格,所以......。我不知道你说的关联性是什么意思

 
mytarmailS:

我不知道你是什么意思,但是...

如果你把新数据 上的所有PCA成分加起来,你会得到相同的价格tick by tick,所以...我不知道你说的相关性是什么意思。

以后再谈狗的事吧,我困了)

编码员没有根据经验进行工作

 
Maxim Dmitrievsky:

我们以后再谈狗的事吧,我困了)。

编码员在经验上并不成功。

好的

 
mytarmailS:

你将是第一个。

看了2019年贝叶斯方法的一个课程,那里有一些有趣的想法,但公式抑制了理解。这里有一个想法,他用贝叶斯逻辑尝试了现代方法。讲师普遍认为,所有的MO如果没有贝叶斯方法来估计MO中的概率,就只是一种配合。


说到拟合,我越来越倾向于得出结论,CatBoost模型在训练之外的样本上会降低其结果,因为样本没有代表性,而且模型的构建方式。问题是,在经典模型中,树是对称的,没有修剪,这可能会导致一种情况,即一个叶子里的数据很少,但这个叶子得到的权重不小,如果这是一个有缺陷的分区,那么在训练之外的样本上,如果有缺陷的叶子里有很多例子,就会导致结果明显失真。而这样的叶子可能有成千上万。如果样本有代表性,就不会有问题,因为表中的权重是足够的,而且与数据分布的性质(熵)一致。你应该用少量的例子尝试分流叶子,把它们的权重归零。

我们的想法是,模型将只对它所了解的数据做出反应,而不是像现在这样做出 "如果这个是对的,那个是错的 "这样的判断。
 
Aleksey Vyazmikin:

看了2019年贝叶斯方法的一个课程,有一些有趣的想法,但公式阻碍了理解。这里有一个想法,他用贝叶斯逻辑尝试了现代方法。讲师普遍认为,所有的MO如果没有贝叶斯方法来估计MO中的概率,就只是一种配合。


说到拟合,我越来越倾向于得出结论,CatBoost模型在训练之外的样本上会降低其结果,因为样本没有代表性,而且模型的构建方式。问题是,在经典模型中,树是对称的,没有修剪,这可能会导致一种情况,即一个叶子里的数据很少,但这个叶子得到的权重不小,如果这是一个有缺陷的分区,那么在训练之外的样本上,如果有缺陷的叶子里有很多例子,就会导致结果明显失真。而这样的叶子可能有成千上万。如果样本有代表性,就不会有问题,因为表中的权重是足够的,而且与数据分布的性质(熵)一致。我们应该尝试用少量的例子来分流叶子,把它们的权重清零。

我们的想法是,模型只对它有想法的数据做出反应,而不是像现在这样 "如果这个是对的,那个就是错的 "那种判断。

代表性是一个重要条件。

Katbust在分裂时,是否会产生每片叶子有少量的例子?那里推荐的深度是6,也就是2^6=64,也就是说,一张纸会平均到整个样本的1/64行。如果你有至少10000行的训练,平均每张纸会有大约156个例子。在我看来,这很有代表性。

虽然如果你让树木对称,那里可能会有一些失真。你看到的叶子有多小,有多少行被提交给培训?

 
elibrarius:

代表性是一个重要的先决条件。

katbust在分割时,是否会产生片中有少量例子的叶子?建议的深度是6,即2^6=64,也就是说,一张纸的平均线是整个样本的1/64。如果你有至少10000行的训练,平均每张纸会有大约156个例子。在我看来,这很有代表性。

虽然如果你让树木对称,那里可能会有一些失真。你看到的叶子有多小,有多少行被提交给培训?

现在我没有确切的数字--这只是一个猜测。我必须回到我的旧代码,我想我有机会在那里得到这样的统计数据--我已经忘记了。你说的没错,平均数看起来并不令人生畏,但这并不意味着一张表中不会有相当多的例子。

我们可以看到,训练样本和测试样本上的极端概率边际通常有很大的不同--我假设只是因为例子数量少的叶子,这样的叶子只是在测试样本上很少发现。

 

有一个可视化的树叶激活统计估计--旧模型之一。

y是叶子的编号,x是采样行。颜色显示的是叶子重量的系数模数。

可以看出,即使在这里也有罕见的叶子激活,这意味着假设是有效的--它是一个样本考试


 
Aleksey Vyazmikin:

有一个可视化的树叶激活统计估计--旧模型之一。

y是叶子的编号,x是采样行。颜色显示的是叶子重量的系数模数。

你可以看到,即使在这里,也有罕见的叶子激活,所以假设是合理的--这是一个采样


考试中的罕见激活反而意味着市场已经发生变化,过去在托盘上发生的事情已经不再发生。而且,也不一定是那里的受训者名单上很少有激活的情况。