交易中的机器学习：理论、模型、实践和算法交易

mytarmailS 2020.12.20 20:13 #22531

Maxim Dmitrievsky:

我没有多想，只是根据打探到的情况进行猜测。

hmm会给你狗以前没有见过的芯片。但与你所见的那些人相似。在反向转化中，它可能有一些影响，我想。添加一些噪音。

这是一个假设。

我在这里有点困惑了......

无论如何，PCA是线性的，它不会扭曲任何东西，如果你有所有的成分，你可以把你分解的东西放回去 而没有损失。

Maxim Dmitrievsky 2020.12.20 20:16 #22532

mytarmailS:

我在这里已经很困惑了......

无论如何，PCA是线性的，它不会扭曲任何东西，如果你有所有的成分，你可以把你分解的东西重新组合在一起 ，没有损失。

因此，在其他地方有一个陷阱。用PCA处理图像时效果很好，用引号时则更差，不过速度更快。

嗯，这是可以理解的......图片和数字很容易预测，但市场是不稳定的。如果你使用PCA，当波动率发生变化或其他情况时，成分就不再相关了。

像数字滤波器一样)))

mytarmailS 2020.12.20 20:22 #22533

Maxim Dmitrievsky:

你的PCA并不能解决这个问题，当波动性发生变化时，成分就不再相关了

我不知道你是什么意思，但是...

如果你把新数据 上的所有PCA成分加起来，你会得到相同的价格，所以......。我不知道你说的关联性是什么意思

Maxim Dmitrievsky 2020.12.20 20:29 #22534

mytarmailS:

我不知道你是什么意思，但是...

如果你把新数据 上的所有PCA成分加起来，你会得到相同的价格tick by tick，所以...我不知道你说的相关性是什么意思。

以后再谈狗的事吧，我困了)

编码员没有根据经验进行工作

mytarmailS 2020.12.20 20:34 #22535

Maxim Dmitrievsky:

我们以后再谈狗的事吧，我困了）。

编码员在经验上并不成功。

好的

Aleksey Vyazmikin 2020.12.20 21:49 #22536

mytarmailS:

你将是第一个。

看了2019年贝叶斯方法的一个课程，那里有一些有趣的想法，但公式抑制了理解。这里有一个想法，他用贝叶斯逻辑尝试了现代方法。讲师普遍认为，所有的MO如果没有贝叶斯方法来估计MO中的概率，就只是一种配合。

说到拟合，我越来越倾向于得出结论，CatBoost模型在训练之外的样本上会降低其结果，因为样本没有代表性，而且模型的构建方式。问题是，在经典模型中，树是对称的，没有修剪，这可能会导致一种情况，即一个叶子里的数据很少，但这个叶子得到的权重不小，如果这是一个有缺陷的分区，那么在训练之外的样本上，如果有缺陷的叶子里有很多例子，就会导致结果明显失真。而这样的叶子可能有成千上万。如果样本有代表性，就不会有问题，因为表中的权重是足够的，而且与数据分布的性质（熵）一致。你应该用少量的例子尝试分流叶子，把它们的权重归零。

我们的想法是，模型将只对它所了解的数据做出反应，而不是像现在这样做出 "如果这个是对的，那个是错的 "这样的判断。

Forester 2020.12.21 05:24 #22537

Aleksey Vyazmikin:

看了2019年贝叶斯方法的一个课程，有一些有趣的想法，但公式阻碍了理解。这里有一个想法，他用贝叶斯逻辑尝试了现代方法。讲师普遍认为，所有的MO如果没有贝叶斯方法来估计MO中的概率，就只是一种配合。

说到拟合，我越来越倾向于得出结论，CatBoost模型在训练之外的样本上会降低其结果，因为样本没有代表性，而且模型的构建方式。问题是，在经典模型中，树是对称的，没有修剪，这可能会导致一种情况，即一个叶子里的数据很少，但这个叶子得到的权重不小，如果这是一个有缺陷的分区，那么在训练之外的样本上，如果有缺陷的叶子里有很多例子，就会导致结果明显失真。而这样的叶子可能有成千上万。如果样本有代表性，就不会有问题，因为表中的权重是足够的，而且与数据分布的性质（熵）一致。我们应该尝试用少量的例子来分流叶子，把它们的权重清零。

我们的想法是，模型只对它有想法的数据做出反应，而不是像现在这样 "如果这个是对的，那个就是错的 "那种判断。

代表性是一个重要条件。

Katbust在分裂时，是否会产生每片叶子有少量的例子？那里推荐的深度是6，也就是2^6=64，也就是说，一张纸会平均到整个样本的1/64行。如果你有至少10000行的训练，平均每张纸会有大约156个例子。在我看来，这很有代表性。

虽然如果你让树木对称，那里可能会有一些失真。你看到的叶子有多小，有多少行被提交给培训？

Aleksey Vyazmikin 2020.12.21 05:47 #22538

elibrarius:

代表性是一个重要的先决条件。

katbust在分割时，是否会产生片中有少量例子的叶子？建议的深度是6，即2^6=64，也就是说，一张纸的平均线是整个样本的1/64。如果你有至少10000行的训练，平均每张纸会有大约156个例子。在我看来，这很有代表性。

虽然如果你让树木对称，那里可能会有一些失真。你看到的叶子有多小，有多少行被提交给培训？

现在我没有确切的数字--这只是一个猜测。我必须回到我的旧代码，我想我有机会在那里得到这样的统计数据--我已经忘记了。你说的没错，平均数看起来并不令人生畏，但这并不意味着一张表中不会有相当多的例子。

我们可以看到，训练样本和测试样本上的极端概率边际通常有很大的不同--我假设只是因为例子数量少的叶子，这样的叶子只是在测试样本上很少发现。

Aleksey Vyazmikin 2020.12.21 06:22 #22539

有一个可视化的树叶激活统计估计--旧模型之一。

y是叶子的编号，x是采样行。颜色显示的是叶子重量的系数模数。

可以看出，即使在这里也有罕见的叶子激活，这意味着假设是有效的--它是一个样本考试

Forester 2020.12.21 07:06 #22540

Aleksey Vyazmikin:

有一个可视化的树叶激活统计估计--旧模型之一。

y是叶子的编号，x是采样行。颜色显示的是叶子重量的系数模数。

你可以看到，即使在这里，也有罕见的叶子激活，所以假设是合理的--这是一个采样

考试中的罕见激活反而意味着市场已经发生变化，过去在托盘上发生的事情已经不再发生。而且，也不一定是那里的受训者名单上很少有激活的情况。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2254