交易中的机器学习:理论、模型、实践和算法交易 - 页 2254 1...224722482249225022512252225322542255225622572258225922602261...3399 新评论 mytarmailS 2020.12.20 20:13 #22531 Maxim Dmitrievsky: 我没有多想,只是根据打探到的情况进行猜测。hmm会给你狗以前没有见过的芯片。但与你所见的那些人相似。在反向转化中,它可能有一些影响,我想。添加一些噪音。 这是一个假设。 我在这里有点困惑了...... 无论如何,PCA是线性的,它不会扭曲任何东西,如果你有所有的成分,你可以把你分解的东西放回去 而没有损失。 Maxim Dmitrievsky 2020.12.20 20:16 #22532 mytarmailS: 我在这里已经很困惑了......无论如何,PCA是线性的,它不会扭曲任何东西,如果你有所有的成分,你可以把你分解的东西重新组合在一起 ,没有损失。 因此,在其他地方有一个陷阱。用PCA处理图像时效果很好,用引号时则更差,不过速度更快。 嗯,这是可以理解的......图片和数字很容易预测,但市场是不稳定的。如果你使用PCA,当波动率发生变化或其他情况时,成分就不再相关了。 像数字滤波器 一样))) mytarmailS 2020.12.20 20:22 #22533 Maxim Dmitrievsky: 你的PCA并不能解决这个问题,当波动性发生变化时,成分就不再相关了 我不知道你是什么意思,但是... 如果你把新数据 上的所有PCA成分加起来,你会得到相同的价格,所以......。我不知道你说的关联性是什么意思 Maxim Dmitrievsky 2020.12.20 20:29 #22534 mytarmailS: 我不知道你是什么意思,但是...如果你把新数据 上的所有PCA成分加起来,你会得到相同的价格tick by tick,所以...我不知道你说的相关性是什么意思。 以后再谈狗的事吧,我困了) 编码员没有根据经验进行工作 mytarmailS 2020.12.20 20:34 #22535 Maxim Dmitrievsky: 我们以后再谈狗的事吧,我困了)。编码员在经验上并不成功。 好的 Aleksey Vyazmikin 2020.12.20 21:49 #22536 mytarmailS: 你将是第一个。看了2019年贝叶斯方法的一个课程,那里有一些有趣的想法,但公式抑制了理解。这里有一个想法,他用贝叶斯逻辑尝试了现代方法。讲师普遍认为,所有的MO如果没有贝叶斯方法来估计MO中的概率,就只是一种配合。说到拟合,我越来越倾向于得出结论,CatBoost模型在训练之外的样本上会降低其结果,因为样本没有代表性,而且模型的构建方式。问题是,在经典模型中,树是对称的,没有修剪,这可能会导致一种情况,即一个叶子里的数据很少,但这个叶子得到的权重不小,如果这是一个有缺陷的分区,那么在训练之外的样本上,如果有缺陷的叶子里有很多例子,就会导致结果明显失真。而这样的叶子可能有成千上万。如果样本有代表性,就不会有问题,因为表中的权重是足够的,而且与数据分布的性质(熵)一致。你应该用少量的例子尝试分流叶子,把它们的权重归零。 我们的想法是,模型将只对它所了解的数据做出反应,而不是像现在这样做出 "如果这个是对的,那个是错的 "这样的判断。 Forester 2020.12.21 05:24 #22537 Aleksey Vyazmikin: 看了2019年贝叶斯方法的一个课程,有一些有趣的想法,但公式阻碍了理解。这里有一个想法,他用贝叶斯逻辑尝试了现代方法。讲师普遍认为,所有的MO如果没有贝叶斯方法来估计MO中的概率,就只是一种配合。说到拟合,我越来越倾向于得出结论,CatBoost模型在训练之外的样本上会降低其结果,因为样本没有代表性,而且模型的构建方式。问题是,在经典模型中,树是对称的,没有修剪,这可能会导致一种情况,即一个叶子里的数据很少,但这个叶子得到的权重不小,如果这是一个有缺陷的分区,那么在训练之外的样本上,如果有缺陷的叶子里有很多例子,就会导致结果明显失真。而这样的叶子可能有成千上万。如果样本有代表性,就不会有问题,因为表中的权重是足够的,而且与数据分布的性质(熵)一致。我们应该尝试用少量的例子来分流叶子,把它们的权重清零。 我们的想法是,模型只对它有想法的数据做出反应,而不是像现在这样 "如果这个是对的,那个就是错的 "那种判断。 代表性是一个重要条件。 Katbust在分裂时,是否会产生每片叶子有少量的例子?那里推荐的深度是6,也就是2^6=64,也就是说,一张纸会平均到整个样本的1/64行。如果你有至少10000行的训练,平均每张纸会有大约156个例子。在我看来,这很有代表性。 虽然如果你让树木对称,那里可能会有一些失真。你看到的叶子有多小,有多少行被提交给培训? Aleksey Vyazmikin 2020.12.21 05:47 #22538 elibrarius: 代表性是一个重要的先决条件。katbust在分割时,是否会产生片中有少量例子的叶子?建议的深度是6,即2^6=64,也就是说,一张纸的平均线是整个样本的1/64。如果你有至少10000行的训练,平均每张纸会有大约156个例子。在我看来,这很有代表性。虽然如果你让树木对称,那里可能会有一些失真。你看到的叶子有多小,有多少行被提交给培训? 现在我没有确切的数字--这只是一个猜测。我必须回到我的旧代码,我想我有机会在那里得到这样的统计数据--我已经忘记了。你说的没错,平均数看起来并不令人生畏,但这并不意味着一张表中不会有相当多的例子。 我们可以看到,训练样本和测试样本上的极端概率边际通常有很大的不同--我假设只是因为例子数量少的叶子,这样的叶子只是在测试样本上很少发现。 Aleksey Vyazmikin 2020.12.21 06:22 #22539 有一个可视化的树叶激活统计估计--旧模型之一。 y是叶子的编号,x是采样行。颜色显示的是叶子重量的系数模数。 可以看出,即使在这里也有罕见的叶子激活,这意味着假设是有效的--它是一个样本考试 Forester 2020.12.21 07:06 #22540 Aleksey Vyazmikin: 有一个可视化的树叶激活统计估计--旧模型之一。y是叶子的编号,x是采样行。颜色显示的是叶子重量的系数模数。你可以看到,即使在这里,也有罕见的叶子激活,所以假设是合理的--这是一个采样 考试中的罕见激活反而意味着市场已经发生变化,过去在托盘上发生的事情已经不再发生。而且,也不一定是那里的受训者名单上很少有激活的情况。 1...224722482249225022512252225322542255225622572258225922602261...3399 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
我没有多想,只是根据打探到的情况进行猜测。
hmm会给你狗以前没有见过的芯片。但与你所见的那些人相似。在反向转化中,它可能有一些影响,我想。添加一些噪音。
这是一个假设。我在这里有点困惑了......
无论如何,PCA是线性的,它不会扭曲任何东西,如果你有所有的成分,你可以把你分解的东西放回去 而没有损失。
我在这里已经很困惑了......
无论如何,PCA是线性的,它不会扭曲任何东西,如果你有所有的成分,你可以把你分解的东西重新组合在一起 ,没有损失。
因此,在其他地方有一个陷阱。用PCA处理图像时效果很好,用引号时则更差,不过速度更快。
嗯,这是可以理解的......图片和数字很容易预测,但市场是不稳定的。如果你使用PCA,当波动率发生变化或其他情况时,成分就不再相关了。
像数字滤波器 一样)))
你的PCA并不能解决这个问题,当波动性发生变化时,成分就不再相关了
我不知道你是什么意思,但是...
如果你把新数据 上的所有PCA成分加起来,你会得到相同的价格,所以......。我不知道你说的关联性是什么意思
我不知道你是什么意思,但是...
如果你把新数据 上的所有PCA成分加起来,你会得到相同的价格tick by tick,所以...我不知道你说的相关性是什么意思。
以后再谈狗的事吧,我困了)
编码员没有根据经验进行工作
我们以后再谈狗的事吧,我困了)。
编码员在经验上并不成功。
好的
你将是第一个。
看了2019年贝叶斯方法的一个课程,那里有一些有趣的想法,但公式抑制了理解。这里有一个想法,他用贝叶斯逻辑尝试了现代方法。讲师普遍认为,所有的MO如果没有贝叶斯方法来估计MO中的概率,就只是一种配合。
说到拟合,我越来越倾向于得出结论,CatBoost模型在训练之外的样本上会降低其结果,因为样本没有代表性,而且模型的构建方式。问题是,在经典模型中,树是对称的,没有修剪,这可能会导致一种情况,即一个叶子里的数据很少,但这个叶子得到的权重不小,如果这是一个有缺陷的分区,那么在训练之外的样本上,如果有缺陷的叶子里有很多例子,就会导致结果明显失真。而这样的叶子可能有成千上万。如果样本有代表性,就不会有问题,因为表中的权重是足够的,而且与数据分布的性质(熵)一致。你应该用少量的例子尝试分流叶子,把它们的权重归零。
我们的想法是,模型将只对它所了解的数据做出反应,而不是像现在这样做出 "如果这个是对的,那个是错的 "这样的判断。看了2019年贝叶斯方法的一个课程,有一些有趣的想法,但公式阻碍了理解。这里有一个想法,他用贝叶斯逻辑尝试了现代方法。讲师普遍认为,所有的MO如果没有贝叶斯方法来估计MO中的概率,就只是一种配合。
说到拟合,我越来越倾向于得出结论,CatBoost模型在训练之外的样本上会降低其结果,因为样本没有代表性,而且模型的构建方式。问题是,在经典模型中,树是对称的,没有修剪,这可能会导致一种情况,即一个叶子里的数据很少,但这个叶子得到的权重不小,如果这是一个有缺陷的分区,那么在训练之外的样本上,如果有缺陷的叶子里有很多例子,就会导致结果明显失真。而这样的叶子可能有成千上万。如果样本有代表性,就不会有问题,因为表中的权重是足够的,而且与数据分布的性质(熵)一致。我们应该尝试用少量的例子来分流叶子,把它们的权重清零。
我们的想法是,模型只对它有想法的数据做出反应,而不是像现在这样 "如果这个是对的,那个就是错的 "那种判断。代表性是一个重要条件。
Katbust在分裂时,是否会产生每片叶子有少量的例子?那里推荐的深度是6,也就是2^6=64,也就是说,一张纸会平均到整个样本的1/64行。如果你有至少10000行的训练,平均每张纸会有大约156个例子。在我看来,这很有代表性。
虽然如果你让树木对称,那里可能会有一些失真。你看到的叶子有多小,有多少行被提交给培训?
代表性是一个重要的先决条件。
katbust在分割时,是否会产生片中有少量例子的叶子?建议的深度是6,即2^6=64,也就是说,一张纸的平均线是整个样本的1/64。如果你有至少10000行的训练,平均每张纸会有大约156个例子。在我看来,这很有代表性。
虽然如果你让树木对称,那里可能会有一些失真。你看到的叶子有多小,有多少行被提交给培训?
现在我没有确切的数字--这只是一个猜测。我必须回到我的旧代码,我想我有机会在那里得到这样的统计数据--我已经忘记了。你说的没错,平均数看起来并不令人生畏,但这并不意味着一张表中不会有相当多的例子。
我们可以看到,训练样本和测试样本上的极端概率边际通常有很大的不同--我假设只是因为例子数量少的叶子,这样的叶子只是在测试样本上很少发现。
有一个可视化的树叶激活统计估计--旧模型之一。
y是叶子的编号,x是采样行。颜色显示的是叶子重量的系数模数。
可以看出,即使在这里也有罕见的叶子激活,这意味着假设是有效的--它是一个样本考试
有一个可视化的树叶激活统计估计--旧模型之一。
y是叶子的编号,x是采样行。颜色显示的是叶子重量的系数模数。
你可以看到,即使在这里,也有罕见的叶子激活,所以假设是合理的--这是一个采样