交易中的机器学习:理论、模型、实践和算法交易 - 页 3333 1...332633273328332933303331333233333334333533363337333833393340...3399 新评论 Forester 2023.11.03 06:09 #33321 Aleksey Vyazmikin #:我还没想明白。好吧,这一切都 发生在一个空间里,即一个预测因子的度量 中,但如何考虑到其他 预测因子 呢?至于预测时该怎么做--我在考虑使用两个模型-- 一个 模型 检测 已消除的数据或确认数据处于 "成块 "区域,另一个模型已经在处理剩下的数据。 在示例中 ,有两个预测因子,即我们改变二维空间中的距离(计算斜边)。如果有 5000 个符号,那么您将测量 5000 维空间中的距离(如何测量 - 参见 Algibe 中的 k-means 代码,这就是主要任务 - 测量距离,将其作为基础)。 它看起来就像所有空间中导管平方和的根https://wiki.loginom.ru/articles/euclid-distance.html。 如果您真的要这样做,请不要忘记调整预测因子,以便在计算中,例如 1...100000 的体积不会吞没 0,00001...0,01000 的价格三角。 如何检测?这就是问题所在。特别是在市场数据中,噪声区域不会像示例中那么明显。所有数据都会有噪声,占 90%-99%。 使用现成的去除噪声线的软件包可能更容易,也许它们有一个检测器....。 Aleksey Vyazmikin 2023.11.03 07:03 #33322 Maxim Dmitrievsky #:https://www.mql5.com/ru/articles/9138已经一年没有人关心了我写过十几二十种这样的算法,其中一些已经很好地证明了自己。就结果的稳定性而言,这篇文章不是最好的,是第一个画饼。所以没什么好讨论的,因为还没有更好的。 为什么没有呢?我认为 Python 还没有在交易者中普及,所以人们才会积极讨论。,我稍后会在我的样本上尝试您的方法。 您尝试过 CatBoost 的开箱即用方法吗? Renat Akhtyamov 2023.11.03 07:14 #33323 sibirqk #: Они синхронизированы. Я же написал в начале поста - 'выровнял их по датам', что как раз и означает синхронизацию пар по времени. "但不幸的是,在我看来,这又是完全随机的。这幅图就是一张说明问题的图表"。 你说得对,事情没那么简单 Aleksey Vyazmikin 2023.11.03 07:18 #33324 Forester #:在示例中 ,有 2 个预测因子,也就是说,我们改变了 2 维空间中的距离(计算斜边)。如果有 5000 个符号,那么您将测量 5000 维空间中的距离(如何测量 - 参见 alglib 中的 k-means 代码,这是它的主要任务 - 测量距离,将其作为基础)。,它看起来就像所有空间中导管平方和的根https://wiki.loginom.ru/articles/euclid-distance.html。 现在有了一种理解--谢谢--我会考虑的。 Forester#: 如果您真的会这样做--不要忘记调整预测因子,以便在计算中不会吞没例如体积 1...100000 的价格三角洲 0,00001...0,01000。 没错,有必要进行归一化处理。但是,如果我们不对它们进行量化,而是纯粹按照指数来计算指标呢?:)我不喜欢用导管计数的想法,因为这太人为了。 不过,正确的做法应该是复制建议的算法,然后再考虑改进它。 Forester#: 如何检测?这就是问题所在。特别是在市场数据中,噪声区域不会像例子中那么明显。所有数据都会有噪声,占 90%-99%。使用现成的去除噪声线的软件包可能更容易,也许它们有一个检测器....。 事实上,你看视频了吗?在视频快结束的时候,我们看到了模型的建立,它只是检测数据属于哪个区域,如果属于非累积区域,根据训练时的给定样本,信号就会被忽略,这是我的理解。很明显,我们的数据比那里讨论的要差得多,但如果它是目标 "1 "的 20%-30%,我就已经很高兴了。 另一种方法是训练模型,通过在总体样本中标记这些行来检测这些被排除的示例。 Forester 2023.11.03 07:26 #33325 Aleksey Vyazmikin #:没错,我们应该将其标准化。但是,如果它们没有量化,而衡量标准纯粹是通过指数来计算的呢?:)我不喜欢通过导管计数的想法--这是人为的。 一个芯片量化为 2 个量子,另一个芯片量化为 32 个量子。这行不通。 Aleksey Vyazmikin#: 事实上,你看过视频了吗?视频快结束时提到,模型的建立只是为了检测数据属于哪个区域,如果属于非累积区域,根据训练所依据的给定样本,信号就会被忽略,我是这么理解的。显然,我们的数据比那里讨论的要糟糕得多,但如果它是目标 "1 "的 20%-30%,我会很高兴。另一种方法是训练模型,通过在总体样本中标记这些行来检测这些被排除的示例。 我还没研究过。 不需要这些计算也能检测出排除的示例。我已经告诉过你--只需排除其中一类概率约为 50%的叶子即可。 Aleksey Vyazmikin 2023.11.03 07:53 #33326 Forester #:一个芯片量化到 2 个量子,另一个量化到 32 个量子。这样不好。 不,这将是相同的相对位置--分流器(分路器)的数量--对所有人都是固定的。 Forester#: 无需这些计算,您就可以检测出排除的示例。我已经告诉过你了--你只需排除其中一类概率约为 50%的树叶。 可以有很多不同的方法。我感兴趣的是在建立模型之前进行处理的变体--因为在我看来,它可以减少建立组合的变体,从而减少最终结论的误差--无论最终模型是否训练成功。 此外,如果我们谈论可以 "丢掉 "某些东西的事实,你应该提到我们谈论的是什么模型。如果是森林,我们应该计算没有被 "丢弃 "的树叶的百分比,还是计算这些树叶的激活度接近 50%的数量,如果超过了它们的阈值,就不对信号做出反应? 在 "弹跳 "时,这就更有趣了--不确定的树叶总计可以将概率向一个或另一个方向移动--我一直想做一张图来显示权重是如何随概率移动而分布的,但我一直拖着。三天来,计算机一直在考虑模型树叶的相似性--我在考虑优化算法--太长了....。 Aleksey Nikolayev 2023.11.03 07:59 #33327 Forester #: 如果有 5000 个特征 在如此大的维度下,像 KNN 这样的度量算法意义不大。粗略地说,整个样本与任何一点的距离几乎都是相同的,结果将由距离的微小随机偏差决定。 Maxim Dmitrievsky 2023.11.03 08:21 #33328 Aleksey Vyazmikin #:那么,为什么没有案例呢?我认为,python 在交易者中还没有得到普及,所以人们才会进行积极的讨论。,我稍后会在我的样本中尝试您的方法。您尝试过 CatBoost 的开箱即用方法吗? 什么是开箱即用的方法?Python 是可选的。扔了很多文献。好吧,我也预言,所有还没有开始的人,过段时间都会任性起来,然后来讨论这个话题:)也许 10 年后,也许 100 年后就像没有其他选择一样,就是没有。也许还有其他神经网络可供选择,但原理是一样的--分而治之。 Aleksey Vyazmikin 2023.11.03 08:45 #33329 Maxim Dmitrievsky #: 开箱即用的方法是什么 这 就是功能。 马克西姆-德米特里耶夫斯基#: 就像没有其他选择一样,它们就是不存在。其他神经网络可能会有变种,但原理是一样的--分而治之。 划分/分离数据的方法有很多种,以前在这个主题中也尝试过,但效果并不显著,所以就被 "遗忘 "了。 还有贝叶斯网络--乍一看它们很有趣,只是因为它们能够还原因果关系。 Maxim Dmitrievsky 2023.11.03 09:06 #33330 Aleksey Vyazmikin #:这就是这种 功能。拆分/分离数据的方法有很多种,在本主题中也曾尝试过,但效果并不明显,因此被 "遗忘 "了。还有贝叶斯网络--乍一看它们很有趣,只是因为它们能够还原因果关系。 不,我还没试过。我今晚就去看看。这些方法依赖于模型。数据本身并不分离或分离。我不知道该怎么解释。我曾经试过一次,结果又给优化器惹了麻烦。书上写着呢如果你往左走,你会失去一匹马。如果你往右走 就会失去双头龙 1...332633273328332933303331333233333334333533363337333833393340...3399 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
我还没想明白。好吧,这一切都 发生在一个空间里,即一个预测因子的度量 中,但如何考虑到其他 预测因子 呢?
至于预测时该怎么做--我在考虑使用两个模型-- 一个 模型 检测 已消除的数据或确认数据处于 "成块 "区域,另一个模型已经在处理剩下的数据。
在示例中 ,有两个预测因子,即我们改变二维空间中的距离(计算斜边)。如果有 5000 个符号,那么您将测量 5000 维空间中的距离(如何测量 - 参见 Algibe 中的 k-means 代码,这就是主要任务 - 测量距离,将其作为基础)。
它看起来就像所有空间中导管平方和的根https://wiki.loginom.ru/articles/euclid-distance.html。
如果您真的要这样做,请不要忘记调整预测因子,以便在计算中,例如 1...100000 的体积不会吞没 0,00001...0,01000 的价格三角。
如何检测?这就是问题所在。特别是在市场数据中,噪声区域不会像示例中那么明显。所有数据都会有噪声,占 90%-99%。
使用现成的去除噪声线的软件包可能更容易,也许它们有一个检测器....。
https://www.mql5.com/ru/articles/9138
已经一年没有人关心了
我写过十几二十种这样的算法,其中一些已经很好地证明了自己。就结果的稳定性而言,这篇文章不是最好的,是第一个画饼。
所以没什么好讨论的,因为还没有更好的。
为什么没有呢?我认为 Python 还没有在交易者中普及,所以人们才会积极讨论。
,我稍后会在我的样本上尝试您的方法。
您尝试过 CatBoost 的开箱即用方法吗?
sibirqk #:
Они синхронизированы. Я же написал в начале поста - 'выровнял их по датам', что как раз и означает синхронизацию пар по времени.
"但不幸的是,在我看来,这又是完全随机的。这幅图就是一张说明问题的图表"。
你说得对,事情没那么简单
在示例中 ,有 2 个预测因子,也就是说,我们改变了 2 维空间中的距离(计算斜边)。如果有 5000 个符号,那么您将测量 5000 维空间中的距离(如何测量 - 参见 alglib 中的 k-means 代码,这是它的主要任务 - 测量距离,将其作为基础)。
,它看起来就像所有空间中导管平方和的根https://wiki.loginom.ru/articles/euclid-distance.html。
现在有了一种理解--谢谢--我会考虑的。
如果您真的会这样做--不要忘记调整预测因子,以便在计算中不会吞没例如体积 1...100000 的价格三角洲 0,00001...0,01000。
没错,有必要进行归一化处理。但是,如果我们不对它们进行量化,而是纯粹按照指数来计算指标呢?:)我不喜欢用导管计数的想法,因为这太人为了。
不过,正确的做法应该是复制建议的算法,然后再考虑改进它。
如何检测?这就是问题所在。特别是在市场数据中,噪声区域不会像例子中那么明显。所有数据都会有噪声,占 90%-99%。
使用现成的去除噪声线的软件包可能更容易,也许它们有一个检测器....。
事实上,你看视频了吗?在视频快结束的时候,我们看到了模型的建立,它只是检测数据属于哪个区域,如果属于非累积区域,根据训练时的给定样本,信号就会被忽略,这是我的理解。很明显,我们的数据比那里讨论的要差得多,但如果它是目标 "1 "的 20%-30%,我就已经很高兴了。
另一种方法是训练模型,通过在总体样本中标记这些行来检测这些被排除的示例。
没错,我们应该将其标准化。但是,如果它们没有量化,而衡量标准纯粹是通过指数来计算的呢?:)我不喜欢通过导管计数的想法--这是人为的。
一个芯片量化为 2 个量子,另一个芯片量化为 32 个量子。这行不通。
事实上,你看过视频了吗?视频快结束时提到,模型的建立只是为了检测数据属于哪个区域,如果属于非累积区域,根据训练所依据的给定样本,信号就会被忽略,我是这么理解的。显然,我们的数据比那里讨论的要糟糕得多,但如果它是目标 "1 "的 20%-30%,我会很高兴。
另一种方法是训练模型,通过在总体样本中标记这些行来检测这些被排除的示例。
我还没研究过。
不需要这些计算也能检测出排除的示例。我已经告诉过你--只需排除其中一类概率约为 50%的叶子即可。
一个芯片量化到 2 个量子,另一个量化到 32 个量子。这样不好。
不,这将是相同的相对位置--分流器(分路器)的数量--对所有人都是固定的。
无需这些计算,您就可以检测出排除的示例。我已经告诉过你了--你只需排除其中一类概率约为 50%的树叶。
可以有很多不同的方法。我感兴趣的是在建立模型之前进行处理的变体--因为在我看来,它可以减少建立组合的变体,从而减少最终结论的误差--无论最终模型是否训练成功。
此外,如果我们谈论可以 "丢掉 "某些东西的事实,你应该提到我们谈论的是什么模型。如果是森林,我们应该计算没有被 "丢弃 "的树叶的百分比,还是计算这些树叶的激活度接近 50%的数量,如果超过了它们的阈值,就不对信号做出反应?
在 "弹跳 "时,这就更有趣了--不确定的树叶总计可以将概率向一个或另一个方向移动--我一直想做一张图来显示权重是如何随概率移动而分布的,但我一直拖着。三天来,计算机一直在考虑模型树叶的相似性--我在考虑优化算法--太长了....。
如果有 5000 个特征
那么,为什么没有案例呢?我认为,python 在交易者中还没有得到普及,所以人们才会进行积极的讨论。
,我稍后会在我的样本中尝试您的方法。
您尝试过 CatBoost 的开箱即用方法吗?
开箱即用的方法是什么
这 就是功能。
划分/分离数据的方法有很多种,以前在这个主题中也尝试过,但效果并不显著,所以就被 "遗忘 "了。
还有贝叶斯网络--乍一看它们很有趣,只是因为它们能够还原因果关系。
这就是这种 功能。
拆分/分离数据的方法有很多种,在本主题中也曾尝试过,但效果并不明显,因此被 "遗忘 "了。
还有贝叶斯网络--乍一看它们很有趣,只是因为它们能够还原因果关系。