交易中的机器学习：理论、模型、实践和算法交易

Forester 2023.11.03 06:09 #33321

Aleksey Vyazmikin #:

我还没想明白。好吧，这一切都发生在一个空间里，即一个预测因子的度量中，但如何考虑到其他预测因子呢？

至于预测时该怎么做--我在考虑使用两个模型-- 一个模型检测已消除的数据或确认数据处于 "成块 "区域，另一个模型已经在处理剩下的数据。

在示例中，有两个预测因子，即我们改变二维空间中的距离（计算斜边）。如果有 5000 个符号，那么您将测量 5000 维空间中的距离（如何测量 - 参见 Algibe 中的 k-means 代码，这就是主要任务 - 测量距离，将其作为基础）。
它看起来就像所有空间中导管平方和的根https://wiki.loginom.ru/articles/euclid-distance.html。

如果您真的要这样做，请不要忘记调整预测因子，以便在计算中，例如 1...100000 的体积不会吞没 0,00001...0,01000 的价格三角。

如何检测？这就是问题所在。特别是在市场数据中，噪声区域不会像示例中那么明显。所有数据都会有噪声，占 90%-99%。

使用现成的去除噪声线的软件包可能更容易，也许它们有一个检测器....。

Aleksey Vyazmikin 2023.11.03 07:03 #33322

Maxim Dmitrievsky #:

https://www.mql5.com/ru/articles/9138

已经一年没有人关心了

我写过十几二十种这样的算法，其中一些已经很好地证明了自己。就结果的稳定性而言，这篇文章不是最好的，是第一个画饼。

所以没什么好讨论的，因为还没有更好的。

为什么没有呢？我认为 Python 还没有在交易者中普及，所以人们才会积极讨论。
，我稍后会在我的样本上尝试您的方法。

您尝试过 CatBoost 的开箱即用方法吗？

Renat Akhtyamov 2023.11.03 07:14 #33323

sibirqk #:
Они синхронизированы. Я же написал в начале поста - 'выровнял их по датам', что как раз и означает синхронизацию пар по времени.

"但不幸的是，在我看来，这又是完全随机的。这幅图就是一张说明问题的图表"。

你说得对，事情没那么简单

Aleksey Vyazmikin 2023.11.03 07:18 #33324

Forester #:

在示例中，有 2 个预测因子，也就是说，我们改变了 2 维空间中的距离（计算斜边）。如果有 5000 个符号，那么您将测量 5000 维空间中的距离（如何测量 - 参见 alglib 中的 k-means 代码，这是它的主要任务 - 测量距离，将其作为基础）。
，它看起来就像所有空间中导管平方和的根https://wiki.loginom.ru/articles/euclid-distance.html。

现在有了一种理解--谢谢--我会考虑的。

Forester#:

如果您真的会这样做--不要忘记调整预测因子，以便在计算中不会吞没例如体积 1...100000 的价格三角洲 0,00001...0,01000。

没错，有必要进行归一化处理。但是，如果我们不对它们进行量化，而是纯粹按照指数来计算指标呢？:)我不喜欢用导管计数的想法，因为这太人为了。

不过，正确的做法应该是复制建议的算法，然后再考虑改进它。

Forester#：

如何检测？这就是问题所在。特别是在市场数据中，噪声区域不会像例子中那么明显。所有数据都会有噪声，占 90%-99%。

使用现成的去除噪声线的软件包可能更容易，也许它们有一个检测器....。

事实上，你看视频了吗？在视频快结束的时候，我们看到了模型的建立，它只是检测数据属于哪个区域，如果属于非累积区域，根据训练时的给定样本，信号就会被忽略，这是我的理解。很明显，我们的数据比那里讨论的要差得多，但如果它是目标 "1 "的 20%-30%，我就已经很高兴了。

另一种方法是训练模型，通过在总体样本中标记这些行来检测这些被排除的示例。

Forester 2023.11.03 07:26 #33325

Aleksey Vyazmikin #:

没错，我们应该将其标准化。但是，如果它们没有量化，而衡量标准纯粹是通过指数来计算的呢？:)我不喜欢通过导管计数的想法--这是人为的。

一个芯片量化为 2 个量子，另一个芯片量化为 32 个量子。这行不通。

Aleksey Vyazmikin#:

事实上，你看过视频了吗？视频快结束时提到，模型的建立只是为了检测数据属于哪个区域，如果属于非累积区域，根据训练所依据的给定样本，信号就会被忽略，我是这么理解的。显然，我们的数据比那里讨论的要糟糕得多，但如果它是目标 "1 "的 20%-30%，我会很高兴。

另一种方法是训练模型，通过在总体样本中标记这些行来检测这些被排除的示例。

我还没研究过。
不需要这些计算也能检测出排除的示例。我已经告诉过你--只需排除其中一类概率约为 50%的叶子即可。

Aleksey Vyazmikin 2023.11.03 07:53 #33326

Forester #:

一个芯片量化到 2 个量子，另一个量化到 32 个量子。这样不好。

不，这将是相同的相对位置--分流器（分路器）的数量--对所有人都是固定的。

Forester#:

无需这些计算，您就可以检测出排除的示例。我已经告诉过你了--你只需排除其中一类概率约为 50%的树叶。

可以有很多不同的方法。我感兴趣的是在建立模型之前进行处理的变体--因为在我看来，它可以减少建立组合的变体，从而减少最终结论的误差--无论最终模型是否训练成功。
此外，如果我们谈论可以 "丢掉 "某些东西的事实，你应该提到我们谈论的是什么模型。如果是森林，我们应该计算没有被 "丢弃 "的树叶的百分比，还是计算这些树叶的激活度接近 50%的数量，如果超过了它们的阈值，就不对信号做出反应？
在 "弹跳 "时，这就更有趣了--不确定的树叶总计可以将概率向一个或另一个方向移动--我一直想做一张图来显示权重是如何随概率移动而分布的，但我一直拖着。三天来，计算机一直在考虑模型树叶的相似性--我在考虑优化算法--太长了....。

Aleksey Nikolayev 2023.11.03 07:59 #33327

Forester #:
如果有 5000 个特征

在如此大的维度下，像 KNN 这样的度量算法意义不大。粗略地说，整个样本与任何一点的距离几乎都是相同的，结果将由距离的微小随机偏差决定。

Maxim Dmitrievsky 2023.11.03 08:21 #33328

Aleksey Vyazmikin #:

那么，为什么没有案例呢？我认为，python 在交易者中还没有得到普及，所以人们才会进行积极的讨论。
，我稍后会在我的样本中尝试您的方法。

您尝试过 CatBoost 的开箱即用方法吗？

什么是开箱即用的方法？

Python 是可选的。扔了很多文献。

好吧，我也预言，所有还没有开始的人，过段时间都会任性起来，然后来讨论这个话题：）也许 10 年后，也许 100 年后

就像没有其他选择一样，就是没有。也许还有其他神经网络可供选择，但原理是一样的--分而治之。

Aleksey Vyazmikin 2023.11.03 08:45 #33329

Maxim Dmitrievsky #:
开箱即用的方法是什么

这就是功能。

马克西姆-德米特里耶夫斯基#:

就像没有其他选择一样，它们就是不存在。其他神经网络可能会有变种，但原理是一样的--分而治之。

划分/分离数据的方法有很多种，以前在这个主题中也尝试过，但效果并不显著，所以就被 "遗忘 "了。

还有贝叶斯网络--乍一看它们很有趣，只是因为它们能够还原因果关系。

Maxim Dmitrievsky 2023.11.03 09:06 #33330

Aleksey Vyazmikin #:

这就是这种功能。

拆分/分离数据的方法有很多种，在本主题中也曾尝试过，但效果并不明显，因此被 "遗忘 "了。

还有贝叶斯网络--乍一看它们很有趣，只是因为它们能够还原因果关系。

不，我还没试过。我今晚就去看看。

这些方法依赖于模型。数据本身并不分离或分离。我不知道该怎么解释。我曾经试过一次，结果又给优化器惹了麻烦。书上写着呢

如果你往左走，你会失去一匹马。如果你往右走就会失去双头龙

交易中的机器学习：理论、模型、实践和算法交易 - 页 3333