交易中的机器学习:理论、模型、实践和算法交易 - 页 3333

 
Aleksey Vyazmikin #:

我还没想明白。好吧,这一切都 发生在一个空间里,即一个预测因子的度量 中,但如何考虑到其他 预测因子 呢?

至于预测时该怎么做--我在考虑使用两个模型-- 一个 模型 检测 已消除的数据或确认数据处于 "成块 "区域,另一个模型已经在处理剩下的数据。

在示例中 ,有两个预测因子,即我们改变二维空间中的距离(计算斜边)。如果有 5000 个符号,那么您将测量 5000 维空间中的距离(如何测量 - 参见 Algibe 中的 k-means 代码,这就是主要任务 - 测量距离,将其作为基础)。
它看起来就像所有空间中导管平方和的根https://wiki.loginom.ru/articles/euclid-distance.html。

如果您真的要这样做,请不要忘记调整预测因子,以便在计算中,例如 1...100000 的体积不会吞没 0,00001...0,01000 的价格三角。

如何检测?这就是问题所在。特别是在市场数据中,噪声区域不会像示例中那么明显。所有数据都会有噪声,占 90%-99%。

使用现成的去除噪声线的软件包可能更容易,也许它们有一个检测器....。

 
Maxim Dmitrievsky #:

https://www.mql5.com/ru/articles/9138

已经一年没有人关心了

我写过十几二十种这样的算法,其中一些已经很好地证明了自己。就结果的稳定性而言,这篇文章不是最好的,是第一个画饼。

所以没什么好讨论的,因为还没有更好的。


为什么没有呢?我认为 Python 还没有在交易者中普及,所以人们才会积极讨论。
,我稍后会在我的样本上尝试您的方法。

您尝试过 CatBoost 的开箱即用方法吗?

 

sibirqk #:
Они синхронизированы. Я же написал в начале поста - 'выровнял их по датам', что как раз и означает синхронизацию пар по времени.

"但不幸的是,在我看来,这又是完全随机的。这幅图就是一张说明问题的图表"。

你说得对,事情没那么简单

 
Forester #:

在示例中 ,有 2 个预测因子,也就是说,我们改变了 2 维空间中的距离(计算斜边)。如果有 5000 个符号,那么您将测量 5000 维空间中的距离(如何测量 - 参见 alglib 中的 k-means 代码,这是它的主要任务 - 测量距离,将其作为基础)。
,它看起来就像所有空间中导管平方和的根https://wiki.loginom.ru/articles/euclid-distance.html。

现在有了一种理解--谢谢--我会考虑的。

Forester#:

如果您真的会这样做--不要忘记调整预测因子,以便在计算中不会吞没例如体积 1...100000 的价格三角洲 0,00001...0,01000。

没错,有必要进行归一化处理。但是,如果我们不对它们进行量化,而是纯粹按照指数来计算指标呢?:)我不喜欢用导管计数的想法,因为这太人为了。

不过,正确的做法应该是复制建议的算法,然后再考虑改进它。

Forester#

如何检测?这就是问题所在。特别是在市场数据中,噪声区域不会像例子中那么明显。所有数据都会有噪声,占 90%-99%。

使用现成的去除噪声线的软件包可能更容易,也许它们有一个检测器....。

事实上,你看视频了吗?在视频快结束的时候,我们看到了模型的建立,它只是检测数据属于哪个区域,如果属于非累积区域,根据训练时的给定样本,信号就会被忽略,这是我的理解。很明显,我们的数据比那里讨论的要差得多,但如果它是目标 "1 "的 20%-30%,我就已经很高兴了。

另一种方法是训练模型,通过在总体样本中标记这些行来检测这些被排除的示例。

 
Aleksey Vyazmikin #:

没错,我们应该将其标准化。但是,如果它们没有量化,而衡量标准纯粹是通过指数来计算的呢?:)我不喜欢通过导管计数的想法--这是人为的。

一个芯片量化为 2 个量子,另一个芯片量化为 32 个量子。这行不通。

Aleksey Vyazmikin#:

事实上,你看过视频了吗?视频快结束时提到,模型的建立只是为了检测数据属于哪个区域,如果属于非累积区域,根据训练所依据的给定样本,信号就会被忽略,我是这么理解的。显然,我们的数据比那里讨论的要糟糕得多,但如果它是目标 "1 "的 20%-30%,我会很高兴。

另一种方法是训练模型,通过在总体样本中标记这些行来检测这些被排除的示例。

我还没研究过。
不需要这些计算也能检测出排除的示例。我已经告诉过你--只需排除其中一类概率约为 50%的叶子即可。

 
Forester #:

一个芯片量化到 2 个量子,另一个量化到 32 个量子。这样不好。

不,这将是相同的相对位置--分流器(分路器)的数量--对所有人都是固定的。

Forester#:

无需这些计算,您就可以检测出排除的示例。我已经告诉过你了--你只需排除其中一类概率约为 50%的树叶。

可以有很多不同的方法。我感兴趣的是在建立模型之前进行处理的变体--因为在我看来,它可以减少建立组合的变体,从而减少最终结论的误差--无论最终模型是否训练成功。
此外,如果我们谈论可以 "丢掉 "某些东西的事实,你应该提到我们谈论的是什么模型。如果是森林,我们应该计算没有被 "丢弃 "的树叶的百分比,还是计算这些树叶的激活度接近 50%的数量,如果超过了它们的阈值,就不对信号做出反应?
在 "弹跳 "时,这就更有趣了--不确定的树叶总计可以将概率向一个或另一个方向移动--我一直想做一张图来显示权重是如何随概率移动而分布的,但我一直拖着。三天来,计算机一直在考虑模型树叶的相似性--我在考虑优化算法--太长了....。

 
Forester #:
如果有 5000 个特征
在如此大的维度下,像 KNN 这样的度量算法意义不大。粗略地说,整个样本与任何一点的距离几乎都是相同的,结果将由距离的微小随机偏差决定。
 
Aleksey Vyazmikin #:

那么,为什么没有案例呢?我认为,python 在交易者中还没有得到普及,所以人们才会进行积极的讨论。
,我稍后会在我的样本中尝试您的方法。

您尝试过 CatBoost 的开箱即用方法吗?

什么是开箱即用的方法?
Python 是可选的。扔了很多文献。
好吧,我也预言,所有还没有开始的人,过段时间都会任性起来,然后来讨论这个话题:)也许 10 年后,也许 100 年后

就像没有其他选择一样,就是没有。也许还有其他神经网络可供选择,但原理是一样的--分而治之。
 
Maxim Dmitrievsky #:
开箱即用的方法是什么

就是功能。

马克西姆-德米特里耶夫斯基#:
就像没有其他选择一样,它们就是不存在。其他神经网络可能会有变种,但原理是一样的--分而治之。

划分/分离数据的方法有很多种,以前在这个主题中也尝试过,但效果并不显著,所以就被 "遗忘 "了。

还有贝叶斯网络--乍一看它们很有趣,只是因为它们能够还原因果关系。

 
Aleksey Vyazmikin #:

这就是这种 功能。

拆分/分离数据的方法有很多种,在本主题中也曾尝试过,但效果并不明显,因此被 "遗忘 "了。

还有贝叶斯网络--乍一看它们很有趣,只是因为它们能够还原因果关系。

不,我还没试过。我今晚就去看看。
这些方法依赖于模型。数据本身并不分离或分离。我不知道该怎么解释。我曾经试过一次,结果又给优化器惹了麻烦。书上写着呢
如果你往左走,你会失去一匹马。如果你往右走 就会失去双头龙