交易中的机器学习：理论、模型、实践和算法交易

Aleksey Vyazmikin 2022.09.05 20:32 #27291

Aleksey Nikolayev #:

在这里，您显然说的是多元样本（每个元素都是表格的一行，即一个向量），而您三个链接中的同质性标准说的是数值样本。matstat 中的多元同质性标准是另一首歌，我不太清楚。

每个预测因子都是一个数字样本，那么为什么不分别评估它们并取平均值呢？如果大多数预测因子都存在动态恶化，那么样本就是多余的。

Aleksey Nikolayev#：

这看起来像是寻找许多变化点的检测任务。事实再次证明，我们需要处理多变量（矢量）情况，这使事情变得非常复杂。

嗯，总的来说，我不喜欢依赖于选择哪些属性进行研究。如果我们选择不同的属性集，结果可能会不同。

也许我们应该找到那些能在识别片段属于某个特定组别以及在分组人群中进行训练的效率方面带来最佳结果的变量。

Maxim Dmitrievsky 2022.09.05 22:32 #27292

Aleksey Vyazmikin #:

你只能在一个样本内混合，如果你混合了两个样本，你就是在否认市场在变化。

难道你看不出其中的逻辑吗？

通过比较序列来确定训练样本的最佳长度是毫无意义的，因为市场是在变化的

你可以在任何时候混合它们，这不会改变任何事情。

Aleksey Vyazmikin 2022.09.05 22:45 #27293

Maxim Dmitrievsky #:
难道你还不明白其中的道理吗？

比较序列来确定训练样本的最佳长度是毫无意义的，因为市场在变化

您可以在任何时间点进行混合，这不会改变任何事情

如何证明市场在变化？这个过程需要多长时间？还是不断变化？

Maxim Dmitrievsky 2022.09.05 22:49 #27294

Aleksey Vyazmikin #:

如何证明市场的可变性？这一过程需要多长时间？还是不断变化？

就是这样，讨人喜欢的争论者开始了。

至少是非稳态。不断变化，有时停下来休息一下。

Aleksey Vyazmikin 2022.09.05 23:21 #27295

Maxim Dmitrievsky #:
就这样，愉快的争论者开始了。

至少不稳定。不断变化，有时停下来抽烟休息。

那么，应该用多大的样本量来确定静止性/非静止性呢？

按照你的说法，一个模式的寿命不会超过样本变化的寿命，但如果我的样本中有一个模式重复了 8 年呢？那是什么？是异常现象，还是模式并非都在变化，还是在小范围内发现的模式是错误的，是由其他因素造成的？

Aleksey Nikolayev 2022.09.06 04:28 #27296

Aleksey Vyazmikin #:

每个预测因子都是一个数字样本，为什么不逐个估算并求取平均值呢？

这只有在独立特征的情况下才可行，而由于它们是以相同的价格计算的，所以这是不可能的。在有依赖性的情况下，一切都要复杂得多--我们可以以共线分布为例，单变量分布总是相同的，但双变量分布却可能大相径庭。

Aleksey Vyazmikin#:

也许我们应该找到那些在识别段属于某个特定组别以及在分组人群中进行训练的效率方面效果最好的变体。

您对繁重的枚举计算很有兴趣）我们必须（在已经相当大的枚举量基础上）增加按特征类型枚举的功能，可能还需要按特征参数枚举的功能。

不过，在我看来，你的方法有其合理之处，值得我们思考。

mytarmailS 2022.09.06 06:07 #27297

Aleksey Vyazmikin #:

我不是说过，我们的想法是比较样本（训练和应用），如果您的理论是正确的，那么随着样本的增加，样本将不再相似，而为了理解这一点，我们需要从评估相似性的方法中得出的评估其变化的标准吗？

也许你不需要样本同质性的统计标准，而只需要观察模型在动态（滑动窗口）中特征重要性的变化。

如果当前状态与先前状态之间存在很大差异，就意味着我们已经进入了不同的样本.....。

优点

1.您无需编制统计程序。测试，一切开箱即用。

2.它不仅考虑了样本的时间变化，还考虑了目标样本的变化，我认为这一点同样重要。

Maxim Dmitrievsky 2022.09.06 06:19 #27298

Aleksey Vyazmikin #:

确定静止性/非静止性需要多大的样本量？

按照您的说法，一个模式的寿命不会超过样本变化的寿命，但如果我的样本中有一个模式重复了 8 年，那该怎么办？那是什么？是异常现象，还是模式并非都在变化，还是在小范围内发现的模式是错误的，是由其他因素造成的？

我想说的是，在一个任意的时间尺度上，不会超过某一特定趋势的生命周期。

但这只是一种宽泛的描述。

从点到分叉点。

Valeriy Yastremskiy 2022.09.06 08:48 #27299

模型不同但相似，不同又不相似，它们有什么区别？分叉点的出现并不一定会导致模型的改变，可以通过人工目测标出相同的区域，但最后并没有预测的部分，目的是找到样本的最小长度，从而确认模型的状态或符合性。

模型的复杂性，这里当然也有一个矛盾，简单的模型不会描述足够必要的长段，但会重复，复杂的模型可以描述足够必要的长段，但可能是唯一的。中间的东西总是需要的))))))。

Maxim Dmitrievsky 2022.09.06 09:19 #27300

Valeriy Yastremskiy 找到确认状态或模型拟合的最小样本长度。
模型的复杂性，这里当然也有一个矛盾，简单的模型不会描述足够长的必要部分，但会重复，复杂的模型可以描述足够长的必要部分，但可能是唯一的。中间的东西总是需要的))))))。

一般来说，不同的模型在随机性的实现上是不同的），相似的原因是相同的

特别是当使用几十或几百个特征时。其中有些对正向起作用，有些则不起作用。但没有办法选择它们。

只有像上面建议的那样，借助一个好的月光工厂。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2730