交易中的机器学习：理论、模型、实践和算法交易

Maxim Dmitrievsky 2023.12.25 08:41 #33561

简单解释一下：对于分类器来说，直方图上的第一种情况和第二种情况是相同的，因为使用了类标签。这里和那里都有一个最可能类别的单位。训练后，它给出的不是类概率，而是通过 sigmoid 或 softmax 得出的预测误差减去 1。

这与设置预测阈值时的预期完全不符。

Aleksey Nikolayev 2023.12.25 09:07 #33562

概率方法是好的，也是正确的。我们总是会有很强的噪声，重点在于寻找与 SB 条件下的噪声之间的差异。仅靠噪声方差是不够的。

在我看来，分类任务并不合适，因为它会极大地丢弃信息。我们需要的是查看价格变动值在所需方向上的分布，并模拟这种分布如何取决于符号，然后根据这种分布的类型（如果它与 SB 时的分布存在差异）建立 TS。

СанСаныч Фоменко 2023.12.25 09:11 #33563

Maxim Dmitrievsky #:

最后一次：分类器被校准是因为 它输出了不正确的概率。 它们的原始形式毫无意义。别再想了。

受不了了。

抽象的、读作参考的、完美的、与随机过程无关的概率是不存在的。

没有这种东西。

抛硬币的概率，等等。

因此，任何一个分类器都会给出一个概率，这个概率可以描述特定分类器的特征，也就是我们需要的特征--预测误差。另一个分类器会给出其他概率，并有相应的类别预测误差。

根据预测器及其相关标签以及类别平衡，就会出现设置阈值将概率划分为不同类别的问题。上文给出了这一操作的工具，称为 "校准"。也可以用 Kolkhoz 的方式来完成。

无论如何，您都可以大幅降低特定分类器给出的概率预测误差，因为在使用特定分类器时，自然界中不存在其他概率。如果你不喜欢这些概率，那就换一个分类器或进行校准。在这一特定过程中，不存在 "完美 "概率，理论上也不存在 "完美 "概率。

有一点是明确的，那就是用 0.5 的阈值来划分类别是非常有问题的，而且很少有效。

Maxim Dmitrievsky 2023.12.25 09:35 #33564

СанСаныч Фоменко #:

我不能接受。

分类器给出的概率毫无意义。它们不是概率。如果你需要它们，你就不能使用它们。不要跑在火车头前面，给这个事实填上新的含义。至少要面对它。

Aleksey Nikolayev 2023.12.25 09:38 #33565

СанСаныч Фоменко #:

我受不了了。

不存在与随机过程无关的抽象的、可参考的、理想的概率。

没有这种东西。

抛硬币的概率，等等。

因此，任何一个分类器都会给出一个概率，这个概率可以描述特定分类器的特征，也就是我们需要的特征--预测误差。另一个分类器会给出其他概率，并给出相应类别的预测误差。

根据预测器及其相关标签以及类别平衡，就会出现设置阈值将概率划分为不同类别的问题。上文给出了这一操作的工具，称为 "校准"。它也可以通过 Kolkhoz 方法完成。

在任何情况下，您都可以大幅降低特定分类器给出的概率预测误差，因为在使用特定分类器时，自然界中没有其他概率。如果你不喜欢这些概率，可以使用分类器或进行校准。在这一特定过程中，不存在 "完美 "概率，理论上也不存在这种概率。

有一点是很清楚的，那就是用 0.5 的阈值来划分类别是非常有问题的，而且很少有效。

在这里，我们讨论的是使用错误概率模型时常见的 matstat 错误。例如，如果回归中的噪声实际上是拉普拉斯分布，而我们却按照高斯分布来计算，那么显然会出现误差。

PS.实际上，这里的重点是要回归 MO 的概率论起源，顺便说一下，MO 在其诞生之初被称为（至少在苏联是）统计学习（statistical learning）。

Maxim Dmitrievsky 2023.12.25 10:20 #33566

我已经在上面描述了这个例子。有一个分类器通过了 OOS，但返回值的分布是 60/40。你不喜欢这样，于是提高了判定阈值，但情况并没有改变，有时甚至更糟。你抓耳挠腮，不明白为什么会这样。

有人解释了为什么会这样：因为在真正的概率估计中，情况应该发生变化。

给出了解决方案。

Andrey Dik 2023.12.25 11:10 #33567

Maxim Dmitrievsky #:

我已经在上面描述了这个例子。有一个分类器通过了 OOS，但返回值的分布是 60/40。你不喜欢这样，于是提高了判定阈值，但情况并没有改变，有时甚至更糟。你抓耳挠腮，不知道为什么会这样。

给出的解释是：因为在真正的概率估计情况下，情况应该发生变化。

给你的解决方案是

这不是早就显而易见了吗？

Andrey Dik 2023.12.25 11:11 #33568

后期优化--也没人说得清，但他们说是校准！哦，对了。

Aleksey Nikolayev 2023.12.25 11:18 #33569

Maxim Dmitrievsky #:

我已经在上面描述了这个例子。有一个分类器通过了 OOS，但返回值的分布是 60/40。你不喜欢这样，于是提高了判定阈值，但情况并没有改变，有时甚至更糟。你抓耳挠腮，不知道为什么会这样。

给出的解释是：因为在真正的概率估计情况下，情况应该发生变化。

给出了一个解决方案。

不过，我想指出的是，校准并不是万能的，也不是免费的--您需要现有分类器的良好特性。为了避免赘述，我将引用您关于 SHAD 的第二个参考文献。"一般来说，如果每个真实类别的预测概率都是正态分布且方差相等，那么可以证明这种方法效果很好"。这是关于普拉特校准，但其他校准也必须满足某些条件。

实际上，一切都和 matstat 一样--所用模型的概率特性应与所研究的数据相对应。

Maxim Dmitrievsky 2023.12.25 11:22 #33570

Aleksey Nikolayev #:

不过，我想指出的是，校准并不是万能的，也不是免费的--您需要现有分类器的良好特性。为了避免赘述，我将引用您关于 SHAD 的第二个参考文献。"一般来说，如果每个真实类别的预测概率都是正态分布且方差相等，那么可以证明这种方法效果很好"。这是关于普拉特校准，但其他校准也必须满足某些条件。

实际上，一切都和 matstat 一样--所用模型的概率特性应与所研究的数据相对应。

当然，这只是使输出结果具有概率性的一种方法，因为使用原始模型概率是没有用的。

交易中的机器学习：理论、模型、实践和算法交易 - 页 3357