交易中的机器学习:理论、模型、实践和算法交易 - 页 3357

 
简单解释一下:对于分类器来说,直方图上的第一种情况和第二种情况是相同的,因为使用了类标签。这里和那里都有一个最可能类别的单位。训练后,它给出的不是类概率,而是通过 sigmoid 或 softmax 得出的预测误差减去 1。

这与设置预测阈值时的预期完全不符。
 

概率方法是好的,也是正确的。我们总是会有很强的噪声,重点在于寻找与 SB 条件下的噪声之间的差异。仅靠噪声方差是不够的。

在我看来,分类任务并不合适,因为它会极大地丢弃信息。我们需要的是查看价格变动值在所需方向上的分布,并模拟这种分布如何取决于符号,然后根据这种分布的类型(如果它与 SB 时的分布存在差异)建立 TS。

 
Maxim Dmitrievsky #:

最后一次:分类器被校准是因为 它输出了不正确的概率。 它们的原始形式毫无意义。别再想了。

受不了了。

抽象的、读作参考的、完美的、与随机过程无关的概率是不存在的。

没有这种东西。

抛硬币的概率,等等。

因此,任何一个分类器都会给出一个概率,这个概率可以描述特定分类器的特征,也就是我们需要的特征--预测误差。另一个分类器会给出其他概率,并有相应的类别预测误差。

根据预测器及其相关标签以及类别平衡,就会出现设置阈值将概率划分为不同类别的问题。上文给出了这一操作的工具,称为 "校准"。也可以用 Kolkhoz 的方式来完成。

无论如何,您都可以大幅降低特定分类器给出的概率预测误差,因为在使用特定分类器时,自然界中不存在 其他概率。如果你不喜欢这些概率,那就换一个分类器或进行校准。在这一特定过程中,不存在 "完美 "概率,理论上也不存在 "完美 "概率。

有一点是明确的,那就是用 0.5 的阈值来划分类别是非常有问题的,而且很少有效。

 
СанСаныч Фоменко #:

我不能接受。

分类器给出的概率毫无意义。它们不是概率。如果你需要它们,你就不能使用它们。不要跑在火车头前面,给这个事实填上新的含义。至少要面对它。
 
СанСаныч Фоменко #:

我受不了了。

不存在与随机过程无关的抽象的、可参考的、理想的概率。

没有这种东西。

抛硬币的概率,等等。

因此,任何一个分类器都会给出一个概率,这个概率可以描述特定分类器的特征,也就是我们需要的特征--预测误差。另一个分类器会给出其他概率,并给出相应类别的预测误差。

根据预测器及其相关标签以及类别平衡,就会出现设置阈值将概率划分为不同类别的问题。上文给出了这一操作的工具,称为 "校准"。它也可以通过 Kolkhoz 方法完成。

在任何情况下,您都可以大幅降低特定分类器给出的概率预测误差,因为在使用特定分类器时,自然界中没有 其他概率。如果你不喜欢这些概率,可以使用分类器或进行校准。在这一特定过程中,不存在 "完美 "概率,理论上也不存在这种概率。

有一点是很清楚的,那就是用 0.5 的阈值来划分类别是非常有问题的,而且很少有效。

在这里,我们讨论的是使用错误概率模型时常见的 matstat 错误。例如,如果回归中的噪声实际上是拉普拉斯分布,而我们却按照高斯分布来计算,那么显然会出现误差。

PS.实际上,这里的重点是要回归 MO 的概率论起源,顺便说一下,MO 在其诞生之初被称为(至少在苏联是)统计学习(statistical learning)。

 

我已经在上面描述了这个例子。有一个分类器通过了 OOS,但返回值的分布是 60/40。你不喜欢这样,于是提高了判定阈值,但情况并没有改变,有时甚至更糟。你抓耳挠腮,不明白为什么会这样。

有人解释了为什么会这样:因为在真正的概率估计中,情况应该发生变化。

给出了解决方案。


 
Maxim Dmitrievsky #:

我已经在上面描述了这个例子。有一个分类器通过了 OOS,但返回值的分布是 60/40。你不喜欢这样,于是提高了判定阈值,但情况并没有改变,有时甚至更糟。你抓耳挠腮,不知道为什么会这样。

给出的解释是:因为在真正的概率估计情况下,情况应该发生变化。

给你的解决方案是


这不是早就显而易见了吗?
 
后期优化--也没人说得清,但他们说是校准!哦,对了。
 
Maxim Dmitrievsky #:

我已经在上面描述了这个例子。有一个分类器通过了 OOS,但返回值的分布是 60/40。你不喜欢这样,于是提高了判定阈值,但情况并没有改变,有时甚至更糟。你抓耳挠腮,不知道为什么会这样。

给出的解释是:因为在真正的概率估计情况下,情况应该发生变化。

给出了一个解决方案。


不过,我想指出的是,校准并不是万能的,也不是免费的--您需要现有分类器的良好特性。为了避免赘述,我将引用您关于 SHAD 的第二个参考文献。"一般来说,如果每个真实类别的预测概率都是正态分布且方差相等,那么可以证明这种方法效果很好"。这是关于普拉特校准,但其他校准也必须满足某些条件。

实际上,一切都和 matstat 一样--所用模型的概率特性应与所研究的数据相对应。

 
Aleksey Nikolayev #:

不过,我想指出的是,校准并不是万能的,也不是免费的--您需要现有分类器的良好特性。为了避免赘述,我将引用您关于 SHAD 的第二个参考文献。"一般来说,如果每个真实类别的预测概率都是正态分布且方差相等,那么可以证明这种方法效果很好"。这是关于普拉特校准,但其他校准也必须满足某些条件。

实际上,一切都和 matstat 一样--所用模型的概率特性应与所研究的数据相对应。

当然,这只是使输出结果具有概率性的一种方法,因为使用原始模型概率是没有用的。