交易中的机器学习：理论、模型、实践和算法交易

СанСаныч Фоменко 2022.10.24 10:26 #27981

elibrarius #:

Busting 会从所有列和所有示例中搜索最佳拆分。
Schuch。forest 为每棵树提取一半的数据集和一半的示例（份额可配置），然后从 20-100 棵树中找出平均值。如果 200 个样本中只有 5 个有信息量的样本，那么部分树将不包含有信息量的样本（平均每棵树有 2.5 个有信息量的样本）。我们会将一部分信息树与噪声树进行平均。
如果有很多有信息量的筹码（如经典例子/MO 问题），零星森林的效果会很好。

Busting 会找到并使用信息量最大的芯片，因为它会对所有芯片进行检查。因此，按照 Bousting 的逻辑，它会自己选择最好的片段。但 Bousting 也有自己的问题。

我不同意你对 Bousting 的看法。

Busting 会找到具有很强相关性（预测能力）的特征--请相信这一点。如果相关性的大小不变，一切都好办。如果放弃对性状本身的估计，我们就无法追踪相关性大小的变化，而根据我的数据，相关性估计的 SD 值可以从 10% 到 120 不等（在我的性状上）。抽样能给我们带来什么？毕竟，我们需要对变异性更大的性状进行采样。

Maxim Dmitrievsky 2022.10.24 10:41 #27982

СанСаныч Фоменко #:

估值本身是一个相对的问题。

我再重复一遍图片。

情况很糟，毫无希望。

更好的是，如果有几个人，我们可以谈论 30% 的预测误差。

而垃圾必须去除，因为在训练集上，筹码可以偏向于垃圾，这样更容易找到导致最优的值。

类划分的互信息越多，分布的重叠就越少，这是合乎逻辑的

在新数据面前，分布仍会浮动。

我不会太依赖这种操作，这只是一个尝试的想法。

Maxim Dmitrievsky 2022.10.24 10:43 #27983

elibrarius #:

Busting 会从所有列和所有示例中搜索最佳拆分。
Schuch. forest 从每棵树中抽取一半的样本和一半的实例（份额可配置），然后从 20-100 棵树中找出平均值。如果 200 个样本中只有 5 个有信息量的样本，那么有些树就不包含有信息量的样本（平均每棵树有 2.5 个有信息量的样本）。我们会将部分信息树与噪声树进行平均。
如果有很多有信息量的筹码（如经典例子/MO 问题），零星森林的效果会很好。

Busting 会找到并使用信息量最大的芯片，因为它会对所有芯片进行检查。因此，根据 Bousting 的逻辑，它会自己选择最好的片段。但 Bousting 也有自己的问题。

逻辑上

СанСаныч Фоменко 2022.10.24 10:59 #27984

Maxim Dmitrievsky #:
在划分类别时，互信息越多，分布重叠就越少，这符合逻辑

在新数据上，分布仍会浮动。

我不会过分依赖这种操作，这只是一个尝试的想法。

你没有注意到 sd

Forester 2022.10.24 11:15 #27985

СанСаныч Фоменко #:

我不同意你的说法。

Bousting 会发现具有很强相关性（预测能力）的特征--相信这一点。如果关系的大小是恒定的，那么一切都很好。放弃对性状本身的估计，我们就无法追踪关联性大小的变化，根据我的数据，关联性估计值的 SD 值可以从 10% 到 120 不等（在我的性状上）。抽样能给我们带来什么？毕竟，我们需要对变异性更大的性状进行采样。

所有 MO 模型都在寻找模式。Bousting 会自动选择性状中最好的性状。

如果存在变异性（如市场数据），那么我们就必须做一些额外的工作。我曾经尝试过 "向前走"。但它只是显示结果，并不影响对特征的选择。而且，如果没有模式或模式发生变化，也无法预测哪些特征在未来会起作用。唯一的可能就是它们不会立即改变，而且这种模式会在一段时间内有效。

Forester 2022.10.24 11:17 #27986

Aleksey Vyazmikin #:

我创建了一个主题，并提供了一个样本来证明事实并非如此--Bousting 并不是万能的，尤其是在开箱之后。

我认为这不是提升的问题，而是数据可变性的问题。我会尝试用你的数据进行训练。

Aleksey Vyazmikin 2022.10.24 11:30 #27987

elibrarius #:
我认为这不是提升问题，而是数据可变性问题。我会尝试用你的数据进行训练。

当然，这不是算法本身的问题，而是数据的问题。

试试看，看看你能得出什么结果！

这个样本比较特殊，很难对其进行训练，因此在训练之外也能发挥作用。

我还在不断尝试。

Forester 2022.10.24 12:07 #27988

Aleksey Vyazmikin #:

这个样本比较特殊，因为很难在训练之外进行有效的训练。

怎么个独特法？市场数据通常在训练之外不起作用。我问了你几个问题

Aleksey Vyazmikin 2022.10.24 12:35 #27989

elibrarius #:

这就是独特性吗？在培训之外，市场数据通常不起作用。我问了你几个问题

嗯，它们不起作用，它们通常起作用，但不是很好。

这里的特殊性在于，CatBoost 模型倾向于将所有示例分配给小于 0.5 的概率--因此它不会将目标分类为 "1"，而介于 0 和 0.5 之间的概率分布也不是很好--主题中有该模型的截图。

mytarmailS 2022.10.24 12:55 #27990

Aleksey Vyazmikin #:

这里的特殊之处在于，CatBoost 模型倾向于将所有示例分配给小于 0.5 的概率--因此它不会将目标分类为 "1"，而介于 0 和 0.5 之间的概率分布也很不均匀--该主题中有该模型的截图。

如果 100 个例子中有 5 个标签属于一个类别，95 个标签属于另一个类别，那么模型怎么可能给第一个类别的概率超过 0.5？这不是对模型提出的问题，而是对数据集作者提出的问题......？

交易中的机器学习：理论、模型、实践和算法交易 - 页 2799