交易中的机器学习:理论、模型、实践和算法交易 - 页 2799

 
elibrarius #:

Busting 会从所有列和所有示例中搜索最佳拆分。
Schuch。forest 为每棵树提取一半的数据集和一半的示例(份额可配置),然后从 20-100 棵树中找出平均值。如果 200 个样本中只有 5 个有信息量的样本,那么部分树将不包含有信息量的样本(平均每棵树有 2.5 个有信息量的样本)。我们会将一部分信息树与噪声树进行平均。
如果有很多有信息量的筹码(如经典例子/MO 问题),零星森林的效果会很好。

Busting 会找到并使用信息量最大的芯片,因为它会对所有芯片进行检查。因此,按照 Bousting 的逻辑,它会自己选择最好的片段。但 Bousting 也有自己的问题。

我不同意你对 Bousting 的看法。

Busting 会找到具有很强相关性(预测能力)的特征--请相信这一点。如果相关性的大小不变,一切都好办。如果放弃对性状本身的估计,我们就无法追踪相关性大小的变化,而根据我的数据,相关性估计的 SD 值可以从 10% 到 120 不等(在我的性状上)。抽样能给我们带来什么?毕竟,我们需要对变异性更大的性状进行采样。

 
СанСаныч Фоменко #:

估值本身是一个相对的问题。

我再重复一遍图片。

情况很糟,毫无希望。


更好的是,如果有几个人,我们可以谈论 30% 的预测误差。


而垃圾必须去除,因为在训练集上,筹码可以偏向于垃圾,这样更容易找到导致最优的值。

类划分的互信息越多,分布的重叠就越少,这是合乎逻辑的

在新数据面前,分布仍会浮动。

我不会太依赖这种操作,这只是一个尝试的想法。
 
elibrarius #:

Busting 会从所有列和所有示例中搜索最佳拆分。
Schuch. forest 从每棵树中抽取一半的样本和一半的实例(份额可配置),然后从 20-100 棵树中找出平均值。如果 200 个样本中只有 5 个有信息量的样本,那么有些树就不包含有信息量的样本(平均每棵树有 2.5 个有信息量的样本)。我们会将部分信息树与噪声树进行平均。
如果有很多有信息量的筹码(如经典例子/MO 问题),零星森林的效果会很好。

Busting 会找到并使用信息量最大的芯片,因为它会对所有芯片进行检查。因此,根据 Bousting 的逻辑,它会自己选择最好的片段。但 Bousting 也有自己的问题。

逻辑上
 
Maxim Dmitrievsky #:
在划分类别时,互信息越多,分布重叠就越少,这符合逻辑

在新数据上,分布仍会浮动。

我不会过分依赖这种操作,这只是一个尝试的想法。

你没有注意到 sd

 
СанСаныч Фоменко #:

我不同意你的说法。

Bousting 会发现具有很强相关性(预测能力)的特征--相信这一点。如果关系的大小是恒定的,那么一切都很好。放弃对性状本身的估计,我们就无法追踪关联性大小的变化,根据我的数据,关联性估计值的 SD 值可以从 10% 到 120 不等(在我的性状上)。抽样能给我们带来什么?毕竟,我们需要对变异性更大的性状进行采样。

所有 MO 模型都在寻找模式。Bousting 会自动选择性状中最好的性状。

如果存在变异性(如市场数据),那么我们就必须做一些额外的工作。我曾经尝试过 "向前走"。但它只是显示结果,并不影响对特征的选择。而且,如果没有模式或模式发生变化,也无法预测哪些特征在未来会起作用。唯一的可能就是它们不会立即改变,而且这种模式会在一段时间内有效。

 
Aleksey Vyazmikin #:

我创建了一个主题,并提供了一个样本来证明事实并非如此--Bousting 并不是万能的,尤其是在开箱之后。

我认为这不是提升的问题,而是数据可变性的问题。我会尝试用你的数据进行训练。
 
elibrarius #:
我认为这不是提升问题,而是数据可变性问题。我会尝试用你的数据进行训练。

当然,这不是算法本身的问题,而是数据的问题。

试试看,看看你能得出什么结果!

这个样本比较特殊,很难对其进行训练,因此在训练之外也能发挥作用。

我还在不断尝试。

 
Aleksey Vyazmikin #:

这个样本比较特殊,因为很难在训练之外进行有效的训练。

怎么个独特法?市场数据通常在训练之外不起作用。我问了你几个问题

 
elibrarius #:

这就是独特性吗?在培训之外,市场数据通常不起作用。我问了你几个问题

嗯,它们不起作用,它们通常起作用,但不是很好。

这里的特殊性在于,CatBoost 模型倾向于将所有示例分配给小于 0.5 的概率--因此它不会将目标分类为 "1",而介于 0 和 0.5 之间的概率分布也不是很好--主题中有该模型的截图。

 
Aleksey Vyazmikin #:

这里的特殊之处在于,CatBoost 模型倾向于将所有示例分配给小于 0.5 的概率--因此它不会将目标分类为 "1",而介于 0 和 0.5 之间的概率分布也很不均匀--该主题中有该模型的截图。

如果 100 个例子中有 5 个标签属于一个类别,95 个标签属于另一个类别,那么模型怎么可能给第一个类别的概率超过 0.5? 这不是对模型提出的问题,而是对数据集作者提出的问题......?