交易中的机器学习:理论、模型、实践和算法交易 - 页 2255

 
elibrarius:
考试中罕见的激活,反而意味着市场已经发生了变化,经常在火车上发生的事情已经不再发生。而且这也不一定意味着那里没有很多激活的床单。

是的,我同意也有一个市场变化效应。

让我们来看看火车。

情况稍好,但也有激活次数少的叶子。

注意到学习是如何发生的--一棵具有大权重的树被建立起来--有条件的成功,然后是一组具有小权重的树,然后又是大权重的树--这样一个派别,如果你把具有小权重的脉络去掉,那么你会得到一个概率的转变。

 
Aleksey Vyazmikin:

是的,我同意还有一种改变市场的效应。

让我们来看看火车。

情况稍好,但激活数量稀少的叶片也是如此。

注意到学习是如何发生的--一棵具有大权重的树被建立起来--有条件的成功,然后是一组具有小权重的树,然后又是大权重的树--这样一个派别,如果你把具有小权重的脉络去掉,就会得到一个概率的转变。

我想知道如果你在这个图上训练一个新的模型会发生什么?

一般来说,我们的想法是在第一个模型的 "内部 "训练第二个模型。

 
Maxim Dmitrievsky:

你为什么要摆弄化油器?你没有用它来改善什么。

如果你明白问题是什么,你就可以寻找解决方案。很明显,这种树有缺点。

但我同意,我无法弄清CatBoost的代码,无法对其进行编辑,唉。

然而,有一个影响模型的机会,也许将叶子中的罕见例子归零会产生积极的效果,但最好是重新计算叶子的系数--这样做比较困难,但在全球范围内可以解决。

MaximDmitrievsky:

以一个没有叶子的简单神经网络为例。它对新数据的作用不亚于提升。这告诉你什么?

我同意那里也会有过度训练的影响,但性质不同--问题是这些影响中哪一个可以被更准确地检测和评估,哪一个更容易处理。

马克西姆-德米特里耶夫斯基

有一个很好的SHAP 工具用于特征选择和解释,但它是在python中。这一切都已经为你做了很久了)。

事实上,这些方法中的绝大多数只谈及在模型中使用预测因子,但没有对预测因子本身做任何评估。你需要独立于模型的预测因素的估计 - 我正在努力,有适度的积极成果。

当然,我想玩玩python或R中现成的解决方案,但我怀疑自己能否处理新的语法。

 
mytarmailS:

我想知道如果你在这个图上训练一个新的模型会怎样?

实际上,这个想法是在第一个模型的 "内脏 "上训练第二个模型。

例子中的这个模型是来自古代的沉积物,现在我的模型中有6万片叶子,当然这对形成一个样本来说是很大的。也许可以尝试大幅减少树木的数量。然而,我注意到,我评估了来自CatBoost 的树叶,与来自遗传树的树叶相比,它们的特征单独来看非常弱。

在我训练的遗传树的叶子(成千上万的叶子)上--指标性能可以提高。

 
Aleksey Vyazmikin:

如果你明白问题是什么,你就可以寻找解决方案。显然,这种树有缺点。

但我同意,我无法弄清CatBoost的代码,无法对其进行编辑,唉。

然而,有机会影响模型,也许将叶子中的罕见例子归零会产生积极的影响,但最好是对叶子系数重新加权--这比较困难,但在全局上可以解决。

我同意,那里也会有过度训练的影响,但性质不同--问题是这些影响中哪一个可以被更准确地识别和评估,哪一个更容易处理。

事实上,这些方法绝大多数只谈及在模型中使用预测器,但对预测器本身不做任何评估。我们需要独立于模型的预测因素的估计--我正在这方面努力,有适度的积极成果。

当然,我想在python或R中旋转现成的解决方案,但我是否能处理好新的语法是有疑问的。

那里评估的是特征对特定模型的行为的影响

 
Aleksey Vyazmikin:

如果你明白问题是什么,你就可以寻找解决方案。显然,这种树有缺点。

但我同意,我无法弄清CatBoost的代码,无法对其进行编辑,唉。

然而,有机会影响模型,也许将叶子中的罕见例子归零会产生积极的影响,但最好是对叶子系数重新加权--这比较困难,但在全局上可以解决。

我同意,那里也会有过度训练的影响,但性质不同--问题是这些影响中哪一个可以被更准确地识别和评估,哪一个更容易处理。

事实上,这些方法绝大多数只谈及在模型中使用预测器,但对预测器本身不做任何评估。我们需要独立于模型的预测因素的估计--我正在这方面努力,有适度的积极成果。

当然,我想在Python或R中旋转现成的解决方案,但我能否处理好新的语法是有疑问的。

得出的结论是每次增加1个(或每次删除1个)是最好的。这是 我的研究。我猜你已经看过了。

Сравнение разных методов оценки важности предикторов.
Сравнение разных методов оценки важности предикторов.
  • www.mql5.com
Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За
 
Maxim Dmitrievsky:

评估的是这些特征对特定模型行为的影响。

这就是我所说的,评价要通过所产生的模型。

 
elibrarius:

结论是,每次增加1个(或每次删除1个)是最好的。这是 我的研究。你可能已经看过了。

以前没有见过--查了一下--总的来说,我同意通过切除可以达到真正的效果。CatBoost有一种方法可以去除预测器,并在没有预测器的情况下对模型进行重新加权,但我没有处理过这个问题。到目前为止,我只限于添加和删除预测因子,但不是只有一个,而是成组的。

 
Aleksey Vyazmikin:

这就是我所说的,评价要通过所产生的模型。

而这是很好的

你可以看到哪些特征在新数据中是有缺陷的

 

我不知道......也许这是我的经验,也许是我的酒量......)

...但我认为你患的是...)