交易中的机器学习:理论、模型、实践和算法交易 - 页 1277

 
elibrarius

我对这种方法有不同的理解。
对于所研究的预测器,你不想用正态分布来送入随机值,而是简单地洗刷该列的行。

无论如何,文章的结果令人印象深刻。有必要在实践中加以尝试。

混在一起,有什么区别呢?

 
elibrarius
Alglib通过所有剩余的50%的预测器,将每个预测器按四分位数分成4个部分,并在所有选择中选择误差最大的那部分。

原则上说,随机拆分并不难得到。
我没有看到个别的树木有很好的测试结果(45-50%),但一片森林更有趣)。


我明白了,我也是这么想的,所以很有可能大部分树木的根部分裂都是一样的,这本身就摒弃了其他选择。

我假设任何叶子都只是一种描述模式的尝试,我们无法从事先知道描述是否会正确,或是否是样本中的随机巧合。这就是为什么我在招募不同的、独特的(不重复的)叶子,并单独检查它们,而不是整棵树。

Alglib有过度的分支,所以它不是在学习,而是在记忆。我认为脚手架是个好主意,但如果每棵树都包含独特的规则(叶子),并且分裂的数量不是很大--4-10个,它就能正确工作。


elibrarius
就所考察的预测因素的重要性而言。
xgboost、lightGBM软件包有内置的方法来估计 "木质模型 "的特征重要性

  1. 增长
    这个衡量标准显示了每个特征对模型的相对贡献。 为了计算这个,我们去看每个树节点,看哪个特征导致了节点分裂,以及根据指标(吉尼杂质,信息增益),模型的不确定性减少了多少。
    对于每个特征,其贡献在所有的树上相加。
  2. 覆盖
    显示每个特征的观察值的数量。例如,你有4个特征,3棵树。假设fich 1在树节点1、2和3中分别有10、5和2个观测值。 那么这个fich的重要性将是17(10+5+2)。
  3. 頻率
    显示一个给定的特征在树节点中的出现频率,即计算每棵树中每个特征的分裂树节点的总数。
他们并没有真正正确地划分出重要性。
我有一个为5条训练的森林,在测试中比在100条时有更好的结果。但当以100为单位进行训练时,前5个并不标明重要,而是一些遥远的。
当训练量为100时,单个树木和森林的误差较低--显然是由于过度训练和重视30-100条。但显然,按照传统的逻辑,它们也并不重要,而是在5条的森林能得到更好的结果。

是的,对于重要性估计,标准方法不是很有效。我想尝试某种唯一性得分,即当有已经准备好的叶子时,我们尝试将每个预测器依次改为任何其他预测器(考虑到网格分割),收集统计数据,并将最佳替换变体与默认变体进行比较,考虑准确性或其他得分(概念很重要),从而为整个模型收集每个预测器的得分。

elibrarius
在粗略地看了一下代码后,我看到了一个遗传选择的特征,从rpart包中建立一个树。也就是说,每棵树都被提供了一组不同的特征供学习。由于遗传学的原因,这样的特征集比完全的蛮力要快。
但这棵树并不神奇,它是rpart提供的。我想这是那里的标准。

树本身是完全标准的,脚本的原始想法是要找到最重要的预测因素,而遗传学似乎对此有所贡献。

我不明白你怎么能把熵改成任何其他指标(准确性或完整性或其他)来创造一个新的世代。

 

不久前我在看一个关于ME的讲座,有一种情况是模型在一个狭窄的概率范围内运行,对于提升模型来说,这几乎被认为是常态,因为模型本质上不是在输出纯概率,正因为如此,有一个概念是为了正确解释预测而对这样的模型进行标定。而我去年就遇到了这样的情况,当时模型给出的结果在40到60之间,而我被保证这是一个非常糟糕的情况......我曾怀疑过,因为这些模型很稳定,并给出了良好的财务结果。

 
阿列克谢-维亚兹米 金。

不久前我在看一个关于ME的讲座,有一种情况是 模型在一个狭窄的概率范围内运行,但对于提升模型来说,这几乎被认为是常态,因为模型本质上不是在输出纯概率,与这个事实相关的是校准这样一个模型的正确预测的概念。而我去年就遇到了这样的情况,当时模型给出的结果在40到60之间,我被保证这是一个非常糟糕的变体......我曾怀疑过,因为这些模型很稳定,并给出了良好的财务结果。

阿列克谢,我们假设错误概率为99%--这是好还是坏?

我理解,剩下的百分之一是成功的概率。

不多,但这很酷,因为我们已经知道错误在哪里以及如何避免它。

也就是说,该比率为99k1
 
雷纳特-阿赫蒂亚莫夫

阿列克谢,假设错误概率为99%,这是好还是坏?

我认为剩下的百分之一是成功的概率。

它很小,但很酷,因为我们已经知道错误在哪里以及如何避免它。

如此高的错误概率告诉我们,我们对发生的事情不甚了解。

它足够准确,这很好,但它离成功还有一段距离--1%可能只是侥幸。

而这是在我们具体谈论概率的情况下。

 
Aleksey Vyazmikin:

我明白了,我也是这么想的,所以很有可能大部分树木的根部分裂都是一样的,这本身就摒弃了其他选项。

大约50%。但这个参数可以改变,在任何需要的情况下,在其他森林调用fiion。

Aleksey Vyazmikin:
我想尝试作为某种唯一性指标的评估,即当已经有准备好的叶子,我们尝试将每个预测器逐一改变为任何其他的预测器(考虑到网格分割),收集统计数据,并将替换的最佳变体与默认变体进行比较,考虑准确性或其他指标(概念很重要),因此我们为整个模型的每个预测器收集分数。

与马克西姆发现的排列组合类似。但是,用800到300000的变异量代替0.1到0.2的预测器,而不是用0.1到0.2的变异量代替预测器,这样做有意义吗?不!
,但洗刷其行数确实如此。数字的范围和概率分布 将保持不变,但每个例子中的数值将变得随机。

阿列克谢-维亚兹米 金。

我不明白的是,你怎么能把熵变成其他的值(准确性或完整性或其他什么)来创造一个新的世代。

一些R包允许使用它们的误差函数。Xgboost可以,但在那里你必须为你的f-fi的导数找到一个公式,然后和它一起输入。对我来说,衍生是一个问题。看看rpart包的描述,也许你也可以在那里使用你的函数,或者甚至不需要派生。

 
elibrarius

与马克西姆发现的排列组合有类似的地方。但是,用一个从0.1到0.2的变化的预测器代替一个从800到300000的变化的预测器有什么意义吗?不!
但洗刷其行数确实如此。数字的范围和概率分布将保持不变,但每个例子中的数值将变得随机。

我写的是"就说是n.传播"。 找到平均值和方差,然后继续。最好是通过Noise 随机化,而不是直接洗牌。

这里有很多喜欢扭曲文字和截图的傻瓜,试图在以后证明自己

 
Maxim Dmitrievsky:

我写道,"让我们假设一个N的分布"。找出平均数和方差就可以了。

这里有很多傻瓜喜欢歪曲文字,并将其截图,试图以此来宣扬自己,后来
归一化将有助于范围的扩大--这就对了。
但正态分布的概率分布 会在中间(约0.5),而真正的预测者可能会有侧移,例如约0.8。或者在0.2和0.8之间的某种马鞍,或者其他什么......
搅拌也会保持分布。
 
elibrarius
正常化将有助于范围的扩大--这是一个肯定。
但正态分布的概率分布会在中间(约0.5),而真正的预测者可能会有侧移,例如约0.8。或者在0.2和0.8之间的某种马鞍,或者其他什么......
搅拌也会保持分布。

取平均数和方差,笑一笑,不用担心。

 
马克西姆-德米特里耶夫斯基

取平均数和方差,笑一笑,不用担心。

更容易混合)

而对于有趣的方法(包罗万象)的链接------谢谢!