交易中的机器学习：理论、模型、实践和算法交易

Maxim Dmitrievsky 2019.01.27 19:46 #12761

elibrarius。

我对这种方法有不同的理解。
对于所研究的预测器，你不想用正态分布来送入随机值，而是简单地洗刷该列的行。

无论如何，文章的结果令人印象深刻。有必要在实践中加以尝试。

混在一起，有什么区别呢？

Aleksey Vyazmikin 2019.01.27 22:26 #12762

elibrarius。
Alglib通过所有剩余的50%的预测器，将每个预测器按四分位数分成4个部分，并在所有选择中选择误差最大的那部分。

原则上说，随机拆分并不难得到。
我没有看到个别的树木有很好的测试结果（45-50%），但一片森林更有趣）。

我明白了，我也是这么想的，所以很有可能大部分树木的根部分裂都是一样的，这本身就摒弃了其他选择。

我假设任何叶子都只是一种描述模式的尝试，我们无法从事先知道描述是否会正确，或是否是样本中的随机巧合。这就是为什么我在招募不同的、独特的（不重复的）叶子，并单独检查它们，而不是整棵树。

Alglib有过度的分支，所以它不是在学习，而是在记忆。我认为脚手架是个好主意，但如果每棵树都包含独特的规则（叶子），并且分裂的数量不是很大--4-10个，它就能正确工作。

elibrarius。
就所考察的预测因素的重要性而言。
xgboost、lightGBM软件包有内置的方法来估计 "木质模型 "的特征重要性。

增长
这个衡量标准显示了每个特征对模型的相对贡献。为了计算这个，我们去看每个树节点，看哪个特征导致了节点分裂，以及根据指标（吉尼杂质，信息增益），模型的不确定性减少了多少。
对于每个特征，其贡献在所有的树上相加。
覆盖
显示每个特征的观察值的数量。例如，你有4个特征，3棵树。假设fich 1在树节点1、2和3中分别有10、5和2个观测值。那么这个fich的重要性将是17（10+5+2）。
頻率
显示一个给定的特征在树节点中的出现频率，即计算每棵树中每个特征的分裂树节点的总数。

他们并没有真正正确地划分出重要性。
我有一个为5条训练的森林，在测试中比在100条时有更好的结果。但当以100为单位进行训练时，前5个并不标明重要，而是一些遥远的。
当训练量为100时，单个树木和森林的误差较低--显然是由于过度训练和重视30-100条。但显然，按照传统的逻辑，它们也并不重要，而是在5条的森林能得到更好的结果。

是的，对于重要性估计，标准方法不是很有效。我想尝试某种唯一性得分，即当有已经准备好的叶子时，我们尝试将每个预测器依次改为任何其他预测器（考虑到网格分割），收集统计数据，并将最佳替换变体与默认变体进行比较，考虑准确性或其他得分（概念很重要），从而为整个模型收集每个预测器的得分。

elibrarius。
在粗略地看了一下代码后，我看到了一个遗传选择的特征，从rpart包中建立一个树。也就是说，每棵树都被提供了一组不同的特征供学习。由于遗传学的原因，这样的特征集比完全的蛮力要快。
但这棵树并不神奇，它是rpart提供的。我想这是那里的标准。

树本身是完全标准的，脚本的原始想法是要找到最重要的预测因素，而遗传学似乎对此有所贡献。

我不明白你怎么能把熵改成任何其他指标（准确性或完整性或其他）来创造一个新的世代。

Aleksey Vyazmikin 2019.01.27 22:46 #12763

不久前我在看一个关于ME的讲座，有一种情况是模型在一个狭窄的概率范围内运行，对于提升模型来说，这几乎被认为是常态，因为模型本质上不是在输出纯概率，正因为如此，有一个概念是为了正确解释预测而对这样的模型进行标定。而我去年就遇到了这样的情况，当时模型给出的结果在40到60之间，而我被保证这是一个非常糟糕的情况......我曾怀疑过，因为这些模型很稳定，并给出了良好的财务结果。

Renat Akhtyamov 2019.01.27 22:49 #12764

阿列克谢-维亚兹米 金。

不久前我在看一个关于ME的讲座，有一种情况是 模型在一个狭窄的概率范围内运行，但对于提升模型来说，这几乎被认为是常态，因为模型本质上不是在输出纯概率，与这个事实相关的是校准这样一个模型的正确预测的概念。而我去年就遇到了这样的情况，当时模型给出的结果在40到60之间，我被保证这是一个非常糟糕的变体......我曾怀疑过，因为这些模型很稳定，并给出了良好的财务结果。

阿列克谢，我们假设错误概率为99%--这是好还是坏？

我理解，剩下的百分之一是成功的概率。

不多，但这很酷，因为我们已经知道错误在哪里以及如何避免它。

也就是说，该比率为99k1

Aleksey Vyazmikin 2019.01.27 22:55 #12765

雷纳特-阿赫蒂亚莫夫。

阿列克谢，假设错误概率为99%，这是好还是坏？

我认为剩下的百分之一是成功的概率。

它很小，但很酷，因为我们已经知道错误在哪里以及如何避免它。

如此高的错误概率告诉我们，我们对发生的事情不甚了解。

它足够准确，这很好，但它离成功还有一段距离--1%可能只是侥幸。

而这是在我们具体谈论概率的情况下。

Forester 2019.01.28 05:39 #12766

Aleksey Vyazmikin:

我明白了，我也是这么想的，所以很有可能大部分树木的根部分裂都是一样的，这本身就摒弃了其他选项。

大约50%。但这个参数可以改变，在任何需要的情况下，在其他森林调用fiion。

Aleksey Vyazmikin:
我想尝试作为某种唯一性指标的评估，即当已经有准备好的叶子，我们尝试将每个预测器逐一改变为任何其他的预测器（考虑到网格分割），收集统计数据，并将替换的最佳变体与默认变体进行比较，考虑准确性或其他指标（概念很重要），因此我们为整个模型的每个预测器收集分数。

与马克西姆发现的排列组合类似。但是，用800到300000的变异量代替0.1到0.2的预测器，而不是用0.1到0.2的变异量代替预测器，这样做有意义吗？不！
，但洗刷其行数确实如此。数字的范围和概率分布将保持不变，但每个例子中的数值将变得随机。

阿列克谢-维亚兹米 金。

我不明白的是，你怎么能把熵变成其他的值（准确性或完整性或其他什么）来创造一个新的世代。

一些R包允许使用它们的误差函数。Xgboost可以，但在那里你必须为你的f-fi的导数找到一个公式，然后和它一起输入。对我来说，衍生是一个问题。看看rpart包的描述，也许你也可以在那里使用你的函数，或者甚至不需要派生。

Maxim Dmitrievsky 2019.01.28 05:46 #12767

elibrarius。

与马克西姆发现的排列组合有类似的地方。但是，用一个从0.1到0.2的变化的预测器代替一个从800到300000的变化的预测器有什么意义吗？不!
但洗刷其行数确实如此。数字的范围和概率分布将保持不变，但每个例子中的数值将变得随机。

我写的是"就说是n.传播"。找到平均值和方差，然后继续。最好是通过Noise 随机化，而不是直接洗牌。

这里有很多喜欢扭曲文字和截图的傻瓜，试图在以后证明自己

Forester 2019.01.28 06:00 #12768

Maxim Dmitrievsky:

我写道，"让我们假设一个N的分布"。找出平均数和方差就可以了。

这里有很多傻瓜喜欢歪曲文字，并将其截图，试图以此来宣扬自己，后来

归一化将有助于范围的扩大--这就对了。
但正态分布的概率分布会在中间（约0.5），而真正的预测者可能会有侧移，例如约0.8。或者在0.2和0.8之间的某种马鞍，或者其他什么......
搅拌也会保持分布。

Maxim Dmitrievsky 2019.01.28 06:02 #12769

elibrarius。
正常化将有助于范围的扩大--这是一个肯定。
但正态分布的概率分布会在中间（约0.5），而真正的预测者可能会有侧移，例如约0.8。或者在0.2和0.8之间的某种马鞍，或者其他什么......
搅拌也会保持分布。

取平均数和方差，笑一笑，不用担心。

Forester 2019.01.28 06:08 #12770

马克西姆-德米特里耶夫斯基。

取平均数和方差，笑一笑，不用担心。

更容易混合)

而对于有趣的方法（包罗万象）的链接------谢谢!

交易中的机器学习：理论、模型、实践和算法交易 - 页 1277