交易中的机器学习:理论、模型、实践和算法交易 - 页 3334

 
Aleksey Vyazmikin #:

不,这将是相同的相对位置--分隔线(分割线)的数量--对所有人都是固定的。

你有很多 0 和 1 的二进制预测因子,它们不会分割成 32 个。但如果将它们归一化,就可能得到均匀量子化的结果。如果是非均匀量子化,那么仅凭数字,所有的距离都会失真,您需要在归一化后将数值abs化。

Aleksey Vyazmikin#: 可以有很多不同的方法。我感兴趣的是在建立模型之前进行处理的变体--在我看来,这种方法可以减少建立组合的变体,从而减少最终结论的误差--无论最终模型是否训练成功。

如果不能像训练时那样消除噪音,误差就会出现在预测上。

Aleksey Vyazmikin#:

破译在这里更加有趣--总和中不确定的叶子会使概率向一个或另一个方向移动--我一直想做一张图来显示权重是如何随概率移动而分布的,但我一直拖着。三天来,计算机一直在考虑模型叶片的相似性--我想过优化算法--太长了....。

不管是树、森林还是灌木丛。如果模型预测值是 50%,那么预测值中就会有 50%的 0 和 50%的 1。

 
因此,问题同时存在于两端。一端是不知道目标函数,另一端是不知道特定模型的近似误差。你需要找到 f- 和误差。只需要一个子样本,而且往往是有偏差的子样本。

您可以在没有多重 OOS 检验的情况下完成所有这些工作。但在子样本中不存在抑制因素。
 
Forester #:

你有很多 0 和 1 的二进制预测因子,它们不会除以 32。但如果将它们归一化,就可能得到均匀量子化的结果。如果是非均匀量子化,那么仅凭数字就能得出的所有距离都会失真,您需要在归一化后将数值abs化。


是的,如果是二进制,情况会更复杂。但我不明白归一化在这里有什么用。

一般来说,我认为有必要降低维度。但是,这并不完全符合作者的意图。到目前为止,我还没有意识到这一点。

Forester#:

如果不能像训练那样去除噪音,预测就会有误差。

这是一个不同的概念--数据被分为两部分--比如 "能预测 "和 "不能预测"--一个模型负责这一部分。当有新数据进来时,就会评估是否进行预测。因此,只有在训练过程中 "容易 "分离和紧密聚类的数据,即具有有效性的数据,才能进行预测。

森林管理员#:
不管是树、森林还是灌木丛。如果模型的预测值是 50%,就意味着预测值中会有 50%的 0 和 50%的 1。

这根本不是重点。森林和丛林都是强制构建树的,也就是说,如果树很差,就没有算法可以放弃。无论哪种情况,树都有权重。由于算法在选择特征和选择示例(子样本)时的随机性过大,因此可能会出现问题。

 
Maxim Dmitrievsky #:
没有我今晚看看是什么。
这些方法取决于模型。数据本身并没有分割或分离。我不知道该怎么解释。我试过一次,结果又和优化器闹了起来。书上有写
如果你往左走,你会失去一匹马。如果你往右走 就会失去双头龙

没错,这是一种隔离会降低学习效率的例子的方法--这就是理论。

我们的想法是训练 100 个模型,看看哪些例子平均会 "妨碍 "可靠的分类,然后尝试用另一个模型来检测它们。

 

因此,我拿着模型查看了叶片数量。模型是不平衡的,只有 12. 2% 的单位。

我将树叶标记为类别--如果目标值为 "1 "的响应样本多于初始值--12.2%,那么类别就是 "1",否则就是 "0"。这里 "类 "的概念是为了获得有用的信息来改进分类。

在直方图中,我们可以看到模型叶片(X)中的值及其在模型(Y)中的百分比,但没有对它们进行分类。

0

这里也是一样,但类别只有 "0"。


类别只有 "1"。

叶片中的这些系数相加并通过 logit 进行转换,这意味着 "+"号会增加类别 "1 "的概率,而"-"号则会降低概率。总体而言,按类别划分的结果看起来是有效的,但模型中存在偏差。

现在我们可以看看百分比分布情况(分类准确率)--分别是带有 "1 "和 "0 "的纸张。


0 "的直方图是大量准确率接近 "100%"的叶片。


在这里,初始分离值附近有一个较大的群集,即有很多信息量较低的叶片,但同时也有接近 100%的叶片。

通过观察召回率,我们可以清楚地看到,这些叶子都是激活次数较少的叶子--不到其类别的 5%。


类别 "0 "的回收率


类别 "1 "的召回率

接下来,我们可以看看叶子的权重对其分类准确率的依赖性--也是针对每个类别分别进行的。

00

对于目标 "0


对于目标 "1"。

尽管范围如此之大,但线性关系的存在还是值得注意的。但是,概率为 100 的 "列 "不符合逻辑,在纸张值的范围内 扩散得非常大。

也许应该去掉这个丑陋的部分?

另外,如果我们根据 "召回 "指标查看叶片中的值,我们会发现叶片中的权重很小(接近 0),而有时回复值却很大。这种情况表明,叶子并不好,但权重是附着在叶子上的。那么,这些树叶是否也可以被视为噪音并清零呢?

000

对于目标 "0"。


对于目标 "1"。

我想知道新样本(非训练)中有多大比例的树叶会 "改变 "其类别?

 

此外,还有一个经典--完整性和准确性的相互依存关系。

0

0 级。


一级。

总之,我正在考虑如何权衡....。

 

这就是模型的概率。

训练

在训练样本上,我们开始获得高达 35% 的利润,就像在童话故事里一样!


在测试样本中 - 在 0.2 到 0.25 的范围内,我们损失了一大笔利润 - 类最大值的点混淆了。


在考试样本中 - 仍在盈利,但已在腐蚀模型。

 
Aleksey Vyazmikin #:

我想知道,在新的样本(不是火车)中,会 "改变 "等级的叶子占多大比例?

是的,我想知道....

________________________

事实上,我找到了一种方法,可以找到在训练和测试中都不会相对于目标发生变化的特征......但问题是,这样的特征少得可怜,而筛选方法本身在功率方面又非常昂贵,而且一般来说,该方法本身是通过无教师训练实现的,只有这样,我们才能设法避免拟合。


 
量化在其中发挥了什么作用?以 10 分为满分。
我穿过星域,就像奇点开始了。我进入了一个多元宇宙,遇到了自己的副本。现在我在不同版本的宇宙中穿梭而且无路可逃现在我必须找到新的意义

当大脑或神经网络达到合理的极限,奇点就开始了。
 
Aleksey Vyazmikin #:

没错,这是一种突出会降低学习效果的例子的方法--这是理论上的。

我们的想法是训练 100 个模型,看看平均而言哪些示例会 "干扰 "可靠的分类,然后尝试用不同的模型来检测它们。

将主轨道分成 5-10 个子轨道,每个子轨道又分为轨道和轴。在每个子训练中,对 cv 类型进行训练,然后对整个主轨道进行预测。将所有模型的原始标签与预测标签进行比较。没有猜中的会被列入黑名单。然后,在训练最终模型时,通过计算每个样本的平均期望值,去除所有坏例子。您还可以选择通过第三类,让第二个模型将白色样本与黑色样本区分开来。

3 行代码,结果在......嗯,我没有什么可比性......嗯,在某种程度上。

这里的 Kozol 用的是 cv,也就是说,你要用多个模型(每个模型都是在不同的历史片段上训练出来的)从统计学上确定哪些样本是坏的,哪些是好的。这就是所谓的倾向得分,即每个样本在训练中发挥作用的倾向。

当然,标签可能非常垃圾,这种方法几乎可以去除一切。因此,我在一开始就使用随机交易抽样来添加不同的标记变体。鉴于我们不想或不知道如何思考如何标记图表。

带有 kozol 元素、可自行搜索 TC 的 AMO 大致应该是这样的。