交易中的机器学习:理论、模型、实践和算法交易 - 页 3336

 
СанСаныч Фоменко #:

根据定义,标签(教师、目标变量)不可能是垃圾。

桑尼奇,别丢人现眼了

你甚至还没开始学习就表达自己的观点。

 

另一个有趣的事实是,我当时在想,显然这只是再培训,于是决定看看阶级变化发生在哪些指数上--我想,接近尾声时,这只是再培训的一个很好的说明。

事实上,结果是这样的


关于测试样本

事实证明,这前一千张(在下一个添加到模型的序列中)大多是不稳定的!

太惊讶了

考试样本

 
Aleksey Vyazmikin #:

另一个有趣的事实是,我在想,显然这只是再培训,于是决定看看班级变化发生在哪个指数上--我以为是在接近尾声的时候,这只是再培训的一个很好的说明。

事实上,结果是这样的


在测试样品上

事实证明,不稳定的主要是前一千张纸(添加到模型的下一个序列)!

太惊讶了

样本

你是在通过 "蹦蹦跳跳 "来计数吧?在这里,只有第一棵树是根据原始教师的标签进行训练的。
对于所有其他树,教师就是预测误差,即 (Y - Pred)。即使 eta = 0.1...0.001,这些树叶的影响也是微不足道的,它们只会纠正错误。您所展示的(它们的微不足道)。
 

GPT教学 )

好了,让我们将包络线指标 添加到我们的分析中。包络线指标表示移动平均线的上下两条线。它们通常与移动平均线保持固定的百分比距离。

  1. 上个月(2023 年 11 月)的包络线:

    • 让我们选择与移动平均线的百分比距离。
    • 计算包络线的上下限。
  2. 使用 RSI、布林线和包络线计算整体趋势:

    • 让我们比较一下从不同指标获得的信号。

此外,考虑到来自不同指标的信号可能相互冲突,因此必须对它们进行综合分析。

让我们继续计算和分析。

 
Yuriy Vasilyev 包络线指标 添加到我们的分析中。包络线指标表示移动平均线的上下两条线。它们通常与移动平均线保持固定的百分比距离。
  1. 上个月(2023 年 11 月)的包络线:

    • 让我们选择与移动平均线的百分比距离。
    • 计算包络线的上下限。
  2. 使用 RSI、布林线和包络线计算整体趋势:

    • 让我们比较从不同指标获得的信号。

此外,我们还要考虑到不同指标发出的信号可能相互冲突,因此必须对它们进行综合分析。

让我们继续计算和分析。

您是否尝试过提交价格以获得预测结果?市场上有这种做法,显然有人泄露了算法
 
Forester #:
您是在计算助推器吧?

没错,我们说的是 CatBoost!

Forester#:
在这里,只有第一棵树是由初始教师的标签训练出来的。
对于所有其他树,教师就是预测误差,即 (Y - Pred)。

事实上,这正是理论所建议的。

Forester#:
也是,系数 eta = 0.1...0.001

至少在 CatBoost 中,所有树的 "学习率 "系数都是固定的。

Forester#:
这些树叶的影响微乎其微,它们只起到修正作用。这正是您所表明的(它们的影响微不足道)。

您能解释一下在 CatBoost 中是如何安排树叶系数的吗?

有些地方我不太明白。

不过,我已经证明了树叶 "类别 "的变化,即实际上有 40% 的树叶在新数据中拉动总计的方式是错误的。

 
Aleksey Vyazmikin #:

您能解释一下,CatBoost 中的叶片是如何排列系数的吗?

你想让我翻阅 CatBoost 代码并给出确切答案吗?我只挖掘我感兴趣的东西。我不使用 CatBoost。
这是我第一次听说叶系数 - 它们是什么?

这里有教程和简单的提升代码https://habr.com/ru/companies/vk/articles/438562/
Пишем XGBoost с нуля — часть 2: градиентный бустинг
Пишем XGBoost с нуля — часть 2: градиентный бустинг
  • 2019.02.07
  • habr.com
Всем привет! В прошлой статье мы разбирались, как устроены решающие деревья, и с нуля реализовали алгоритм построения, попутно оптимизируя и улучшая его. В этой статье мы реализуем алгоритм градиентного бустинга и в конце создадим свой собственный XGBoost. Повествование будет идти по той же схеме: пишем алгоритм, описываем его, в заверешение...
 
Aleksey Vyazmikin #:

我报告说,在单独的抽样测试中 - 7467 片,在考试中 - 7177 片,但没有激活的叶片并不在少数 - 我没有一次数完。


这是在测试样本中按其值改变类别的叶子的分布情况


这就是考试。

这是对等级的细分--有三个等级,第三个是"-1"--没有激活。


样本列车


测试样本


考试样本

一般来说,我们可以看到叶片权重不再符合类逻辑--下图是测试样本的图形--没有明确的向量。


一般来说,这种方法可以近似任何东西,但不能保证预测结果的质量。

一般来说,我假设上图中明显的 "条形 "是按激活位置和频率划分的非常相似的叶片。


不知道的事情很难讨论。因此,我只能为你的成功感到高兴。如果我有这样的方法,我一定会使用它:)

我的方法还不能给出如此定性的结果,但它已经足够相似了。

你想过为什么会出现这种情况吗?

 

测试输出为天真代码 (catbust) 的模型速度

EURUSD,H1: total time from login to stop testing 0:00:04.143 (including 0:00:00.031 for history data synchronization)

并导出为 ONNX

EURUSD,H1: total time from login to stop testing 0:00:09.539 (including 0:00:00.025 for history data synchronization)

两个版本的机器人内部结构几乎相似,结果也一样。

 
Forester #:
你想让我帮你研究一下 catbust 代码,然后给你一个准确的答案吗?我只研究我感兴趣的东西。我不用 catbust。

我以为你知道,但你不知道--我没想到要给你增加负担。

Forester#:
这是我第一次听说叶系数 - 它们是什么?

叶子值相加形成函数的 Y 坐标。


在 CatBoost 中,X 值大于或等于 0.5 意味着默认级别为 "1"。