交易中的机器学习：理论、模型、实践和算法交易

mytarmailS 2023.08.14 18:25 #31671

Vladimir Perervenko #:

弗拉基米尔，你在新数据上得到的最大 "诚实 "阿库拉西是多少？

用的是什么 MO 算法？

Aleksey Vyazmikin 2023.08.15 00:08 #31672

Aleksey Nikolayev #:

我们的想法是将例子分成不同的组别，而在这些组别中又存在同质性。具体的特征是否能做到这一点并不确定。事实上，由于非稳态性等原因，也不能确定是否有任何特征可以做到这一点。

我不打算详细研究这篇文章，因为它只涉及我感兴趣的话题。 CHAID 稍微接近，但不完全相同。

就是这样，我想在序列顺序变化的动态中找到一些规律性，或者至少是对位移的估计，并确定一个断点。我说的是微不足道的二元预测因子。例如，找出过去五年中出现过的 5 个序列，看看它们对目标值的倾向性是否稳定，如果序列和倾向性都发生了显著变化，那么要么将预测因子从训练中排除，要么从模型中排除。在过去的半年里，我阅读/浏览了大量的方法，但要我把所有方法都编成代码进行测试是不现实的--有大量的工作要做。最可悲的是，当你做完一件事，却发现结果不尽如人意。

您认为CHAID 的优势是什么？

Aleksey Vyazmikin 2023.08.15 00:15 #31673

这种训练方法是通过量子段检测有利于从样本中排除（归零）的线条。

每一步都是增加一条规则。规则如下 if(arr_Q[n0][i]==1|| arr_Q[n1][i]==1||arr_Q[nn][i]==1 ) Propusk=true；

这是一个 gif - 您需要点击它才能运行。

余额 - 盈利点数 - 五位数。

是的，这只是一块用于训练的样本，我还没有做进一步的工作--实验。

补充：这是评估量子线段选择的另一个标准，根据该标准，信号将被排除 - 似乎在这里，去除无利可图的线段更令人高兴。

Aleksey Nikolayev 2023.08.15 05:04 #31674

Aleksey Vyazmikin #:

就是这样，我想在序列顺序变化的动态中找到一些规律性的东西，或者至少在确定断点的情况下对转变进行估计。我说的是微不足道的二进制预测。例如，找出过去五年中出现过的5 个序列，看看它们对目标值的倾向性是否稳定，如果序列和倾向性都发生了显著变化，那么要么从训练中排除预测因子，要么从模型中排除预测因子。在过去的半年里，我阅读/浏览了大量的方法，但要我把所有方法都编成代码进行测试是不现实的--有大量的工作要做。最可悲的事情是，当你在做某件事情时，却发现结果不尽如人意。

在我看来，这是一种组合意义上的坏方法。过于丰富的序列集很可能会导致训练过度--总会有随机的 "好 "序列。

Aleksey Vyazmikin#:

您认为 CHAID 的优势是什么？

首先，从 matstat 的角度来看，它考虑周到。当达到给定的显著性水平时，就会停止建树，而不是采用某种左手规则。还有使用 Bonferoni 校正等。当然，只使用名义特征完全不适合我，所以我正在寻找（尝试建立）另一个模型。

Forester 2023.08.15 06:12 #31675

Aleksey Vyazmikin #:

就是这样，我想在序列顺序变化的动态中找到一些规律性的东西，或者至少在确定断点的情况下对转变进行估计。我说的是微不足道的二进制预测。例如，找出过去五年中出现过的 5 个序列，看看它们对目标值的倾向性是否稳定，如果序列和倾向性都发生了显著变化，那么要么从训练中排除预测因子，要么从模型中排除预测因子。在过去的半年里，我阅读/浏览了大量的方法，但要我把所有方法都编成代码进行测试是不现实的--有大量的工作要做。最可悲的事情是，当你在做某件事情时，却发现结果不尽如人意。

您认为CHAID 的优势是什么？

1) 如果我们按照下面的方法进行，是否会得到与您相同的结果（就意义而言）？
我们取一张表（经过 5 次分割后），按时间对其中的所有示例进行排序，如果先出现增长，然后下降到某个值以上，则删除该表。

2) 您的图表上有 OOS 吗？

3) 规则/表是根据跟踪或验证/测试的数据筛选出来的。

Aleksey Vyazmikin 2023.08.15 15:58 #31676

Aleksey Nikolayev #:

在我看来，这是一种组合意义上的糟糕方法。过于丰富的序列集很可能导致过度训练--总会有随机出现的 "好 "序列。

这里的问题是检测稳定性，如果历史上存在稳定性，那么至少有理由期待在模型中真正使用特征时会出现稳定性。而检测稳定性的方法可能有所不同。但是，仅仅估计分布是不够的，它无法估计稳定性。要么就是需要清理。我还遇到过这样一个事实，如果你把时间间隔，比方说一个月，就没有足够的信号来得出任何统计结论。至此，我在....。无论如何，评估事件在时间上的分布是很重要的。

Aleksey Nikolayev#：

首先是 matstat 方面的周到考虑。这是在达到给定的显著性水平时停止建树，而不是采用某种左手规则。还有使用 Bonferoni 校正等。当然，只使用名义特征完全不适合我，所以我正在寻找（试图建立）另一个模型。

我得试试看。你是否与其他建树方案进行过比较，结果是否真的更好？

Aleksey Vyazmikin 2023.08.15 16:19 #31677

Forester #:

1) 如果我们按下面的方法操作，是否会得到与您相同的结果（就意义而言）？
我们取一张工作表（经过 5 次分割后），按时间对其中的所有示例进行排序，如果一开始出现增长，然后下降到某个值以上，则删除该工作表。

2) 您的图表上有 OOS 吗？

3) 规则/表单是根据跟踪或验证/测试的数据筛选出来的。

1) 拒绝是正常的，这里的问题是周期性，如果我们谈论的是一个工作表的话（我有一个量子段--字面意思是由两个分割 F>=X1 &&F<X2 组成的工作表）。也就是说，如果它的振荡甚至接近于零，那也不错，但它们在一个方向上的振荡不应非常高（为了估算，我采用了 10 个采样间隔）。或者从字面上看，就像你写的那样，一开始是增长，然后大部分时间是衰退 - 这马上就会变成垃圾。但这都是关于树叶的，如果是量子部分，那么从该类平均值的 5%作为初始选择标准之一的概率偏差选择。

2.当然不是，我写的是训练样本。任何模型本身都没有经过训练--我认为还有更多的模型需要训练。

3.关于示例中的训练样本。但不是筛选，而只是选择那些将作为过滤器的样本，即把模型的响应归零。显然，还要排除训练中的字符串/示例。

一般来说，如果我们专注于识别稳定的量子片段（考虑--二进制预测器），那么这样的 "模型 "无需任何分类器的训练就能进一步发挥作用。只要做不到这一点，使用分类器就没有多大意义。当然，没有人取消随机性，我们也可以找到一些成功的模型，但很难合理地考虑这种方法。

该方法的缺点之一是召回率下降，但它并不比 CatBoost 模型的召回率高--在本例中约为 0.5。

Aleksey Nikolayev 2023.08.15 17:49 #31678

Aleksey Vyazmikin #:

您是否与其他建树方案进行过比较，结果是否真的更好？

我发现现成的形式不太适合市场，自制的也还没做好。但我不抱太大希望，所以也不着急。

fxsaber 2023.08.16 09:38 #31679

就是这种情况。左边是 OOS 通过，右边不是。而右侧则立即跳水。

这种情况经常发生。

也就是立即大幅度下潜。下潜的性质尚不清楚。似乎应该有一些接近 SB 的东西，但我经常看到这样的图片。

我觉得如果在优化后运行反转 TS，我甚至可能不会输。

mytarmailS 2023.08.16 09:43 #31680

fxsaber #:

就是这种情况。左边的 OOS 可以通过，右边的则不行。而在右侧，它会立即 "跳水"。

这种情况经常发生。

也就是说，字面意思是立即大幅下潜。跳水的性质尚不清楚。我认为它应该是接近 SB 的东西，但我经常看到这样的画面。

看来，如果在优化后运行反转 TS，可能根本不会输。

大约两年前，我在这里发布了这种效果

交易中的机器学习：理论、模型、实践和算法交易 - 页 3168