交易中的机器学习:理论、模型、实践和算法交易 - 页 3168

 
Vladimir Perervenko #:

弗拉基米尔,你在新数据上得到的最大 "诚实 "阿库拉西是多少?

用的是什么 MO 算法?

 
Aleksey Nikolayev #:

我们的想法是将例子分成不同的组别,而在这些组别中又存在同质性。具体的特征是否能做到这一点并不确定。事实上,由于非稳态性等原因,也不能确定是否有任何特征可以做到这一点。

我不打算详细研究这篇文章,因为它只涉及我感兴趣的话题。 CHAID 稍微接近,但不完全相同。

就是这样,我想在序列顺序变化的动态中找到一些规律性,或者至少是对位移的估计,并确定一个断点。我说的是微不足道的二元预测因子。例如,找出过去五年中出现过的 5 个序列,看看它们对目标值的倾向性是否稳定,如果序列和倾向性都发生了显著变化,那么要么将预测因子从训练中排除,要么从模型中排除。在过去的半年里,我阅读/浏览了大量的方法,但要我把所有方法都编成代码进行测试是不现实的--有大量的工作要做。最可悲的是,当你做完一件事,却发现结果不尽如人意。

您认为CHAID 的优势是什么

 

这种训练方法是通过量子段检测有利于从样本中排除(归零)的线条。

每一步都是增加一条规则。规则如下 if(arr_Q[n0][i]==1|| arr_Q[n1][i]==1||arr_Q[nn][i]==1 ) Propusk=true;

这是一个 gif - 您需要点击它才能运行。

余额 - 盈利点数 - 五位数。

是的,这只是一块用于训练的样本,我还没有做进一步的工作--实验。

补充:这是评估量子线段选择的另一个标准,根据该标准,信号将被排除 - 似乎在这里,去除无利可图的线段更令人高兴。


 
Aleksey Vyazmikin #:

就是这样,我想在序列顺序变化的动态中找到一些规律性的东西,或者至少在确定断点的情况下对转变进行估计。我说的是微不足道的二进制预测。例如,找出 过去五年中出现过的5 个序列,看看它们对目标值的倾向性是否稳定,如果序列和倾向性都发生了显著变化,那么要么从训练中排除预测因子,要么从模型中排除预测因子。在过去的半年里,我阅读/浏览了大量的方法,但要我把所有方法都编成代码进行测试是不现实的--有大量的工作要做。最可悲的事情是,当你在做某件事情时,却发现结果不尽如人意。

在我看来,这是一种组合意义上的坏方法。过于丰富的序列集很可能会导致训练过度--总会有随机的 "好 "序列。

Aleksey Vyazmikin#:

您认为 CHAID 的优势是什么?

首先,从 matstat 的角度来看,它考虑周到。当达到给定的显著性水平时,就会停止建树,而不是采用某种左手规则。还有使用 Bonferoni 校正等。当然,只使用名义特征完全不适合我,所以我正在寻找(尝试建立)另一个模型。

 
Aleksey Vyazmikin #:

就是这样,我想在序列顺序变化的动态中找到一些规律性的东西,或者至少在确定断点的情况下对转变进行估计。我说的是微不足道的二进制预测。例如,找出过去五年中出现过的 5 个序列,看看它们对目标值的倾向性是否稳定,如果序列和倾向性都发生了显著变化,那么要么从训练中排除预测因子,要么从模型中排除预测因子。在过去的半年里,我阅读/浏览了大量的方法,但要我把所有方法都编成代码进行测试是不现实的--有大量的工作要做。最可悲的事情是,当你在做某件事情时,却发现结果不尽如人意。

您认为CHAID 的优势是什么

1) 如果我们按照下面的方法进行,是否会得到与您相同的结果(就意义而言)?
我们取一张表(经过 5 次分割后),按时间对其中的所有示例进行排序,如果先出现增长,然后下降到某个值以上,则删除该表。

2) 您的图表上有 OOS 吗?

3) 规则/表是根据跟踪或验证/测试的数据筛选出来的。

 
Aleksey Nikolayev #:

在我看来,这是一种组合意义上的糟糕方法。过于丰富的序列集很可能导致过度训练--总会有随机出现的 "好 "序列。

这里的问题是检测稳定性,如果历史上存在稳定性,那么至少有理由期待在模型中真正使用特征时会出现稳定性。而检测稳定性的方法可能有所不同。但是,仅仅估计分布是不够的,它无法估计稳定性。要么就是需要清理。我还遇到过这样一个事实,如果你把时间间隔,比方说一个月,就没有足够的信号来得出任何统计结论。至此,我在....。无论如何,评估事件在时间上的分布是很重要的。

Aleksey Nikolayev#

首先是 matstat 方面的周到考虑。这是在达到给定的显著性水平时停止建树,而不是采用某种左手规则。还有使用 Bonferoni 校正等。当然,只使用名义特征完全不适合我,所以我正在寻找(试图建立)另一个模型。

我得试试看。你是否与其他建树方案进行过比较,结果是否真的更好?

 
Forester #:

1) 如果我们按下面的方法操作,是否会得到与您相同的结果(就意义而言)?
我们取一张工作表(经过 5 次分割后),按时间对其中的所有示例进行排序,如果一开始出现增长,然后下降到某个值以上,则删除该工作表。

2) 您的图表上有 OOS 吗?

3) 规则/表单是根据跟踪或验证/测试的数据筛选出来的。

1) 拒绝是正常的,这里的问题是周期性,如果我们谈论的是一个工作表的话(我有一个量子段--字面意思是由两个分割 F>=X1 &&F<X2 组成的工作表)。也就是说,如果它的振荡甚至接近于零,那也不错,但它们在一个方向上的振荡不应非常高(为了估算,我采用了 10 个采样间隔)。或者从字面上看,就像你写的那样,一开始是增长,然后大部分时间是衰退 - 这马上就会变成垃圾。但这都是关于树叶的,如果是量子部分,那么从该类平均值的 5%作为初始选择标准之一的概率偏差选择。

2.当然不是,我写的是训练样本。任何模型本身都没有经过训练--我认为还有更多的模型需要训练。

3.关于示例中的训练样本。但不是筛选,而只是选择那些将作为过滤器的样本,即把模型的响应归零。显然,还要排除训练中的字符串/示例。

一般来说,如果我们专注于识别稳定的量子片段(考虑--二进制预测器),那么这样的 "模型 "无需任何分类器的训练就能进一步发挥作用。只要做不到这一点,使用分类器就没有多大意义。当然,没有人取消随机性,我们也可以找到一些成功的模型,但很难合理地考虑这种方法。

该方法的缺点之一是召回率下降,但它并不比 CatBoost 模型的召回率高--在本例中约为 0.5。

 
Aleksey Vyazmikin #:

您是否与其他建树方案进行过比较,结果是否真的更好?

我发现现成的形式不太适合市场,自制的也还没做好。但我不抱太大希望,所以也不着急。

 

就是这种情况。左边是 OOS 通过,右边不是。而右侧则立即跳水。


这种情况经常发生。

也就是立即大幅度下潜。下潜的性质尚不清楚。似乎应该有一些接近 SB 的东西,但我经常看到这样的图片。


我觉得如果在优化后运行反转 TS,我甚至可能不会输。

 
fxsaber #:

就是这种情况。左边的 OOS 可以通过,右边的则不行。而在右侧,它会立即 "跳水"。


这种情况经常发生。

也就是说,字面意思是立即大幅下潜。跳水的性质尚不清楚。我认为它应该是接近 SB 的东西,但我经常看到这样的画面。


看来,如果在优化后运行反转 TS,可能根本不会输。

大约两年前,我在这里发布了这种效果