交易中的机器学习:理论、模型、实践和算法交易 - 页 897

 
阿列克谢-维亚兹米 金。

评估OOB(出包)的情况

 
马克西姆-德米特里耶夫斯基

OOB(出包)估计

我在这里读到过这种方法https://habr.com/company/ods/blog/324402/,但我看不出估算会如何影响在被改变的数据中寻找模式。也许我说得不对,但这里有一个简单的例子,在一个样本中,我们有,比方说,一个这样的模式

"

1+2=3

...

1+2=3,5

...

1+2=3,8

...

1+2=3,5

...

1+2=3

"

"..."- 不是一个明确的时间段,过了这个时间段,规则就会改变。即使在理想情况下,有一个规则变化的模式。他们怎么能找到这种规律性,说一个规则在n个样本行中会被改变,然后n*x个规则会恢复到原来的状态?而如果规则变化的性质不仅仅是一个时间间隔,而是其数据在样本中的其他情况的影响,但其影响的规律性只能通过事件的顺序(即通过每行有数据的提交顺序)来估计呢?森林是通过不同的方法来拉动大块的,怎么能不仅看到横向(预测者的集合)的规律性,而且看到纵向(预测者相对于过去n的变化)?

 
阿列克谢-维亚兹米 金。

我晚上再回答......突然想吃披萨和金发女郎了

 
马克西姆-德米特里耶夫斯基

我今晚晚些时候再回答......我突然想吃披萨和金发女郎了。

春天--可能解释了突然性:)

我将等待答案,谢谢你花时间问我可能很愚蠢的问题。

 
阿列克谢-维亚兹米 金。

春天--可能解释了突然性 :)

我期待着你的答复,感谢你花时间问我可能很傻的问题。

相反,很好的逻辑问题,我最近也问过他们。

 
阿列克谢-维亚兹米 金。

"..."- 不是一个明确的时间段,过了这个时间段,规则就会改变。即使在理想情况下,有一个规则变化的模式。脚手架如何找到这个规律性,说一个规则将在n个样本行中被改变,然后在n*x个行中,规则将返回到它的初始状态?而如果规则变化的性质不仅仅是一个时间间隔,而是数据在样本中的其他情况的影响,但其影响的规律性只能通过事件的顺序(即通过每行数据的归档顺序)来估计呢?森林使用不同的方法拉动大块,如何才能不仅看到横向(预测者集合)的模式,而且看到纵向(预测者相对于过去n的变化)?

嗯,不完全是模式的改变。更像是一个较粗的近似值。如果样本足够大,例如,在随机子集上训练脚手架,从中抽出大块,是的,在oob(剩余的大块)上验证模型,并比较误差。如果误差+-相同,那么脚手架就没有被过度训练,所以在未来有更高的概率做出正确预测。如果对oob的误差不满意,我们可以玩一下设置,例如减少训练子集(给模型添加更多的噪音),增加验证子集。这样做,模型对训练样本的近似度已经变差,误差会更大,但在新的数据上,有可能得到完全相同的误差,也就是说,模型在两个子样本上都会稳定。而且,由于子样本本身是随机选择的,训练子样本中大量的未知因素都被覆盖了。显然,这不是万能的,但与仅仅是树木相比,它给了工作更多的灵活性。NS合奏的情况也是如此。

 
马克西姆-德米特里耶夫斯基

嗯,不完全是模式的改变。更像是一个较粗的近似值。比如说,如果样本足够大,那么就在随机子集上训练支架,从中抽出一些块,是的,在oob(剩余的块)上验证模型,并比较误差。如果误差+-相同,那么脚手架就没有被过度训练,所以在未来有更高的概率做出正确预测。如果对oob的误差不满意,我们可以玩一下设置,例如减少训练子集(给模型添加更多的噪音),增加验证子集。这样做,模型对训练样本的近似度已经变差,误差会更大,但在新的数据上,有可能得到完全相同的误差,也就是说,模型在两个子样本上都会稳定。而且,由于子样本本身是随机选择的,训练子样本中大量的未知因素都被覆盖了。显然,这不是万能的,但与简单的树相比,它给了工作更多的灵活性。NS合奏也是如此。

好吧,大致上我是这么想的,如果最初,它只是简单地检查规则,在每个条件独立的树的样本上,由于交叉错误被买下,过度训练,但以同样的方式切出所有的时间规律性,其因果关系无法建立(而且只有在偶然的情况下才有可能建立这种因果关系,如果树用那个样本检查其结果,其中规律性被保留了)。

而如果我们把样本切开,在较小的块上进行训练(比方说把一年切成12个月,取2-3年),然后在树的情况下,收集每棵树上所有权重较大的规则,并与24个样本相匹配(如果一个规则对少于x%的样本有效,就把它扔掉),我们能不看到不同的规则会对不同时期有效?然后我们可以做出周期性的假设,由于时间的关系(财务报告),金融市场一定是这样的。

例如很多人写到相关性分析是估计预测因子的初步方法,但是当我看了这个表后,我不能理解,相关性很小,但是树建立后给这个元素的价值更大。为什么会发生这种情况?


如果我们拿一个名为 "arr_TimeH "的预测器来思考,很明显,我们可以预期市场在不同的时间有不同的行为,例如在上午10点交易所开盘时,会有一个强烈的运动,因为从没有交易的时刻开始处理信息(积累的事件),而在其他时间,情况可能不同,同样的计划新闻可能被发布,之后很可能出现强烈的市场运动,另一方面,有一个晚上的会议,运动经常与前一天相比发生变化,可能幅度较小,所以时间明显受到影响。这就是为什么我认为应该使用MO方法进行交易,而不是相信已经建立的传统,包括预处理数据。


P.S.我在Photoshop中绘制了表格,随意勾选,以显示颜色,当我看到勾选框的颜色与意义标尺的颜色重合时,我感到很震惊--上升到了音调!这就是为什么我的工作会如此重要。这怎么可能呢?事实证明,我无意识地注意了它,它影响了我的选择。 也许人们的交易直觉也是如此,也就是说,他们使用了一个他们没有意识到的系统。

 
阿列克谢-维亚兹米 金。

例如,很多人写到相关分析是评估预测因素的初步方法,但当我看表时,我无法理解,相关度很小,但树在构建后赋予这个元素更多的意义。为什么会发生这种情况?

也许根据你的时间预测器的组合(月、周、日、小时......),这棵树只是到了某个买入/卖出栏。

这就像记住大棒的时间,并利用它们在历史上进行交易获利,尽管这种属性与价格运动的相关性将几乎为零。

 
伊万-内格雷什尼

也许通过你的时间预测器的组合(月、周、日、小时......),树只是到一个特定的买/卖栏。

这就像记住时间条并利用它们进行历史交易,尽管这种属性与价格运动的相关性几乎为零。

也许,确实如此,但只有两个预测因素--星期和小时,也就是说,我们可以得到5*14=70个具有这种属性的组,而样本包含403933条线,即5770条线落入这个组,另一方面,目标33000条线,即471条目标线落入每个组。而如果我们也考虑到还有其他的预测因素,我们就已经有很多组了。这就像把苹果切成片,在片上做标记,并记录那些比其他特征更多的片子,但因为有这么多片子,所以会有只有一个特征的片子。那么问题来了,对于一个给定的样本量,应该有多少个预测因子?苹果片应该有多大?

那么在这几天和几个小时里,本身就有一个模式,它受时间因素的影响--交易时段 的开幕,交易时段的周期,新闻(经济/统计,大多在一周的同一时间和一天发布)。

 
阿列克谢-维亚兹米 金。

这可能是,但只有两个预测因素--星期和小时,所以我们可以通过这个标准得到5*14=70个组,而样本有403933条线,所以组得到5770条线,另一方面,目标33000,所以我们每组得到471条目标线。而如果我们也考虑到还有其他的预测因素,我们将已经有了很多组。这就像把苹果切成片,在片上做标记,并记录那些比其他特征更多的片子,但因为有这么多片子,所以会有只有一个特征的片子。那么问题来了,对于一个给定的样本量,应该有多少个预测因子?苹果片应该有多大?

但它本身是有规律的,而且受到时间因素的影响--交易时段的 开盘,交易时段的周期,新闻(经济/统计,大多在一周的同一时间和一天发布)。

马克西姆-德米特里夫斯基,你如何解决这个问题?

一般来说,有哪些选择?苹果的碎片可能是不同的。
为合奏中的每个ns添加一些上下文,并在一些控制ns中使用这些上下文?
我所说的背景是指,例如,与一些基本的定义、概念、预测器和加上一些数据的链接...