文章 "基于暴力算法的 CatBoost 模型高级重采样与选择"

 

新文章 基于暴力算法的 CatBoost 模型高级重采样与选择已发布:

本文描述了一种可能的数据转换方法,旨在提高模型的通用性,并讨论了 CatBoost 模型的采样和选择。

上一篇文章中使用的标签的简单随机抽样有一些缺点:

  • 分类是不平衡的。假设市场在训练期间主要是增长的,而整体数据(整个报价历史)是上涨和下跌都有的。在这种情况下,简单的抽样将创建更多的买入标签和更少的卖出标签。因此,一个类别的标签将优先于另一个类别的标签,因此该模型将学习预测买入交易的频率高于卖出交易的频率,然而,这对于新数据可能是无效的。

  • 特征和标签的自相关。如果使用随机抽样,则同一类的标签彼此跟随,而特征本身(例如,增量)变化不大。这个过程可以用回归模型训练的例子来说明——在这种情况下,模型残差中会观察到自相关,这将导致可能的模型高估和过度训练。这种情况如下:


模型1具有残差的自相关,可以将其与某些市场属性的模型过度拟合(例如,与训练数据的波动性相关)进行比较,而其他模式则不考虑在内。模型2具有具有相同方差的残差(平均值),这表明模型覆盖了更多信息或发现了其他依赖性(除了相邻样本的相关性)。

作者:Maxim Dmitrievsky

 
when I change the train start and stop datetime, the model backtests result is bad, what can I do to improve model performance?
 
对于该文章,虽然我没看懂,但是觉得很强大。因此我决定花点时间给点建议。首先,这个市场上的数据源仅仅是市场上的部分筹码,或者说是少部分筹码,能决定行情走向的是交易者手头上的大部分筹码,所以从数据采集上,依靠何种方法和途径优化可能只是对过去行情的贴合,很难达到我们预期的效果。其次,这个市场短时间内它不是随机,举个例子,当只有2个多方交易者和2个空方交易者,一空方N价挂牌出售,另一空方N-1价出售。一多方N-1买入,当前价格为N,假设另一多方N价买入,理论上上价格应该为N,实际上空N没有单子,撮合机制会到N-1寻找成交,所以当前价格为N-1,大概就是这么个意思。所以N和N-1,N+1等等都是有关系的,并不能达到完全随机,因此数据优化可以从动量出发比较好。最后,不管是EA还是人工交易,很难从市场上稳定赚钱,因为如果稳定那财富必然转移到某个市场的参与者身上,这个市场也就不复存在。所以投资就是投资风险,收获风险的过程,太在意稳定可能得不偿失,我不反对有些人在市场的交易中发现了某个规律,相当于市场的BUG实现了财富只有,事实上市场本身也在因为参与者的复杂性不断的自我完善的过程,但是金无足赤人无完人。智能交易的方向理论上就是不断寻找市场BUG的过程,此BUG仅供少部分人使用,用的人多了就失效了。希望我的评论对大家能有所参考。VX Tiger54088路过