文章 "基于暴力算法的 CatBoost 模型高级重采样与选择"

MetaQuotes 2021.02.19 08:35

本文描述了一种可能的数据转换方法，旨在提高模型的通用性，并讨论了 CatBoost 模型的采样和选择。

上一篇文章中使用的标签的简单随机抽样有一些缺点：

分类是不平衡的。假设市场在训练期间主要是增长的，而整体数据（整个报价历史）是上涨和下跌都有的。在这种情况下，简单的抽样将创建更多的买入标签和更少的卖出标签。因此，一个类别的标签将优先于另一个类别的标签，因此该模型将学习预测买入交易的频率高于卖出交易的频率，然而，这对于新数据可能是无效的。

特征和标签的自相关。如果使用随机抽样，则同一类的标签彼此跟随，而特征本身（例如，增量）变化不大。这个过程可以用回归模型训练的例子来说明——在这种情况下，模型残差中会观察到自相关，这将导致可能的模型高估和过度训练。这种情况如下：

模型1具有残差的自相关，可以将其与某些市场属性的模型过度拟合（例如，与训练数据的波动性相关）进行比较，而其他模式则不考虑在内。模型2具有具有相同方差的残差（平均值），这表明模型覆盖了更多信息或发现了其他依赖性（除了相邻样本的相关性）。

作者：Maxim Dmitrievsky

chengxiaoyu 2021.06.25 05:32 #1

when I change the train start and stop datetime, the model backtests result is bad, what can I do to improve model performance?

Xiong Feng Shi 2023.05.02 20:34 #2

对于该文章，虽然我没看懂，但是觉得很强大。因此我决定花点时间给点建议。首先，这个市场上的数据源仅仅是市场上的部分筹码，或者说是少部分筹码，能决定行情走向的是交易者手头上的大部分筹码，所以从数据采集上，依靠何种方法和途径优化可能只是对过去行情的贴合，很难达到我们预期的效果。其次，这个市场短时间内它不是随机，举个例子，当只有2个多方交易者和2个空方交易者，一空方N价挂牌出售，另一空方N-1价出售。一多方N-1买入，当前价格为N，假设另一多方N价买入，理论上上价格应该为N，实际上空N没有单子，撮合机制会到N-1寻找成交，所以当前价格为N-1，大概就是这么个意思。所以N和N-1，N+1等等都是有关系的，并不能达到完全随机，因此数据优化可以从动量出发比较好。最后，不管是EA还是人工交易，很难从市场上稳定赚钱，因为如果稳定那财富必然转移到某个市场的参与者身上，这个市场也就不复存在。所以投资就是投资风险，收获风险的过程，太在意稳定可能得不偿失，我不反对有些人在市场的交易中发现了某个规律，相当于市场的BUG实现了财富只有，事实上市场本身也在因为参与者的复杂性不断的自我完善的过程，但是金无足赤人无完人。智能交易的方向理论上就是不断寻找市场BUG的过程，此BUG仅供少部分人使用，用的人多了就失效了。希望我的评论对大家能有所参考。VX Tiger54088路过

新评论