文章 "神经网络变得简单(第 64 部分):保守加权行为克隆(CWBC)方法"

 

新文章 神经网络变得简单(第 64 部分):保守加权行为克隆(CWBC)方法已发布:

据前几篇文章中所执行测试的结果,我们得出的结论是,训练策略的最优性很大程度上取决于所采用的训练集。在本文中,我们将熟悉一种相当简单,但有效的方法来选择轨迹,并据其训练模型。

该方法的作者提出了一种新的保守性正则化器,用于回报条件化的行为克隆方法,显式鼓励政策停留在接近原始数据分布。该思路是当条件化回报位于大量分布之外时,为了停留在接近分布内的动作,而强制执行预测动作。这是通过往拥有高回报轨迹里的 RTG 添加正值噪声,并惩罚预测动作与地面实况之间的 L2 距离来达成的。为了保证在分布之外产生较大的回报,我们生成噪音,如此这般调整后的 RTG 值不小于训练集中的最高回报。

作者提议将保守性正则化应用于回报率超过训练集中奖励的第 q 个百分位数的轨迹。这可确保当指定的 RTG 处于训练分布之外时,政策的行为类似于高回报轨迹,而非随机轨迹。我们在每个时间步骤添加噪声,并偏移 RTG。

方法作者进行的实验表明,采用第 95 个百分位数在各种环境和数据集中普遍效果很好。

该方法的作者指出,所提出的保守性正则化器与其它基于估测状态和转换成本的离线 RL 方法的保守性组件不同。虽然后者典型情况会尝试调整成本函数的估值,从而防止外推误差,但所拟议的方法扭曲了创建分布外条件、及调整动作预测的在途回报。

在训练过程中,我设法获得了一个模型,其在训练样本的历史区段上产生了盈利。

Test results

Test results

在训练期间,该模型交易了 141 笔。其中约 40% 以盈利了结。最大盈利交易是最大亏损的 4 倍以上。平均盈利交易几乎是平均亏损的 2 倍。甚至,平均盈利交易比最大亏损高 13%。所有这些给出了 1.11 的盈利系数。在新数据中也观察到类似的结果。

作者:Dmitriy Gizlyk