文章 "神经网络变得简单(第 71 部分):目标条件预测编码(GCPC)"

 

新文章 神经网络变得简单(第 71 部分):目标条件预测编码(GCPC)已发布:

在之前的文章中,我们讨论了决策转换器方法,以及从其衍生的若干种算法。我们测验了不同的目标设定方法。在测验期间,我们依据各种设定目标的方式进行操作。然而,该模型早期研究时验算过的轨迹,始终处于我们的关注范围之外。在这篇文章中。我想向您介绍一种填补此空白的方法。

行为克隆(BC)是解决各种离线强化学习问题的一种很有前途的方式。替代针对状态和操作估值,BC 是直接训练智能体行为政策,在设定目标、分析环境状态、和智能体动作之间建立依赖关系。这是在预先收集的离线轨迹上运用监督学习方法达成的。熟悉的决策转换器方法,及其衍生算法已经展现出序列建模对离线强化学习的有效性。

以前,在使用上述算法时,我们测验了各种选项来设置目标,以便刺激我们需要的智能体动作。然而,模型如何学习先前验算的轨迹仍然处于我们的关注范围之外。现在,浮现出关于研究整条轨迹适用性的问题。论文《离线强化学习的目标条件预测编码》的作者解决了这个问题。在他们的论文中,他们探讨了几个关键问题:

  1. 离线轨迹对序列建模有用吗,或者它们只简单地为监督政策学习提供更多数据?

  2. 支持政策学习的轨迹表示最有效的学习目标是什么?应该训练序列模型来编码历史经验、未来动态,还是两者兼而有之?

  3. 既然同一个序列模型可以同时用于轨迹表示学习和政策学习,那我们是否应当有相同的学习目标?

作者:Dmitriy Gizlyk