文章 "神经网络变得简单（第 71 部分）：目标条件预测编码（GCPC）"

MetaQuotes 2024.09.13 12:30

在之前的文章中，我们讨论了决策转换器方法，以及从其衍生的若干种算法。我们测验了不同的目标设定方法。在测验期间，我们依据各种设定目标的方式进行操作。然而，该模型早期研究时验算过的轨迹，始终处于我们的关注范围之外。在这篇文章中。我想向您介绍一种填补此空白的方法。

行为克隆（BC）是解决各种离线强化学习问题的一种很有前途的方式。替代针对状态和操作估值，BC 是直接训练智能体行为政策，在设定目标、分析环境状态、和智能体动作之间建立依赖关系。这是在预先收集的离线轨迹上运用监督学习方法达成的。熟悉的决策转换器方法，及其衍生算法已经展现出序列建模对离线强化学习的有效性。

以前，在使用上述算法时，我们测验了各种选项来设置目标，以便刺激我们需要的智能体动作。然而，模型如何学习先前验算的轨迹仍然处于我们的关注范围之外。现在，浮现出关于研究整条轨迹适用性的问题。论文《离线强化学习的目标条件预测编码》的作者解决了这个问题。在他们的论文中，他们探讨了几个关键问题：

离线轨迹对序列建模有用吗，或者它们只简单地为监督政策学习提供更多数据？
支持政策学习的轨迹表示最有效的学习目标是什么？应该训练序列模型来编码历史经验、未来动态，还是两者兼而有之？
既然同一个序列模型可以同时用于轨迹表示学习和政策学习，那我们是否应当有相同的学习目标？

作者：Dmitriy Gizlyk

新评论