文章 "神经网络变得简单（第 68 部分）：离线优先引导政策优化"

MetaQuotes 2024.08.30 07:48

自从第一篇专门讨论强化学习的文章以来，我们以某种方式触及了 2 个问题：探索环境和检定奖励函数。最近的文章曾专门讨论了离线学习中的探索问题。在本文中，我想向您介绍一种算法，其作者完全剔除了奖励函数。

在离线优先引导学习的背景下，一般方式包括两个步骤，通常涉及使用监督学习优化奖励函数模型，然后利用任意离线 RL 算法，譬如依据重定义转换的学习奖励函数来训练政策。不过，奖励函数的单独训练实践也许不会直接指导政策如何按行动优化。优先标签定义了学习任务，因此目标是学习更优先的轨迹，而不是最大化奖励。在复杂问题的情况下，标量奖励会在政策优化中造成信息瓶颈，进而导致个体的行为次优化。此外，离线政策优化能利用不正确的奖励函数中的薄弱之处。这反过来又会导致不需要的行为。

作为这种两步方式的替代方案，离线优先引导政策优化法（OPPO）的作者旨在直接从离线优先引导数据集中学习政策。他们提议了一种一步式算法，可以同时对离线优先进行建模，并学习最优决策政策，而无需单独训练奖励函数。这是通过使用两个目标来达成的：

在离线“缺乏”的情况下整理信息；
优先建模。

作者：Dmitriy Gizlyk

新评论