文章 "神经网络变得简单(第 68 部分):离线优先引导政策优化"

 

新文章 神经网络变得简单(第 68 部分):离线优先引导政策优化已发布:

自从第一篇专门讨论强化学习的文章以来,我们以某种方式触及了 2 个问题:探索环境和检定奖励函数。最近的文章曾专门讨论了离线学习中的探索问题。在本文中,我想向您介绍一种算法,其作者完全剔除了奖励函数。

在离线优先引导学习的背景下,一般方式包括两个步骤,通常涉及使用监督学习优化奖励函数模型,然后利用任意离线 RL 算法,譬如依据重定义转换的学习奖励函数来训练政策。不过,奖励函数的单独训练实践也许不会直接指导政策如何按行动优化。优先标签定义了学习任务,因此目标是学习更优先的轨迹,而不是最大化奖励。在复杂问题的情况下,标量奖励会在政策优化中造成信息瓶颈,进而导致个体的行为次优化。此外,离线政策优化能利用不正确的奖励函数中的薄弱之处。这反过来又会导致不需要的行为。

作为这种两步方式的替代方案,离线优先引导政策优化法(OPPO)的作者旨在直接从离线优先引导数据集中学习政策。他们提议了一种一步式算法,可以同时对离线优先进行建模,并学习最优决策政策,而无需单独训练奖励函数。这是通过使用两个目标来达成的:

  • 在离线“缺乏”的情况下整理信息;
  • 优先建模。

作者:Dmitriy Gizlyk