文章 "神经网络变得简单(第 68 部分):离线优先引导政策优化" 新评论 MetaQuotes 2024.08.30 07:48 新文章 神经网络变得简单(第 68 部分):离线优先引导政策优化已发布: 自从第一篇专门讨论强化学习的文章以来,我们以某种方式触及了 2 个问题:探索环境和检定奖励函数。最近的文章曾专门讨论了离线学习中的探索问题。在本文中,我想向您介绍一种算法,其作者完全剔除了奖励函数。 在离线优先引导学习的背景下,一般方式包括两个步骤,通常涉及使用监督学习优化奖励函数模型,然后利用任意离线 RL 算法,譬如依据重定义转换的学习奖励函数来训练政策。不过,奖励函数的单独训练实践也许不会直接指导政策如何按行动优化。优先标签定义了学习任务,因此目标是学习更优先的轨迹,而不是最大化奖励。在复杂问题的情况下,标量奖励会在政策优化中造成信息瓶颈,进而导致个体的行为次优化。此外,离线政策优化能利用不正确的奖励函数中的薄弱之处。这反过来又会导致不需要的行为。 作为这种两步方式的替代方案,离线优先引导政策优化法(OPPO)的作者旨在直接从离线优先引导数据集中学习政策。他们提议了一种一步式算法,可以同时对离线优先进行建模,并学习最优决策政策,而无需单独训练奖励函数。这是通过使用两个目标来达成的: 在离线“缺乏”的情况下整理信息; 优先建模。 作者:Dmitriy Gizlyk 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 神经网络变得简单(第 68 部分):离线优先引导政策优化已发布:
自从第一篇专门讨论强化学习的文章以来,我们以某种方式触及了 2 个问题:探索环境和检定奖励函数。最近的文章曾专门讨论了离线学习中的探索问题。在本文中,我想向您介绍一种算法,其作者完全剔除了奖励函数。
在离线优先引导学习的背景下,一般方式包括两个步骤,通常涉及使用监督学习优化奖励函数模型,然后利用任意离线 RL 算法,譬如依据重定义转换的学习奖励函数来训练政策。不过,奖励函数的单独训练实践也许不会直接指导政策如何按行动优化。优先标签定义了学习任务,因此目标是学习更优先的轨迹,而不是最大化奖励。在复杂问题的情况下,标量奖励会在政策优化中造成信息瓶颈,进而导致个体的行为次优化。此外,离线政策优化能利用不正确的奖励函数中的薄弱之处。这反过来又会导致不需要的行为。
作为这种两步方式的替代方案,离线优先引导政策优化法(OPPO)的作者旨在直接从离线优先引导数据集中学习政策。他们提议了一种一步式算法,可以同时对离线优先进行建模,并学习最优决策政策,而无需单独训练奖励函数。这是通过使用两个目标来达成的:
作者:Dmitriy Gizlyk