文章 "神经网络变得简单(第 71 部分):目标条件预测编码(GCPC)" 新评论 MetaQuotes 2024.09.13 12:30 新文章 神经网络变得简单(第 71 部分):目标条件预测编码(GCPC)已发布: 在之前的文章中,我们讨论了决策转换器方法,以及从其衍生的若干种算法。我们测验了不同的目标设定方法。在测验期间,我们依据各种设定目标的方式进行操作。然而,该模型早期研究时验算过的轨迹,始终处于我们的关注范围之外。在这篇文章中。我想向您介绍一种填补此空白的方法。 行为克隆(BC)是解决各种离线强化学习问题的一种很有前途的方式。替代针对状态和操作估值,BC 是直接训练智能体行为政策,在设定目标、分析环境状态、和智能体动作之间建立依赖关系。这是在预先收集的离线轨迹上运用监督学习方法达成的。熟悉的决策转换器方法,及其衍生算法已经展现出序列建模对离线强化学习的有效性。 以前,在使用上述算法时,我们测验了各种选项来设置目标,以便刺激我们需要的智能体动作。然而,模型如何学习先前验算的轨迹仍然处于我们的关注范围之外。现在,浮现出关于研究整条轨迹适用性的问题。论文《离线强化学习的目标条件预测编码》的作者解决了这个问题。在他们的论文中,他们探讨了几个关键问题: 离线轨迹对序列建模有用吗,或者它们只简单地为监督政策学习提供更多数据? 支持政策学习的轨迹表示最有效的学习目标是什么?应该训练序列模型来编码历史经验、未来动态,还是两者兼而有之? 既然同一个序列模型可以同时用于轨迹表示学习和政策学习,那我们是否应当有相同的学习目标? 作者:Dmitriy Gizlyk 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 神经网络变得简单(第 71 部分):目标条件预测编码(GCPC)已发布:
在之前的文章中,我们讨论了决策转换器方法,以及从其衍生的若干种算法。我们测验了不同的目标设定方法。在测验期间,我们依据各种设定目标的方式进行操作。然而,该模型早期研究时验算过的轨迹,始终处于我们的关注范围之外。在这篇文章中。我想向您介绍一种填补此空白的方法。
行为克隆(BC)是解决各种离线强化学习问题的一种很有前途的方式。替代针对状态和操作估值,BC 是直接训练智能体行为政策,在设定目标、分析环境状态、和智能体动作之间建立依赖关系。这是在预先收集的离线轨迹上运用监督学习方法达成的。熟悉的决策转换器方法,及其衍生算法已经展现出序列建模对离线强化学习的有效性。
以前,在使用上述算法时,我们测验了各种选项来设置目标,以便刺激我们需要的智能体动作。然而,模型如何学习先前验算的轨迹仍然处于我们的关注范围之外。现在,浮现出关于研究整条轨迹适用性的问题。论文《离线强化学习的目标条件预测编码》的作者解决了这个问题。在他们的论文中,他们探讨了几个关键问题:
离线轨迹对序列建模有用吗,或者它们只简单地为监督政策学习提供更多数据?
支持政策学习的轨迹表示最有效的学习目标是什么?应该训练序列模型来编码历史经验、未来动态,还是两者兼而有之?
既然同一个序列模型可以同时用于轨迹表示学习和政策学习,那我们是否应当有相同的学习目标?
作者:Dmitriy Gizlyk