文章 "神经网络变得简单(第 70 部分):封闭式政策改进运算器(CFPI)" 新评论 MetaQuotes 2024.09.09 09:03 新文章 神经网络变得简单(第 70 部分):封闭式政策改进运算器(CFPI)已发布: 在本文中,我们将领略一种算法,其使用封闭式政策改进运算器来优化离线模式下的智能体动作。 约束智能体行为的情况下优化其政策的方式,事实证明,在解决离线强化学习问题方面很有前景。通过利用历史过渡,智能体政策经过训练,可以最大化所学习的数值函数。 行为约束政策有助于避免与智能体动作相关的重大分布偏移,这为评估动作成本提供了足够的信心。在上一篇文章中,我们领略了 SPOT 方法,它利用了这种方式。作为该主题的延续,我建议领略封闭式政策改进(CFPI)算法,其在论文 《依据封闭式政策改进运算器的离线强化学习》中提出。 作者:Dmitriy Gizlyk 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 神经网络变得简单(第 70 部分):封闭式政策改进运算器(CFPI)已发布:
在本文中,我们将领略一种算法,其使用封闭式政策改进运算器来优化离线模式下的智能体动作。
约束智能体行为的情况下优化其政策的方式,事实证明,在解决离线强化学习问题方面很有前景。通过利用历史过渡,智能体政策经过训练,可以最大化所学习的数值函数。
行为约束政策有助于避免与智能体动作相关的重大分布偏移,这为评估动作成本提供了足够的信心。在上一篇文章中,我们领略了 SPOT 方法,它利用了这种方式。作为该主题的延续,我建议领略封闭式政策改进(CFPI)算法,其在论文 《依据封闭式政策改进运算器的离线强化学习》中提出。
作者:Dmitriy Gizlyk