文章 "神经网络变得简单（第 70 部分）：封闭式政策改进运算器（CFPI）"

MetaQuotes 2024.09.09 09:03

在本文中，我们将领略一种算法，其使用封闭式政策改进运算器来优化离线模式下的智能体动作。

约束智能体行为的情况下优化其政策的方式，事实证明，在解决离线强化学习问题方面很有前景。通过利用历史过渡，智能体政策经过训练，可以最大化所学习的数值函数。

行为约束政策有助于避免与智能体动作相关的重大分布偏移，这为评估动作成本提供了足够的信心。在上一篇文章中，我们领略了 SPOT 方法，它利用了这种方式。作为该主题的延续，我建议领略封闭式政策改进（CFPI）算法，其在论文《依据封闭式政策改进运算器的离线强化学习》中提出。