文章 "神经网络变得简单(第 70 部分):封闭式政策改进运算器(CFPI)"

 

新文章 神经网络变得简单(第 70 部分):封闭式政策改进运算器(CFPI)已发布:

在本文中,我们将领略一种算法,其使用封闭式政策改进运算器来优化离线模式下的智能体动作。

约束智能体行为的情况下优化其政策的方式,事实证明,在解决离线强化学习问题方面很有前景。通过利用历史过渡,智能体政策经过训练,可以最大化所学习的数值函数。 

行为约束政策有助于避免与智能体动作相关的重大分布偏移,这为评估动作成本提供了足够的信心。在上一篇文章中,我们领略了 SPOT 方法,它利用了这种方式。作为该主题的延续,我建议领略封闭式政策改进(CFPI)算法,其在论文 《依据封闭式政策改进运算器的离线强化学习》中提出。

作者:Dmitriy Gizlyk