文章 "神经网络变得简单(第 65 部分):距离加权监督学习(DWSL)"

 

新文章 神经网络变得简单(第 65 部分):距离加权监督学习(DWSL)已发布:

在本文中,我们将领略一个有趣的算法,它是在监督和强化学习方法的交叉点上构建的。

行为克隆方法,大部分基于监督学习的原理,展现出相当良好的结果。但它们的主要问题仍然是寻找偶像般的模型,而这些有时很难收集。反之,强化学习方法能够依据非最优原数据工作。同时,它们可以找到次优政策来达成目标。然而,在寻找最优政策时,我们时常会到一个优化问题,其与高维和随机环境更多关联。

为了弥合这两种方式之间的间隙,一群科学家提出了距离加权监督学习(DWSL)方法,并在文章《离线交互数据的距离加权监督学习》中进行了阐述。它是一种针对目标条件政的离线监督学习算法。理论上,DWSL 据来自训练集的轨迹水平上具有最小回报边界,收敛到最优政策。本文的实际算例展示出所提议方法的优于模仿学习和强化学习算法。我建议就这个 DWSL 算法深入谈谈。我们将评估它在解决实际问题方面的优势和劣势。

作者:Dmitriy Gizlyk