文章 "神经网络变得简单（第 65 部分）：距离加权监督学习（DWSL）"

MetaQuotes 2024.06.19 11:45

在本文中，我们将领略一个有趣的算法，它是在监督和强化学习方法的交叉点上构建的。

行为克隆方法，大部分基于监督学习的原理，展现出相当良好的结果。但它们的主要问题仍然是寻找偶像般的模型，而这些有时很难收集。反之，强化学习方法能够依据非最优原数据工作。同时，它们可以找到次优政策来达成目标。然而，在寻找最优政策时，我们时常会到一个优化问题，其与高维和随机环境更多关联。

为了弥合这两种方式之间的间隙，一群科学家提出了距离加权监督学习（DWSL）方法，并在文章《离线交互数据的距离加权监督学习》中进行了阐述。它是一种针对目标条件政的离线监督学习算法。理论上，DWSL 据来自训练集的轨迹水平上具有最小回报边界，收敛到最优政策。本文的实际算例展示出所提议方法的优于模仿学习和强化学习算法。我建议就这个 DWSL 算法深入谈谈。我们将评估它在解决实际问题方面的优势和劣势。

作者：Dmitriy Gizlyk

新评论