文章 "神经网络变得轻松（第三十八部分）：凭借分歧进行自我监督探索"

MetaQuotes 2023.10.23 08:47

强化学习中的一个关键问题是环境探索。之前，我们已经见识到基于内在好奇心的研究方法。今天我提议看看另一种算法：凭借分歧进行探索。

基于分歧的探索是一种强化学习方法，允许代理者在不依赖外部奖励的情况下探索环境，但更倾向于使用模型融汇寻找新的、未探索的区域。

在“凭借分歧进行自我监督探索”一文中，作者讲述了这种方式，并提出了一个简单的方法：训练前向动态模型的融汇，并鼓励代理者探索动作空间，其在融汇当中模型预测之间存在最大不一致或方差。

因此，代理者并非选择产生最大预期奖励的动作，代理者选择的是融汇当中模型之间分歧最大的动作。这令代理者探索状态空间的区域，其中融汇当中的模型有分歧，以及可能存在新的和未探索的环境区域。

在这种情况下，融汇当中的所有模型都收敛到均值，最终减少融汇的差距，并为代理者提供有关环境状态和动作可能后果的更准确预测。

此外，凭借分歧进行探索的算法允许代理者成功应对与环境交互的随机性。本文作者进行的实验结果表明，所提出的方式真实改进了随机环境中的探索，并且优于先前存在的内在动机和不确定性建模方法。此外，他们观察到这些方式可以扩展到监督学习，其中样本的值不是基于真实标签，而是基于模型融汇的状态来判定的。

故此，凭借分歧进行探索的算法是解决随机环境探索问题的一种有前途的方法。它允许代理者更有效地探索环境，而不必依赖外部奖励，这在外部奖励可能有限或成本不菲的实际应用程序中尤其实用。