文章 "神经网络变得轻松（第五十一部分）：行为-指引的扮演者-评论者（BAC）"

MetaQuotes 2024.04.04 07:47

新文章神经网络变得轻松（第五十一部分）：行为-指引的扮演者-评论者（BAC）已发布：

最后两篇文章研究了软性扮演者-评论者算法，该算法将熵正则化整合到奖励函数当中。这种方式在环境探索和模型开发之间取得平衡，但它仅适用于随机模型。本文提出了一种替代方式，能适用于随机模型和确定性模型两者。

首先，我们谈谈研究环境的必要性。我想每个人都同意这个过程是必要的。但究竟是为了什么，在什么阶段？

我们从一个简单的例子开始。假设我们发现自己身处一间有三扇相同房门的屋内，我们需要走到街上。我们该怎么办？我们逐扇打开房门，直至找到我们需要的那扇。当我们再次进入同一间屋时，我们外出就不再需要打开所有房门，取而代之的是立即前往已知的出口。如果我们有不同的任务，那么可能有一些选项。我们可以再次打开除已知出口外的所有门，并寻找合适的。或者我们可以先记住早前我们在寻找出路时打开了哪些门，以及我们需要的那扇门是否在其中。如果我们记得正确的门，我们就会走向它。否则，我们会检查以前没有尝试过的门。

结论：我们需要在不熟悉的情况下研究环境，据此选择正确的动作。找到所需的路线后，对环境的额外探索只会成为阻碍。

不过，当任务在已知状态下发生变化时，我们也许需要额外研究环境。这可能包括寻找更优化的路线。在上面的例子中，如果我们需要穿过更多的房间，或者我们发现自己在建筑物的错误一侧，也许就会发生这种情况。

因此，我们需要一种算法，允许我们能够在未探索的状态下强化环境探索，并在先前探索的状态中将其最小化。

作者：Dmitriy Gizlyk

新评论