文章 "神经网络变得轻松(第五十一部分):行为-指引的扮演者-评论者(BAC)"

 

新文章 神经网络变得轻松(第五十一部分):行为-指引的扮演者-评论者(BAC)已发布:

最后两篇文章研究了软性扮演者-评论者算法,该算法将熵正则化整合到奖励函数当中。这种方式在环境探索和模型开发之间取得平衡,但它仅适用于随机模型。本文提出了一种替代方式,能适用于随机模型和确定性模型两者。

首先,我们谈谈研究环境的必要性。我想每个人都同意这个过程是必要的。但究竟是为了什么,在什么阶段?

我们从一个简单的例子开始。假设我们发现自己身处一间有三扇相同房门的屋内,我们需要走到街上。我们该怎么办?我们逐扇打开房门,直至找到我们需要的那扇。当我们再次进入同一间屋时,我们外出就不再需要打开所有房门,取而代之的是立即前往已知的出口。如果我们有不同的任务,那么可能有一些选项。我们可以再次打开除已知出口外的所有门,并寻找合适的。或者我们可以先记住早前我们在寻找出路时打开了哪些门,以及我们需要的那扇门是否在其中。如果我们记得正确的门,我们就会走向它。否则,我们会检查以前没有尝试过的门。

结论:我们需要在不熟悉的情况下研究环境,据此选择正确的动作。找到所需的路线后,对环境的额外探索只会成为阻碍。


不过,当任务在已知状态下发生变化时,我们也许需要额外研究环境。这可能包括寻找更优化的路线。在上面的例子中,如果我们需要穿过更多的房间,或者我们发现自己在建筑物的错误一侧,也许就会发生这种情况。

因此,我们需要一种算法,允许我们能够在未探索的状态下强化环境探索,并在先前探索的状态中将其最小化。

作者:Dmitriy Gizlyk

原因: