文章 "神经网络变得轻松(第四十九部分):软性扮演者-评价者"

 

新文章 神经网络变得轻松(第四十九部分):软性扮演者-评价者已发布:

我们继续讨论解决连续动作空间问题的强化学习算法。在本文中,我将讲演软性扮演者-评论者(SAC)算法。SAC 的主要优点是拥有查找最佳策略的能力,不仅令预期回报最大化,而且拥有最大化的动作熵(多样性)。

在本文中,我们将把注意力集中在另一种算法上 — 软性扮演者-评论者(SAC)。它首次出现在 2018 年 1 月 发表的文献 “软性扮演者-评论者:随机扮演者异政策最大熵值深度强化学习” 之中。该方法几乎与 TD3 同步提出。它们有一些相似之处,但在算法上也存在差异。SAC 的主要目标是在给定策略的最大熵的情况下最大化预期回报,其能在随机环境中找到各种最优解。

软性扮演者-评价者用到的扮演者具有随机政策。这意味着处于 S 状态的扮演者能够以一定的 Pa' 概率从整个动作空间中选择 A' 动作。换言之,在每个特定状态下,扮演者的政策允许我们不一定选择特定的最优动作,而是任何可能的行动(但具有一定程度的概率)。在训练过程中,扮演者学习获得最大奖励的概率分布。

随机扮演者政策的这一属性令我们能够探索不同的策略,并发现在运用判定性策略时可能隐藏的最优解。此外,随机扮演者政策还考虑到环境中的不确定性。在出现噪声或随机因素的情况下,该种类政策可能更具弹性和适应性,因为它们可以生成各种动作,以便有效地与环境交互。

作者:Dmitriy Gizlyk

 
我的交易软件mt4账号连接不上,无法交易下单。什么问题?
原因: