文章 "神经网络变得轻松(第三十四部分):全部参数化的分位数函数"

 

新文章 神经网络变得轻松(第三十四部分):全部参数化的分位数函数已发布:

我们继续研究分布式 Q-学习算法。 在之前的文章中,我们研究了分布式和分位数 Q-学习算法。 在第一种算法当中,我们训练了给定数值范围的概率。 在第二种算法中,我们用给定的概率训练了范围。 在这两个发行版中,我们采用了一个先验分布知识,并训练了另一个。 在本文中,我们将研究一种算法,其允许模型针对两种分布进行训练。

这种方式可以训练对“分位数”超参数不太敏感的模型。 它们的随机分布允许将近似函数的范围扩展到非均匀分布的函数。

在将数据输入到模型之前,会根据以下公式创建随机生成的分位数的嵌入。

将嵌入的成果与原始数据的张量相结合会有不同的选择。 这可以是两个张量的简单串联,也可以是两个矩阵的 Hadamard(逐元素)相乘。

以下是它与本文作者提议研究架构的比较。


模型的有效性经由 57 次 Atari 游戏测试得到确认。 以下是与原文章的比较表格 [8]  


假设,给定模型的大小不受限制,这种方法允许学习预测奖励的任何分布。

作者:Dmitriy Gizlyk