文章 "神经网络变得轻松(第二十七部分):深度 Q-学习(DQN)"

 

新文章 神经网络变得轻松(第二十七部分):深度 Q-学习(DQN)已发布:

我们继续研究强化学习。 在本文中,我们将与深度 Q-学习方法打交道。 DeepMind 团队曾运用这种方法创建了一个模型,在玩 Atari 电脑游戏时其表现优于人类。 我认为评估该技术来解决交易问题的可能性将会很有益处。

您可能已经猜到了深度 Q-学习涉及运用神经网络来近似 Q 函数。 这种方式有什么优势? 请记住上一篇文章中交叉熵表格方法的实现。 我强调,表格方法的实现假定可能的状态和动作数量是有限的。 故此,我们通过初始数据聚类来限制可能的状态数量。 但它有那么好吗? 聚类总能产生更好的结果吗? 运用神经网络不会限制可能的状态数量。 我认为在解决交易相关问题时,这是一个极棒的优势。

最明显的第一个方法是用神经网络替换上一篇文章中的表格。 但是,不幸的是,这并不容易。 在实践中,这种方式并不像看起来那么美好。 为了实现该方法,我们需要添加一些启发式方法。

首先,我们来看看代理者训练目标。 一般来说,它的目标是总体奖励最大化。 请看下图。 代理者必须从 Start 单元格移动到 Finish 单元格。 代理者在到达 Finish 单元格时才会收到一次性奖励。 在所有其它状态,奖励均为零。

折扣因子

该示意图展示了两条路径。 对我们来说,很明显,橙色路径更短、更可取。 但就奖励最大化而言,它们是等价的。

作者:Dmitriy Gizlyk