文章 "神经网络变得轻松（第二十七部分）：深度 Q-学习（DQN）"

MetaQuotes 2022.12.22 06:57

我们继续研究强化学习。在本文中，我们将与深度 Q-学习方法打交道。 DeepMind 团队曾运用这种方法创建了一个模型，在玩 Atari 电脑游戏时其表现优于人类。我认为评估该技术来解决交易问题的可能性将会很有益处。

您可能已经猜到了深度 Q-学习涉及运用神经网络来近似 Q 函数。这种方式有什么优势？请记住上一篇文章中交叉熵表格方法的实现。我强调，表格方法的实现假定可能的状态和动作数量是有限的。故此，我们通过初始数据聚类来限制可能的状态数量。但它有那么好吗？聚类总能产生更好的结果吗？运用神经网络不会限制可能的状态数量。我认为在解决交易相关问题时，这是一个极棒的优势。

最明显的第一个方法是用神经网络替换上一篇文章中的表格。但是，不幸的是，这并不容易。在实践中，这种方式并不像看起来那么美好。为了实现该方法，我们需要添加一些启发式方法。

首先，我们来看看代理者训练目标。一般来说，它的目标是总体奖励最大化。请看下图。代理者必须从 Start 单元格移动到 Finish 单元格。代理者在到达 Finish 单元格时才会收到一次性奖励。在所有其它状态，奖励均为零。

折扣因子

该示意图展示了两条路径。对我们来说，很明显，橙色路径更短、更可取。但就奖励最大化而言，它们是等价的。

作者：Dmitriy Gizlyk

新评论