文章 "神经网络变得轻松（第二十八部分）：政策梯度算法"

MetaQuotes 2023.01.09 16:21

我们继续研究强化学习方法。在上一篇文章中，我们领略了深度 Q-学习方法。按这种方法，已训练模型依据在特定情况下采取的行动来预测即将到来的奖励。然后，根据政策和预期奖励执行动作。但并不总是能够近似 Q-函数。有时它的近似不会产生预期的结果。在这种情况下，近似方法不应用于功用函数，而是应用于动作的直接政策（策略）。其中一种方法是政策梯度。

第一个已测试模型是 DQN。它展现出意想不到的惊喜。该模型产生了盈利。但它仅执行了一个交易操作，持仓会贯穿整个测试过程。已执行成交的品种图表如下所示。

测试 DQN

评估品种图表上的成交，您可以看到该模型清楚地识别出全局趋势，并顺着其方向开仓成交。这笔成交是可盈利的，但问题是该模型是否能够及时了结这样的一笔成交？事实上，我们基于过去 2 年的历史数据训练了模型。在过去的 2 年中，所分析金融产品的行情一直由看跌趋势所主导。这就是为什么我们想知道该模型是否可以及时了结成交。

若采用贪婪策略，政策梯度模型给出类似的结果。请记住，当我们开始研究强化学习方法时，我反复强调正确选择奖励政策的重要性。如此，我决定试验奖励政策。特别是，为了避免亏损持仓持有的时间过长，我决定增加对无盈利持仓的处罚。为此，我还采用新的奖励政策训练了政策梯度模型。针对模型超参数进行的一些试验，我设法达成了 60% 的盈利操作。测试图如下所示。

平均持仓时间为 1 小时 40 分钟。

作者：Dmitriy Gizlyk

新评论