文章 "神经网络变得简单(第 66 部分):离线学习中的探索问题"

 

新文章 神经网络变得简单(第 66 部分):离线学习中的探索问题已发布:

使用准备好的训练数据集中的数据对模型进行离线训练,这种方法虽然有一定的优势,但其不利的一面是,环境信息被大大压缩到训练数据集的大小。这反过来又限制了探索的可能性。在本文中,我们将探讨一种方法,这种方法可以用尽可能多样化的数据来填充训练数据集。

ExORL 方法可分为 3 个主要阶段。第一阶段是收集未标记的探索性数据。这个阶段可以使用各种无监督学习算法。该方法的作者并没有限制适用算法的范围。此外,在与环境互动的过程中,在每个回合(episode)中,我们会根据之前互动的历史记录使用一种策略 π。每一回合都以状态St、行动At和后续状态St+1 的序列保存在数据集中。训练数据的收集一直持续到训练数据集全部填满为止。该训练数据集的规模受到技术规格或可用资源的限制。

在收集了状态和行动数据集之后,下一阶段就是利用给定的奖励函数对数据进行重新标记。这一阶段意味着对数据集中每个元组的奖励进行评估。

实际经验表明,通过不同方法收集的回放缓冲区可以并行使用。我使用了之前讨论过的 EA Research.mq5 和 EA ResearchExORL.mq5 收集的轨迹。第一,指出了学习完毕的 Actor 策略的优缺点。其次,我们可以尽可能多地探索环境,评估未被考虑的机会。

在反复训练模型的过程中,我设法提高了模型的性能。

测试结果

测试结果

虽然测试期间的交易次数总体减少了 3 倍(56 对 176),但利润却增加了近 3 倍。最大盈利交易额增加了一倍多。平均盈利交易增加了 5 倍。此外,我们还发现,在整个测试期间,余额都在增加。因此,模型的利润系数从 1.3 提高到 2.96。 

作者:Dmitriy Gizlyk