文章 "神经网络变得简单（第 66 部分）：离线学习中的探索问题"

MetaQuotes 2024.07.19 07:49

使用准备好的训练数据集中的数据对模型进行离线训练，这种方法虽然有一定的优势，但其不利的一面是，环境信息被大大压缩到训练数据集的大小。这反过来又限制了探索的可能性。在本文中，我们将探讨一种方法，这种方法可以用尽可能多样化的数据来填充训练数据集。

ExORL 方法可分为 3 个主要阶段。第一阶段是收集未标记的探索性数据。这个阶段可以使用各种无监督学习算法。该方法的作者并没有限制适用算法的范围。此外，在与环境互动的过程中，在每个回合（episode）中，我们会根据之前互动的历史记录使用一种策略 π。每一回合都以状态St、行动At和后续状态St+1 的序列保存在数据集中。训练数据的收集一直持续到训练数据集全部填满为止。该训练数据集的规模受到技术规格或可用资源的限制。

在收集了状态和行动数据集之后，下一阶段就是利用给定的奖励函数对数据进行重新标记。这一阶段意味着对数据集中每个元组的奖励进行评估。

实际经验表明，通过不同方法收集的回放缓冲区可以并行使用。我使用了之前讨论过的 EA Research.mq5 和 EA ResearchExORL.mq5 收集的轨迹。第一，指出了学习完毕的 Actor 策略的优缺点。其次，我们可以尽可能多地探索环境，评估未被考虑的机会。

在反复训练模型的过程中，我设法提高了模型的性能。

测试结果

虽然测试期间的交易次数总体减少了 3 倍（56 对 176），但利润却增加了近 3 倍。最大盈利交易额增加了一倍多。平均盈利交易增加了 5 倍。此外，我们还发现，在整个测试期间，余额都在增加。因此，模型的利润系数从 1.3 提高到 2.96。

作者：Dmitriy Gizlyk

新评论