文章 "神经网络变得简单(第 66 部分):离线学习中的探索问题" 新评论 MetaQuotes 2024.07.19 07:49 新文章 神经网络变得简单(第 66 部分):离线学习中的探索问题已发布: 使用准备好的训练数据集中的数据对模型进行离线训练,这种方法虽然有一定的优势,但其不利的一面是,环境信息被大大压缩到训练数据集的大小。这反过来又限制了探索的可能性。在本文中,我们将探讨一种方法,这种方法可以用尽可能多样化的数据来填充训练数据集。 ExORL 方法可分为 3 个主要阶段。第一阶段是收集未标记的探索性数据。这个阶段可以使用各种无监督学习算法。该方法的作者并没有限制适用算法的范围。此外,在与环境互动的过程中,在每个回合(episode)中,我们会根据之前互动的历史记录使用一种策略 π。每一回合都以状态St、行动At和后续状态St+1 的序列保存在数据集中。训练数据的收集一直持续到训练数据集全部填满为止。该训练数据集的规模受到技术规格或可用资源的限制。 在收集了状态和行动数据集之后,下一阶段就是利用给定的奖励函数对数据进行重新标记。这一阶段意味着对数据集中每个元组的奖励进行评估。 实际经验表明,通过不同方法收集的回放缓冲区可以并行使用。我使用了之前讨论过的 EA Research.mq5 和 EA ResearchExORL.mq5 收集的轨迹。第一,指出了学习完毕的 Actor 策略的优缺点。其次,我们可以尽可能多地探索环境,评估未被考虑的机会。 在反复训练模型的过程中,我设法提高了模型的性能。 虽然测试期间的交易次数总体减少了 3 倍(56 对 176),但利润却增加了近 3 倍。最大盈利交易额增加了一倍多。平均盈利交易增加了 5 倍。此外,我们还发现,在整个测试期间,余额都在增加。因此,模型的利润系数从 1.3 提高到 2.96。 作者:Dmitriy Gizlyk 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 神经网络变得简单(第 66 部分):离线学习中的探索问题已发布:
使用准备好的训练数据集中的数据对模型进行离线训练,这种方法虽然有一定的优势,但其不利的一面是,环境信息被大大压缩到训练数据集的大小。这反过来又限制了探索的可能性。在本文中,我们将探讨一种方法,这种方法可以用尽可能多样化的数据来填充训练数据集。
ExORL 方法可分为 3 个主要阶段。第一阶段是收集未标记的探索性数据。这个阶段可以使用各种无监督学习算法。该方法的作者并没有限制适用算法的范围。此外,在与环境互动的过程中,在每个回合(episode)中,我们会根据之前互动的历史记录使用一种策略 π。每一回合都以状态St、行动At和后续状态St+1 的序列保存在数据集中。训练数据的收集一直持续到训练数据集全部填满为止。该训练数据集的规模受到技术规格或可用资源的限制。
在收集了状态和行动数据集之后,下一阶段就是利用给定的奖励函数对数据进行重新标记。这一阶段意味着对数据集中每个元组的奖励进行评估。
实际经验表明,通过不同方法收集的回放缓冲区可以并行使用。我使用了之前讨论过的 EA Research.mq5 和 EA ResearchExORL.mq5 收集的轨迹。第一,指出了学习完毕的 Actor 策略的优缺点。其次,我们可以尽可能多地探索环境,评估未被考虑的机会。
在反复训练模型的过程中,我设法提高了模型的性能。
虽然测试期间的交易次数总体减少了 3 倍(56 对 176),但利润却增加了近 3 倍。最大盈利交易额增加了一倍多。平均盈利交易增加了 5 倍。此外,我们还发现,在整个测试期间,余额都在增加。因此,模型的利润系数从 1.3 提高到 2.96。
作者:Dmitriy Gizlyk