文章 "神经网络变得轻松(第三十五部分):内在好奇心模块"

 

新文章 神经网络变得轻松(第三十五部分):内在好奇心模块已发布:

我们继续研究强化学习算法。 到目前为止,我们所研究的所有算法都需要创建一个奖励政策,从而令代理者能够每次从一个系统状态过渡到另一个系统状态的转换中估算其每个动作。 然而,这种方式人为因素相当大。 在实践中,动作和奖励之间存在一些时间滞后。 在本文中,我们将领略一种模型训练算法,该算法可以操控从动作到奖励的各种时间延迟

为了训练 EA,所有模型都是利用 NetCreator 工具创建的。 应该补充的是,若要在策略测试器中启用 EA 操作,模型文件必须位于终端公共目录 'Terminal\Common\Files' 之中,因为每个代理者都在自己的沙箱中运行,因此它们只能通过公共终端文件夹交换数据。

策略测试器中的训练比以前的虚拟训练方法需要花费更长的时间。 出于这个原因,我将模型训练期缩短到 10 个月。. 其余测试参数保持不变。 这次同样,我采用基于 EURUSD 的 H1 时间帧。 指标采用默认参数。

老实说,我期待的学习过程将从本金亏损开始。 但在第一次验算时,模型显示的结果接近 0。 然后它甚至在第二次验算中赚取了一些盈利。 该模型执行了 330 笔交易,超过 98% 的操作是盈利的。

模型测试结果 模型测试结果


作者:Dmitriy Gizlyk