文章 "神经网络变得轻松（第四十三部分）：无需奖励函数精通技能"

MetaQuotes 2023.12.07 10:10

强化学习的问题在于需要定义奖励函数。它可能很复杂，或难以形式化。为了定解这个问题，我们正在探索一些基于行动和基于环境的方式，无需明确的奖励函数即可学习技能。

为了测试训练模型的性能，我们采用 2023 年 5 月前两周的数据，这些数据不包括在训练集中，但紧随训练区间。这种方式令我们能够在新数据上评估模型的性能，同时数据保持可比性，因为训练集和测试集之间没有时间间隔。

为了进行测试，我们使用了改编后的 “DIAYN\Test.mq5” EA。所做的修改仅影响根据模型体系结构准备数据的算法，和源数据准备过程。模型直接验算的调用顺序也已更改。该过程的构建方式类似于前面讲述的收集样本和训练模型数据库的智能系统。附件中提供了详细的 EA 代码。

模型测试结果

已训练模型的测试结果就是，达成了小额盈利，盈利因子为 1.61，恢复因子为 3.21。在测试期间的 240 根柱线之内，该模型进行了 119 笔交易，其中近 55% 的交易以盈利平仓。