![神经网络变得轻松(第四十八部分):降低 Q-函数高估的方法](https://c.mql5.com/2/56/NN_part_48_600x314.jpg)
神经网络变得轻松(第四十八部分):降低 Q-函数高估的方法
在上一篇文章中,我们概述了 DDPG 方法,它允许在连续动作空间中训练模型。然而,与其它 Q-学习方法一样,DDPG 容易高估 Q-函数的数值。这个问题往往会造成训练代理者时选择次优策略。在本文中,我们将研究一些克服上述问题的方式。
![MQL5 中的范畴论 (第 12 部分):秩序(Orders)](https://c.mql5.com/2/56/Category-Theory-p12_600x314.jpg)
MQL5 中的范畴论 (第 12 部分):秩序(Orders)
本文是范畴论系列文章之以 MQL5 实现图论的部分,深入研讨秩序(Orders)。我们通过研究两种主要的秩序类型,实测秩序论的概念如何支持幺半群集合,从而为交易决策提供信息。
![神经网络变得轻松(第五十一部分):行为-指引的扮演者-评论者(BAC)](https://c.mql5.com/2/57/behavior_driven_actor_critic_600x314.jpg)
神经网络变得轻松(第五十一部分):行为-指引的扮演者-评论者(BAC)
最后两篇文章研究了软性扮演者-评论者算法,该算法将熵正则化整合到奖励函数当中。这种方式在环境探索和模型开发之间取得平衡,但它仅适用于随机模型。本文提出了一种替代方式,能适用于随机模型和确定性模型两者。
![神经网络变得轻松(第四十九部分):软性扮演者-评价者](https://c.mql5.com/2/56/Neural_Networks_are_Easy_Part_49_600x314.jpg)
神经网络变得轻松(第四十九部分):软性扮演者-评价者
我们继续讨论解决连续动作空间问题的强化学习算法。在本文中,我将讲演软性扮演者-评论者(SAC)算法。SAC 的主要优点是拥有查找最佳策略的能力,不仅令预期回报最大化,而且拥有最大化的动作熵(多样性)。
![神经网络变得轻松(第五十五部分):对比内在控制(CIC)](https://c.mql5.com/2/57/cic-055_600x314.jpg)
神经网络变得轻松(第五十五部分):对比内在控制(CIC)
对比训练是一种无监督训练方法表象。它的目标是训练一个模型,突显数据集中的相似性和差异性。在本文中,我们将谈论使用对比训练方式来探索不同的扮演者技能。
![神经网络变得简单(第 56 部分):利用核范数推动研究](https://c.mql5.com/2/57/nuclear_norm_utilization_600x314.jpg)
神经网络变得简单(第 56 部分):利用核范数推动研究
强化学习中的环境研究是一个紧迫的问题。我们之前已视察过一些方式。在本文中,我们将讲述另一种基于最大化核范数的方法。它允许智能体识别拥有高度新颖性和多样性的环境状态。
![如何利用 MQL5 创建简单的多币种智能交易系统(第 5 部分):凯尔特纳(Keltner)通道上的布林带 — 指标信号](https://c.mql5.com/2/61/rj-article-images_600x314.jpg)
如何利用 MQL5 创建简单的多币种智能交易系统(第 5 部分):凯尔特纳(Keltner)通道上的布林带 — 指标信号
本文中的多币种 EA 是一款智能交易系统或交易机器人,可以仅从一个品种图表中交易(开单、平单和管理订单,例如:尾随止损和止盈)多个品种(对)。在本文中,我们将用到来自两个指标的信号,在本例中为凯尔特纳(Keltner)通道上的布林带®。
![神经网络变得简单(第 59 部分):控制二分法(DoC)](https://c.mql5.com/2/59/Caregory_600x314.jpg)
神经网络变得简单(第 59 部分):控制二分法(DoC)
在上一篇文章中,我们领略了决策变换器。但是,外汇市场复杂的随机环境不允许我们充分发挥所提议方法的潜能。在本文中,我将讲述一种算法,旨在提高在随机环境中的性能。
![神经网络变得简单(第 66 部分):离线学习中的探索问题](https://c.mql5.com/2/61/Neural_networks_are_easy_Part_66_600x314.jpg)
神经网络变得简单(第 66 部分):离线学习中的探索问题
使用准备好的训练数据集中的数据对模型进行离线训练,这种方法虽然有一定的优势,但其不利的一面是,环境信息被大大压缩到训练数据集的大小。这反过来又限制了探索的可能性。在本文中,我们将探讨一种方法,这种方法可以用尽可能多样化的数据来填充训练数据集。
![如何利用 MQL5 创建简单的多币种智能交易系统(第 4 部分):三角移动平均线 — 指标信号](https://c.mql5.com/2/60/rj-article-images_600x314.jpg)
如何利用 MQL5 创建简单的多币种智能交易系统(第 4 部分):三角移动平均线 — 指标信号
本文中的多币种 EA 是智能交易系统或交易机器人,能从一个品种的图表里交易(开单、平单、及管理订单,例如:尾随止损和止盈)多个品种(货币对)。这次我们只会用到 1 个指标,即多时间帧或单一时间帧中的三角移动平均线。
![如何利用 MQL5 创建简单的多币种智能交易系统(第 3 部分):添加交易品种、前缀和/或后缀、以及交易时段](https://c.mql5.com/2/60/Parabolic_SAR_MTF_600x314.jpg)
如何利用 MQL5 创建简单的多币种智能交易系统(第 3 部分):添加交易品种、前缀和/或后缀、以及交易时段
若干交易员同事发送电子邮件或评论了如何基于经纪商提供的名称里带有前缀和/或后缀的品种使用此多币种 EA,以及如何在该多币种 EA 上实现交易时区或交易时段。
![神经网络变得简单(第 63 部分):决策转换器无监督预训练(PDT)](https://c.mql5.com/2/60/Neural_networks_are_easy_aPart_63n_600x314.jpg)
神经网络变得简单(第 63 部分):决策转换器无监督预训练(PDT)
我们将继续讨论决策转换器方法系列。从上一篇文章中,我们已经注意到,训练这些方法架构下的转换器是一项相当复杂的任务,需要一个大型标记数据集进行训练。在本文中,我们将观看到一种使用未标记轨迹进行初步模型训练的算法。