Dmitriy Gizlyk / 个人资料
- 信息
10+ 年
经验
|
0
产品
|
0
演示版
|
134
工作
|
0
信号
|
0
订阅者
|
![神经网络变得简单(第 61 部分):离线强化学习中的乐观情绪问题](https://c.mql5.com/2/59/NN_easy_61_Logo__V4_.png)
在离线学习期间,我们基于训练样本数据优化了智能体的政策。成品政策令智能体对其动作充满信心。然而,这种乐观情绪并不总是正当的,并且可能会在模型操作期间导致风险增加。今天,我们要寻找降低这些风险的方法之一。
![神经网络变得简单(第 60 部分):在线决策转换器(ODT)](https://c.mql5.com/2/59/Online_Decision_Transformer_logo_up.png)
最近两篇文章专门介绍了决策转换器方法,其在期望奖励的自回归模型境况下针对动作序列进行建模。在本文中,我们将研究该方法的另一种优化算法。
![神经网络变得简单(第 59 部分):控制二分法(DoC)](https://c.mql5.com/2/58/logo__1.png)
在上一篇文章中,我们领略了决策变换器。但是,外汇市场复杂的随机环境不允许我们充分发挥所提议方法的潜能。在本文中,我将讲述一种算法,旨在提高在随机环境中的性能。
![神经网络变得简单(第 58 部分):决策转换器(DT)](https://c.mql5.com/2/58/decision-transformer-avatar.png)
我们继续探索强化学习方法。在本文中,我将专注于一种略有不同的算法,其参考智能体政策构造一连串动作的范式。
![Yao Wei Lai Yao Wei Lai](https://c.mql5.com/avatar/avatar_na2_micro.png)
![神经网络变得简单(第 57 部分):随机边际扮演者-评论者(SMAC)](https://c.mql5.com/2/58/stochastic_marginal_actor_critic_avatar.png)
在此,我将研究相当新颖的随机边际扮演者-评论者(SMAC)算法,该算法允许在熵值最大化的框架内构建潜在变量政策。
![神经网络变得简单(第 56 部分):利用核范数推动研究](https://c.mql5.com/2/57/nuclear_norm_utilization_avatar.png)
强化学习中的环境研究是一个紧迫的问题。我们之前已视察过一些方式。在本文中,我们将讲述另一种基于最大化核范数的方法。它允许智能体识别拥有高度新颖性和多样性的环境状态。
![神经网络变得轻松(第五十五部分):对比内在控制(CIC)](https://c.mql5.com/2/57/cic-055-avatar.png)
对比训练是一种无监督训练方法表象。它的目标是训练一个模型,突显数据集中的相似性和差异性。在本文中,我们将谈论使用对比训练方式来探索不同的扮演者技能。
![神经网络变得轻松(第五十四部分):利用随机编码器(RE3)进行高效研究](https://c.mql5.com/2/57/random_encoder_for_efficient_exploration_054_avatar.png)
无论何时我们研究强化学习方法时,我们都会面对有效探索环境的问题。解决这个问题通常会导致算法更复杂性,以及训练额外模型。在本文中,我们将看看解决此问题的替代方法。
![神经网络变得轻松(第五十三部分):奖励分解](https://c.mql5.com/2/57/decomposition_of_remuneration_053_avatar.png)
我们已经不止一次地讨论过正确选择奖励函数的重要性,我们通过为单独动作添加奖励或惩罚来刺激代理者的预期行为。但是关于由代理者解密我们的信号的问题仍旧悬而未决。在本文中,我们将探讨将单独信号传输至已训练代理者时的奖励分解。
![神经网络变得轻松(第五十二部分):研究乐观情绪和分布校正](https://c.mql5.com/2/57/optimistic-actor-critic-avatar.png)
由于模型是基于经验复现缓冲区进行训练,故当前的扮演者政策会越来越远离存储的样本,这会降低整个模型的训练效率。在本文中,我们将查看一些能在强化学习算法中提升样本使用效率的算法。
![神经网络变得轻松(第五十一部分):行为-指引的扮演者-评论者(BAC)](https://c.mql5.com/2/57/behavior_driven_actor_critic_avatar.png)
最后两篇文章研究了软性扮演者-评论者算法,该算法将熵正则化整合到奖励函数当中。这种方式在环境探索和模型开发之间取得平衡,但它仅适用于随机模型。本文提出了一种替代方式,能适用于随机模型和确定性模型两者。
![神经网络变得轻松(第五十部分):软性扮演者-评价者(模型优化)](https://c.mql5.com/2/57/NN_50_Soft_Actor-Critic_Avatar.png)
在上一篇文章中,我们实现了软性扮演者-评论者算法,但未能训练出一个可盈利的模型。在此,我们将优化先前创建的模型,以期获得所需的结果。
![神经网络变得轻松(第四十九部分):软性扮演者-评价者](https://c.mql5.com/2/56/Neural_Networks_are_Easy_Part_49_avatar.png)
我们继续讨论解决连续动作空间问题的强化学习算法。在本文中,我将讲演软性扮演者-评论者(SAC)算法。SAC 的主要优点是拥有查找最佳策略的能力,不仅令预期回报最大化,而且拥有最大化的动作熵(多样性)。
![JimReaper JimReaper](https://c.mql5.com/avatar/2023/9/650d3819-17e6.jpg)
![Shah Yahya Shah Yahya](https://c.mql5.com/avatar/2023/5/646ca470-5368.jpg)
![神经网络变得轻松(第四十八部分):降低 Q-函数高估的方法](https://c.mql5.com/2/56/NN_part_48_avatar.png)
在上一篇文章中,我们概述了 DDPG 方法,它允许在连续动作空间中训练模型。然而,与其它 Q-学习方法一样,DDPG 容易高估 Q-函数的数值。这个问题往往会造成训练代理者时选择次优策略。在本文中,我们将研究一些克服上述问题的方式。
![神经网络变得轻松(第四十七部分):连续动作空间](https://c.mql5.com/2/55/Neural_Networks_Part_47_avatar.png)
在本文中,我们扩展了代理者的任务范围。训练过程将包括一些资金和风险管理等方面,这是任何交易策略不可或缺的部分。
![Tanaka Black Tanaka Black](https://c.mql5.com/avatar/2021/2/601F61A4-E18C.jpg)
![神经网络变得轻松(第四十六部分):条件导向目标强化学习(GCRL)](https://c.mql5.com/2/55/Neural_Networks_Part_46_avatar.png)
在本文中,我们要看看另一种强化学习方式。 它被称为条件导向目标强化学习(GCRL)。 按这种方式,代理者经过训练,可以在特定场景中达成不同的目标。
![神经网络变得轻松(第四十五部分):训练状态探索技能](https://c.mql5.com/2/55/Neural_Networks_Part_45_avatar.png)
在没有明确奖励函数的情况下,实用的训练技能就是分层强化学习的主要挑战之一。 以前,我们已领略了解决此问题的两种算法。 但环境研究的完整性问题仍然悬而未决。 本文演示了一种不同的技能训练方式,其可取决于系统的当前状态直接使用。
![神经网络变得轻松(第四十四部分):动态学习技能](https://c.mql5.com/2/55/Neural_Networks_are_Just_a_Part_Avatar.png)
在上一篇文章中,我们讲解了 DIAYN 方法,它提供了学习各种技能的算法。 获得的技能可用在各种任务。 但这些技能可能非常难以预测,而这可能令它们难以运用。 在本文中,我们要研究一种针对学习可预测技能的算法。
![神经网络变得轻松(第四十三部分):无需奖励函数精通技能](https://c.mql5.com/2/54/NN_Simple_Part_43_avatar.png)
强化学习的问题在于需要定义奖励函数。 它可能很复杂,或难以形式化。 为了定解这个问题,我们正在探索一些基于行动和基于环境的方式,无需明确的奖励函数即可学习技能。
![神经网络变得轻松(第四十二部分):模型拖延症、原因和解决方案](https://c.mql5.com/2/54/NN_Simple_Part_42_procrastination_avatar.png)
在强化学习的背景下,模型拖延症可能由多种原因引起。 本文研究了模型拖延症的一些可能原因,以及克服它们的方法。