Dmitriy Gizlyk

4.4 (49)

信息

10+ 年经验	0 产品	0 演示版
134 工作	0 信号	0 订阅者

Skype

Twitter

任何的MT4和MT5複雜專業寫作計劃。

好友 1950

Dmitriy Gizlyk 2023.10.27

已发布文章神经网络变得简单（第 61 部分）：离线强化学习中的乐观情绪问题

在离线学习期间，我们基于训练样本数据优化了智能体的政策。成品政策令智能体对其动作充满信心。然而，这种乐观情绪并不总是正当的，并且可能会在模型操作期间导致风险增加。今天，我们要寻找降低这些风险的方法之一。

· 1 504

Dmitriy Gizlyk 2023.10.20

已发布文章神经网络变得简单（第 60 部分）：在线决策转换器（ODT）

最近两篇文章专门介绍了决策转换器方法，其在期望奖励的自回归模型境况下针对动作序列进行建模。在本文中，我们将研究该方法的另一种优化算法。

· 1 434

Dmitriy Gizlyk 2023.10.13

已发布文章神经网络变得简单（第 59 部分）：控制二分法（DoC）

在上一篇文章中，我们领略了决策变换器。但是，外汇市场复杂的随机环境不允许我们充分发挥所提议方法的潜能。在本文中，我将讲述一种算法，旨在提高在随机环境中的性能。

· 2 312

Dmitriy Gizlyk 2023.10.06

已发布文章神经网络变得简单（第 58 部分）：决策转换器（DT）

我们继续探索强化学习方法。在本文中，我将专注于一种略有不同的算法，其参考智能体政策构造一连串动作的范式。

· 6 609

Yao Wei Lai 2023.10.11

I greatly admire your article series "Neural Networks Make It Easy", but after reading it for a long time, I still don't understand how to generate models. Could you please send me the models used in each article? I would like to replicate your test to further learn relevant knowledge. Thank you!

Dmitriy Gizlyk 2023.09.05

已发布文章神经网络变得简单（第 57 部分）：随机边际扮演者-评论者（SMAC）

在此，我将研究相当新颖的随机边际扮演者-评论者（SMAC）算法，该算法允许在熵值最大化的框架内构建潜在变量政策。

· 5 301

Dmitriy Gizlyk 2023.08.29

已发布文章神经网络变得简单（第 56 部分）：利用核范数推动研究

强化学习中的环境研究是一个紧迫的问题。我们之前已视察过一些方式。在本文中，我们将讲述另一种基于最大化核范数的方法。它允许智能体识别拥有高度新颖性和多样性的环境状态。

· 3 355

Dmitriy Gizlyk 2023.08.23

已发布文章神经网络变得轻松（第五十五部分）：对比内在控制（CIC）

对比训练是一种无监督训练方法表象。它的目标是训练一个模型，突显数据集中的相似性和差异性。在本文中，我们将谈论使用对比训练方式来探索不同的扮演者技能。

· 6 373

Dmitriy Gizlyk 2023.08.16

已发布文章神经网络变得轻松（第五十四部分）：利用随机编码器（RE3）进行高效研究

无论何时我们研究强化学习方法时，我们都会面对有效探索环境的问题。解决这个问题通常会导致算法更复杂性，以及训练额外模型。在本文中，我们将看看解决此问题的替代方法。

· 7 721

Dmitriy Gizlyk 2023.08.09

已发布文章神经网络变得轻松（第五十三部分）：奖励分解

我们已经不止一次地讨论过正确选择奖励函数的重要性，我们通过为单独动作添加奖励或惩罚来刺激代理者的预期行为。但是关于由代理者解密我们的信号的问题仍旧悬而未决。在本文中，我们将探讨将单独信号传输至已训练代理者时的奖励分解。

· 4 458

Dmitriy Gizlyk 2023.08.01

已发布文章神经网络变得轻松（第五十二部分）：研究乐观情绪和分布校正

由于模型是基于经验复现缓冲区进行训练，故当前的扮演者政策会越来越远离存储的样本，这会降低整个模型的训练效率。在本文中，我们将查看一些能在强化学习算法中提升样本使用效率的算法。

· 5 679

Dmitriy Gizlyk 2023.07.28

已发布文章神经网络变得轻松（第五十一部分）：行为-指引的扮演者-评论者（BAC）

最后两篇文章研究了软性扮演者-评论者算法，该算法将熵正则化整合到奖励函数当中。这种方式在环境探索和模型开发之间取得平衡，但它仅适用于随机模型。本文提出了一种替代方式，能适用于随机模型和确定性模型两者。

· 3 414

Dmitriy Gizlyk 2023.07.21

已发布文章神经网络变得轻松（第五十部分）：软性扮演者-评价者（模型优化）

在上一篇文章中，我们实现了软性扮演者-评论者算法，但未能训练出一个可盈利的模型。在此，我们将优化先前创建的模型，以期获得所需的结果。

· 4 505

Dmitriy Gizlyk 2023.07.11

已发布文章神经网络变得轻松（第四十九部分）：软性扮演者-评价者

我们继续讨论解决连续动作空间问题的强化学习算法。在本文中，我将讲演软性扮演者-评论者（SAC）算法。SAC 的主要优点是拥有查找最佳策略的能力，不仅令预期回报最大化，而且拥有最大化的动作熵（多样性）。

· 4 396

JimReaper 2023.07.14

Enjoy!

Shah Yahya 2023.07.21

Thanks so much Dmitry! Really appreciate this.

Dmitriy Gizlyk 2023.07.03

已发布文章神经网络变得轻松（第四十八部分）：降低 Q-函数高估的方法

在上一篇文章中，我们概述了 DDPG 方法，它允许在连续动作空间中训练模型。然而，与其它 Q-学习方法一样，DDPG 容易高估 Q-函数的数值。这个问题往往会造成训练代理者时选择次优策略。在本文中，我们将研究一些克服上述问题的方式。

· 4 436

Dmitriy Gizlyk 2023.06.26

已发布文章神经网络变得轻松（第四十七部分）：连续动作空间

在本文中，我们扩展了代理者的任务范围。训练过程将包括一些资金和风险管理等方面，这是任何交易策略不可或缺的部分。

· 3 592

Tanaka Black 2023.06.29

hie Dimitriy, i have a job for you please check your message inbox

Dmitriy Gizlyk 2023.06.21

已发布文章神经网络变得轻松（第四十六部分）：条件导向目标强化学习（GCRL）

在本文中，我们要看看另一种强化学习方式。它被称为条件导向目标强化学习（GCRL）。按这种方式，代理者经过训练，可以在特定场景中达成不同的目标。

· 4 928

Dmitriy Gizlyk 2023.06.13

已发布文章神经网络变得轻松（第四十五部分）：训练状态探索技能

在没有明确奖励函数的情况下，实用的训练技能就是分层强化学习的主要挑战之一。以前，我们已领略了解决此问题的两种算法。但环境研究的完整性问题仍然悬而未决。本文演示了一种不同的技能训练方式，其可取决于系统的当前状态直接使用。

· 4 2233

Dmitriy Gizlyk 2023.06.07

已发布文章神经网络变得轻松（第四十四部分）：动态学习技能

在上一篇文章中，我们讲解了 DIAYN 方法，它提供了学习各种技能的算法。获得的技能可用在各种任务。但这些技能可能非常难以预测，而这可能令它们难以运用。在本文中，我们要研究一种针对学习可预测技能的算法。

· 3 1276

Dmitriy Gizlyk 2023.05.29

已发布文章神经网络变得轻松（第四十三部分）：无需奖励函数精通技能

强化学习的问题在于需要定义奖励函数。它可能很复杂，或难以形式化。为了定解这个问题，我们正在探索一些基于行动和基于环境的方式，无需明确的奖励函数即可学习技能。

· 3 1117

Dmitriy Gizlyk 2023.05.19

已发布文章神经网络变得轻松（第四十二部分）：模型拖延症、原因和解决方案

在强化学习的背景下，模型拖延症可能由多种原因引起。本文研究了模型拖延症的一些可能原因，以及克服它们的方法。

798

1 2 3 4 5 6 7 8 9