文章 "神经网络变得轻松（第五十三部分）：奖励分解"

MetaQuotes 2024.04.15 12:10

我们已经不止一次地讨论过正确选择奖励函数的重要性，我们通过为单独动作添加奖励或惩罚来刺激代理者的预期行为。但是关于由代理者解密我们的信号的问题仍旧悬而未决。在本文中，我们将探讨将单独信号传输至已训练代理者时的奖励分解。

我们继续探索强化学习方法。如您所知，机器学习领域中用于训练模型的所有算法都基于最大化环境奖励的范式。奖励函数在模型训练过程中起着关键作用。其信号往往非常模棱两可。

为了激励代理者表现出所需的行为，我们在奖励函数中引入了额外的红利和惩罚。例如，我们常常把奖励函数搞得更加复杂，试图鼓励代理者去探索环境，并引入对不作为的惩罚。同时，模型的架构和奖励函数仍然是模型架构师主观考虑的结果。

在训练期间，即使采取精心设计的方式，模型也可能会遇到各种困难。出于众多不同的原因，代理者也许无法达成预期的结果。但是，我们如何理解代理者在奖励函数中正确地解释我们的信号呢？为尝试搞明白这个问题，人们希望将奖励分解成不同的分量。使用分解的奖励并分析各个分量的影响，对于找到优化模型训练的方法非常实用。这令我们能够更好地了解不同层面如何影响代理者行为，辨别导致问题的原因，并有效地调整模型架构、训练过程、或奖励函数。

作者：Dmitriy Gizlyk

新评论