文章 "神经网络变得轻松(第五十五部分):对比内在控制(CIC)" 新评论 MetaQuotes 2024.04.29 10:54 新文章 神经网络变得轻松(第五十五部分):对比内在控制(CIC)已发布: 对比训练是一种无监督训练方法表象。它的目标是训练一个模型,突显数据集中的相似性和差异性。在本文中,我们将谈论使用对比训练方式来探索不同的扮演者技能。 对比内在控制算法在环境中训练智能体时首先使用反馈,并获取状态和动作的轨迹。然后使用对比预测编码(CPC)执行表象训练,其会激励智能体从状态和动作中提取关键特征。表象的表示要考虑到连续状态之间的依赖关系。 内在奖励在判定哪些行为策略应该最大化方面扮演着重要角色。CIC 将状态之间转换的熵最大化,从而促进了智能体行为的多样性。这允许智能体探索和创建行为策略的多样化。 在生成各种技能和策略之后,CIC 算法使用鉴别器实例化技能表象。鉴别器的靶向是确保状态是可预测和稳定的。以这种方式,智能体学会了在可预测的状况下“使用”技能。 内在奖励激励的探索结合使用技能进行可预测动作,为打造多样化和有效的策略创建了一种平衡方式。 结果就是,对比预测编码算法鼓励智能体检测和学习更广范围的行为策略,同时确保稳定的学习。下面是自定义算法观想图。 作者:Dmitriy Gizlyk 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 神经网络变得轻松(第五十五部分):对比内在控制(CIC)已发布:
对比训练是一种无监督训练方法表象。它的目标是训练一个模型,突显数据集中的相似性和差异性。在本文中,我们将谈论使用对比训练方式来探索不同的扮演者技能。
对比内在控制算法在环境中训练智能体时首先使用反馈,并获取状态和动作的轨迹。然后使用对比预测编码(CPC)执行表象训练,其会激励智能体从状态和动作中提取关键特征。表象的表示要考虑到连续状态之间的依赖关系。
内在奖励在判定哪些行为策略应该最大化方面扮演着重要角色。CIC 将状态之间转换的熵最大化,从而促进了智能体行为的多样性。这允许智能体探索和创建行为策略的多样化。
在生成各种技能和策略之后,CIC 算法使用鉴别器实例化技能表象。鉴别器的靶向是确保状态是可预测和稳定的。以这种方式,智能体学会了在可预测的状况下“使用”技能。
内在奖励激励的探索结合使用技能进行可预测动作,为打造多样化和有效的策略创建了一种平衡方式。
结果就是,对比预测编码算法鼓励智能体检测和学习更广范围的行为策略,同时确保稳定的学习。下面是自定义算法观想图。
作者:Dmitriy Gizlyk