記事「ニューラルネットワークが簡単に(第58回):Decision Transformer (DT)」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第58回):Decision Transformer (DT)」はパブリッシュされました:

強化学習の手法を引き続き検討します。この記事では、一連の行動を構築するパラダイムでエージェントの方策を考慮する、少し異なるアルゴリズムに焦点を当てます。

本連載では、すでにかなり幅広い種類の強化学習アルゴリズムを検証してきました。どれも基本的なアプローチを採用しています。

  1. エージェントは環境の現状を分析します。
  2. (学習した方策-行動戦略の枠内で)最適な行動をとります。
  3. 環境の新しい状態に移行します。
  4. 新しい状態に完全に移行すると、環境から報酬を受け取ります。

このシーケンスはマルコフ過程の原理に基づいています。出発点は現在の環境状態であると仮定します。この状態から抜け出す最適な方法はひとつしかなく、それはそれまでの道筋に左右されません。

グーグルチームが「Decision Transformer:Reinforcement Learning via Sequence Modeling」(06.02.2021)という記事で紹介した別のアプローチを紹介したいと思います。この研究の主なハイライトは、強化学習問題を、所望の報酬の自己回帰モデルによって条件付けられた、条件付き行動シーケンスのモデリングに投影したことです。

作者: Dmitriy Gizlyk