記事「ニューラルネットワークが簡単に(第71回):目標条件付き予測符号化(GCPC)」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第71回):目標条件付き予測符号化(GCPC)」はパブリッシュされました:

前回の記事では、Decision Transformer法と、そこから派生したいくつかのアルゴリズムについて説明しました。さまざまな目標設定手法で実験しました。実験では、さまざまな方法で目標を設定しましたが、それ以前に通過した軌跡に関するモデルの研究は、常に私たちの関心の外にありました。この記事では、このギャップを埋める手法を紹介したいと思います。

目標条件付き行動模倣(BC)は、様々なオフライン強化学習問題を解くための有望な方法です。BCは、状態や行動の価値を評価する代わりに、設定された目標、分析された環境状態、エージェントの行動の間に依存関係を構築しながら、エージェントの行動方策を直接訓練します。これは、事前に収集されたオフラインの軌跡に対する教師あり学習法を用いて達成されます。おなじみのDecision Transformer法とその派生アルゴリズムは、オフライン強化学習におけるシーケンスモデリングの有効性を実証してきました。

以前、上記のアルゴリズムを使用する際、必要なエージェントの行動を刺激するために、目標設定の様々なオプションを実験しました。しかし、過去に通過した軌跡をモデルがどのように学習するのかは、私たちの関心の外にありました。ここで、軌跡を全体として研究することの適用性について疑問が生じます。この疑問は、論文『Predictive Coding for Offline Reinforcement Learning』の著者によって解決されました。論文の中で、彼らはいくつかの重要な疑問を探っています。

  1. オフラインの軌跡はシーケンスモデリングに有用なのか、それとも単に教師あり方策の学習により多くのデータを提供するだけなのか

  2. 方策学習を支持するために、軌道表現の最も効果的な学習目標は何か。シーケンスモデルは、過去の経験、将来のダイナミクス、あるいはその両方を符号化するように訓練されるべきなのか

  3. 同じシーケンスモデルを軌跡表現学習と方策学習の両方に使用できるため、学習目標は同じであるべきか否か

作者: Dmitriy Gizlyk