記事「ニューラルネットワークが簡単に(第69回):密度に基づく行動方策の支持制約(SPOT)」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第69回):密度に基づく行動方策の支持制約(SPOT)」はパブリッシュされました:

オフライン学習では、固定されたデータセットを使用するため、環境の多様性をカバーする範囲が制限されます。学習過程において、私たちのエージェントはこのデータセットを超える行動を生成することができます。環境からのフィードバックがなければ、そのような行動の評価が正しいとどうやって確信できるのでしょうか。訓練データセット内のエージェントの方策を維持することは、訓練の信頼性を確保するために重要な要素となります。これが、この記事でお話しする内容です。

この問題を解決するための様々なオフライン強化学習法は、エージェントの方策が訓練データセットの支持セット内で行動を実行するように制約するパラメータ化や正則化を使用します。詳細な構築は通常、エージェントモデルに干渉し、運用コストの増加につながり、確立されたオンライン強化学習手法を完全に使用できなくなります。正則化手法は、学習された方策と訓練データセットとの間の不一致を減らしますが、これは密度に基づく支持の定義を満たさない可能性があり、その結果、分布の外側への作用を効果的に回避できません。

この文脈で、「Supported Policy Optimization for Offline Reinforcement Learning」で紹介されているSupported Policy OpTimization (SPOT)法の適用可能性を検討することを提案します。その方法は、訓練データセットの密度分布に基づく方策制約の理論的定式化から直接導かれます。SPOTはVAE(Variational AutoEncoder)に基づく密度推定器を使用しています。これはシンプルでありながら効果的な正則化要素で、既製の強化学習アルゴリズムに組み込むことができます。SPOTは、標準的なオフラインRLベンチマークでクラス最高のパフォーマンスを達成します。その柔軟な設計のおかげで、SPOTを使用してオフラインで事前に訓練したモデルを、オンラインで微調整することもできます。


作者: Dmitriy Gizlyk