記事「ニューラルネットワークが簡単に(第67回):過去の経験を活かした新しい課題の解決」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第67回):過去の経験を活かした新しい課題の解決」はパブリッシュされました:

この記事では、訓練セットにデータを収集する方法について引き続き説明します。明らかに、学習プロセスには環境との絶え間ない相互作用が必要です。しかし、状況はさまざまです。

強化学習は、環境との相互作用の中で環境から受け取る報酬を最大化することで成り立っています。明らかに、学習プロセスには環境との絶え間ない相互作用が必要です。しかし、状況は異なります。ある課題を解決するとき、環境との相互作用にさまざまな制約が生じることがあります。このような状況に対する可能な解決策は、オフラインの強化学習アルゴリズムを使用することです。これにより、環境との予備的な相互作用の間に収集された軌跡の限られたアーカイブを、それが利用可能な間にモデルを訓練することができます。

もちろん、オフライン強化学習には欠点もあります。特に、限られた訓練サンプルを扱うため、環境の多様性をすべて受け入れることができず、環境を研究する問題はさらに深刻になります。これは特に複雑な確率的環境において当てはまります。前回の記事では、この問題を解決するための選択肢のひとつ(ExORLメソッド)について説明しました。

しかし、時には環境との相互作用の制限が致命的になることもあります。環境探索のプロセスには、ポジティブな報酬とネガティブな報酬が伴うことがあります。ネガティブな報酬は非常に望ましくないものであり、金銭的な損失やその他の受け入れがたい損失を伴うこともあります。しかし、タスクが突然現れることはめったにありません。多くの場合、既存のプロセスを最適化します。そして、この情報技術が発達した現代では、前述のような課題を解決する過程で、探検している環境と相互作用する経験を常に見出すことができます。環境との実際の相互作用から得られるデータを使用することが可能であり、それはある程度、あるいは別の形で、必要とされる行動と状態の空間をカバーすることができます。実際のロボットを制御する際に、このような経験を利用して新しいタスクを解決する実験は、「Real World Offline Reinforcement Learning with Realistic Data Source」稿で紹介されています。この論文の著者は、モデルを訓練するための新しいフレームワーク「Real-ORL」を提案しています。

作者: Dmitriy Gizlyk