記事「ニューラルネットワークが簡単に（第39回）：Go-Explore、探検への異なるアプローチ」についてのディスカッション

MetaQuotes 2023.11.21 07:57

強化学習モデルにおける環境の研究を続けます。この記事では、モデルの訓練段階で効果的に環境を探索することができる、もうひとつのアルゴリズム「Go-Explore」を見ていきます。

Go-Exploreの主なアイデアは、有望な状態を記憶して戻ることです。これは、報酬の数が限られている場合に効果的な操作をおこなうための基本です。このアイデアは非常に柔軟で幅広いため、さまざまな方法で実施することができます。

多くの強化学習アルゴリズムとは異なり、Go-Exploreは目標問題を直接解くことに重点を置くのではなく、目標状態の達成につながる状態空間の関連する状態と行動を見つけることに重点を置きます。これを実現するために、このアルゴリズムには検索と再利用という2つの主要なフェーズがあります。

最初の段階は、状態空間のすべての状態を通過し、訪れた各状態を状態「マップ」に記録することです。この後、アルゴリズムは訪問した各状態をより詳細に調査し、他の興味深い状態につながる可能性のある行動に関する情報を収集し始めます。

2番目の段階は、以前に学習した状態や行動を再利用して、新しい解を見つけることです。このアルゴリズムは、最も成功した軌跡を保存し、それを使用して、より良い解につながる新しい状態を生成します。