Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 39): Go-Explore, ein anderer Ansatz zur Erkundung"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 39): Go-Explore, ein anderer Ansatz zur Erkundung :

Wir setzen die Untersuchung der Umgebung in Modellen des verstärkten Lernens fort. Und in diesem Artikel werden wir uns einen weiteren Algorithmus ansehen – Go-Explore. Er ermöglicht es Ihnen, die Umgebung in der Phase der Modellbildung effektiv zu erkunden.

Die Hauptidee von Go-Explore besteht darin, sich an vielversprechende Zustände zu erinnern und zu ihnen zurückzukehren. Dies ist von grundlegender Bedeutung für einen effektiven Betrieb, wenn die Anzahl der Belohnungen begrenzt ist. Diese Idee ist so flexibel und breit gefächert, dass sie auf vielfältige Weise umgesetzt werden kann. 

Im Gegensatz zu den meisten Reinforcement-Learning-Algorithmen konzentriert sich Go-Explore nicht auf die direkte Lösung des Zielproblems, sondern darauf, relevante Zustände und Aktionen im Zustandsraum zu finden, die zum Erreichen des Zielzustands führen können. Um dies zu erreichen, hat der Algorithmus zwei Hauptphasen: Suche und Wiederverwendung.


Die erste Phase besteht darin, alle Zustände im Zustandsraum zu durchlaufen und jeden besuchten Zustand in einer Zustands-“Karte“ festzuhalten. Danach beginnt der Algorithmus, jeden besuchten Zustand genauer zu untersuchen und Informationen über Aktionen zu sammeln, die zu anderen interessanten Zuständen führen können.

In der zweiten Phase geht es darum, bereits gelernte Zustände und Aktionen wiederzuverwenden, um neue Lösungen zu finden. Der Algorithmus speichert die erfolgreichsten Trajektorien und verwendet sie, um neue Zustände zu erzeugen, die zu noch erfolgreicheren Lösungen führen können.

Autor: Dmitriy Gizlyk