Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 44): Erlernen von Fertigkeiten mit Blick auf die Dynamik"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 44): Erlernen von Fertigkeiten mit Blick auf die Dynamik :

Im vorangegangenen Artikel haben wir die DIAYN-Methode vorgestellt, die einen Algorithmus zum Erlernen einer Vielzahl von Fertigkeiten (skills) bietet. Die erworbenen Fertigkeiten können für verschiedene Aufgaben genutzt werden. Aber solche Fertigkeiten können ziemlich unberechenbar sein, was ihre Anwendung schwierig machen kann. In diesem Artikel wird ein Algorithmus zum Erlernen vorhersehbarer Fertigkeiten vorgestellt.

Durch die Untersuchung mehrerer individueller Verhaltensweisen und entsprechender Umweltveränderungen kann die modellprädiktive Steuerung für die Planung im Verhaltensraum statt im Aktionsraum eingesetzt werden. In diesem Zusammenhang stellt sich vor allem die Frage, wie wir solche Verhaltensweisen erreichen können, da sie zufällig und unvorhersehbar sein können. Die DADS-Methode (Dynamics-Aware Discovery of Skills) schlägt ein unüberwachtes Verstärkungslernsystem zum Erlernen von Low-Level-Fertigkeiten vor, mit dem ausdrücklichen Ziel, die modellbasierte Steuerung zu erleichtern.

Die mit DADS erlernten Fertigkeiten sind direkt auf Vorhersagbarkeit hin optimiert und bieten einen besseren Einblick, aus dem Vorhersagemodelle gelernt werden können. Ein wesentliches Merkmal von Fertigkeiten ist, dass sie vollständig durch autonomes Erkunden erworben werden. Das bedeutet, dass das Toolkit und sein Vorhersagemodell lernt, bevor die Aufgabe und die Belohnungsfunktion entworfen werden. In einer ausreichenden Umfang kann die Umwelt in vollem Umfang studiert und Fertigkeiten entwickelt werden, sich in ihr zu verhalten.

Wie bei der DIAYN-Methode verwendet der DADS-Algorithmus zwei Modelle: ein Kompetenzmodell (Agent) und einen Diskriminator (Kompetenzdynamikmodell).


Die Modelle werden sequentiell und iterativ trainiert. Zunächst wird der Diskriminator darauf trainiert, einen zukünftigen Zustand auf der Grundlage des aktuellen Zustands und der verwendeten Fertigkeit vorherzusagen. Zu diesem Zweck werden der aktuelle Zustand und der One-Hot-Skill-Identifikationsvektor in den Input des Agentenmodells eingespeist. Der Agent erzeugt eine Aktion, die in der Umgebung ausgeführt wird. Als Ergebnis der Aktion bewegt sich der Agent in einen neuen Zustand der Umgebung.

Autor: Dmitriy Gizlyk