Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 67): Nutzung früherer Erfahrungen zur Lösung neuer Aufgaben"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 67): Nutzung früherer Erfahrungen zur Lösung neuer Aufgaben :

In diesem Artikel werden weitere Methoden zur Sammlung von Daten in einem Trainingssatz erörtert. Es liegt auf der Hand, dass der Lernprozess eine ständige Interaktion mit der Umgebung erfordert. Die Situationen können jedoch unterschiedlich sein.

Verstärkungslernen basiert auf der Maximierung der Belohnung, die man von der Umgebung während der Interaktion mit ihr erhält. Es liegt auf der Hand, dass der Lernprozess eine ständige Interaktion mit der Umgebung erfordert. Die Situationen sind jedoch unterschiedlich. Bei der Lösung bestimmter Aufgaben können wir auf verschiedene Einschränkungen bei der Interaktion mit der Umgebung stoßen. Eine mögliche Lösung für solche Situationen ist die Verwendung von Offline-Algorithmen für das verstärkte Lernen. Sie ermöglichen das Trainieren von Modellen auf der Grundlage eines begrenzten Archivs von Trajektorien, die während der ersten Interaktion mit der Umgebung gesammelt wurden, solange diese verfügbar war.

Natürlich hat das Offline-Verstärkungslernen einige Nachteile. Insbesondere wird das Problem der Untersuchung der Umgebung noch akuter, da wir es mit einer begrenzten Trainingsstichprobe zu tun haben, die nicht in der Lage ist, die gesamte Vielseitigkeit der Umgebung zu berücksichtigen. Dies gilt insbesondere in komplexen stochastischen Umgebungen. Im vorigen Artikel haben wir eine der Möglichkeiten zur Lösung dieses Problems erörtert (die Methode ExORL).

Manchmal können jedoch Einschränkungen der Interaktionen mit der Umgebung entscheidend sein. Der Prozess der Umgebungserkundung kann von positiven und negativen Belohnungen begleitet sein. Negative Belohnungen können höchst unerwünscht sein und mit finanziellen Verlusten oder anderen unerwünschten Verlusten einhergehen, die Sie nicht akzeptieren können. Aber Aufgaben kommen selten aus dem Nichts. Meistens optimieren wir einen bestehenden Prozess. Und in unserem Zeitalter der Informationstechnologie kann man fast immer Erfahrungen in der Interaktion mit der zu erforschenden Umgebung bei der Lösung ähnlicher Aufgaben finden. Es ist möglich, Daten aus der realen Interaktion mit der Umgebung zu verwenden, die in gewissem Maße den erforderlichen Raum von Aktionen und Zuständen abdecken können. Experimente, bei denen solche Erfahrungen genutzt werden, um neue Aufgaben bei der Steuerung von realen Robotern zu lösen, werden in dem Artikel „Real World Offline Reinforcement Learning with Realistic Data Source“ beschrieben. Die Autoren des Artikels schlagen einen neuen Rahmen für das Training von Modellen vor: Real-ORL.

Autor: Dmitriy Gizlyk

Grund der Beschwerde: