Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 64): Die Methode konservativ gewichtetes Klonen von Verhaltensweisen (CWBC)"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 64): Die Methode konservativ gewichtetes Klonen von Verhaltensweisen (CWBC) :

Aufgrund von Tests, die in früheren Artikeln durchgeführt wurden, kamen wir zu dem Schluss, dass die Optimalität der trainierten Strategie weitgehend von der verwendeten Trainingsmenge abhängt. In diesem Artikel werden wir uns mit einer relativ einfachen, aber effektiven Methode zur Auswahl von Trajektorien für das Training von Modellen vertraut machen.

Die Autoren der Methode schlagen einen neuen konservativen Regulierer für ergebnisabhängige Behavioral-Cloning-Methoden vor, der die Politik explizit ermutigt, nahe an der ursprünglichen Datenverteilung zu bleiben. Die Idee ist, die vorhergesagten Handlungen bei der Konditionierung auf große Out-of-Distribution-Renditen in die Nähe der In-Distribution-Handlungen zu bringen. Dies wird durch Hinzufügen von positivem Rauschen zu RTGs für Trajektorien mit hohem Rücklauf erreicht und bestraft den L2-Abstand zwischen der vorhergesagten Aktion und der Bodenwahrheit. Um zu gewährleisten, dass große Renditen außerhalb der Verteilung generiert werden, erzeugen wir Rauschen, sodass der angepasste RTG-Wert nicht kleiner ist als die höchste Rendite im Trainingssatz.

Die Autoren schlagen vor, eine konservative Regulierung auf Trajektorien anzuwenden, deren Renditen das q-te Perzentil der Belohnungen im Trainingssatz übersteigen. Dadurch wird sichergestellt, dass sich die Politik bei der Angabe eines RTG außerhalb der Trainingsverteilung ähnlich verhält wie bei Trajektorien mit hoher Rendite und nicht wie eine zufällige Trajektorie. Wir fügen Rauschen hinzu und verschieben das RTG bei jedem Zeitschritt.

Die von den Autoren der Methode durchgeführten Experimente zeigen, dass die Verwendung des 95. Perzentils im Allgemeinen in einer Vielzahl von Umgebungen und Datensätzen gut funktioniert.

Die Autoren der Methode stellen fest, dass sich der vorgeschlagene konservative Regulierer von anderen konservativen Komponenten für Offline-RL-Methoden unterscheidet, die auf der Schätzung der Kosten von Zuständen und Übergängen basieren. Während letztere in der Regel versuchen, die Schätzung der Kostenfunktion anzupassen, um Extrapolationsfehler zu vermeiden, verzerrt die vorgeschlagene Methode den Return-to-Go, um Bedingungen außerhalb der Verteilung zu schaffen, und passt die Vorhersage von Aktionen an.

Während des Trainingsprozesses ist es mir gelungen, ein Modell zu erhalten, das auf dem historischen Segment der Trainingsstichprobe Gewinne erzielt.

Testergebnisse

Testergebnisse

Während des Trainingszeitraums tätigte das Modell 141 Abschlüsse. Etwa 40 % von ihnen endeten mit einem Gewinn. Der maximale Gewinn beträgt mehr als das Vierfache des maximalen Verlustes. Und der durchschnittliche Gewinn ist fast 2-mal höher als der durchschnittliche Verlust. Außerdem ist der durchschnittliche Gewinn um 13 % höher als der maximale Verlust. Daraus ergibt sich ein Gewinnfaktor von 1,11. Ähnliche Ergebnisse werden bei neuen Daten beobachtet.

Autor: Dmitriy Gizlyk

Grund der Beschwerde: