Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 69): Dichte-basierte Unterstützungsbedingung für die Verhaltenspolitik (SPOT)"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 69): Dichte-basierte Unterstützungsbedingung für die Verhaltenspolitik (SPOT) :

Beim Offline-Lernen verwenden wir einen festen Datensatz, der die Umweltvielfalt nur begrenzt abdeckt. Während des Lernprozesses kann unser Agent Aktionen generieren, die über diesen Datensatz hinausgehen. Wenn es keine Rückmeldungen aus der Umwelt gibt, wie können wir dann sicher sein, dass die Bewertungen solcher Maßnahmen korrekt sind? Die Beibehaltung der Agentenpolitik innerhalb des Trainingsdatensatzes ist ein wichtiger Aspekt, um die Zuverlässigkeit des Trainings zu gewährleisten. Darüber werden wir in diesem Artikel sprechen.

Verschiedene Offline-Verstärkungslernmethoden zur Lösung dieses Problems verwenden Parametrisierung oder Regularisierung, die die Strategie des Agenten darauf beschränken, Aktionen innerhalb der Unterstützungsmenge des Trainingsdatensatzes durchzuführen. Detaillierte Konstruktionen stören in der Regel die Agentenmodelle, was zu zusätzlichen Betriebskosten führen kann und die volle Nutzung etablierter Online-Verstärkungslernmethoden verhindert. Regularisierungsmethoden verringern die Diskrepanz zwischen der gelernten Strategie und dem Trainingsdatensatz, der möglicherweise nicht der Definition der dichtebasierten Unterstützung entspricht und somit ineffektiv ein Handeln außerhalb der Verteilung verhindert.

In diesem Zusammenhang schlage ich vor, die Anwendbarkeit der Methode Supported Policy OpTimization (SPOT) zu prüfen, die in dem Artikel „Supported Policy Optimization for Offline Reinforcement Learning“ vorgestellt wurde. Seine Ansätze ergeben sich direkt aus einer theoretischen Formalisierung der politischen Nebenbedingung auf der Grundlage der Dichteverteilung des Trainingsdatensatzes. SPOT verwendet einen Dichteschätzer, der auf einem Variational AutoEncoder (VAE) basiert, der ein einfaches, aber effektives Regularisierungselement ist. Sie kann in fertige Algorithmen des verstärkten Lernens eingebaut werden. SPOT erreicht die beste Leistung in seiner Klasse bei Standard-Offline-RL-Benchmarks. Dank des flexiblen Designs können mit SPOT offline trainierte Modelle auch online feinabgestimmt werden.


Autor: Dmitriy Gizlyk