Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 58): Decision Transformer (DT)"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 58): Decision Transformer (DT) :

Wir setzen das Studium der Methoden des Reinforcement Learning bzw. des Verstärkungslernens fort. In diesem Artikel werde ich mich auf einen etwas anderen Algorithmus konzentrieren, der die Politik des Agenten im Paradigma der Konstruktion einer Sequenz von Aktionen betrachtet.

In dieser Serie haben wir bereits eine ganze Reihe verschiedener Algorithmen des Reinforcement Learning (Verstärkungslernen) untersucht. Sie alle verfolgen den gleichen Ansatz:

  1. Der Agent analysiert den aktuellen Zustand der Umgebung.
  2. Ergreifen der optimalen Handlung (im Rahmen der erlernten Strategie für Politik und Verhalten).
  3. Wechseln in einen neuen Zustand der Umgebung.
  4. Erhält eine Belohnung von der Umgebung für einen vollständigen Übergang in einen neuen Zustand.

Der Ablauf basiert auf den Prinzipien des Markov-Prozesses. Es wird davon ausgegangen, dass der Ausgangspunkt der aktuelle Zustand der Umgebung ist. Es gibt nur einen optimalen Weg aus diesem Zustand heraus, und der hängt nicht vom vorherigen Weg ab.

Ich möchte einen alternativen Ansatz vorstellen, den das Google-Team in dem Artikel „Decision Transformer: Reinforcement Learning via Sequence Modeling“ (06.02.2021). Das Hauptaugenmerk dieser Arbeit liegt auf der Projektion des Verstärkungslernproblems in die Modellierung einer bedingten Handlungssequenz, die durch ein autoregressives Modell der gewünschten Belohnung bedingt ist.

Autor: Dmitriy Gizlyk