Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 71): Previsión de estados futuros basada en objetivos (GCPC)"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 71): Previsión de estados futuros basada en objetivos (GCPC):

En trabajos anteriores, hemos introducido el método del Decision Transformer y varios algoritmos derivados de él. Asimismo, hemos experimentado con distintos métodos de fijación de objetivos. Durante los experimentos, hemos trabajado con distintas formas de fijar objetivos, pero el aprendizaje de la trayectoria ya recorrida por parte del modelo siempre quedaba fuera de nuestra atención. En este artículo, queremos presentar un método que llenará este vacío.

El aprendizaje simulado (Behavior Cloning — BC) dirigido por objetivos es un enfoque prometedor para diversas tareas de aprendizaje por refuerzo offline. En lugar de evaluar el valor del estado y la acción, el BC entrena directamente la política de comportamiento del Agente construyendo dependencias entre el objetivo, el estado del entorno analizado y la acción del Agente. Esto se consigue usando métodos de aprendizaje supervisados sobre trayectorias offline preconstruidas. El conocido método del Decision Transformer y sus algoritmos derivados han demostrado la eficacia del modelado de secuencias para el aprendizaje por refuerzo offline.

Antes, al utilizar los algoritmos mencionados, experimentamos con distintas variantes de fijación de objetivos para inducir las acciones del Agente que necesitamos. El aprendizaje de una trayectoria ya recorrida por parte del modelo siempre ha permanecido ajeno a nuestra atención. Y aquí cabe preguntarse por la utilidad de los estudios de trayectoria en general. Los autores del artículo «Goal-Conditioned Predictive Coding for Offline Reinforcement Learning» se plantearon una pregunta similar. En su artículo exploran varias cuestiones clave:

  1. ¿Resultan útiles las trayectorias offline para el modelado de secuencias o solo aportan más datos para el aprendizaje supervisado de políticas?

  2. ¿Cuáles serían los objetivos de aprendizaje más eficaces de la representación de trayectorias para apoyar el entrenamiento de la política? ¿Deben entrenarse los modelos secuenciales para codificar la experiencia de la historia, la dinámica futura, o ambas?

  3. Como el propio modelo de secuencia puede utilizarse tanto para el entrenamiento de representación de trayectorias como para el entrenamiento de políticas, ¿deberemos tener los mismos objetivos de aprendizaje o no?

Autor: Dmitriy Gizlyk