Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 49): Soft Actor-Critic"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 49): Soft Actor-Critic:

Continuamos nuestro análisis de los algoritmos de aprendizaje por refuerzo en problemas de espacio continuo de acciones. En este artículo, le propongo introducir el algoritmo Soft Astog-Critic (SAC). La principal ventaja del SAC es su capacidad para encontrar políticas óptimas que no solo maximicen la recompensa esperada, sino que también tengan la máxima entropía (diversidad) de acciones.

Continuamos nuestra introducción a los algoritmos para resolver problemas mediante aprendizaje por refuerzo en un espacio continuo de acciones. En artículos anteriores, ya nos hemos familiarizado con los algoritmos Deep Deterministic Policy Gradient (DDPG) y Twin Delayed Deep Deterministic policy gradient (TD3). En este artículo, le presento otro algoritmo: el Soft Actor-Critic (SAC). Este algoritmo se presentó por primera vez en el artículo "Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor" (enero de 2018). El método se introdujo casi al mismo tiempo que el TD3 y tiene algunas similitudes, pero también existen diferencias en los algoritmos. El objetivo principal del SAC es maximizar la recompensa esperada dada la máxima entropía de la política, lo cual permite encontrar una variedad de soluciones óptimas en entornos estocásticos.

El SAC utiliza un Actor con una política estocástica. Esto significa que un Actor en el estado S puede elegir una cierta acción A' de todo el espacio de acciones con una cierta probabilidad Pa'. En otras palabras, la política del Actor en cada estado concreto permite elegir no una acción óptima concreta, sino cualquiera de las acciones posibles (pero con una cierta probabilidad). Y en el proceso de entrenamiento, el Actor aprende esta distribución de probabilidad de maximizar la recompensa.

Esta propiedad de la política estocástica del Actor nos permite investigar diferentes estrategias y descubrir soluciones óptimas que puedan quedar ocultas al utilizar políticas deterministas. Además, la política estocástica del Actor tiene en cuenta la incertidumbre del entorno. En presencia de ruido o factores aleatorios, estas políticas pueden ser más resistentes y adaptativas al generar una variedad de acciones para interactuar eficazmente con el entorno.

Autor: Dmitriy Gizlyk