Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 46): Aprendizaje por refuerzo dirigido a objetivos (GCRL)"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 46): Aprendizaje por refuerzo dirigido a objetivos (GCRL):

En el artículo de hoy, nos familiarizaremos con otra tendencia en el campo del aprendizaje por refuerzo. Se denomina aprendizaje por refuerzo dirigido a objetivos (Goal-conditioned reinforcement learning, GCRL). En este enfoque, el agente se entrenará para alcanzar diferentes objetivos en determinados escenarios.

En los enfoques de GCRL, introduciremos subtareas específicas, y sus logros deberán reflejarse en la recompensa obtenida por el agente. Resulta similar a la recompensa interna del discriminador, pero en su kernel contiene indicadores claros y medibles para lograr un objetivo específico (resolver una subtarea).

Para discernir esta delgada línea, veremos un ejemplo de apertura de una posición con ambos enfoques. En el entrenamiento de habilidades, suministrábamos al planificador el estado actual del entorno y el vector de estado de la cuenta con las posiciones abiertas ausentes. A partir de ahí, el planificador determinaba el vector de descripción de las habilidades, que pasaríamos al agente para que tomara una decisión. A modo de recompensa, como recordarán, utilizábamos el balance de la cuenta. Cabe destacar que aplicaremos la misma recompensa durante todo el entrenamiento del agente. Además, la apertura inmediata de una posición no afecta a la variación del balance. La excepción son las posibles comisiones por abrir una posición, pero, en general, por abrir una posición obtenemos una recompensa con retraso.

En el caso de GCRL, sin embargo, junto con la recompensa del objetivo global, introduciremos una recompensa adicional por lograr una subtarea específica.

Gráfico de pruebas

Entre los aspectos positivos de la utilización del método GCRL tenemos la reducción del tiempo de mantenimiento de la posición. Durante la prueba, el tiempo máximo de mantenimiento de la posición ha sido de 21 horas y 15 minutos. El tiempo medio de mantenimiento de una posición ha sido de 5 horas y 49 minutos. Permítame recordarle que hemos establecido una penalización de 1/10 del beneficio acumulado por cada hora de mantenimiento por no cerrar la posición. Es decir, tras 10 horas de mantenimiento, la penalización superaba los ingresos de la posición.


Autor: Dmitriy Gizlyk