Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 39): Go-Explore: un enfoque diferente sobre la exploración"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 39): Go-Explore: un enfoque diferente sobre la exploración:

Continuamos con el tema de la exploración del entorno en los modelos de aprendizaje por refuerzo. En este artículo, analizaremos otro algoritmo: Go-Explore, que permite explorar eficazmente el entorno en la etapa de entrenamiento del modelo.

La idea principal detrás de Go-Explore es recordar y regresar a estados de perspectiva, y esto es fundamental para un funcionamiento eficaz en condiciones en las que el número de recompensas es reducido. Esta idea es tan flexible y amplia que se puede implementar de diversas maneras. 

A diferencia de la mayoría de los algoritmos de aprendizaje por refuerzo, Go-Explore no se centra en resolver directamente el problema objetivo, sino en encontrar estados y acciones relevantes en el espacio de estados que puedan redundar en el logro del estado objetivo. Para ello, el algoritmo tiene dos fases principales: búsqueda y reutilización.


La primera fase consiste en recorrer todos los estados en el espacio de estados y escribir cada estado visitado en un "mapa" de estados. Después de ello, el algoritmo comienza a estudiar con más detalle cada estado visitado y a recopilar información sobre acciones que pueden conducir a otros estados interesantes.

La segunda fase consiste en reutilizar los estados y acciones previamente aprendidos para encontrar nuevas soluciones. El algoritmo guarda las trayectorias más exitosas y las usa para generar nuevos estados que pueden conducir a soluciones aún más exitosas.

Autor: Dmitriy Gizlyk