Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 65): Aprendizaje supervisado ponderado por distancia (DWSL)"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 65): Aprendizaje supervisado ponderado por distancia (DWSL):

En este artículo, le presentaremos un interesante algoritmo que se basa en la intersección de los métodos de aprendizaje supervisado y por refuerzo.

Los métodos de clonación conductual, basados en gran medida en los principios del aprendizaje supervisado, están dando muy buenos resultados. Pero su mayor reto sigue siendo encontrar los modelos perfectos, que a veces resultan muy difíciles de reunir. A su vez, los métodos de aprendizaje por refuerzo son capaces de trabajar con datos de entrada subóptimos. En este caso, encuentra políticas subóptimas para alcanzar el objetivo. No obstante, a la hora de buscar políticas óptimas, a menudo nos enfrentamos a un problema de optimización que resulta más agudo en entornos de alta dimensión y estocásticos.

Para salvar la distancia entre ambos enfoques, se propuso el método Distance Weighted Supervised Learning (DWSL), presentado en el artículo "Distance Weighted Supervised Learning for Offline Interaction Data". Se trata de un algoritmo de aprendizaje offline supervisado para la política dirigida, y, en teoría, converge a una política óptima con un límite de rendimiento mínimo en el nivel de trayectorias de la muestra de entrenamiento. Los ejemplos prácticos de los autores demuestran la superioridad del método propuesto sobre los algoritmos de aprendizaje por imitación y del aprendizaje por refuerzo. Veamos más de cerca este algoritmo DWSL. Evaluaremos de forma práctica sus puntos fuertes y débiles para resolver nuestras tareas.

Autor: Dmitriy Gizlyk

Razón de la queja: