Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 35): Módulo de curiosidad intrínseca (Intrinsic Curiosity Module)"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 35): Módulo de curiosidad intrínseca (Intrinsic Curiosity Module):

Seguimos analizando los algoritmos de aprendizaje por refuerzo. Todos los algoritmos que hemos estudiado hasta ahora requerían la creación de una política de recompensas tal que el agente pudiera evaluar cada una de sus acciones en cada transición de un estado del sistema a otro, pero este enfoque resulta bastante artificial. En la práctica, existe cierto tiempo de retraso entre la acción y la recompensa. En este artículo, le sugerimos que se familiarice con un algoritmo de entrenamiento de modelos que puede funcionar con varios retrasos de tiempo desde la acción hasta la recompensa.

Para entrenar al asesor experto, todos los modelos se han creado utilizando la herramienta NetCreator. Debemos añadir que para que el asesor experto funcione en el simulador de estrategias, los archivos del modelo deberán estar ubicados en el directorio común del terminal "Terminal\Common\Files", ya que cada agente trabajará en su propio sandbox, y el intercambio de datos solo será posible a través de la carpeta común de los terminales.

El entrenamiento en el simulador de estrategias ocupa un poco más de tiempo que el enfoque del entrenamiento virtual anterior. Por este motivo, hemos reducido el periodo de entrenamiento del modelo a 10 meses. El resto de los parámetros de la prueba se han mantenido sin cambios. Como de costumbre, hemos usado EURUSD en el marco temporal H1. Asimismo, hemos utilizado los parámetros del indicador por defecto.

Siendo honestos, esperábamos que el proceso de entrenamiento comenzara con la pérdida del depósito. Pero durante la primera pasada, el modelo ha mostrado un resultado cercano a "0", y con la segunda, incluso hemos obtenido beneficios. El modelo ha realizado 330 transacciones con un rendimiento superior al 98% de transacciones rentables.

Resultado de la prueba del modelo Resultado de la prueba del modelo

Autor: Dmitriy Gizlyk