Discussão do artigo "Redes neurais de maneira fácil (Parte 39): Go-Explore - uma abordagem diferente para exploração"

 

Novo artigo Redes neurais de maneira fácil (Parte 39): Go-Explore - uma abordagem diferente para exploração foi publicado:

Continuamos com o tema da exploração do ambiente no aprendizado por reforço. Neste artigo, abordaremos mais um algoritmo, o Go-Explore, que permite explorar eficazmente o ambiente durante a fase de treinamento do modelo.

A ideia central do Go-Explore é memorizar e retornar a estados promissores. Isso se torna fundamental para a exploração eficaz em cenários com poucas recompensas. Essa ideia é tão flexível e ampla que pode ser implementada de várias maneiras.

Diferentemente da maioria dos algoritmos de aprendizado por reforço, o Go-Explore não se concentra em encontrar diretamente a solução para a tarefa final, mas sim em descobrir estados e ações relevantes dentro do espaço de estados que podem levar ao estado final desejado. Para isso, o algoritmo possui duas fases principais: busca e reutilização.


A primeira fase envolve percorrer todos os estados no espaço de estados e registrar cada estado visitado em um "mapa" de estados. Em seguida, o algoritmo começa a examinar cada estado visitado com mais detalhes e coleta informações sobre as ações que podem levar a outros estados interessantes.

A segunda fase consiste em reutilizar os estados e ações previamente estudados para encontrar novas soluções. O algoritmo mantém as trajetórias mais bem-sucedidas e as utiliza para gerar novos estados que podem levar a soluções ainda mais bem-sucedidas.

Autor: Dmitriy Gizlyk