Discussão do artigo "Redes neurais de maneira fácil (Parte 39): Go-Explore - uma abordagem diferente para exploração"
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Novo artigo Redes neurais de maneira fácil (Parte 39): Go-Explore - uma abordagem diferente para exploração foi publicado:
Continuamos com o tema da exploração do ambiente no aprendizado por reforço. Neste artigo, abordaremos mais um algoritmo, o Go-Explore, que permite explorar eficazmente o ambiente durante a fase de treinamento do modelo.
A ideia central do Go-Explore é memorizar e retornar a estados promissores. Isso se torna fundamental para a exploração eficaz em cenários com poucas recompensas. Essa ideia é tão flexível e ampla que pode ser implementada de várias maneiras.
Diferentemente da maioria dos algoritmos de aprendizado por reforço, o Go-Explore não se concentra em encontrar diretamente a solução para a tarefa final, mas sim em descobrir estados e ações relevantes dentro do espaço de estados que podem levar ao estado final desejado. Para isso, o algoritmo possui duas fases principais: busca e reutilização.
A primeira fase envolve percorrer todos os estados no espaço de estados e registrar cada estado visitado em um "mapa" de estados. Em seguida, o algoritmo começa a examinar cada estado visitado com mais detalhes e coleta informações sobre as ações que podem levar a outros estados interessantes.
A segunda fase consiste em reutilizar os estados e ações previamente estudados para encontrar novas soluções. O algoritmo mantém as trajetórias mais bem-sucedidas e as utiliza para gerar novos estados que podem levar a soluções ainda mais bem-sucedidas.
Autor: Dmitriy Gizlyk