Discussão do artigo "Redes neurais de maneira fácil (Parte 71): Previsão de estados futuros com base em objetivos (GCPC)"

 

Novo artigo Redes neurais de maneira fácil (Parte 71): Previsão de estados futuros com base em objetivos (GCPC) foi publicado:

Nos trabalhos anteriores, conhecemos o método Decision Transformer e vários algoritmos derivados dele. Experimentamos com diferentes métodos de definição de objetivos. Durante os experimentos, trabalhamos com diferentes maneiras de definir objetivos, mas o estudo da trajetória já percorrida pelo modelo sempre ficou fora de nosso foco. Neste artigo, quero apresentar um método que preenche essa lacuna.

O aprendizado por imitação (Behavior Cloning — BC), voltado para o alcance de objetivos, é uma abordagem promissora para resolver várias tarefas de aprendizado por reforço em um cenário off-line. Em vez de avaliar o valor dos estados e ações, o BC treina diretamente a política de comportamento do Agente, criando dependências entre o objetivo definido, o estado do ambiente analisado e a ação do Agente. Isso é alcançado através de métodos de aprendizado supervisionado em trajetórias off-line previamente coletadas. O método Decision Transformer, que conhecemos, e seus algoritmos derivados demonstraram eficácia na modelagem de sequências para aprendizado por reforço em um cenário off-line.

Anteriormente, ao usar os algoritmos mencionados, experimentamos com diferentes maneiras de definir objetivos para estimular as ações necessárias do Agente. O estudo da trajetória já percorrida pelo modelo sempre ficou fora de nosso foco. E aqui podemos nos perguntar sobre a relevância de estudar a trajetória em geral. Essa pergunta também foi levantada pelos autores do artigo «Goal-Conditioned Predictive Coding for Offline Reinforcement Learning». Em seu trabalho, eles exploram várias questões importantes:

  1. As trajetórias off-line são úteis para a modelagem de sequências ou apenas fornecem mais dados para o treinamento da política com supervisão?

  2. Quais serão os objetivos de aprendizado mais eficazes para representar a trajetória e apoiar o treinamento da política? Os modelos de sequências devem aprender a codificar a experiência passada, a dinâmica futura ou ambos?

  3. Como a mesma modelo de sequência pode ser usada tanto para o aprendizado da representação da trajetória quanto para o treinamento da política, devemos ter os mesmos objetivos de aprendizado ou não?

Autor: Dmitriy Gizlyk