Discussão do artigo "Redes neurais de maneira fácil (Parte 68): Otimização off-line de políticas baseada em preferências"

 

Novo artigo Redes neurais de maneira fácil (Parte 68): Otimização off-line de políticas baseada em preferências foi publicado:

Desde os primeiros artigos sobre aprendizado por reforço, a gente sempre falou de duas coisas: como explorar o ambiente e definir a função de recompensa. Os artigos mais recentes foram dedicados à exploração durante o aprendizado off-line. Neste aqui, quero apresentar a você um algoritmo em que os autores resolveram deixar de lado a função de recompensa.

No aprendizado off-line baseado em preferências, a abordagem geral tem duas etapas: primeiro, otimiza-se o modelo da função de recompensa via aprendizado supervisionado; depois, treina-se a política usando algum algoritmo de RL off-line nos estados redefinidos com essa função de recompensa. Mas treinar a função de recompensa separadamente nem sempre mostra à política a melhor maneira de agir. Como as etiquetas de preferência definem a tarefa, o objetivo é aprender a trajetória mais preferida, não apenas maximizar a recompensa. Em tarefas complexas, recompensas escalonadas podem criar um gargalo na otimização da política, levando a um comportamento não ideal do agente. Além disso, a otimização off-line da política pode explorar falhas nas funções de recompensa erradas, resultando em comportamentos indesejados.

Como alternativa, os autores do método OPPO propõem aprender a estratégia diretamente do conjunto de dados off-line com preferências anotadas. Eles sugerem um algoritmo de uma única etapa que, ao mesmo tempo, modela as preferências off-line e aprende a melhor política de decisão sem precisar treinar uma função de recompensa separada. Isso é feito usando dois objetivos:

  • objetivo de correspondência de informações "na ausência" off-line;
  • objetivo de modelagem de preferências.

Autor: Dmitriy Gizlyk