Discussão do artigo "Redes neurais de maneira fácil (Parte 56): Utilização da norma nuclear para estimular a pesquisa"

MetaQuotes 2024.02.12 12:57

Novo artigo Redes neurais de maneira fácil (Parte 56): Utilização da norma nuclear para estimular a pesquisa foi publicado:

A pesquisa do ambiente em tarefas de aprendizado por reforço é um problema atual. Anteriormente, já examinamos algumas abordagens. E hoje, eu proponho que nos familiarizemos com mais um método, baseado na maximização da norma nuclear. Ele permite que os agentes destaquem estados do ambiente com alto grau de novidade e diversidade.

O aprendizado por reforço é baseado no paradigma da exploração independente do ambiente realizada pelo Agente. Com suas ações, o Agente afeta o ambiente, levando à sua mudança. Em troca, o Agente recebe uma certa recompensa.

E aqui se destacam os dois principais problemas do aprendizado por reforço: a exploração do ambiente e a função de recompensa. Uma função de recompensa bem estruturada incentiva o Agente a explorar o ambiente e buscar as estratégias de comportamento mais ótimas.

No entanto, ao resolver a maioria das tarefas práticas, nos deparamos com recompensas externas esparsas. Para superar essa barreira, foi proposto o uso das chamadas recompensas internas. Elas permitem que o Agente adquira novas habilidades que podem ser úteis para obter recompensas externas no futuro. Contudo, as recompensas internas podem ser ruidosas devido à estocasticidade do ambiente. A aplicação direta de valores preditivos ruidosos para observações pode impactar negativamente na eficácia do treinamento da política do Agente. Além disso, muitos métodos usam a norma L2 ou a variância para medir a novidade da pesquisa, o que intensifica o ruído por causa da operação de elevação ao quadrado.

Para resolver o problema indicado, no artigo "Nuclear Norm Maximization Based Curiosity-Driven Learning" foi proposto o uso de um novo algoritmo para estimular a curiosidade do Agente baseado na maximização da norma nuclear (Nuclear Norm Maximization - NNM). Tal recompensa interna pode avaliar mais precisamente a novidade da pesquisa do ambiente. Ao mesmo tempo, permite garantir alta resistência ao ruído e às anomalias.

Autor: Dmitriy Gizlyk

Novo comentário