Обсуждение статьи "Нейросети — это просто (Часть 68): Офлайн оптимизация политик на основе предпочтений"

 

Опубликована статья Нейросети — это просто (Часть 68): Офлайн оптимизация политик на основе предпочтений:

С первых статей, посвященных обучению с подкреплением, мы так или иначе затрагиваем 2 проблемы: исследование окружающей среды и определение функции вознаграждения. Последние статьи были посвящены проблеме исследования в офлайн обучении. В данной статье я хочу Вас познакомить с алгоритмом, авторы которого полностью отказались от функции вознаграждения.

В контексте оффлайн обучения на основе предпочтений общий подход состоит из двух шагов и обычно включает в себя оптимизацию модели функции вознаграждения методом обучения с учителем, а затем обучение политики с использованием любого алгоритма оффлайн RL на переходах, переопределенных с использованием выученной функции вознаграждения. Однако практика отдельного обучения функции вознаграждения может не напрямую указывать политике, как действовать оптимально. Так как метки предпочтения определяют задачу обучения, и цель состоит в том, чтобы узнать наиболее предпочтительную траекторию, а не максимизировать вознаграждение. В случаях сложных задач скалярные вознаграждения могут создавать узкое место в информации при оптимизации политики, что в свою очередь приводит к неоптимальному поведению Агента. Кроме того, офлайн оптимизация политики может использовать уязвимости в неверных функциях вознаграждения. А это ведет к нежелательному поведению.

В качестве альтернативы такому двухэтапному подходу авторы метода Offline Preference-guided Policy Optimization (OPPO) стремятся изучать стратегию напрямую из офлайн набора данных с размеченными предпочтениями. И предлагают одношаговый алгоритм, который одновременно моделирует оффлайн предпочтения и изучает оптимальную политику принятия решений без необходимости отдельного обучения функции вознаграждения. Это достигается благодаря использованию двух целей:

  • цели сопоставления информации "в отсутствие" офлайн;
  • цели моделирования предпочтений.

Автор: Dmitriy Gizlyk

Причина обращения: