Обсуждение статьи "Нейросети — это просто (Часть 69): Ограничение политики поведения на основе плотности офлайн данных (SPOT)"

 

Опубликована статья Нейросети — это просто (Часть 69): Ограничение политики поведения на основе плотности офлайн данных (SPOT):

В офлайн обучении мы используем фиксированный набор данных, что ограничивает покрытие разнообразия окружающей среды. В процессе обучения наш Агент может генерировать действия вне этого набора. При отсутствии обратной связи от окружающей среды корректность оценок таких действий вызывает вопросы. Поддержание политики Агента в пределах обучающей выборки становится важным аспектом для обеспечения надежности обучения. Об этом мы и поговорим в данной статье.

Различные методы оффлайн обучении с подкреплением для решения данной задачи используют параметризацию или регуляризацию, которые ограничивают политику Агента на выполнение действий в пределах набора поддержки обучающей выборки. Подробные конструкции обычно вмешиваются в модели Агентов, что может привести к дополнительным затратам в процессе эксплуатации и не позволяет полностью использовать устоявшиеся методы онлайн обучения с подкреплением. Методы регуляризации снижают расхождение между изученной политикой и обучающей выборкой, что может не соответствовать определению поддержки на основе плотности и тем самым неэффективно избегать действия вне распределения.

В данном контексте положительно выделяется метод Supported Policy OpTimization (SPOT), который был представлен в статье "Supported Policy Optimization for Offline Reinforcement Learning". Его подходы напрямую вытекают из теоретической формализации плотностно-основанного ограничения политики поддержки. SPOT использует оценщик плотности на основе вариационного автокодировщика (VAE). Который представляет собой простой, но эффективный элемент регуляризации. И его можно встраивать в готовые алгоритмы обучения с подкреплением. SPOT достигает лучшей в своем классе производительности на стандартных бенчмарках для офлайн RL. А благодаря гибкому дизайну, модели, предварительно обученные в офлайн режиме с использованием SPOT, также могут получить тонкую настройку в онлайн режиме.


Автор: Dmitriy Gizlyk

 

Это намеренно, что к этой статье нет вложений?

 
Tabata Voegele #:

Это намеренно, что к этой статье нет вложений?

Это досадная ошибка и опубликована рабочая версия статьи. Исправили.