Обсуждение статьи "Нейросети — это просто (Часть 44): Изучение навыков с учетом динамики"

 

Опубликована статья Нейросети — это просто (Часть 44): Изучение навыков с учетом динамики:

В предыдущей статье мы познакомились с методом DIAYN, который предлагает алгоритм изучения разнообразных навыков. Использование полученных навыкает может быть использовано различных задач. Но подобные навыки могут быть довольно непредсказуемы, что может осложнить из использование. В данной статье мы рассмотрим алгоритм обучения предсказуемых навыков.

Изучение множества отдельных поведений и соответствующих изменений окружающей среды позволяет использовать модельно-предиктивное управление для планирования в пространстве поведения, а не в пространстве действий. В этой связи основной вопрос заключается в том, как мы можем получить такие поведения, учитывая, что они могут быть случайными и непредсказуемыми? Метод Dynamics-Aware Discovery of Skills (DADS) предлагает систему бесконтрольного обучения с подкреплением для изучения низкоуровневых навыков с явной целью облегчить модельно-основанное управление.

Навыки, полученные с использованием DADS, напрямую оптимизируются для предсказуемости, обеспечивая лучшее представление, на основе которого можно изучать прогностические модели. Ключевой особенностью навыков является то, что они приобретаются полностью через автономное исследование. Это означает, что репертуар навыков и их предиктивная модель изучаются до того, как осуществляется постановка задачи и разработка функции вознаграждения. Таким образом, при достаточном количестве можно довольно полно изучить окружающую среду и выработать навыки поведения в ней.

Как и в методе DIAYN, в процессе обучения навыком алгоритмом DADS используются 2 модели: модель навыков (агент) и дискриминатор (модель динамики навыков).


Обучение моделей осуществляется последовательно и итерационно. Сначала обучается дискриминатор прогнозировать будущее состояния на основании текущего состояния и используемого навыка. Для этого на вход модели агента подаются текущее состояние и one-hot вектор идентификации навыка. Агентом генерируется действие, которое выполняется в окружающей среде. В результате осуществления действия агент переходит в новое состояние окружающей среды.

Автор: Dmitriy Gizlyk

Причина обращения: