![MQL5 - Язык торговых стратегий для клиентского терминала MetaTrader 5](https://c.mql5.com/i/registerlandings/logo-2.png)
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Нейросети — это просто (Часть 53): Декомпозиция вознаграждения:
Мы уже не раз говорили о важности правильного подбора функции вознаграждения, которую используем для стимулирования желательного поведения Агента, добавляя вознаграждения или штрафы за отдельные действия. Но остается открытым вопрос о дешифровке наших сигналов Агентом. В данной статье мы поговорим о декомпозиции вознаграждения в части передачи отдельных сигналов обучаемому Агенту.
Мы продолжаем рассмотрение методов обучения с подкреплением. Как Вы знаете, все алгоритмы обучения моделей данного направления машинного обучения основаны на парадигме максимизации вознаграждения от окружающей среды. И функция вознаграждения играет ключевую роль в процессе обучения моделей. Очень редко её сигналы однозначны.
В попытках стимулирования Агента к желаемому поведению мы вводим в функцию вознаграждения дополнительные премии и штрафы. К примеру, мы часто усложняли функцию вознаграждения в попытке стимулировать Агента к изучению окружающей среды и вводили штрафы за бездействие. При этом архитектура модели и функция вознаграждения остаются плодом субъективных соображений архитектора модели.
В процессе обучения модель может столкнуться с различными сложностями и трудностями, даже при тщательном подходе к проектированию. Агент может не достичь желаемых результатов по множеству различных причин, поиск которых превращается в "гадание на кофейной гуще". Но как понять, что Агент правильно трактует наши сигналы в функции вознаграждения? В попытке разобраться с этим вопросом возникает желание разделить вознаграждение на отдельные составляющие. Использование декомпозированного вознаграждения и анализ влияния отдельных компонентов могут быть очень полезны в поиске путей оптимизации процесса обучения модели. Это позволит лучше понять, как различные аспекты влияют на поведение Агента. Выявить причины проблем и эффективно скорректировать архитектуру модели, процесс обучения или функцию вознаграждения.
Автор: Dmitriy Gizlyk