На всех стадиях не выхожу в плюс.
На первых стадиях происходит предварительное обучение, которое заключается в исследовании окружающей среды и обучение навыков Актера. Здесь вообще не используется внешнее вознаграждение. Мы обучаем Актера развитию множества навыков. Следовательно, не ожидаем положительных проходов. Внешнее вознаграждение используется только на последней стадии Finetune, когда мы обучаем Планировщика управлять навыками Актера для решения поставленной задачи. И результаты напрямую зависят от полноты выполнения первых двух итераций.
Еще раз здравствуйте. Не могу понять один момент. Какой смысл устанавливать тейкпрофит, если он тралится? Он же так никогда не сработает.
Это прежде всего инструмент управления рисками. Защита от резких больших движений. Кроме того, мы обучаем модель. Теоретически стоп-лосс и тейк-профит не обязательно должны быть больше размера свечи. В процессе обучения ищем наиболее прибыльную стратегию.
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Вы принимаете политику сайта и условия использования
Опубликована статья Нейросети — это просто (Часть 55): Контрастный внутренний контроль (CIC):
Контрастное обучение (Contrastive learning) - это метод обучения представлению без учителя. Его целью является обучение модели выделять сходства и различия в наборах данных. В данной статье мы поговорим об использовании подходов контрастного обучения для исследования различных навыков Актера.
Алгоритм Contrastive Intrinsic Control начинается с обучения Агента в среде с помощью обратной связи и получения траекторий состояний и действий. Затем выполняется обучение представлений с использованием Contrastive Predictive Coding (CPC), что мотивирует Агента выделять ключевые признаки из состояний и действий. Формируются представления, учитывающие зависимости между последовательными состояниями.
Важную роль играет внутреннее вознаграждение, определяющая какие поведенческие стратегии следует максимизировать. В CIC максимизируется энтропия переходов между состояниями, что способствует разнообразию поведения Агента. Это позволяет Агенту исследовать и создавать разнообразные поведенческие стратегии.
После формирования разнообразных навыков и стратегий, алгоритм CIC использует Дискриминатор для конкретизации представлений навыков. Дискриминатор направлен на то, чтобы состояния были предсказуемыми и устойчивыми. Таким образом, Агент учится "использовать" навыки в предсказуемых ситуациях.
Комбинация исследования, мотивируемого внутренними вознаграждением, и использование навыков для предсказуемых действий создает сбалансированный подход для создания разнообразных и эффективных стратегий.
В результате алгоритм Contrastive Predictive Coding стимулирует Агента к обнаружению и усвоению широкого спектра поведенческих стратегий, обеспечивая при этом стабильное обучение. Ниже представлена авторская визуализация алгоритма.
Автор: Dmitriy Gizlyk