Обсуждение статьи "Нейросети это просто (Часть 97): Обучение модели с использованием MSFformer"

 

Опубликована статья Нейросети это просто (Часть 97): Обучение модели с использованием MSFformer:

При изучении различных архитектур построения моделей мы мало уделяем внимания процессу обучения моделей. В этой статье я попытаюсь восполнить этот пробел.

Собранная первичная обучающая выборка позволяет дать модели первое представление об окружающей среде. Но мир финансовых рынков настолько многогранен, что полностью его повторить не может ни одна обучающая выборка. Кроме того, зависимости, которые модель построила между анализируемыми индикаторами и прибыльными сделками могут оказаться ложными или неполными, так как в представленной обучающей выборке отсутствовали примеры, способные выявить подобные несоответствия. Поэтому в процессе обучения нам потребуется уточнение обучающей выборки. И на этот раз подход к сбору дополнительной информации будет уже отличаться.

Дело в том, что на данном этапе перед нами стоит задача оптимизация выученной политики Актера. И для выполнения поставленной задачи нам необходимы данные достаточно близкие к траектории текущей политики Актера, которые позволяют понять направление вектора изменения вознаграждения при некотором отклонений действий от текущей политики. Имея такую информацию, мы можем увеличить доходность текущей политики, двигаясь в направлении увеличения вознаграждения.

Здесь так же возможны варианты. И подходы могут меняться по разным факторам. В том числе и в зависимости от архитектуры модели. К примеру, при использовании стохастической политики мы можем просто запустить несколько проходов Актера с использованием текущей политики в тестере стратегий. Стохастическая голова все сделает за нас. Разброс случайных действий актера покроет интересующее нас пространство действий, и мы сможем провести дообучение модели с учетом обновленных данных. В случае же использования строгой политики Актера, когда модель выстраивает однозначные связи между состоянием окружающей среды и действием, мы можем воспользоваться добавлением некоторого шума к действиям Агента, чтобы создать некое облако действий вокруг текущей политики Актера.

В обоих случаях для сбора дополнительных данных обучающей выборки удобно использовать режим медленной оптимизации тестера стратегий.


Автор: Dmitriy Gizlyk