Используйте RL алгоритмы, чтобы захватить закономерности - Общее обсуждение

mytarmailS 2022.11.02 10:45 #28101

Maxim Dmitrievsky #:
Там нужно какие-нибудь веселые вознаграждения придумывать, чтобы захватить закономерности. Иначе будет молотить до псевдооптимума любой ф-ии

Это все про q функцию и критиков, интересная тема...

Maxim Dmitrievsky 2022.11.02 11:06 #28102

mytarmailS #:
Это все про q функцию и критиков, интересная тема...

обсуждалось здесь больше года назад, когда я RL алгоритмы пилил

возвращаться пока нет желания и у меня и так некая смесь RL + supervised, давно на авторские схемы хитровыдуманные перешел

RL используй если не знаешь как размечать метки, но нужен адекватный механизм семилинга. Начинаешь со случайного как в статьях например у меня, потом добавляешь условий. Аппроксимируешь лесом или НС, проверяешь результаты, корректируешь, и так по кругу будет тебе exploration и exploitation

То что в последней статье это и есть RL по сути. Вторую НС можно представить как критика, а в механизм семилинга сделок сам закладываешь ценность. Термины могут быть неточными, но сути подхода не меняет.

Q-функция не обязательна, есть другие методы типа reinforce и иже с ними, забыл уже

Обсуждение статьи "Самоадаптирующийся алгоритм Обсуждение статьи "Алгоритмическая торговля Советники: iRVI Crossing zero

mytarmailS 2022.11.02 14:54 #28103

Maxim Dmitrievsky #:

обсуждалось здесь больше года назад, когда я RL алгоритмы пилил

возвращаться пока нет желания и у меня

Я не с позиции меток, а с позиции например каких то оч. Сложных многоетапных политик поведения агента

Maxim Dmitrievsky 2022.11.02 15:33 #28104

mytarmailS #:

Я не с позиции меток, а с позиции например каких то оч. Сложных многоетапных политик поведения агента

Тебя путает табличный RL, где в таблицах направления переходов из одного состояния в другое оптимизированные, это и есть политики. Позднее эти таблицы заменили нейросетями. Это когда состояний агента много, например в играх. У тебя всего 2-3 состояния бай/селл и т.д. Потом оптимизируешь переходы в эти состояния через функцию вознаграждения, например через сэмплинг сделок с каким-то условием прибыльности, а политики оптимизируются через НС. Политика это связь среды и состояния, в которое надо перейти. Например, связь значений индикаторов с направлением сделок.

Нет смысла делать многоходовочку из 100500 переходов через таблицу, когда тебе НС уже все аппроксимировала и показала ошибку твоих действий. Это нужно если тебе надо сначала прыгнуть, потом выстрелить, перезарядиться, собрать лут, побежать в другую сторону и т.п. То есть выполнить много действий, а у тебя всего 2-3. Хотя хозяин барин :)

Забыл добавить, что там ещё агент влияет на среду, меняет ее, а среда на агента. Поэтому нужно обучаться тысячи повторений, чтобы перебрать все варианты комбинаций. В нашем случае это не так, среда не меняется, поэтому можно за 1 раз. В такой постановке обучение с подкреплением вообще теряет смысл, который в него заложен. Ты можешь за 1 проход найти кратчайший путь до цели.

Поясните на пальцах, как Задача по поиску ордеров Любые вопросы новичков по

peregrinus_vik 2022.11.03 05:13 #28105

Схема решения простая, делается предобработка датасета. Делается его стандартный анализ. Из оставшегося, каждый input принимается как целевая переменная, а output при каждом ML принимается как фич. Делается оценка по предсказанию каждого input, плохо "предсказуемые" выбрасываются. Ну а в рабочую модель по предсказанию output в ML включаются те Input, которые прошли фильтр. Я бы так выбросил не влияющие на прогнозирование фичи.

EURUSD - Тенденции, прогнозы Судьба частного трейдера на Тестер стратегий

mytarmailS 2022.11.03 08:15 #28106

Maxim Dmitrievsky #:
Это когда состояний агента много, например в играх. У тебя всего 2-3 состояния бай/селл и т.д.

Да не, так все примитивно, иначе не было бы этого направления вообще..

состояние это не бай\сел , бай\сел это действие action , а состояние state это грубо говоря номер кластера текущей среды , и на каждый кластер state есть свои действия action ...

Но action не обезательно должен быть примитивный типа бай\сел , это может быть разсуждения агента о будущем например...

Типа что если я сейчас куплю на [i] , а на сдел свече[i+1] цена упадет , но не ниже какой то цены , я подожду след свечи [i+2], но если цена уйдет еще ниже я перевернуть, если нет то буду держать бай[i...20]

Те это нетривиальные разсуждения о будущем и ведут к открытию осознаной позиии...

Но таких комбинаций вариантов разсуждений хулиард , чтобы их всех не перебирать мы обучаем Q функцию , те агент берет для разсуждений только те варианты у которых хорошее Q значение ,

Q нейронка или матрица тренируеться предварительно...

Я так это все вижу..

Вопрос по OrderType(). Делаем торговую систему на Что подать на вход

mytarmailS 2022.11.03 08:16 #28107

peregrinus_vik #:
Схема решения простая

))) ага,канешн..

боюсь тех кто говорит "все просто"

Valeriy Yastremskiy 2022.11.03 08:20 #28108

mytarmailS #:

Да не, так все примитивно, иначе не было бы этого направления вообще..

состояние это не бай\сел , бай\сел это действие action , а состояние state это грубо говоря номер кластера текущей среды , и на каждый кластер state есть свои действия action ...

Но action не обезательно должен быть примитивный типа бай\сел , это может быть разсуждения агента о будущем например...

Типа что если я сейчас куплю на [i] , а на сдел свече[i+1] цена упадет , но не ниже какой то цены , я подожду след свечи [i+2], но если цена уйдет еще ниже я перевернуть, если нет то буду держать бай[i...20]

Те это нетривиальные разсуждения о будущем и ведут к открытию осознаной позиии...

Но таких комбинаций вариантов разсуждений хулиард , чтобы их всех не перебирать мы обучаем Q функцию , те агент берет для разсуждений только те варианты у которых хорошее Q значение ,

Q нейронка или матрица тренируеться предварительно...

Я так это все вижу..

Согласен, бай селл не торговать это не состояния. Состояний ряда хулиард.)))

mytarmailS 2022.11.03 08:37 #28109

Valeriy Yastremskiy #:

Согласен, бай селл не торговать это не состояния. Состояний ряда хулиард.)))

стостояний не много (если это кластера)

вариантов разсуждений о будущих действиях хулиард

но разсуждать нужно чтобы найти максимально правильные действия в каждом состоянии, более того их нужно пересматривать на каждой свеча

Maxim Dmitrievsky 2022.11.03 08:53 #28110

mytarmailS #:

Да не, так все примитивно, иначе не было бы этого направления вообще..

состояние это не бай\сел , бай\сел это действие action , а состояние state это грубо говоря номер кластера текущей среды , и на каждый кластер state есть свои действия action ...

Но action не обезательно должен быть примитивный типа бай\сел , это может быть разсуждения агента о будущем например...

Типа что если я сейчас куплю на [i] , а на сдел свече[i+1] цена упадет , но не ниже какой то цены , я подожду след свечи [i+2], но если цена уйдет еще ниже я перевернуть, если нет то буду держать бай[i...20]

Те это нетривиальные разсуждения о будущем и ведут к открытию осознаной позиии...

Но таких комбинаций вариантов разсуждений хулиард , чтобы их всех не перебирать мы обучаем Q функцию , те агент берет для разсуждений только те варианты у которых хорошее Q значение ,

Q нейронка или матрица тренируеться предварительно...

Я так это все вижу..

когда правильно начнешь видеть, тогда вау-эффет пропадет

Ты описал политику агента, многоходовочку. Я все написал об этом. Пишу нубским языком чтобы понятно было, да и забыл уже

Вот именно, что все так примитивно

Тут одна с пеной у рта уже изливалась про Агентов, до очередного бана )

Лига Торговых Систем. Продолжаем Как работает Форекс (глобально)? Заработок на форекс невозможен

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2811