Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2811

 
Maxim Dmitrievsky #:
Там нужно какие-нибудь веселые вознаграждения придумывать, чтобы захватить закономерности. Иначе будет молотить до псевдооптимума любой ф-ии
Это все про q функцию и критиков,  интересная тема... 
 
mytarmailS #:
Это все про q функцию и критиков,  интересная тема... 

обсуждалось здесь больше года назад, когда я RL алгоритмы пилил

возвращаться пока нет желания и у меня и так некая смесь RL + supervised, давно на авторские схемы хитровыдуманные перешел

RL используй если не знаешь как размечать метки, но нужен адекватный механизм семилинга. Начинаешь со случайного как в статьях например у меня, потом добавляешь условий. Аппроксимируешь лесом или НС, проверяешь результаты, корректируешь, и так по кругу будет тебе exploration и exploitation 

То что в последней статье это и есть RL по сути. Вторую НС можно представить как критика, а в механизм семилинга сделок сам закладываешь ценность. Термины могут быть неточными, но сути подхода не меняет.

Q-функция не обязательна, есть другие методы типа reinforce и иже с ними, забыл уже 
 
Maxim Dmitrievsky #:

обсуждалось здесь больше года назад, когда я RL алгоритмы пилил

возвращаться пока нет желания и у меня 
Я не с позиции меток,  а с позиции например каких то оч. Сложных многоетапных политик поведения агента 
 
mytarmailS #:
Я не с позиции меток,  а с позиции например каких то оч. Сложных многоетапных политик поведения агента 
Тебя путает табличный RL, где в таблицах направления переходов из одного состояния в другое оптимизированные, это и есть политики. Позднее эти таблицы заменили нейросетями. Это когда состояний агента много, например в играх. У тебя всего 2-3 состояния бай/селл и т.д. Потом оптимизируешь переходы в эти состояния через функцию вознаграждения, например через сэмплинг сделок с каким-то условием прибыльности, а политики оптимизируются через НС. Политика это связь среды и состояния, в которое надо перейти. Например, связь значений индикаторов с направлением сделок.

Нет смысла делать многоходовочку из 100500 переходов через таблицу, когда тебе НС уже все аппроксимировала и показала ошибку твоих действий. Это нужно если тебе надо сначала прыгнуть, потом выстрелить, перезарядиться, собрать лут, побежать в другую сторону и т.п. То есть выполнить много действий, а у тебя всего 2-3. Хотя хозяин барин :)

Забыл добавить, что там ещё агент влияет на среду, меняет ее, а среда на агента. Поэтому нужно обучаться тысячи повторений, чтобы перебрать все варианты комбинаций. В нашем случае это не так, среда не меняется, поэтому можно за 1 раз. В такой постановке обучение с подкреплением вообще теряет смысл, который в него заложен. Ты можешь за 1 проход найти кратчайший путь до цели.
 
Схема решения простая, делается предобработка датасета. Делается его стандартный анализ. Из оставшегося, каждый input принимается как целевая переменная, а output при каждом ML принимается как фич. Делается оценка по предсказанию каждого input, плохо "предсказуемые" выбрасываются. Ну а в рабочую модель по предсказанию output в ML включаются те Input, которые прошли фильтр. Я бы так выбросил не влияющие на прогнозирование фичи.
 
Maxim Dmitrievsky #:
 Это когда состояний агента много, например в играх. У тебя всего 2-3 состояния бай/селл и т.д.

Да не, так все примитивно, иначе не было бы этого направления вообще..


состояние это не бай\сел , бай\сел это действие action , а состояние state это грубо говоря  номер кластера текущей среды , и на каждый кластер  state  есть свои действия   action ...

Но   action не обезательно должен быть примитивный типа   бай\сел , это может быть разсуждения агента о будущем например...

Типа что если я сейчас куплю на [i] , а на сдел свече[i+1] цена упадет , но не ниже какой то цены , я подожду след свечи [i+2], но если цена уйдет еще ниже я перевернуть, если нет то буду держать бай[i...20]

Те это нетривиальные разсуждения о будущем и ведут к открытию осознаной позиии...

Но таких комбинаций вариантов разсуждений хулиард , чтобы их всех не перебирать мы обучаем Q функцию , те агент берет для разсуждений только те варианты у которых хорошее  Q значение ,  

Q нейронка  или матрица тренируеться предварительно...

Я так это все вижу..

 
peregrinus_vik #:
Схема решения простая

))) ага,канешн..

боюсь тех кто говорит "все просто"

 
mytarmailS #:

Да не, так все примитивно, иначе не было бы этого направления вообще..


состояние это не бай\сел , бай\сел это действие action , а состояние state это грубо говоря  номер кластера текущей среды , и на каждый кластер  state  есть свои действия   action ...

Но   action не обезательно должен быть примитивный типа   бай\сел , это может быть разсуждения агента о будущем например...

Типа что если я сейчас куплю на [i] , а на сдел свече[i+1] цена упадет , но не ниже какой то цены , я подожду след свечи [i+2], но если цена уйдет еще ниже я перевернуть, если нет то буду держать бай[i...20]

Те это нетривиальные разсуждения о будущем и ведут к открытию осознаной позиии...

Но таких комбинаций вариантов разсуждений хулиард , чтобы их всех не перебирать мы обучаем Q функцию , те агент берет для разсуждений только те варианты у которых хорошее  Q значение ,  

Q нейронка  или матрица тренируеться предварительно...

Я так это все вижу..

Согласен, бай селл не торговать это не состояния. Состояний ряда хулиард.)))

 
Valeriy Yastremskiy #:

Согласен, бай селл не торговать это не состояния. Состояний ряда хулиард.)))

стостояний не много (если это кластера)

вариантов разсуждений о будущих действиях хулиард

но разсуждать нужно чтобы найти максимально правильные действия в каждом состоянии, более того их нужно пересматривать на каждой свеча

 
mytarmailS #:

Да не, так все примитивно, иначе не было бы этого направления вообще..


состояние это не бай\сел , бай\сел это действие action , а состояние state это грубо говоря  номер кластера текущей среды , и на каждый кластер  state  есть свои действия   action ...

Но   action не обезательно должен быть примитивный типа   бай\сел , это может быть разсуждения агента о будущем например...

Типа что если я сейчас куплю на [i] , а на сдел свече[i+1] цена упадет , но не ниже какой то цены , я подожду след свечи [i+2], но если цена уйдет еще ниже я перевернуть, если нет то буду держать бай[i...20]

Те это нетривиальные разсуждения о будущем и ведут к открытию осознаной позиии...

Но таких комбинаций вариантов разсуждений хулиард , чтобы их всех не перебирать мы обучаем Q функцию , те агент берет для разсуждений только те варианты у которых хорошее  Q значение ,  

Q нейронка  или матрица тренируеться предварительно...

Я так это все вижу..

когда правильно начнешь видеть, тогда вау-эффет пропадет

Ты описал политику агента, многоходовочку. Я все написал об этом. Пишу нубским языком чтобы понятно было, да и забыл уже 

Вот именно, что все так примитивно

Тут одна с пеной у рта уже изливалась про Агентов, до очередного бана )