Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1144

 
Maxim Dmitrievsky:

Вы чем сейчас занимаетесь, случайным блужданием? нормальные вещи в области МО пообсуждать не хотате? :) нужен человек, хорошо шарящий в формулах. А то тема опустела, пообсуждать не с кем

В принципе, я готов высказать своё мнение по любому вопросу. Но наличие смысла для вас в моих высказываниях гарантировать не могу)

 
Maxim Dmitrievsky:

Вам, кажется, про бандитов инфу кидал? очень интересная тема, но много формул 

Да, было такое вроде бы. Но обновите ссылку и напишите, что примерно интересует.

 
Aleksey Nikolayev:

Да, было такое вроде бы. Но обновите ссылку и напишите, что, интпримерно интересует.

ссылка выше, интересуют состязательные бандиты для нестационарных процессов, с применением комбинаторных алгоритмов (видимо, что-то вроде мгуа). сам в процессе ознакомления с инфой пока еще

позже напишу что конкретно

 
Maxim Dmitrievsky:

В их книге сразу же наткнулся на:

All the learner knows is that the true environment lies in some set E called the environment class.

Каким вы видите это множество Е для трейдинга?

 
Aleksey Nikolayev:

В их книге сразу же наткнулся на:

All the learner knows is that the true environment lies in some set E called the environment class.

Каким вы видите это множество Е для трейдинга?

ну это произвольно заданное окружение для бандита, например набор индикаторов

например, один индикатор rsi, для простоты, приращения цен, набор нескольких приращений
 
Maxim Dmitrievsky:

ну это произвольно заданное окружение для бандита, например набор индикаторов

например, один индикатор rsi, для простоты, приращения цен, набор нескольких приращений

Всё же мне непонятно соотошение их модели с трейдингом. Из их определения стратегии (policy) следует, что они смотрят только на совершённые действия и их результаты. На среду (по-вашему - набор индикаторов) они не смотрят или даже не могут её видеть.

At should only depend on the history Ht−1 = (A1 , X1 , . . . , At−1 , Xt−1 ). A policy is a mapping from histories to actions.

Причём, среда у них вроде бы даже может отслеживать наше поведение и потому вознаграждение будет зависить не только от самого действия но и от всей его предистории.

An environment is a mapping from history sequences ending in actions to rewards.

 
Aleksey Nikolayev:

Всё же мне непонятно соотошение их модели с трейдингом. Из их определения стратегии (policy) следует, что они смотрят только на совершённые действия и их результаты. На среду (по-вашему - набор индикаторов) они не смотрят или даже не могут её видеть.

At should only depend on the history Ht−1 = (A1 , X1 , . . . , At−1 , Xt−1 ). A policy is a mapping from histories to actions.

Причём, среда у них вроде бы даже может отслеживать наше поведение и потому вознаграждение будет зависить не только от самого действия но и от всей его предистории.

An environment is a mapping from history sequences ending in actions to rewards.

Если политика аппроксимируется какой-то моделью (допустим, линейной) то затем просто получаем решение на новых данных и все, подставляя их в модель

то что вы описали это процесс поиска наибольшего вознаграждения

основная проблема с нестационарностью, когда на новых данных это перестает работать. Там описаны нестационарные бандиты, но до них я еще не дошел. Признаться, там по ходу нет ничего такого что я еще не знаю, как оказывается :) Но нужны какие-то идеи\решения как правильно давать вознаграждение

К слову, вчера реализовал именно линейного бандита, результат какой-то такой:

по сути, пример еще описан в моей статье, но там вместо линейной используется случайный лес. Линейные должны меньше переобучаться

 
Maxim Dmitrievsky:


Обучать на будущем, а тестировать на прошлом, это только на этом форуме можно встретить))) 

 
Грааль:

Обучать на будущем, а тестировать на прошлом, это только на этом форуме можно встретить))) 

нет разницы, обсуждалось. Нет подглядывания в историю

покажите хоть один форум где идет нормалаьное обсуждение МО к рынку
 
Aleksey Nikolayev:

Я бы сказал, что зависит от советника. Если он генерирует чёткую последовательность сделок, то есть когда позиция то открывается, то закрывается и её объём не меняется между открытием и закрытием - лучше считать по трейдам. Если объём позиции меняется со временем плавно, то выделение моментов трейда менее осмысленно и можно считать по вашему.

Метод пантурала более хорош для впаривания продажи ТС и поиска инвесторов) Так что со временем, полагаю, перейдут на него)

Думаю, слишком много чести, переписывать форумному выскочке алгоритм вычисления годового коэффициента Шарпа))

А если серьёзно, то "негодовой" и потрейдовый вообще не имеет смысла как метрика, её нельзя оптимизировать, так как стратегии каждый раз будут отличаться по количеству трейдов, так например стратегия генерирующая 1000 сделок будет иметь в трое меньший шарп, чем стратегия с 100-ми сделками, при одинаковых прибыли и макс. просадке.

Причина обращения: