Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1782

 

Что мы можем измерить на паре последних баров и в истории 120 барах. На месяце это 10 лет. Достаточно вроде.

Скорости машек 2, 14, 30, 120, 480 и найти максимальные и перегибы

Разлеты между соседними машками и найти максимумы и перегибы

Максимальные разницы по цене от Машек, но это обычно реальные экстремумы по цене.

Среднее время трендов, с выделением максимальных и минимальных значений

Средние разлеты в в трендах, аля дончиан.

и можно разделить тренды и флет и их длительность

Среднее время трендов во флете. Тренды младших ТФ в старших.

Среднее время трендов.

И думается значимыми становятся различные параметры, в зависимости от других. И связь не явная. Вязать младшие ТФ к старшим, первое что приходит в голову, но понятно что этого мало. И логики в связях не могу пока найти. 

 
Valeriy Yastremskiy:

Про пару приращений не понял. На 2-х последних барах или еще как?

2 временных ряда с разными лагами. Можно кластеризовпть все что угодно, но тогда все опять упрется в непонимание предметной области и что и зачем кластеризуеися. В интернете удачных примеров не видел. Кстати, я же хотел выделять кластеры вместо сезонных компонент, и забыл про это, начал пихать в МО... Ыы.. тогда это будет другое исследование
 
mytarmailS:

Ну время это косвенный признак волатильности, которая сезонна по времени, есть активные часы торговли есть пассивные  

Согласен, не учел.

mytarmailS:

Сохранить то можно, но потом чтобы обучить модель надо то в среде эту матрицу загрузить на этом все и закончиться )) вернее еще раньше, на этапе формирования самой матрицы с предикатами

Попробуйте CatBoost. В любом случае я смогу обучить и увидим результат.

mytarmailS:

Ого гиг это не мало, интересно сколько у вас признаков?

566 в этой выборке.

mytarmailS:

Что за генетическое дерево?


1) просто )

2) как это? А как вы настраиваете предикторы под ЗЗ ?

3) Ну у вас свечи как то открытию пишуться или что типа, это уже искажение, ведь должны по клоузу, и тут сразу куча непоняток, признаки строить как, как целевую делать итп(не нужная гол. боль), если что то изменяете под себя то нужно оставлять всегда еще и оригинал для других )

Скрипт на R, который строит дерево по генетическому алгоритму, подбирая сплиты. Я там особо не разбираюсь - творчество Дока.


2. Я использую предикторы на базе ЗЗ, очевидно, что они эффективней, если они и целевая рассчитаны на одном и том же ЗЗ.

3. В начале бара я не знаю его OHLC, поэтому так и записал - как это происходит в реале.

В итоге, переделывать или нет смысла?

 
Aleksey Vyazmikin:

В итоге, переделывать или нет смысла?

кетбуст не поможет, проблема с размером данных, я не смогу даже признаков создать, те до обучения даже не дойдет..

Сделайте выборку в 50к, пускай она будет мала, пускай не серьезно, пускай более возможно переобучение пускай,... ..., ... задача же сделать сразу робота для продакшена , а просто совместный творчеством уменьшить ошибку , а далее полученные знания можно будет перенести на любой инструмент и рынок , 50к вполне хватит чтобы посмотреть какие признаки что то да значат.

Aleksey Vyazmikin:

3. В начале бара я не знаю его OHLC, поэтому так и записал - как это происходит в реале.

Ну рас не знаете ОХЛК то и писать его не надо, зачем смещать весь ОХЛК ? так никто не делает, нужно просто сместить ЗЗ на шаг, как бы заглядывать в будущее на 1 шаг для обучения и все. Вы читали хоть одну статью Владимира Перервенко про дир лернинг?  Почитайте пожалуйста.  Это очень не удобно когда  есть уже устоявшийся оптимальные действия с данными и все к ним привыкли , а кто то пытается делать то же самое но по своему, по другому, это как бы и бессмысленно и раздражает и причина многих ошибок у людей которые пытаются работать с данными такого автора.


Если после всего этого еще хотите что то делать то у меня такие требования

1) данные 50-60к не больше , лучше одним файлом, просто договоримся что n последних свечей будет тест

2) данные желательно без склеек , так как можно учитывать не только последние цены, еще и поддержки и сопротивления, с склейками это невозможно

3) целевая уже должна быть включена в данные

4) данные в формате date,time,o,h,l,c, target


Или мне сделать датасет ?

 
Maxim Dmitrievsky:
2 временных ряда с разными лагами. Можно кластеризовпть все что угодно, но тогда все опять упрется в непонимание предметной области и что и зачем кластеризуеися. В интернете удачных примеров не видел. Кстати, я же хотел выделять кластеры вместо сезонных компонент, и забыл про это, начал пихать в МО... Ыы.. тогда это будет другое исследование

Бывает, логика не терпит ни фига ни пофигизма)))) .... С пониманием пока проблемы. Все что есть это усреднение, прореживание и ГА с обучением на достаточно коротких данных. Работ по разделению характеристик ряда тоже не видел. С одной стороны анализ ряда для разных ТФ должен быть одинаков. Должны быть критерии ухода в младший ТФ. Типа если на младшем ТФ определились тренды с разлетом и скоростью достаточной, то можно переходить на них и против тренда старшего ТФ. Но это логика. Как то надо группировать характеристики и смотреть на разных поведениях ряда. Если от обратного решать.

На атомной станции смотрели 19 параметров, у них была таблица совокупности от 3 до 7 параметров, когда зона красная, и стержни надо вынимать. Там тоже одного параметра не было и они были не взаимосвязаны. У нас по другому конечно, но масштаб по времени слишком велик, и связи между тиковым и месячным поведением нет, или не всегда есть. В общем смотреть связь между параметрами, и как долго эта связь существует. 

Но че то сложно пока. 

 
Valeriy Yastremskiy:

Бывает, логика не терпит ни фига ни пофигизма)))) .... С пониманием пока проблемы. Все что есть это усреднение, прореживание и ГА с обучением на достаточно коротких данных. Работ по разделению характеристик ряда тоже не видел. С одной стороны анализ ряда для разных ТФ должен быть одинаков. Должны быть критерии ухода в младший ТФ. Типа если на младшем ТФ определились тренды с разлетом и скоростью достаточной, то можно переходить на них и против тренда старшего ТФ. Но это логика. Как то надо группировать характеристики и смотреть на разных поведениях ряда. Если от обратного решать.

На атомной станции смотрели 19 параметров, у них была таблица совокупности от 3 до 7 параметров, когда зона красная, и стержни надо вынимать. Там тоже одного параметра не было и они были не взаимосвязаны. У нас по другому конечно, но масштаб по времени слишком велик, и связи между тиковым и месячным поведением нет, или не всегда есть. В общем смотреть связь между параметрами, и как долго эта связь существует. 

Но че то сложно пока. 

Мимо бомбардировщика с ядерной боеголовкой я без шуток не хожу :)
 
Maxim Dmitrievsky:
Мимо бомбардировщика с ядерной боеголовкой я без шуток не хожу :)

Куда ж без них, в таких дебрях)))) С ядерной херни все и началось, вероятностная считалочка с усреднениями, обратной связью и байесом, критерий уверенности это что то))) Видимо так же параметры придется вручную выбирать сперва. Много их слишком.

В общем мысль что нужно смотреть ряд баров 120 и вытаскивать из него некую хрень в разных вариантах. Мерять и обучать на текущих состояниях не гуд.  

 
Valeriy Yastremskiy:

Куда ж без них, в таких дебрях)))) С ядерной херни все и началось, вероятностная считалочка с усреднениями, обратной связью и байесом, критерий уверенности это что то))) Видимо так же параметры придется вручную выбирать сперва. Много их слишком.

В общем мысль что нужно смотреть ряд баров 120 и вытаскивать из него некую хрень в разных вариантах. Мерять и обучать на текущих состояниях не гуд.  

Что есть текущие состояния? если про кластеры, то надо просто прочекать статистики на новых данных. Если одинаковые, то можно строить ТС

 
Maxim Dmitrievsky:

Что есть текущие состояния? если про кластеры, то надо просто прочекать статистики на новых данных. Если одинаковые, то можно строить ТС

Параметры на баре. Приращения, скорости, средние от истории. Почему то все считают параметры на последнем полном баре, а это по сути неверно. Усреднения опаздывают на половину или чуть меньше диапазона усреднения, а приращения не значимы в необходимой мере. И никто не считает параметры ряда в целом. Две градации флет и тренд не смешно даже.
 
Maxim Dmitrievsky:

если про кластеры, то надо просто прочекать статистики на новых данных. Если одинаковые, то можно строить ТС

Предметную область кластеров и статистики нужно четко понимать учитывать. Если одинаковые на всех инстументах с 70 по 20 год, то можно))

Причина обращения: