Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2017

 
Maxim Dmitrievsky:

что значит "возможно надо менять" учите матчасть и как работают ф-ии активации. Или разрабы сетей такие тупые, что не догадались бы

потому что это переливание из пустого в порожнее, одни предположения и ноль конкретики. Обучили автоэнкодер, загнали фичи в бустинг или НС, показали результат. Все. Ничего не надо расковыривать. Глубокие архитектуры собираются не для того, чтобы их расковыривали, а чтобы уменьшить аналитическую рутину. 

зачем вообще во все это лезть и изобретать велосипед, не имея ни профильного образования, ни математического? Это тупо потеря времени. Есть технологии и написано как они должны использоваться, это все. Над этим работает куева хуча народу.

Если бы готовые решения из коробки решали задачи, что я ставлю перед ними, то ничего придумывать было не надо, но, увы.

Сейчас готовлю большую выборку и буду обучать много моделей на CatBoost, есть идеи, как оценить качество модели с целью дальнейшего их успешного применения в реальном времени - буду делится результатами исследования.

 
Aleksey Vyazmikin:

Если бы готовые решения из коробки решали задачи, что я ставлю перед ними, то ничего придумывать было не надо, но, увы.

Сейчас готовлю большую выборку и буду обучать много моделей на CatBoost, есть идеи, как оценить качество модели с целью дальнейшего их успешного применения в реальном времени - буду делится результатами исследования.

не подходит катбуст для решения задач прогнозирования временных рядов, не работает он с последовательностями

чисто поиграть с классификацией можно, но толку не будет
 
Maxim Dmitrievsky:

не подходит катбуст для решения задач прогнозирования временных рядов, не работает он с последовательностями

чисто поиграть с классификацией можно, но толку не будет

А как Вы определили, работает или нет?

У меня есть модели, которые по году (обучены примерно год назад) профит показывают в тестере - предлагаете считать их случайностью?

Да, CatBoost уступает генетическому дереву с постобработкой листьев, но он очень быстр в обучении.

А что работает - НС?

 
Aleksey Vyazmikin:

А как Вы определили, работает или нет?

У меня есть модели, которые по году (обучены примерно год назад) профит показывают в тестере - предлагаете считать их случайностью?

Да, CatBoost уступает генетическому дереву с постобработкой листьев, но он очень быстр в обучении.

А что работает - НС?

не я определил, а сама архитектура для других задач

да, это все случайность

пока ничего не работает )

 
Aleksey Vyazmikin:

Предикторы не цены в голом виде - много относительных точек, которые могут быть похожи...

Не уверен, что отсев по корреляции будет эффективен...

Почему бы не попробовать? Отрицательный результат - тоже результат (в смысле пищи для дальнейших размышлений).

Вроде бы даже когда-то предлагал здесь формулу для коэффициента корреляции: C = (n1 - n2)/n, где n - количество баров, где хотя бы одна из двух систем даёт сигнал торговли, n1 - число баров где сигналы даются обоими системами одновременно и в одинаковом направлении и n2  - число баров где сигналы даются обоими системами одновременно и в противоположных направлениях.

Матрицу из этих коэффициентов можно использовать для кластеризации, прореживания и формирования портфеля.

 
.Maxim Dmitrievsky:

не я определил, а сама архитектура для других задач

да, это все случайность

пока ничего не работает )

Конечно, тут нет заточки под времянные ряды, поэтому предикторы должны содержать информацию об X координате, а не только об Y.

Если научится выявлять такие случайные модели, то будет профит.

У меня работает более 60% листьев, отобранных в прошлых годах, что очень, и на мой взгляд, подтверждает состоятельность идеи подхода обработки плохоклассифицируемых данных. Если бы над этой идеей работало больше людей, то результат был бы лучше, но у всех свои побрякушки.

 
Aleksey Vyazmikin:

Конечно, тут нет заточки под времянные ряды, поэтому предикторы должны содержать информацию об X координате, а не только об Y.

Если научится выявлять такие случайные модели, то будет профит.

У меня работает более 60% листьев, отобранных в прошлых годах, что очень, и на мой взгляд, подтверждает состоятельность идеи подхода обработки плохоклассифицируемых данных. Если бы над этой идеей работало больше людей, то результат был бы лучше, но у всех свои побрякушки.

Вроде, статью хотели.. Набросайте суть подхода. Я до сих пор не понимаю чем занимаетесь :D

я придерживаюсь взгляда, что признаки должны извлекаться автоматически самой моделью из временного ряда (если они есть). И не нужно ничего делать вручную. Достаточно приращений. Вопрос в архитектуре. Например, как в NLP (neural language processing) нейросеть сама определяет контекст в последовательностях слов, т.е. связь между отсчетами временного ряда.

 
Aleksey Nikolayev:

Почему бы не попробовать? Отрицательный результат - тоже результат (в смысле пищи для дальнейших размышлений).

Вроде бы даже когда-то предлагал здесь формулу для коэффициента корреляции: C = (n1 - n2)/n, где n - количество баров, где хотя бы одна из двух систем даёт сигнал торговли, n1 - число баров где сигналы даются обоими системами одновременно и в одинаковом направлении и n2  - число баров где сигналы даются обоими системами одновременно и в противоположных направлениях.

Матрицу из этих коэффициентов можно использовать для кластеризации, прореживания и формирования портфеля.

А при чем тут предикторы?

Нечто подобное я делаю для отбора листьев, но там ещё загвоздка в том, что число откликов листьев разное на выборке и нужно учитывать, что листы с похожими откликами но разной длинны могут принадлежать одной группе.

 
Maxim Dmitrievsky:

Вроде, статью хотели.. Набросайте суть подхода. Я до сих пор не понимаю чем занимаетесь :D

я придерживаюсь взгляда, что признаки должны извлекаться автоматически самой моделью из временного ряда (если они есть). И не нужно ничего делать вручную. Достаточно приращений. Вопрос в архитектуре. Например, как в NLP (neural language processing) нейросеть сама определяет контекст в последовательностях слов, т.е. связь между отсчетами временного ряда.

Генетическое дерево и CatBoost - слабо связаны, статью планирую написать про CatBoost. Отложил написание по той причине, что выявил у себя недостатки в стабильности показателей предикторов и бросил все силы на исправление этого, заодно и новые предикторы сделал. К концу недели планирую запустить вычислительный процесс (а то напрягает, когда сервера простаивают), и появится время на статью - попробую написать первую часть к концу месяца. Статья будет про мою кухню создания модели на CatBoost.

С генетическими деревьями всё сложней, тут статьи пока не будет, но подход в том, что мы отбираем листья с деревьев, стабильно классифицирующие участок данных на истории - по факту 0,5%-3% откликов от всей выборки, таких листьев чем больше, тем лучше, сейчас порядка 1000 на покупку и продажу, дополнительно я ищу листья, которые ещё и фильтруют отобранные листья, т.е. провожу дообучение, что повышает их точность. Листья группируются по похожести (тут есть ещё над чем работать), далее их ответы взвешиваются внутри каждой группы на истории и определяется порог, при котором происходит создание сигнала от группы листьев. Дополнительным фильтром тут служит генетическое дерево, построенное по откликам всех листьев или только групп. Такой подход позволяет значительно увеличить полноту классификации при несбалансированной выборке, в моем случае с 3мя целевыми, где целевая "0" - порядка 65%.

Работа над критериями отбора листьев и методикой их объединения имеет большой потенциал по улучшению, а значит и модели могут получатся более качественными.

 
Aleksey Vyazmikin:

А при чем тут предикторы?

Стало быть, напутал, задумавшись о своём)

Причина обращения: