Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 388

 
Maxim Dmitrievsky:


Предикторы у меня уже есть, как ни странно. Есть уже готовый бот, который на реале стоит, написал меньше чем за месяц. Самое важное - предикторы, это не обсуждается, да. Ну это у кого в чем опыт есть.. Например, с моей воспаленной фантазией предикторы подбираются на раз, работал аналитиком 5 лет :) Мне видится подбор предикторов не такой сложной задачей как изучение архитектур НС, главное сесть и подобрать, потратить 2-3 недели :) 



А в цифрах?

На обучающей выборке, тестовой и валидационной.

Самое главное: на новом файле, который был изначально отдельно от предыдущих трех.

Все эти четыре величины не должны сильно отличаться друг от друга. Если по ошибке они отличаются более, чем на 10% (отклонение 30% и 35%, к примеру), то в топку.


А то, что стоит на реале - это вообще ни о чем, вон сигналы, мрут и через год и даже через два...

 
СанСаныч Фоменко:

А как быть с тем, что приращения никак не обозначают тенденции?

Да, никак.

Либо модель предсказывает приращение, либо направление - для этого классификационные модели.

Мне не известны классификационные модели, которые бы распознавали движуху на новостях. А для GARCH это смысл модели - отработать возникшее движение. Толстые хвосты - ведь это и есть движение на новостях, когда ломаются тренды, происходят резкие развороты. 


А, ну можно смотреть приращения на разный временных выборках.

Есть любопытные GARCH-модели, работающие на нескольких ТФ. Смысл такой.

Предположим предсказываем приращение на Н1. Для модели необходимы входные данные, характеризующие распределение. В качестве таких входных данных (обычно волантильность) берем не предыдущий час, а минуты внутри текущего часа.

На мой взгляд, важно разбивать всю историю на участки  с одинаковым поведением. Например вот картинка, цена закрытия дня по EURUSD за 5лет, видно что примерно до 2-го квартала 14 года была одна тенденция, затем остаток 14-го и начало 15-го другая, а после начавшаяся и идущая до сих пор третья. Мешать все в одну кучу,  типа пытаясь получить среднюю температуру по больнице и на ее основании  диагностировать состояние отдельно взятого пациента - имхо, неправильно. 


Если же взять, например текущую тенденцию, где-то с начала 15-го и по сегодняшний день, и хотя бы просто выделить/экстраполировать тренды, периодику, то получается имхо, вполне себе правдоподобный результат. Вот картинка, зелененьким прогноз цен закрытия на ближайшие пару недель.


 
СанСаныч Фоменко:


А в цифрах?

На обучающей выборке, тестовой и валидационной.

Самое главное: на новом файле, который был изначально отдельно от предыдущих трех.

Все эти четыре величины не должны сильно отличаться друг от друга. Если по ошибке они отличаются более, чем на 10% (отклонение 30% и 35%, к примеру), то в топку.


А то, что стоит на реале - это вообще ни о чем, вон сигналы, мрут и через год и даже через два...


В цифрах всенорм, не нужно столько бесполезных выборок, обучающая и тестовая этого хватает, через ГА подбираются параметры, потом выбираю результаты, максимально похожие на бэк и форварде. Вы ниогда не обучите модель под всю историю котировок, плюс вы предлагаете аж 3 независимых периода, а торговать на 4-м, это ерунда полная в случае торговли на на рынке, т.к. рынок меняется за это время. Поэтому, достаточно удостовериться что модель не переподогнана, на участке вне обучающей выборки, и все.

Переобучаю каждую неделю, пока вторую неделю стоит, +35%. То что на реале это о чем, это реал деньги )

 
СанСаныч Фоменко:
 

А то, что стоит на реале - это вообще ни о чем, вон сигналы, мрут и через год и даже через два...

Вы что, серьезно хотите создать модель рынка на годы вперёд...?
 
Maxim Dmitrievsky:


Предикторы у меня уже есть, как ни странно. Есть уже готовый бот, который на реале стоит, написал меньше чем за месяц. Самое важное - предикторы, это не обсуждается, да. Ну это у кого в чем опыт есть.. Например, с моей воспаленной фантазией предикторы подбираются на раз, работал аналитиком 5 лет :) Мне видится подбор предикторов не такой сложной задачей как изучение архитектур НС, главное сесть и подобрать, потратить 2-3 недели :) 

Скажите пожалуйста, какие Вы используете предикторы?
 
Maxim Dmitrievsky:


В цифрах всенорм, не нужно столько бесполезных выборок, обучающая и тестовая этого хватает, через ГА подбираются параметры, потом выбираю результаты, максимально похожие на бэк и форварде. Вы ниогда не обучите модель под всю историю котировок, плюс вы предлагаете аж 3 независимых периода, а торговать на 4-м, это ерунда полная в случае торговли на на рынке, т.к. рынок меняется за это время. Поэтому, достаточно удостовериться что модель не переподогнана, на участке вне обучающей выборки, и все.

Переобучаю каждую неделю, пока вторую неделю стоит, +35%. То что на реале это о чем, это реал деньги )

Вам виднее на счет выборок.
 
pantural:
Скажите пожалуйста, какие Вы используете предикторы?
Один я уже описывал здесь это значение угла наклона линии регрессии и скидывал пример бота даже, остальные - секрет :)
 
Ivan Negreshniy:
Вы что, серьезно хотите создать модель рынка на годы вперёд...?

Да нет, конечно.

Я занят тем, чтобы получить некоторые гарантии на некоторое будущее. 

 
Maxim Dmitrievsky:


В цифрах всенорм, не нужно столько бесполезных выборок, обучающая и тестовая этого хватает, через ГА подбираются параметры, потом выбираю результаты, максимально похожие на бэк и форварде. Вы ниогда не обучите модель под всю историю котировок, плюс вы предлагаете аж 3 независимых периода, а торговать на 4-м, это ерунда полная в случае торговли на на рынке, т.к. рынок меняется за это время. Поэтому, достаточно удостовериться что модель не переподогнана, на участке вне обучающей выборки, и все.

Переобучаю каждую неделю, пока вторую неделю стоит, +35%. То что на реале это о чем, это реал деньги )

 У меня тоже два участка.

Первый участок: из него СЛУЧАЙНЫМ ОБРАЗОМ делается три выборки и на них учится-проверяется-проверяется. Последний участок, который следует за первым - здесь последовательный прогон, желательно тестером.

Совсем забыл, хотя ранее писал много раз.

Описанный выше шаг - это второй шаг.

Первый шаг - это отбор предикторов "имеющих отношение" к целевой переменной. Я могу доказать, что очень хорошие результаты дают те наборы предикторов, в которых превалируют предикторы вообще не имеющие никакого отношения к целевой переменной - шум. На шуме при обучении получается очень хорошие результаты. Причем на первом участке на всех трех частях, упомянутом выше, мне удавалось получить ошибку менее 10%, до 3%! А потом на втором участке получал совершенно произвольную ошибку.

Если начать отсеивать шумовые предикторы, ошибка увеличивается при обучении, но на втором участке уменьшается. Если избавится от шумовых предикторов, то получим примерно одинаковое значение ошибки. На моем наборе предикторов чуть меньше 30%  

 
не нужно обучать машины, в первую очередь нужно иметь железные нервы и связи в высших эшелонах власти, что бы прибыльно торговать
Причина обращения: