Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2128

 
Maxim Dmitrievsky:
мультикласса нет, насколько понял 

Ещё нет регрессии.

 
Maxim Dmitrievsky:
Ну я если сделаю, то это будет а виде парсера обученных моделей с питона в mql. Пока не горит, но может понадобится.

Да не важно, я могу сохранять модели и для питона.

Maxim Dmitrievsky:
А регрессия нафига?

Может быть полезна для моделей, работающий на установку стопов. Да и МАшку иногда нужно спрогнозировать через десяток баров :)

Maxim Dmitrievsky:
Какие фичи/преобразования дают хороший результат, из ваших?

Результат ценности предиктора зависит от целевой :) Сейчас как раз ставлю эксперимент по отбору лучших уровней квантования, те предикторы, что не прошли минимальный порог - отсеиваются. Пока рано говорить, но первые результаты положительны. Процесс долгий в однопоток - более суток. Нужно использовать больше критериев для оценки квантовых уровней - этим займусь - идея в том, что надо копать там, где есть сигнал. Дальше буду брать больше участки, фильтровать выборку и учится только там, где есть отклик - наверное уже генетическое дерево будет работать - добывать листья.

Maxim Dmitrievsky:
Я сделал интересную штуку, могу преобразовать любой датасет, размеченный или без меток, улучшив его

Это интересно - можно попробовать на том, что я ссылку выкладывал. Там правда есть ошибка в ряде предикторов (при сохранении писались как int, а не double - убрал свое квантование и забыл), но для относительного сравнения значения не имеет.

Кстати, если нужно посчитать что относительно тяжелое - могу посчитать - сейчас есть возможность.

 
Aleksey Vyazmikin:

Это интересно - можно попробовать на том, что я ссылку выкладывал. Там правда есть ошибка в ряде предикторов (при сохранении писались как int, а не double - убрал свое квантование и забыл), но для относительного сравнения значения не имеет.

Кстати, если нужно посчитать что относительно тяжелое - могу посчитать - сейчас есть возможность.

да пока не надо считать.. я все искал очень лаконичное развитие своего подхода и наткнулся на что-то интересное.. Вернее, не то чтобы раньше не знал, просто не подумал использовать.. а тут как-то паззлы сложились

это не панацея, но интересный результат дает. Позже будет видно

 
Maxim Dmitrievsky:

да пока не надо считать.. я все искал очень лаконичное развитие своего подхода и наткнулся на что-то интересное.. Вернее, не то чтобы раньше не знал, просто не подумал использовать.. а тут как-то паззлы сложились

это не панацея, но интересный результат дает. Позже будет видно

Жду с интересом!

 
Maxim Dmitrievsky:
Спред не удаётся побороть после простой декорреляции, но модель более устойчивая на новых данных без спреда. Любая модель, заоверфиченная на серийность, льёт без спреда на н.д, но на трейне гораздо лучше первой (пашет и со спредом). Это явно показывает переобучение именно на серийность и ни на что другое. Я понимаю, что это сложно понять, но это так 🤣 Если посмотришь на картинки ещё раз, то увидишь более высокие пики распределений и, может быть, хвосты, на первой. Это серийность, волатильность, как угодно. Она почти сразу же меняется на новых данных, отсюда оверфит. На второй нижней картинке этого нет, там все, что осталось, и в этом мусоре приходится искать Альфу, которая побьет спред. Просто посмотрите на свои данные и удалите хотя бы серийность, или как-то трансформируйте ее, чтобы убрать хвосты. А потом посмотрите на распределения классов того, что осталось, есть ли там нормальные группы кластеров или полный рэндом как у меня. Так можно визуально даже понять рабочий датасет или мусор. И потом можно мешать валидацию с трейном, это ни на что не повлияет. А ты говоришь «просто картинка»

надо Федя, надо!

 
Вы роботы?
День и ночь работаете без сна и отдыха ))))
 
elibrarius:
Вы роботы?
День и ночь работаете без сна и отдыха ))))
Кнопать это не мешки таскать 
 
Renat Akhtyamov:

надо Федя, надо!

:))))

 
elibrarius:
Вы роботы?
День и ночь работаете без сна и отдыха ))))

Часовые пояса ... но все равно впечатляет))))

 
elibrarius:

знаков 7 хватит

Вот гистограмма по балансу - синим новые модели, красным старые.

Все настройки одинаковы.

Значимость предикторов



Модели используют время по максимуму. Хорошо это или плохо - сложно сказать, но вроде как плохо, когда какой либо предиктор получает преимущество за счет похожести на аналоги.

Recall

Precision

В итоге - разница есть, конечно не большая, но всё же.

Балансик неплохой.