Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1329

 
Maxim Dmitrievsky:

Опять же, говорим о разных подходах

у вас обучение с учителем, т.к. вы изначально закладываете приор, у меня без учителя

Я помню. Разумеется, разные подходы. Еще раз, в этом (с учителем) не вижу никаких противопоказаний. Все реализуемо, при желании, если оно конечно появится.

Если только у вас не RNN без учителя, здесь все посложнее, и просто не знаю, не юзал. Кстати, что используете? М.б. говорили, но лопатить тему...

 
Yuriy Asaulenko:

Я помню. Разумеется, разные подходы. Еще раз, в этом (с учителем) не вижу никаких противопоказаний. Все реализуемо, при желании, если оно конечно появится.

Если только у вас не RNN без учителя, здесь все посложнее, и просто не знаю, не юзал. Кстати, что используете? М.б. говорили, но лопатить тему...

много чего, рнн еще не хватало )) потом сделаю

по основам статьи есть, но уже естественно дальше ушел

 
Maxim Dmitrievsky:

много чего, рнн еще не хватало )) потом сделаю

по основам статьи есть, но уже естественно дальше ушел

На распутье - направо пойдешь... и т.д. Тензорфлоу, оч неплохой функционал, но говорят, оч тягомотный. Пока только доки читал. Не юзали? 

 
Yuriy Asaulenko:

На распутье - направо пойдешь... и т.д. Тензорфлоу, оч неплохой функционал, но говорят, оч тягомотный. Пока только доки читал. Не юзали? 

тягомотный в плане? tf низкоуровневый, поверх theano ставится, использование tf.theano, тогда все проще

примеры разные смотрел, но разработки никакие не делал пока

2-я версия на подходе, уже доступна на сайте, там упрощено создание моделей
 
Maxim Dmitrievsky:

тягомотный в плане? tf низкоуровневый, поверх theano ставится, использование tf.theano, тогда все проще

примеры разные смотрел, но разработки никакие не делал пока

В плане скорости. Думаю, м.б. на scikit-learn пока остановиться, ЧЕЗ. MLP там неплохие.

 
Yuriy Asaulenko:

В плане скорости. Думаю, м.б. на scikit-learn пока остановиться, ЧЕЗ. MLP там неплохие.

не знаю, не думаю

пакетов дофига, стараюсь изучать только самые популярные и которые развиваются

sklearn это какая-то солянка

tf больше конструктор собственных архитектур

 
Yuriy Asaulenko:

НС очень не любят масштабирования. Обучена в диапазоне цен - 100-120, цена за пределы выйдет - все, абзац. Я просто все связанное с ценой сразу делю на саму цену, вычитаем единицу, и далее коэффициентами вгоняем переменные в нужный динам диапазон.

Значит и там и там нужна предобработка данных до приемлемой метрики. Я использую свой ATR с верхних TF и позиционирование цены в нем - получаются такие доминошки с насечками по уровням, цене присваивается номер уровня по Фибоначчи.

 

Закончил обработку моделей, seed с 201 по 401 - все остальное без изменений.

Таблица с результатами оценки баланса

Таблица с метрическими показателями

Таблица с числом моделей, соответствующих критериям отбора на независимой выборке


Таблица с числом моделей, соответствующих критерию отбора на всех трех выборках

Графики моделей (гифки в основном)

30%

40%

50%

60%

Похоже, что тенденция сохранилась в основном по всем показателям, ниже привожу таблицы дельт - стало-было, для сравнения изменений

По метрическим показателям разница вообще минимальна

Из собранных данных можно сделать вывод, что тенденция в целом сохранилась.

Меня больше всего озадачивает другой вопрос - почему графики очень похожи у разных моделей на разных выборках, кажется, что моделям удается поймать какую то очевидную закономерность, которая проявляется с частой периодичности и на разных размерах выборки (во всяком случае попадает этот кусок постоянно в окно), и именно эту закономерность эксплуатирует модель.

Для себя я сделал вывод, что вполне можно распределять от 30% до 70% процентов выборки из всех данных в пользу валидационного участка в поисках интересных моделей, но кажется что оптимальным всё же является 30%.

 
Aleksey Vyazmikin:

Меня больше всего озадачивает другой вопрос - почему графики очень похожи у разных моделей на разных выборках, кажется, что моделям удается поймать какую то очевидную закономерность, которая проявляется с частой периодичности и на разных размерах выборки (во всяком случае попадает этот кусок постоянно в окно), и именно эту закономерность эксплуатирует модель.

Для себя я сделал вывод, что вполне можно распределять от 30% до 70% процентов выборки из всех данных в пользу валидационного участка в поисках интересных моделей, но кажется что оптимальным всё же является 30%.

может потому, что у вас одна и та же модель но с разным seed? )) 

если модель рандомизирована то это не значит, сто нач. значение генератора будет сильно аффектировать результат

нормальные модели вообще почти не будут меняться, абсолютно случайные будут. Это как раз проверка на устойчивость.

вот все эти выводы можно было сделать вообще ничего не делая, никаких опытов, а чисто из теории.

30\70 чисто случайно полученные результаты. Вывод о том что в промежутке от 30 до 70, асимптотически приближается к 50. Просто подвыборка такая попалась 

 
Maxim Dmitrievsky:

может потому, что у вас одна и та же модель но с разным seed? )) 

если модель рандомизирована то это не значит, сто нач. значение генератора будет сильно аффектировать результат

нормальные модели вообще почти не будут меняться, абсолютно случайные будут. Это как раз проверка на устойчивость.

вот все эти выводы можно было сделать вообще ничего не делая, никаких опытов, а чисто из теории. 

Если внимательно посмотреть, то видно, что финансовый результат у моделей в одной выборке может сильно отличаться - от 5000 до 1500, т.е. значительно, а значит Seed всё ж таки оказывает влияние на модели. Предположу, что похожи именно отобранные модели (проверю), при этом у них немного разнятся участки прибыли, а вот флет по середине модели почти у всех, что и удивляет - ошибаются на одинаковых участках (аномалия в новых данных?).

Не понял высказывание "нормальные модели вообще почти не будут меняться, абсолютно случайные будут" - вторая часть изречения противоречит первой.

Maxim Dmitrievsky:

30\70 чисто случайно полученные результаты. Вывод о том что в промежутке от 30 до 70, асимптотически приближается к 50. Просто подвыборка такая попалась 

Вот в этом то и суть - случайный или нет, т.е. зависит от содержания выборки на этом участке или от объемов данных в выборках, это и нужно понять, что больше влияет.

Причина обращения: