Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2208
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Я попробовал расширить идею о приемлемости небольших выборок для GMM. Трейн 6 есяцев, тест 5 лет. Метки разбил на n частей фиксированного размера. Для каждой части создал свою модель GMM, нагенерил с каждой по 1000 образцов сложил в кучу и обучил катбуст. Подобрал фичи и получилось вот так :
Второй вариант, те же метки, с таким же разбиением , но с предварительным перемешиванием:
X = X.sample(frac=1.0)
В обоих случаях использовалась одна фиксированная целевая. При желании, я могу воспроизвести этот эксперимент. Я не силен в интерпретации таких явлений, возможно существует объяснение.
Я попробовал расширить идею о приемлемости небольших выборок для GMM. Трейн 6 есяцев, тест 5 лет. Метки разбил на n частей фиксированного размера. Для каждой части создал свою модель GMM, нагенерил с каждой по 1000 образцов сложил в кучу и обучил катбуст. Подобрал фичи и получилось вот так :
Второй вариант, те же метки, с таким же разбиением , но с предварительным перемешиванием:
В обоих случаях использовалась одна фиксированная целевая. При желании, я могу воспроизвести этот эксперимент. Я не силен в интерпретации таких явлений, возможно существует объяснение.
Извините, ребята, есть вопрос.
Какое количество весовых коэффициентов в ваших сетках, и на каком количестве сделок проходит обучение?
Хочу понять соотношение между этими количествами и поразмыслить о зависимости переобучаемости от этого отношения. Спасибо.
Это перемешивание перед гмм или перед бустом? Надо чекнуть баланс классов для трейн/тест. Может ноли попали в трейн а единицы в тест. Можно ещё попробовать отдельную кластеризацию по бай и селл меткам.
Перемешивание осуществляется перед созданием GMM.
Перед этим дропаю метки по условию:
это всегда приводит баланс классов к 1/1 с небольшими отклонениями:
В данном случае 115 меток были перемешаны, и разделены на 4 части. После на основе них было создано 4 модели GMM. C каждой семплится по 1000 меток и они объединяются в один датафрейм. После он разбивается пополам на трейн и тест.
Баланс классов семплов при этом немного отличался от идеального. Но в выборках трейна и теста было примерно одинаковое соотношение
Ниже приводится результаты моделирования с той же выборкой из 115 меток разбитой на 4 части, но без перемешивания. Баланс классов, конечно чуть лучше, но мне кажется это не занчительно влияет на результат.
Наверное глупо прозвучит, но мне кажется, что в ряду присутствует какая-то взаимосвязь от времени, которую находят модели GMM на разных участках ряда. Она исчезает если нарушить упорядоченность перемешав ряд.
Про отдельную кластеризацию не подумал, вечером попробую.
Перемешивание осуществляется перед созданием GMM.
Перед этим дропаю метки по условию:
это всегда приводит баланс классов к 1/1 с небольшими отклонениями:
В данном случае 115 меток были перемешаны, и разделены на 4 части. После на основе них было создано 4 модели GMM. C каждой семплится по 1000 меток и они объединяются в один датафрейм. После он разбивается пополам на трейн и тест.
Баланс классов семплов при этом немного отличался от идеального. Но в выборках трейна и теста было примерно одинаковое соотношение
Ниже приводится результаты моделирования с той же выборкой из 115 меток разбитой на 4 части, но без перемешивания. Баланс классов, конечно чуть лучше, но мне кажется это не занчительно влияет на результат.
Наверное глупо прозвучит, но мне кажется, что в ряду присутствует какая-то взаимосвязь от времени, которую находят модели GMM на разных участках ряда. Она исчезает если нарушить упорядоченность перемешав ряд.
Про отдельную кластеризацию не подумал, вечером попробую.
придется порисовать, так не сильно понятно.. Ну то, что распределения получаются разные при обоих случаях - факт. Плюс у вас уже удалена серийность. Скорее всего распределения получаются сильно неинформативными, а новые точки после семплинга начинают лежать непонятно где. Т.е. информация в ряде потеряна, да, т.к. котировки не независимы.
Или сделать на каком-то простом примере (не котировках) и сравнить потом.
придется порисовать, так не сильно понятно.. Ну то, что распределения получаются разные при обоих случаях - факт. Плюс у вас уже удалена серийность. Скорее всего распределения получаются сильно неинформативными, а новые точки после семплинга начинают лежать непонятно где. Т.е. информация в ряде потеряна, да, т.к. котировки не независимы.
Или сделать на каком-то простом примере (не котировках) и сравнить потом.
Максим, привет. давно я не заходил сюда... по поводу твоей статьи последней) поставил я все таки питон) пытаюсь разобраться, и у меня куча вопросов))) MARKUP это я так понимаю спред? Метки ты расставляешь просто сравниваю текущее значение с текущим + какое то рандомное число, в зависимости от знака > или < ставишь метку 1 или 0. правильно? Для теста ты ставишь markup=0.0? при трейне MARKUP=0,00001 вроде))) правильно?
Максим, привет. давно я не заходил сюда... по поводу твоей статьи последней) поставил я все таки питон) пытаюсь разобраться, и у меня куча вопросов))) MARKUP это я так понимаю спред? Метки ты расставляешь просто сравниваю текущее значение с текущим + какое то рандомное число, в зависимости от знака > или < ставишь метку 1 или 0. правильно? Для теста ты ставишь markup=0.0? при трейне MARKUP=0,00001 вроде))) правильно?
Привет. Да, все так. В тестере тот же маркап используется. Про статьи лучше, наверное, в статьях спрашивать. Чтобы в одном месте было
Я анализирую фидбэки и смотрю что можно улучшитьПривет. Да, все так. В тестере тот же маркап используется. Про статьи лучше, наверное, в статьях спрашивать. Чтобы в одном месте было
Я анализирую фидбэки и смотрю что можно улучшитьа ок))) просто работа работа))) + малой подрастает времени мало)))
Вопрос созрел. Когда-то написал нубский пост в блоге на тему расположения OOS...
Однако, последние изуверства заставили еще раз задуматься над следующей ситуацией.
Допустим, есть пять лет рэндомных котир (закономерностей нет). И после них два года таких, что воткни почти любую палку - профит будет расти.
Делаю обучение на первых пяти годах. Получаю на них прямую на северо-восток. Запускаю на OOS (два года после) - конечно, там такая же прямая.
Радоваться, что нашел закономерность - полный бред в этой ситуации. Как не обмануться подобным образом?
Очевидно, что это совсем дет.садовский вопрос в МО. Поэтому должен быть разобран на 100% вдоль и поперек. Кто в теме, прошу поделиться.