Обсуждение статьи "Градиентный бустинг (CatBoost) в задачах построения торговых систем. Наивный подход" - страница 4

 
Valeriy Yastremskiy:

Даже если пересекаются, все равно тема достаточно сложная, поэтому разные разъяснения темы в тему будут)))

А мало вопросов задают - даже тут, когда Максим показал фокус с частичной потерей памяти :)

 
Rorschach:

Прикольно, думал раз такое низкое матожидание, то тестерный грааль. Прогнал по Саберу, на кастомном символе, почти такой же результат.

Проверил 17 год, там похожий аптренд, сливает.

Это такой удачный кусок истории попался или за прошлые года тоже можно получить такую картинку? Знаю, на тесте сливает, но там совсем другой рынок был.

На 4 ско проверил, результат значимый. Самое прикольное ниразу Шарпа больше 3 не видел, такое вообще бывает

не уверен, что правильно понял вопрос. Удачный кусок обучения? на любом такая картина

с этим никаких проблем, проблемы с генерализацией для новых данных

по поводу данных Сабера - насколько понимаю, не каждая валютная пара подходит и он делает оптимизацию, т.е. перебирает модели

Чисто в теории.. если долго случайно семплить и переобучать, то можно найти хорошую модель. На практике получал X2 оос +-, т.е. на новых данных работало столько же сколько трейн\валид, по времени. Иногда чуть больше.

желательно делать где-нибудь в облаке, ноутбук не позволяет

 
Maxim Dmitrievsky:

не уверен, что правильно понял вопрос. Удачный кусок обучения? на любом такая картина

с этим никаких проблем, проблемы с генерализацией для новых данных

по поводу данных Сабера - насколько понимаю, не каждая валютная пара подходит и он делает оптимизацию, т.е. перебирает модели

Чисто в теории.. если долго случайно семплить и переобучать, то можно найти хорошую модель. На практике получал X2 оос +-, т.е. на новых данных работало столько же сколько трейн\валид, по времени. Иногда чуть больше.

желательно делать где-нибудь в облаке, ноутбук не позволяет

Что по терминам не догоняю, перебирает параметры ТС случайным образом, делает прогоны и пытается найти область лучших наборов параметров для результата ТС. Это оптимизация. Там нет модели. Модели в НС с МО.

 
Valeriy Yastremskiy:

Что по терминам не догоняю, перебирает параметры ТС случайным образом, делает прогоны и пытается найти область лучших наборов параметров для результата ТС. Это оптимизация. Там нет модели. Модели в НС с МО.

тс с набором параметров это модель

 
Aleksey Vyazmikin:

А мало вопросов задают - даже тут, когда Максим показал фокус с частичной потерей памяти :)

Что за потеря памяти?

 
elibrarius:

Что за потеря памяти?

Здесь мы создаем память о прошлых движениях с привязкой к метке:

На финальном этапе создаются дополнительные колонки со смещенными рядами на глубину look_back, что означает добавление дополнительных (запаздывающих, лаговых) признаков в модель.

Дальше перемешиваем:

Разобьём данные на два датасета равной длины, предварительно случайно перемешав обучающие примеры.

Предположим, что перемешивание равномерное, значит при обучении мы получили информацию в колонках на половине выборке о прошлых и настоящих ретурнах. На относительно маленьком периоде, где таким образом можно вписаться в волатильность это работает за счет знаний о рынке, но как только она существенно изменится - модель не сможет работать. Тут, мне показалось как раз эффект памяти получился, а не выявление генеральной закономерности. Максим, поправьте, если иначе это воспринимаете.

 
Aleksey Vyazmikin:

Здесь мы создаем память о прошлых движениях с привязкой к метке:

Дальше перемешиваем:

Предположим, что перемешивание равномерное, значит при обучении мы получили информацию в колонках на половине выборке о прошлых и настоящих ретурнах. На относительно маленьком периоде, где таким образом можно вписаться в волатильность это работает за счет знаний о рынке, но как только она существенно изменится - модель не сможет работать. Тут, мне показалось как раз эффект памяти получился, а не выявление генеральной закономерности. Максим, поправьте, если иначе это воспринимаете.

Если взглянуть на сами признаки - в них есть серийная корреляция (автокорреляция), если посмотреть на метки - то же самое. Серийная корреляция приводит к неправильной оценке модели, неправильному обучению. Грубый пример (а может и не грубый) - переобучение на волатильность, да. Перемешивание это примитивный способ немного раздробить серийность, а перемешивание трейн и тест это небольшая балансировка данных в обоих наборах. Этим вопросом нужно заниматься более серьезно, а не таким примитивным способом, чему я и хотел посвятить след. статью. Т.к. это отдельная, довольно большая тема. 
 
Maxim Dmitrievsky:
Если взглянуть на сами признаки - в них есть серийная корреляция (автокорреляция), если посмотреть на метки - то же самое. Серийная корреляция приводит к неправильной оценке модели, неправильному обучению. Грубый пример (а может и не грубый) - переобучение на волатильность, да. Перемешивание это примитивный способ немного раздробить серийность, а перемешивание трейн и тест это небольшая балансировка данных в обоих наборах. Этим вопросом нужно заниматься более серьезно, а не таким примитивным способом, чему я и хотел посвятить след. статью. Т.к. это отдельная, довольно большая тема. 

Это будет интересная статья, если в ней будет решен вопрос о возможности перемешивания выборок вообще исходя из их похожести.

На сколько я понимаю, если выборки похожи, то можно, а если существенно отличаются, то нет. В нашем случае мы работаем с изменяющемся рынком, а тогда вопрос возможности перемешивания определяется интервалом времени... Хотелось бы увидеть по результату новой статьи конкретный цифровой критерий оценки похожести двух выборок с проверкой теории о допустимости их перемешивания. Информация к размышлению.

 
Aleksey Vyazmikin:

Здесь мы создаем память о прошлых движениях с привязкой к метке:

Дальше перемешиваем:

Предположим, что перемешивание равномерное, значит при обучении мы получили информацию в колонках на половине выборке о прошлых и настоящих ретурнах. На относительно маленьком периоде, где таким образом можно вписаться в волатильность это работает за счет знаний о рынке, но как только она существенно изменится - модель не сможет работать. Тут, мне показалось как раз эффект памяти получился, а не выявление генеральной закономерности. Максим, поправьте, если иначе это воспринимаете.

Это просто N приращений внутри скользящего окна.
Maxim Dmitrievsky:
Если взглянуть на сами признаки - в них есть серийная корреляция (автокорреляция), если посмотреть на метки - то же самое. Серийная корреляция приводит к неправильной оценке модели, неправильному обучению. Грубый пример (а может и не грубый) - переобучение на волатильность, да. Перемешивание это примитивный способ немного раздробить серийность, а перемешивание трейн и тест это небольшая балансировка данных в обоих наборах. Этим вопросом нужно заниматься более серьезно, а не таким примитивным способом, чему я и хотел посвятить след. статью. Т.к. это отдельная, довольно большая тема. 
Перемешивание train набора никак не изменяет древовидную модель. Дерево будет сортировать каждый столбец. Результат сортировки перемешанных и не перемешанных данных одинаков.
Перемешивание  трейна с тестом на мой взгляд делать не нужно, о чем я писал выше.
 
elibrarius:
Это просто N приращений внутри скользящего окна. Перемешивание train набора никак не изменяет древовидную
Я знаю