Обсуждение статьи "Продвинутый ресемплинг и выбор CatBoost моделей брутфорс методом" - страница 4

 
Maxim Dmitrievsky:

это не поиск моделей в будущем, а поиск зависимостей в ряду. Последовательность не важна. Можно искать посередине и тестировать спереди и сзади, это ничего не изменит

это настолько просто понять, что не требует дальнейших объяснений

преимущество в том, что найденная закономерность может угасать со временем. В этом случае обучение на последних данных предпочтительно

Это не просто. Всегда кажется что чем ближе, тем вернее. Подмена понятия. На самом деле одинаково для задачи поиска закономерностей.)

 
Stanislav Korotky:

Это ж не абстрактный ряд. В нем есть очевидные "зависимости" (то же слово, но смысл другой - для понимания) слева направо (из прошлого в будущее), но не наоборот. Вряд ли найдутся научные публикации по прогнозированию котировок, где бы делали тесты на прошлом.

Если бы в признаках был линейный тренд или любая другая зависимость от времени, то было бы правильно. Модель из статьи никак не учитывает время, последовательность не важна

А если посмотреть более свежие эконометрические подходы типа бутстрапа или нейросетей, то там последовательности вообще перемешиваются. Т.е. нет никаких временных зависимостей.

 

В первую очередь необходимо провести кластеризацию исходных данных, включая метки классов

Думаю это приводит к подглядыванию.
Запустите на демо счете с сигналом, на месяц для проверки.

 
Stanislav Korotky:

Это ж не абстрактный ряд. В нем есть очевидные "зависимости" (то же слово, но смысл другой - для понимания) слева направо (из прошлого в будущее), но не наоборот. Вряд ли найдутся научные публикации по прогнозированию котировок, где бы делали тесты на прошлом.

По прогнозированию не встречал, а по исследованию то 13 лет на минутках 4 миллиона точек. Индекс СаР . С 84 по 96 год. Начало эконофизики. Доказывали его не стационарность, наличие СБ, и похожесть на физические процессы.

 
elibrarius:

Думаю это приводит к подглядыванию.
Запустите на демо счете с сигналом на месяц для проверки.

исходник бота приложен, можете тестировать

никакого подглядывания там нет

 
Maxim Dmitrievsky:

исходник бота приложен, можете тестировать

никакого подглядывания там нет

Подумал еще. Согласен.

Другой момент.
Вы из 50 случайных обучений выбираете ту, которая дает лучший результат на тесте. Это можно назвать подгонкой под тест. На новых данных может быть не так хорошо.
Тут скорее нужно усреднение со всех 50 моделей делать.
 
elibrarius:
Подумал еще. Согласен.

Другой момент.
Вы из 50 случайных обучений выбираете ту, которая дает лучший результат на тесте. Это можно назвать подгонкой под тест. На новых данных может быть не так хорошо.
Тут скорее нужно усреднение со всех 50 моделей делать.

я прогоняю потом еще один тест на более ранних данных, независимый. Если плохой результат, то выбрасываю

например, обучение делается всего за 2 месяца, модель отбирается за годичный период. Потом независимый тест - 5-10 лет.

в статье обозначил подход, но есть еще что улучшать

усреднение делать не вижу смысла
 
Maxim Dmitrievsky:

я прогоняю потом еще один тест на более ранних данных, независимый. Если плохой результат, то выбрасываю

в статье обозначил подход, но есть еще что улучшать

Самая худшая модель сливает? А средняя?

 
elibrarius:

Самая худшая модель сливает? А средняя?

по разному

 
Maxim Dmitrievsky:

по разному

Тогда точно нужно усреднять. Иначе на новых данных будет это "по разному"