Усреднение со всех 50 моделей делать не вижу смысла - Статьи и техническая библиотека по автоматическому трейдингу

Valeriy Yastremskiy 2020.11.24 13:23 #31

Maxim Dmitrievsky:

это не поиск моделей в будущем, а поиск зависимостей в ряду. Последовательность не важна. Можно искать посередине и тестировать спереди и сзади, это ничего не изменит

это настолько просто понять, что не требует дальнейших объяснений

преимущество в том, что найденная закономерность может угасать со временем. В этом случае обучение на последних данных предпочтительно

Это не просто. Всегда кажется что чем ближе, тем вернее. Подмена понятия. На самом деле одинаково для задачи поиска закономерностей.)

Maxim Dmitrievsky 2020.11.24 13:24 #32

Stanislav Korotky:

Это ж не абстрактный ряд. В нем есть очевидные "зависимости" (то же слово, но смысл другой - для понимания) слева направо (из прошлого в будущее), но не наоборот. Вряд ли найдутся научные публикации по прогнозированию котировок, где бы делали тесты на прошлом.

Если бы в признаках был линейный тренд или любая другая зависимость от времени, то было бы правильно. Модель из статьи никак не учитывает время, последовательность не важна

А если посмотреть более свежие эконометрические подходы типа бутстрапа или нейросетей, то там последовательности вообще перемешиваются. Т.е. нет никаких временных зависимостей.

Любой вопрос новичка, чтоб Машинное обучение в трейдинге: Стоимость 1 пункта!!!

Forester 2020.11.24 13:30 #33

В первую очередь необходимо провести кластеризацию исходных данных, включая метки классов

Думаю это приводит к подглядыванию.
Запустите на демо счете с сигналом, на месяц для проверки.

Valeriy Yastremskiy 2020.11.24 13:33 #34

Stanislav Korotky:

Это ж не абстрактный ряд. В нем есть очевидные "зависимости" (то же слово, но смысл другой - для понимания) слева направо (из прошлого в будущее), но не наоборот. Вряд ли найдутся научные публикации по прогнозированию котировок, где бы делали тесты на прошлом.

По прогнозированию не встречал, а по исследованию то 13 лет на минутках 4 миллиона точек. Индекс СаР . С 84 по 96 год. Начало эконофизики. Доказывали его не стационарность, наличие СБ, и похожесть на физические процессы.

От теории к практике Машинное обучение в трейдинге: Объемы, за разные года

Maxim Dmitrievsky 2020.11.24 13:33 #35

elibrarius:

Думаю это приводит к подглядыванию.
Запустите на демо счете с сигналом на месяц для проверки.

исходник бота приложен, можете тестировать

никакого подглядывания там нет

Forester 2020.11.24 14:05 #36

Maxim Dmitrievsky:

исходник бота приложен, можете тестировать

никакого подглядывания там нет

Подумал еще. Согласен.

Другой момент.
Вы из 50 случайных обучений выбираете ту, которая дает лучший результат на тесте. Это можно назвать подгонкой под тест. На новых данных может быть не так хорошо.
Тут скорее нужно усреднение со всех 50 моделей делать.

Машинное обучение в трейдинге: Коррекция евро доллар причина Бэктестинг/оптимизация

Maxim Dmitrievsky 2020.11.24 14:07 #37

elibrarius:
Подумал еще. Согласен.

Другой момент.
Вы из 50 случайных обучений выбираете ту, которая дает лучший результат на тесте. Это можно назвать подгонкой под тест. На новых данных может быть не так хорошо.
Тут скорее нужно усреднение со всех 50 моделей делать.

я прогоняю потом еще один тест на более ранних данных, независимый. Если плохой результат, то выбрасываю

например, обучение делается всего за 2 месяца, модель отбирается за годичный период. Потом независимый тест - 5-10 лет.

в статье обозначил подход, но есть еще что улучшать

усреднение делать не вижу смысла

Стратегия BLODIUM - Работа Обсуждение статьи "Метамодели в Машинное обучение в трейдинге:

Forester 2020.11.24 14:08 #38

Maxim Dmitrievsky:

я прогоняю потом еще один тест на более ранних данных, независимый. Если плохой результат, то выбрасываю

в статье обозначил подход, но есть еще что улучшать

Самая худшая модель сливает? А средняя?

Maxim Dmitrievsky 2020.11.24 14:09 #39

elibrarius:

Самая худшая модель сливает? А средняя?

по разному

Forester 2020.11.24 14:10 #40

Maxim Dmitrievsky:

по разному

Тогда точно нужно усреднять. Иначе на новых данных будет это "по разному"

Обсуждение статьи "Продвинутый ресемплинг и выбор CatBoost моделей брутфорс методом" - страница 4