Обсуждение статьи "Продвинутый ресемплинг и выбор CatBoost моделей брутфорс методом" - страница 2

Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Интересная статья.
Сложилось ощущение, что таким хитрым ходом со случайным распределением и генерацией псевдовыборки мы просто находим похожие зависимости из периода обучения, значимые на тесте.
Какой процент моделей не проходят тест?
Интересно было бы добавить третью выборку - пусть на первой мы учимся, отбираем годные результаты с учетом теста, а на экзаменационной проверяем результат отбора.
Главный сомнительный момент - обучение на последних данных и тестирование на более старых. Это в некоторой степени аналогично заглядыванию в будущее: последние актуальные модели учитывают в себе что-то из более ранних моделей (у участников рынка ведь есть память), а вот в обратную сторону более сложно предсказать будущее. Думаю, что если перезапустить алгоритм каноническим способом (обучение на старых данных, тестирование на новых - это больше похоже на реальность), результат получится не столь хороший.
Смотря что считать закономерностью, если это порядок следования приращений, привязанный к времени то это сезонная закономерность поведения приращений, если без привязки, то одинаковая последовательность приращений с некой свободой в точности.
И смотря что считать подгонкой. Если заведомо одинаковые ряды, то это подгонка, но цель теста (без разницы с какой стороны) проверка результата на не одинаковых участках.
А логика обучения на ближнем периоде логична, но она одинакова, если мы тестим вглубь истории, то результат должен быть одинаков, если обучать в глубине истории, а тестить в ближнем периоде.
Мы всего лишь подтверждаем гипотезу, что закономерности есть и на тестовых участках и на участках обучения.
Подгонка - если предиктор(лист или аналог) классифицировал малое число случаев, менее 1% от наблюдений - это я поясняю, что для меня подгонка.
Но каким образом мы можем найти похожие зависимости, если рынок случаен? Ответ - никаким, только подмешав прошлые данные в обучение. А здесь ничего не подмешивается. Можно добавить хоть 10-ю выборку, или сразу тестировать в МТ5 на новых данных.
Я понимаю, что не подмешивается. Я не знаю Питон, но мне кажется, что оценка модели происходит с 2015 года по 2020, верно?
Я скорей о корректности критерия оценки, на сколько он сможет помочь отобрать модель, которая будет работать вне тестовой выборки по которой происходил отбор.
Я понимаю, что не подмешивается. Я не знаю Питон, но мне кажется, что оценка модели происходит с 2015 года по 2020, верно?
Я скорей о корректности критерия оценки, на сколько он сможет помочь отобрать модель, которая будет работать вне тестовой выборки по которой происходил отбор.
Каждый может оценивать так, как хочет. Я считаю подход в статье вполне нормальным. Обычным. Если есть какие-нибудь другие сверхгалактические технологии тестирования то дайте знать, пожалуйста.
Без питона, к сожалению, машинного обучения почти не бывает.. придётся изучать рано или поздно, благо он очень простой )
Каждый может оценивать так, как хочет. Я считаю подход в статье вполне нормальным. Обычным. Если есть какие-нибудь другие сверхгалактические технологии тестирования то дайте знать, пожалуйста.
Подход в статье интересный, тут спору нет.
А сверхгалактические технологии будем изобретать :)
Думаю, что можно посмотреть на значимость предикторов и по числу, скажем до 1% и сравнить этот показатель в разных моделях, где число меньше, там вероятность работы модели больше, так как она обобщила больше информации - как то в этом ключе надо подумать.
Я понимаю, что не подмешивается. Я не знаю Питон, но мне кажется, что оценка модели происходит с 2015 года по 2020, верно?
Я скорей о корректности критерия оценки, на сколько он сможет помочь отобрать модель, которая будет работать вне тестовой выборки по которой происходил отбор.
Настолько, насколько ряды будут похожи. Вероятность, что поведение ряда вне тестовой выборки отличается настолько, что найденные закономерности пропадут, есть. Но она конечна и на малом временном участке мала.
А помочь он не может.
Настолько, насколько ряды будут похожи. Вероятность, что поведение ряда вне тестовой выборки отличается настолько, что найденные закономерности пропадут, есть. Но она конечна и на малом временном участке мала.
А помочь он не может.
Поэтому и не хватает статистической информации мне, допустим изучили 1000 моделей и 5% из них показали хороший профит с 2015 года, при этом нужно ещё оценить похожесть моделей между собой, что сложней, но информативней.
Поэтому и не хватает статистической информации мне, допустим изучили 1000 моделей и 5% из них показали хороший профит с 2015 года, при этом нужно ещё оценить похожесть моделей между собой, что сложней, но информативней.
Всего не напишешь. Если об этом -то да. Если условия подобраны хорошо, то в бутфорс цикле получается много хороших моделей и мало плохих. Остается выбрать лучшую. Т.е. это не одна случайная модель попалась.
В статье приведены 2 модели из петли обучения на 20 или 50 моделей (уже не помню), проходящие тест. А прибыльных там, на самом деле, больше.