Попробуйте попробовать повторить вычисления, если результат не улучшается на контрольной выборке заданное число деревьев - Общее обсуждение

Farkhat Guzairov 2019.02.13 07:51 #13241

Aleksey Vyazmikin:

Я использую для обучения CatBoost, там есть возможность останавливать обучение по контрольной (валидационной) выборке, т.е. параллельно происходит уменьшение ошибки на учебной выборке и сразу проверка на контрольной выборке как изменился результат на ней, если результат не улучшается на контрольной выборке заданное число деревьев, то обучение прекращается и все деревья до последнего улучшения отсекаются. Да хронология такая - обучаю 2014, а контроль обучения с 2015 до 2018, проверка результата на 2018. Поменять местами может и есть смысл, так-как выявляемые закономерности при обучении, все ж таки могут прекращать работать во времени и может лучше обучаться на данных, которые ближе к применению в реальности - вопрос открытый.

Что к примеру заметил у себя. Чем больший массив данных участвует в обучении, тем больше система становиться "тугой", т.е. она выдает меньше вероятностей исхода, почему так, ответ прозвучал у вас, потому что в определенны периоды одни модели дают положительный результат, и эти же модели за другой период времени дают отрицательный результат, в результате вы систему вводите в ступор, она как я сказал становиться "тугой", быть может более умной, но это не значит что умная система будет давать больше истинный результатов, боюсь пропорции останутся на том же уровне, просто система будет реже говорить вам свою точку зрения на текущую ситуацию.

Рыночный этикет или правила Форекс сигналы [ВНИМАНИЕ, ТЕМА ЗАКРЫТА!] Любой

Forester 2019.02.13 08:02 #13242

Aleksey Vyazmikin:

Про бустинг лекция - была поновей (на питоне с кэтбустом в том числе, как вариантом) с этим же лектором - что т найти не могу

Интересно, что GBM задачу классификации решает регрессионными деревьями.

Кто-то в курсе? Др. методы бустинга (пакеты) так же делают?

Forester 2019.02.13 08:12 #13243

Aleksey Vyazmikin:

И какой можно сделать вывод? Кажется, что оптимальным является объем 60%-70% валидационной выборки, т.е. обучение должно происходить на меньшей выборке, чем проверка модели. Но нельзя не выделить разбивка на 30%, там так же результат по всем показателям не плохой, и провальные совсем рядом 40% и 50%. Даже не знаю, что больше влияет объем выборки или её содержания, и как это установить...

Если 60-70% хороши и 30% хорошо, то есть вероятность случайного попадания в эти цифры.
Можно попробовать полностью повторить вычисления, если второй раз будет все то же - то можно считать закономерностью. (Для большей стат. заначимости раз 10 надо повторить).

Проверка Обсуждение статьи "MQL5 Cloud Порядок выполнения init()

Aleksey Vyazmikin 2019.02.13 08:24 #13244

Farkhat Guzairov:

Что к примеру заметил у себя. Чем больший массив данных участвует в обучении, тем больше система становиться "тугой", т.е. она выдает меньше вероятностей исхода, почему так, ответ прозвучал у вас, потому что в определенны периоды одни модели дают положительный результат, и эти же модели за другой период времени дают отрицательный результат, в результате вы систему вводите в ступор, она как я сказал становиться "тугой", быть может более умной, но это не значит что умная система будет давать больше истинный результатов, боюсь пропорции останутся на том же уровне, просто система будет реже говорить вам свою точку зрения на текущую ситуацию.

Я думаю, что в трейдинге лучше меньше сигналов, да поточней, а модели можно объединять в независимые ансамбли, тогда точность классификации останется на высоком уровне и полнота возрастет(число событий квалифицирующихся, как 1). Главное как-то приспособится генерировать отличные модели, опять же, как вариант, за счет разной разбивки выборки.

Есть ли закономерность в Обсуждение статьи "Продвинутый ресемплинг Любые вопросы новичков по

Aleksey Vyazmikin 2019.02.13 08:27 #13245

elibrarius:

Интересно, что GBM задачу классификации решает регрессионными деревьями.

Кто-то в курсе? Др. методы бустинга (пакеты) так же делают?

Делают так же из известных мне (упоминаемых в разных местах). Другого способа нет из-за особенности самого обучение. Поэтому я и говорил ранее, что последовательность деревьев, как мне кажется, может влиять на их вес в ответе, и именно это делает разумным рассмотрения ансамблей листьев и преобразования их в одно правило.

Ошибки, баги, вопросы Мультитаймфреймовые индикаторы Вопросы от начинающих MQL5

Aleksey Vyazmikin 2019.02.13 08:28 #13246

elibrarius:
Если 60-70% хороши и 30% хорошо, то есть вероятность случайного попадания в эти цифры.
Можно попробовать полностью повторить вычисления, если второй раз будет все то же - то можно считать закономерностью. (Для большей стат. заначимости раз 10 надо повторить).

Как повторить? Т.е. будет то ж самое, так-как seed фиксированный, можно взять новый seed - попробую попозже, посмотрим что выйдет.

С другой стороны, использовалось по 200 моделей на каждую выборку, что так же не мало.

Медленная оптимизация советника MT FOREX - Тенденции, прогнозы Обсуждение статьи "Кластеризация временных

Maxim Dmitrievsky 2019.02.13 08:57 #13247

никаких выводов из такого исследования на нестационарном рынке не получится

Aleksey Vyazmikin 2019.02.13 08:59 #13248

Maxim Dmitrievsky:
никаких выводов из такого исследования на нестационарном рынке не получится

Выборка то стационарна, разбивка для обучения менялась, но для независимой оценке оставалась прежней.

Разверните, пожалуйста, свою мысль.

Maxim Dmitrievsky 2019.02.13 09:10 #13249

Aleksey Vyazmikin:

Выборка то стационарна, разбивка для обучения менялась, но для независимой оценке оставалась прежней.

Разверните, пожалуйста, свою мысль.

это всего лишь выборочная оценка под конкретную ситуацию и конкретные условия

т.е. просто перебор вариантов, которые выпадают случайно и не будут воспроизводиться на других подвыборках

подробности см. в стат. анализе

Forester 2019.02.13 09:14 #13250

повторите с др. seed, чтобы проверить - случайность или нет

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1325