Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1325

 
Aleksey Vyazmikin:

Я использую для обучения CatBoost, там есть возможность останавливать обучение по контрольной (валидационной) выборке, т.е. параллельно происходит уменьшение ошибки на учебной выборке и сразу проверка на контрольной выборке как изменился результат на ней, если результат не улучшается на контрольной выборке заданное число деревьев, то обучение прекращается и все деревья до последнего улучшения отсекаются. Да хронология такая - обучаю 2014, а контроль обучения с 2015 до 2018, проверка результата на 2018. Поменять местами может и есть смысл, так-как выявляемые закономерности при обучении, все ж таки могут прекращать работать во времени и может лучше обучаться на данных, которые ближе к применению в реальности - вопрос открытый.

Что к примеру заметил у себя. Чем больший массив данных участвует в обучении, тем больше система становиться "тугой", т.е. она выдает меньше вероятностей исхода, почему так, ответ прозвучал у вас, потому что в определенны периоды одни модели дают положительный результат, и эти же модели за другой период времени дают отрицательный результат, в результате вы систему вводите в ступор, она как я сказал становиться "тугой", быть может более умной, но это не значит что умная система будет давать больше истинный результатов, боюсь пропорции останутся на том же уровне, просто система будет реже говорить вам свою точку зрения на текущую ситуацию.

 
Aleksey Vyazmikin:

Про бустинг лекция - была поновей (на питоне с кэтбустом в том числе, как вариантом) с этим же лектором - что т найти не могу


Интересно, что GBM задачу классификации решает регрессионными деревьями.

Кто-то в курсе? Др. методы бустинга (пакеты) так же делают?

 
Aleksey Vyazmikin:

И какой можно сделать вывод? Кажется, что оптимальным является объем 60%-70% валидационной выборки, т.е. обучение должно происходить на меньшей выборке, чем проверка модели. Но нельзя не выделить разбивка на 30%, там так же результат по всем показателям не плохой, и провальные совсем рядом 40% и 50%. Даже не знаю, что больше влияет объем выборки или её содержания, и как это установить...

Если 60-70% хороши и 30% хорошо, то есть вероятность случайного попадания в эти цифры.
Можно попробовать полностью повторить вычисления, если второй раз будет все то же - то можно считать закономерностью. (Для большей стат. заначимости раз 10 надо повторить).
 
Farkhat Guzairov:

Что к примеру заметил у себя. Чем больший массив данных участвует в обучении, тем больше система становиться "тугой", т.е. она выдает меньше вероятностей исхода, почему так, ответ прозвучал у вас, потому что в определенны периоды одни модели дают положительный результат, и эти же модели за другой период времени дают отрицательный результат, в результате вы систему вводите в ступор, она как я сказал становиться "тугой", быть может более умной, но это не значит что умная система будет давать больше истинный результатов, боюсь пропорции останутся на том же уровне, просто система будет реже говорить вам свою точку зрения на текущую ситуацию.

Я думаю, что в трейдинге лучше меньше сигналов, да поточней, а модели можно объединять в независимые ансамбли, тогда точность классификации останется на высоком уровне и полнота возрастет(число событий квалифицирующихся, как 1). Главное как-то приспособится генерировать отличные модели, опять же, как вариант, за счет разной разбивки выборки.

 
elibrarius:

Интересно, что GBM задачу классификации решает регрессионными деревьями.

Кто-то в курсе? Др. методы бустинга (пакеты) так же делают?

Делают так же из известных мне (упоминаемых в разных местах). Другого способа нет из-за особенности самого обучение. Поэтому я и говорил ранее, что последовательность деревьев, как мне кажется, может влиять на их вес в ответе, и именно это делает разумным рассмотрения ансамблей листьев и преобразования их в одно правило.

 
elibrarius:
Если 60-70% хороши и 30% хорошо, то есть вероятность случайного попадания в эти цифры.
Можно попробовать полностью повторить вычисления, если второй раз будет все то же - то можно считать закономерностью. (Для большей стат. заначимости раз 10 надо повторить).

Как повторить? Т.е. будет то ж самое, так-как seed фиксированный, можно взять новый seed - попробую попозже, посмотрим что выйдет.

С другой стороны, использовалось по 200 моделей на каждую выборку, что так же не мало.
 
никаких выводов из такого исследования на нестационарном рынке не получится
 
Maxim Dmitrievsky:
никаких выводов из такого исследования на нестационарном рынке не получится

Выборка то стационарна, разбивка для обучения менялась, но для независимой оценке оставалась прежней.

Разверните, пожалуйста, свою мысль.

 
Aleksey Vyazmikin:

Выборка то стационарна, разбивка для обучения менялась, но для независимой оценке оставалась прежней.

Разверните, пожалуйста, свою мысль.

это всего лишь выборочная оценка под конкретную ситуацию и конкретные условия

т.е. просто перебор вариантов, которые выпадают случайно и не будут воспроизводиться на других подвыборках

подробности см. в стат. анализе

 
повторите с др. seed, чтобы проверить - случайность или нет
Причина обращения: