Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3480

 
СанСаныч Фоменко #:

0.57/0.448 = 1.2723, т.е. разница в 27%. модель можно выбросить.

Я бы может и согласился, если бы мы о стационарных системах говорили и имели репрезентативную выборку. Иначе - это пустая эвристика, под которую можно легко подогнаться.

 
Aleksey Vyazmikin #:

При чём тут шум? Я упростил обучение для алгоритма. Алгоритм стал использовать меньше сплитов/деревьев для прихода к "тому же" результату.

перемешивание столобца зашумляет его. Вы же сами написали, что значительно ухудшился финансовый результат на двух остальных выборках

Какой же это тот же результат?

 
Forester #:
перемешивание столобца зашумляет его. Вы же сами написали, что значительно ухудшился финансовый результат на двух остальных выборках

Какой же это тот же результат?

Зашумление могло бы быть при случайном изменении. Тут мы, фактически, переименовываем информацию. Как известно, CatBoost делает сплиты по квантовой таблице, полученной единожды. Т.е. у нас получаются дискретные многогранные (по числу измерений) кубики с содержимым диапазоном значений. Дерево занимается тем, что Группирует их по одной из граний или набором - как они идут по порядку.

Изначально кубики разбросаны без порядка, а я их просто сразу сгруппировал.

Как я уже ранее показывал, вероятнось выбрать правильный кубик в пределах 20% в этой выборке. Так вот, получается, что при сложной структуре расположения кубиков приходится больше делать итераций, чем при упорядоченным, что случайно позволяет найти некие сложные зависимости, но ухудшает эффективность обучение. Эффективность тут - прирост показателя logloss от итерации к итерации.

По поводу результата - на выборке train все вполне хорошо даже в финансовом плане, а вот на выборках test и exam модель очень редко выдаёт вероятность больше 0,5, поэтому там в основном нули.

Попробую снизить темп обучения, но пока природа не совсем ясна этого явления, ведь по logloss результат сопоставим.

 
Aleksey Vyazmikin #:

Зашумление могло бы быть при случайном изменении. Тут мы, фактически, переименовываем информацию. Как известно, CatBoost делает сплиты по квантовой таблице, полученной единожды. Т.е. у нас получаются дискретные многогранные (по числу измерений) кубики с содержимым диапазоном значений. Дерево занимается тем, что Группирует их по одной из граний или набором - как они идут по порядку.

Между собой кубики/кванты изначально отсортированы. Вы меняете их порядок, т.е. перемешиваете. ООС вам это явно показывет. Закономерности не найдены. А трейн на любом мусоре обучится хорошо.

 
Forester #:

Между собой кубики/кванты изначально отсортированы. Вы меняете их порядок, т.е. перемешиваете. ООС вам это явно показывет. Закономерности не найдены. А трейн на любом мусоре обучится хорошо.

Обучение, это правила по выделению кубиков. Порядок их задан алгоритмом предиктора. От того, что я их поменял местами - информация не пропала. Мой алгоритм отыщет все кубики, а для дерева это становится важным изменением, так как алгоритм работает не с одним кубиком, а сразу с группой, и для него поменялось содержимое группы кубиков. Режа сплитами группы на подгруппы он будет выбирать разные изменения для разреза через сплит, так как статистика групп поменялась.

Нужна более насыщенная закономерностями выборка для проверки этой гипотезы.

 
Aleksey Vyazmikin #:

Обучение, это правила по выделению кубиков. Порядок их задан алгоритмом предиктора. От того, что я их поменял местами - информация не пропала. Мой алгоритм отыщет все кубики, а для дерева это становится важным изменением, так как алгоритм работает не с одним кубиком, а сразу с группой, и для него поменялось содержимое группы кубиков. Режа сплитами группы на подгруппы он будет выбирать разные изменения для разреза через сплит, так как статистика групп поменялась.

Нужна более насыщенная закономерностями выборка для проверки этой гипотезы.

Информация  перемешалась/рандомизировалась. Как в пермутации. Только там не группами перемешивают, а конкретно каждый элемент в столбце... что как бы выключает предиктор и потом сравнивают насколько изменилс результат модели, а это и есть оценка важности столбца.

Дело ваше, на что тратить ваше время. Больше по этой теме сказать нечего.
 
Forester #:
Информация  перемешалась/рандомизировалась.
Дело ваше, на что тратить ваше время. Больше по этой теме сказать нечего.

Вы понимаете, что поменялась только шкала измерения события?

 
Aleksey Vyazmikin #:

Вы понимаете, что поменялась только шкала измерения события?

Шкала поменялась при квантовании.
Вы их еще и переставляете местами. Т.е. нарушаете естественную сортировку.
 
Forester #:
Шкала поменялась при квантовании.
Вы их еще и переставляете местами. Т.е. нарушаете естественную сортировку.

Можете представить, что мы сделали преобразование через некую функцию - условную синусоиду. Функция одинакова на всех выборках. Это и изменило шкалу и порядок построения на этой шкале.

 

Увеличил темп обучения в 10 раз, появились модели, дающие на двух выборках уже вероятность свою больше 0,5.

На графике упорядочены модели по прибыли на выборке exam


Причина обращения: