На выборке train все вполне хорошо даже в финансовом плане - Общее обсуждение

Aleksey Vyazmikin 2024.04.21 16:06 #34791

СанСаныч Фоменко #:

0.57/0.448 = 1.2723, т.е. разница в 27%. модель можно выбросить.

Я бы может и согласился, если бы мы о стационарных системах говорили и имели репрезентативную выборку. Иначе - это пустая эвристика, под которую можно легко подогнаться.

Forester 2024.04.21 16:14 #34792

Aleksey Vyazmikin #:

При чём тут шум? Я упростил обучение для алгоритма. Алгоритм стал использовать меньше сплитов/деревьев для прихода к "тому же" результату.

перемешивание столобца зашумляет его. Вы же сами написали, что значительно ухудшился финансовый результат на двух остальных выборках

Какой же это тот же результат?

Aleksey Vyazmikin 2024.04.21 17:06 #34793

Forester #:
перемешивание столобца зашумляет его. Вы же сами написали, что значительно ухудшился финансовый результат на двух остальных выборках

Какой же это тот же результат?

Зашумление могло бы быть при случайном изменении. Тут мы, фактически, переименовываем информацию. Как известно, CatBoost делает сплиты по квантовой таблице, полученной единожды. Т.е. у нас получаются дискретные многогранные (по числу измерений) кубики с содержимым диапазоном значений. Дерево занимается тем, что Группирует их по одной из граний или набором - как они идут по порядку.

Изначально кубики разбросаны без порядка, а я их просто сразу сгруппировал.

Как я уже ранее показывал, вероятнось выбрать правильный кубик в пределах 20% в этой выборке. Так вот, получается, что при сложной структуре расположения кубиков приходится больше делать итераций, чем при упорядоченным, что случайно позволяет найти некие сложные зависимости, но ухудшает эффективность обучение. Эффективность тут - прирост показателя logloss от итерации к итерации.

По поводу результата - на выборке train все вполне хорошо даже в финансовом плане, а вот на выборках test и exam модель очень редко выдаёт вероятность больше 0,5, поэтому там в основном нули.

Попробую снизить темп обучения, но пока природа не совсем ясна этого явления, ведь по logloss результат сопоставим.

Есть ли закономерность в Группировка листьев - требуются Обсуждение статьи "Random Decision

Forester 2024.04.21 17:18 #34794

Aleksey Vyazmikin #:

Зашумление могло бы быть при случайном изменении. Тут мы, фактически, переименовываем информацию. Как известно, CatBoost делает сплиты по квантовой таблице, полученной единожды. Т.е. у нас получаются дискретные многогранные (по числу измерений) кубики с содержимым диапазоном значений. Дерево занимается тем, что Группирует их по одной из граний или набором - как они идут по порядку.

Между собой кубики/кванты изначально отсортированы. Вы меняете их порядок, т.е. перемешиваете. ООС вам это явно показывет. Закономерности не найдены. А трейн на любом мусоре обучится хорошо.

Aleksey Vyazmikin 2024.04.21 18:02 #34795

Forester #:

Между собой кубики/кванты изначально отсортированы. Вы меняете их порядок, т.е. перемешиваете. ООС вам это явно показывет. Закономерности не найдены. А трейн на любом мусоре обучится хорошо.

Обучение, это правила по выделению кубиков. Порядок их задан алгоритмом предиктора. От того, что я их поменял местами - информация не пропала. Мой алгоритм отыщет все кубики, а для дерева это становится важным изменением, так как алгоритм работает не с одним кубиком, а сразу с группой, и для него поменялось содержимое группы кубиков. Режа сплитами группы на подгруппы он будет выбирать разные изменения для разреза через сплит, так как статистика групп поменялась.

Нужна более насыщенная закономерностями выборка для проверки этой гипотезы.

Группировка листьев - требуются Есть ли закономерность в Как получить текущее время

Forester 2024.04.21 18:09 #34796

Aleksey Vyazmikin #:

Обучение, это правила по выделению кубиков. Порядок их задан алгоритмом предиктора. От того, что я их поменял местами - информация не пропала. Мой алгоритм отыщет все кубики, а для дерева это становится важным изменением, так как алгоритм работает не с одним кубиком, а сразу с группой, и для него поменялось содержимое группы кубиков. Режа сплитами группы на подгруппы он будет выбирать разные изменения для разреза через сплит, так как статистика групп поменялась.

Нужна более насыщенная закономерностями выборка для проверки этой гипотезы.

Информация перемешалась/рандомизировалась. Как в пермутации. Только там не группами перемешивают, а конкретно каждый элемент в столбце... что как бы выключает предиктор и потом сравнивают насколько изменилс результат модели, а это и есть оценка важности столбца.

Дело ваше, на что тратить ваше время. Больше по этой теме сказать нечего.

Как из TimeCurrent() вычесть Интересное и Юмор Эконометрика: прогноз по модели

Aleksey Vyazmikin 2024.04.21 18:12 #34797

Forester #:
Информация перемешалась/рандомизировалась.
Дело ваше, на что тратить ваше время. Больше по этой теме сказать нечего.

Вы понимаете, что поменялась только шкала измерения события?

Forester 2024.04.21 18:15 #34798

Aleksey Vyazmikin #:

Вы понимаете, что поменялась только шкала измерения события?

Шкала поменялась при квантовании.
Вы их еще и переставляете местами. Т.е. нарушаете естественную сортировку.

Aleksey Vyazmikin 2024.04.21 18:22 #34799

Forester #:
Шкала поменялась при квантовании.
Вы их еще и переставляете местами. Т.е. нарушаете естественную сортировку.

Можете представить, что мы сделали преобразование через некую функцию - условную синусоиду. Функция одинакова на всех выборках. Это и изменило шкалу и порядок построения на этой шкале.

Aleksey Vyazmikin 2024.04.21 18:43 #34800

Увеличил темп обучения в 10 раз, появились модели, дающие на двух выборках уже вероятность свою больше 0,5.

На графике упорядочены модели по прибыли на выборке exam

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3480