Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3480
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
0.57/0.448 = 1.2723, т.е. разница в 27%. модель можно выбросить.
Я бы может и согласился, если бы мы о стационарных системах говорили и имели репрезентативную выборку. Иначе - это пустая эвристика, под которую можно легко подогнаться.
При чём тут шум? Я упростил обучение для алгоритма. Алгоритм стал использовать меньше сплитов/деревьев для прихода к "тому же" результату.
Какой же это тот же результат?
перемешивание столобца зашумляет его. Вы же сами написали, что значительно ухудшился финансовый результат на двух остальных выборках
Какой же это тот же результат?
Зашумление могло бы быть при случайном изменении. Тут мы, фактически, переименовываем информацию. Как известно, CatBoost делает сплиты по квантовой таблице, полученной единожды. Т.е. у нас получаются дискретные многогранные (по числу измерений) кубики с содержимым диапазоном значений. Дерево занимается тем, что Группирует их по одной из граний или набором - как они идут по порядку.
Изначально кубики разбросаны без порядка, а я их просто сразу сгруппировал.
Как я уже ранее показывал, вероятнось выбрать правильный кубик в пределах 20% в этой выборке. Так вот, получается, что при сложной структуре расположения кубиков приходится больше делать итераций, чем при упорядоченным, что случайно позволяет найти некие сложные зависимости, но ухудшает эффективность обучение. Эффективность тут - прирост показателя logloss от итерации к итерации.
По поводу результата - на выборке train все вполне хорошо даже в финансовом плане, а вот на выборках test и exam модель очень редко выдаёт вероятность больше 0,5, поэтому там в основном нули.
Попробую снизить темп обучения, но пока природа не совсем ясна этого явления, ведь по logloss результат сопоставим.
Зашумление могло бы быть при случайном изменении. Тут мы, фактически, переименовываем информацию. Как известно, CatBoost делает сплиты по квантовой таблице, полученной единожды. Т.е. у нас получаются дискретные многогранные (по числу измерений) кубики с содержимым диапазоном значений. Дерево занимается тем, что Группирует их по одной из граний или набором - как они идут по порядку.
Между собой кубики/кванты изначально отсортированы. Вы меняете их порядок, т.е. перемешиваете. ООС вам это явно показывет. Закономерности не найдены. А трейн на любом мусоре обучится хорошо.
Между собой кубики/кванты изначально отсортированы. Вы меняете их порядок, т.е. перемешиваете. ООС вам это явно показывет. Закономерности не найдены. А трейн на любом мусоре обучится хорошо.
Обучение, это правила по выделению кубиков. Порядок их задан алгоритмом предиктора. От того, что я их поменял местами - информация не пропала. Мой алгоритм отыщет все кубики, а для дерева это становится важным изменением, так как алгоритм работает не с одним кубиком, а сразу с группой, и для него поменялось содержимое группы кубиков. Режа сплитами группы на подгруппы он будет выбирать разные изменения для разреза через сплит, так как статистика групп поменялась.
Нужна более насыщенная закономерностями выборка для проверки этой гипотезы.
Обучение, это правила по выделению кубиков. Порядок их задан алгоритмом предиктора. От того, что я их поменял местами - информация не пропала. Мой алгоритм отыщет все кубики, а для дерева это становится важным изменением, так как алгоритм работает не с одним кубиком, а сразу с группой, и для него поменялось содержимое группы кубиков. Режа сплитами группы на подгруппы он будет выбирать разные изменения для разреза через сплит, так как статистика групп поменялась.
Нужна более насыщенная закономерностями выборка для проверки этой гипотезы.
Дело ваше, на что тратить ваше время. Больше по этой теме сказать нечего.
Информация перемешалась/рандомизировалась.
Дело ваше, на что тратить ваше время. Больше по этой теме сказать нечего.
Вы понимаете, что поменялась только шкала измерения события?
Вы понимаете, что поменялась только шкала измерения события?
Вы их еще и переставляете местами. Т.е. нарушаете естественную сортировку.
Шкала поменялась при квантовании.
Вы их еще и переставляете местами. Т.е. нарушаете естественную сортировку.
Можете представить, что мы сделали преобразование через некую функцию - условную синусоиду. Функция одинакова на всех выборках. Это и изменило шкалу и порядок построения на этой шкале.
Увеличил темп обучения в 10 раз, появились модели, дающие на двух выборках уже вероятность свою больше 0,5.
На графике упорядочены модели по прибыли на выборке exam