Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2112
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Результаты получились странные - на тестовой и учебной выборке Recall 0,6-0,8 , а на exam без преобразования 0,009, а с преобразованием 0,65 - чтот тут не так :(
Такое ощущение, что CatBoost выучил алгоритм преобразования :)
А есть ли возможность пометить старые и новые строки? Тогда можно из преобразованной выборки убрать преобразованные строки и посмотреть - это проблема интерпретации или же не качественное обучение всё ж.
так и должно быть, на новых данных же меньше примеров одного класса. Здесь типа обобщающая способность должна быть лучше, надо гонять в тестере сразу
на моих данных не помогает ресемплинг
новые строки в конец добавляются вроде как, если вычесть останется исходный датасет. Этот метод просто добавляет примеры методом ближайших соседей к минорному классу. Т.е. создает правдоподобные новые метки и фичи
1-2 - да так может быть, но не обязательно, нужен подход, который будет минимизировать такую вероятность.
А насчет категориальных признаков - это верно, но для MQ нет интерпретатора модели с категориальными признаками.
Пока вижу решение в консолидации квантовых отрезков под одно значение и создание отдельной выборки, где эти значения встречаются - так будем гарантированно работать с этим подмножеством. Это я буду делать в поисках листьев, но в начале нужно быстро квантовать разными методами.
Это алгоритм построения дерева. Вы его не можете изменить. Если только написать собственный Catboost
так и должно быть, на новых данных же меньше примеров одного класса. Здесь типа обобщающая способность должна быть лучше, надо гонять в тестере сразу
на моих данных не помогает ресемплинг
новые строки в конец добавляются вроде как, если вычесть останется исходный датасет. Этот метод просто добавляет примеры методом ближайших соседей к минорному классу. Т.е. создает правдоподобные новые метки и фичи
Так Recall должен оставаться высоким иначе нет смысла же. Он не зависит от сбалансированности выборки.
Принцип работы я понял, спасибо.
Есть какой то метод с кластеризацией "Cluster Centroids" - или ещё что попробовать отсюда.
Это алгоритм построения дерева. Вы его не можете изменить. Если только написать собственный Catboost
Об этом и речь - надо делать свой алгоритм.
Так Recall должен оставаться высоким иначе нет смысла же. Он не зависит от сбалансированности выборки.
Принцип работы я понял, спасибо.
Есть какой то метод с кластеризацией "Cluster Centroids" - или ещё что попробовать отсюда.
этот наоборот удаляет метки из мажорного класса
этот наоборот удаляет метки из мажорного класса
Так и удалим нули по умному, может это даст эффект.
Так и удалим нули по умному, может это даст эффект.
в ноутбуке просто замените метод и все
from imblearn.under_sampling import ClusterCentroids cc = ClusterCentroids(random_state=0) X_resampled, y_resampled = cc.fit_resample(X, y)
отсюда пример
https://imbalanced-learn.readthedocs.io/en/stable/under_sampling.html
мне больше нраявятся Near-Miss (по картинкам)
в ноутбуке просто замените метод и все
Чет я не там заменил видать - ругается
Посмотрите, пожалуйста что там не так.
мне больше нраявятся Near-Miss (по картинкам)
Картинки красивые - но нужно пробовать.
Чет я не там заменил видать - ругается
Посмотрите, пожалуйста что там не так.
там не X, y а data_X, data_y
если используется андерсемплинг (уменьшение кол-ва семплов мажорного класса), то данных желательно много собрать, иначе мало получится на выходе (по размеру минорного класса)