Используйте дискретизацию через KBinsDiscretizer - Общее обсуждение

Aleksey Vyazmikin 2024.06.20 17:37 #35521

Dominik Egert #:

В качестве общей информации.

Это действительно интересно.

https://www.forbes.com/sites/moorinsights/2024/06/17/ibms-instructlab-a-new-era-for-ai-model-creation-and-performance/

Для общего развития интересно, но для трейдинга не ясно, как использовать...

Есть идеи?

mytarmailS 2024.06.20 17:46 #35522

Aleksey Vyazmikin #:

Нет же утверждения, что сжатие должно быть только с потерей информации.

Извиняюсь

Maxim Dmitrievsky 2024.06.20 18:18 #35523

Aleksey Vyazmikin #:

Ещё не остановился. Концепция в том, что нужно брать только полезную информацию из предиктора, потом делать бинаризацию, и уже на этих данных строить модель. Но, тут возникает проблема малых откликов, сверх разряженная выборка, обучение на которой сложно даётся стандартным моделям. Альтернативой видится кластеризация этих бинарных предикторов, для этого и писал код дерева кластеризации, но пока поставил на паузу развитие. Потому что главная проблема в том, что отбираемые квантовые отрезки теряют свою эффективность на новых данных в большом количестве, что и приводит к ошибкам классических моделей. Поэтому сейчас сконцентрирован на увеличении сбора процента эффективных квантовых отрезков.

Как измерять эффективность - так же вопрос открытый, но я подразумеваю, что в квантовый отрезок должно попадать больше представителей одного класса, чем это в среднем по выборке. Смещение вероятности и означает, что процент представителей класса 1 или 0 больше в квантовом отрезке на пороговое значение, чем в подвыборке.

Таким образом, если у нас есть набор квантовых отрезков со смещением вероятности, мы можем строить как новые правила, так и ансамбли, объединяя квантовые отрезки в группы по вероятности синхронного срабатывания, что в теории должно добавлять модели уверенности.

Даже подбор квантовой таблицы под предиктор может улучшить обучение.

Пока я особо и не строю именно итоговые модели по данному методу, пока не доволен отбором квантовых отрезков.

А так, модели на бинарной выборке получаются более лёгкими у catboost, не уступают тем, что на полных данных, но опять же гарантий нет, что модель будет прибыльной, но это и понятно - ведь проблема в смещении вероятности на новых данных...

Если не считая главной проблемы, то есть проблема производственного характера - надо думать и кодить :)

В последнее время неудачные идеи, после их проверки, меня выбивают из колеи на несколько дней, иногда недель. Лето ещё сейчас - чаще стараюсь выходить на прогулки в парк.

Там по сути использовался схожий подход, - создается база эффективных одиночных настроек разных фильтров\предикторов, а потом случайным образом происходит их выбор (не все используются сразу) с определёнными настройками. Такой подход существенно экономит ресурсы и результат получается вполне хороший, когда для оптимизации есть сотня настроек. По сути тот же подход, как и с квантованием.

На логике того советника сделана большая часть предикторов, что я использую в МО.

По МО, возможно, буду серийно выпускать ботов с низкой ценой, но чуть позже.

Вы таблицы к фиксированным лейблам подбираете, или лейблы перебираются тоже?

Собственно потому и спросил, что вижу в этом дальнейшее развитие. Ну и с бинарными выборками да, такое себе конечно. Мне кажется, что надо этот вопрос пересмотреть.

Варианты использования дискретизации через KBinsDiscretizer

How to Use Discretization Transforms for Machine Learning

Jason Brownlee
machinelearningmastery.com

Numerical input variables may have a highly skewed or non-standard distribution. This could be caused by outliers in the data, multi-modal distributions, highly exponential distributions, and more. Many machine learning algorithms prefer or perform better when numerical input variables have a standard probability distribution. The...

Подпишитесь на торговый сигнал Купить платформу MetaTrader 5 Как стать поставщиком сигнала

Aleksey Vyazmikin 2024.06.20 20:08 #35524

mytarmailS #:
Извиняюсь

Принимаю.

Aleksey Vyazmikin 2024.06.20 20:18 #35525

Maxim Dmitrievsky #:
Вы таблицы к фиксированным лейблам подбираете, или лейблы перебираются тоже?

У меня сейчас нет перебора разных разметок. Концепция базовой стратегии и её улучшения с помощью МО.

А вот базовые стратегии могут быть разными.

Maxim Dmitrievsky #:
Ну и с бинарными выборками да, такое себе конечно. Мне кажется, что надо этот вопрос пересмотреть.

Есть иные идеи?

Maxim Dmitrievsky 2024.06.20 20:22 #35526

Aleksey Vyazmikin #:

У меня сейчас нет перебора разных разметок. Концепция базовой стратегии и её улучшения с помощью МО.

А вот базовые стратегии могут быть разными.

Есть иные идеи?

Нет, не вдавался в ваш подход, но всегда можно что-то переделать/упростить

Aleksey Vyazmikin 2024.06.20 21:26 #35527

Maxim Dmitrievsky #:

Нет, не вдавался в ваш подход, но всегда можно что-то переделать/упростить

Определенно. Но в процессе развития\исследования наоборот появляется много дополнительных фишек и усложнений. Когда работа завершена и всё ясно и очевидно, тогда можно оптимизацией заниматься и что-то сокращать/ускорять.

Maxim Dmitrievsky 2024.06.21 04:24 #35528

Aleksey Vyazmikin #:

Определенно. Но в процессе развития\исследования наоборот появляется много дополнительных фишек и усложнений. Когда работа завершена и всё ясно и очевидно, тогда можно оптимизацией заниматься и что-то сокращать/ускорять.

Я вижу, что можно анализировать бины, например, как предложено в статье, и потом выбирать удачные. Это займет мало кода и будет очень понятно.

СанСаныч Фоменко 2024.06.21 09:33 #35529

Дискретизация с учителем, крайне любопытная штука, но жрет вычислительный ресурс не по детски

discretization::mdlp()

Aleksey Vyazmikin 2024.06.21 10:38 #35530

Maxim Dmitrievsky #:

Я вижу, что можно анализировать бины, например, как предложено в статье, и потом выбирать удачные. Это займет мало кода и будет очень понятно.

В какой статье? Что выше ссылка, так там нет анализа по сути, а лишь перебор квантовых таблиц. Вообще в CatBoost встроены разные методы квантования (которых нет в библиотеке KBinsDiscretizer) - поэкспериментируйте с настройками. Есть возможность сохранять квантовые таблицы и по ним потом преобразовывать выборку для иных методов обучения.

Есть ли закономерность в Пиши и зарабатывай на Новая версия платформы MetaTrader

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3553