Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3553

 
Dominik Egert #:
В качестве общей информации.

Это действительно интересно.

Для общего развития интересно, но для трейдинга не ясно, как использовать...

Есть идеи?

 
Aleksey Vyazmikin #:

Нет же утверждения, что сжатие должно быть только с потерей информации.

Извиняюсь
 
Aleksey Vyazmikin #:

Ещё не остановился. Концепция в том, что нужно брать только полезную информацию из предиктора, потом делать бинаризацию, и уже на этих данных строить модель. Но, тут возникает проблема малых откликов, сверх разряженная выборка, обучение на которой сложно даётся стандартным моделям. Альтернативой видится кластеризация этих бинарных предикторов, для этого и писал код дерева кластеризации, но пока поставил на паузу развитие. Потому что главная проблема в том, что отбираемые квантовые отрезки теряют свою эффективность на новых данных в большом количестве, что и приводит к ошибкам классических моделей. Поэтому сейчас сконцентрирован на увеличении сбора процента эффективных квантовых отрезков.

Как измерять эффективность - так же вопрос открытый, но я подразумеваю, что в квантовый отрезок должно попадать больше представителей одного класса, чем это в среднем по выборке. Смещение вероятности и означает, что процент представителей класса 1 или 0 больше в квантовом отрезке на пороговое значение, чем в подвыборке.

Таким образом, если у нас есть набор квантовых отрезков со смещением вероятности, мы можем строить как новые правила, так и ансамбли, объединяя квантовые отрезки в группы по вероятности синхронного срабатывания, что в теории должно добавлять модели уверенности.

Даже подбор квантовой таблицы под предиктор может улучшить обучение.

Пока я особо и не строю именно итоговые модели по данному методу, пока не доволен отбором квантовых отрезков.

А так, модели на бинарной выборке получаются более лёгкими у catboost, не уступают тем, что на полных данных, но опять же гарантий нет, что модель будет прибыльной, но это и понятно - ведь проблема в смещении вероятности на новых данных...

Если не считая главной проблемы, то есть проблема производственного характера - надо думать и кодить :)

В последнее время неудачные идеи, после их проверки, меня выбивают из колеи на несколько дней, иногда недель. Лето ещё сейчас - чаще стараюсь выходить на прогулки в парк.

Там по сути использовался схожий подход, - создается база эффективных одиночных настроек разных фильтров\предикторов, а потом случайным образом происходит их выбор (не все используются сразу) с определёнными настройками. Такой подход существенно экономит ресурсы и результат получается вполне хороший, когда для оптимизации есть сотня настроек. По сути тот же подход, как и с квантованием.

На логике того советника сделана большая часть предикторов, что я использую в МО.

По МО, возможно, буду серийно выпускать ботов с низкой ценой, но чуть позже.

Вы таблицы к фиксированным лейблам подбираете, или лейблы перебираются тоже?

Собственно потому и спросил, что вижу в этом дальнейшее развитие. Ну и с бинарными выборками да, такое себе конечно. Мне кажется, что надо этот вопрос пересмотреть.

Варианты использования дискретизации через KBinsDiscretizer
How to Use Discretization Transforms for Machine Learning
How to Use Discretization Transforms for Machine Learning
  • Jason Brownlee
  • machinelearningmastery.com
Numerical input variables may have a highly skewed or non-standard distribution. This could be caused by outliers in the data, multi-modal distributions, highly exponential distributions, and more. Many machine learning algorithms prefer or perform better when numerical input variables have a standard probability distribution. The...
 
mytarmailS #:
Извиняюсь

Принимаю.

 
Maxim Dmitrievsky #:
Вы таблицы к фиксированным лейблам подбираете, или лейблы перебираются тоже?

У меня сейчас нет перебора разных разметок. Концепция базовой стратегии и её улучшения с помощью МО.

А вот базовые стратегии могут быть разными.

Maxim Dmitrievsky #:
Ну и с бинарными выборками да, такое себе конечно. Мне кажется, что надо этот вопрос пересмотреть.

Есть иные идеи?

 
Aleksey Vyazmikin #:

У меня сейчас нет перебора разных разметок. Концепция базовой стратегии и её улучшения с помощью МО.

А вот базовые стратегии могут быть разными.

Есть иные идеи?

Нет, не вдавался в ваш подход, но всегда можно что-то переделать/упростить

 
Maxim Dmitrievsky #:

Нет, не вдавался в ваш подход, но всегда можно что-то переделать/упростить

Определенно. Но в процессе развития\исследования наоборот появляется много дополнительных фишек и усложнений. Когда работа завершена и всё ясно и очевидно, тогда можно оптимизацией заниматься и что-то сокращать/ускорять.

 
Aleksey Vyazmikin #:

Определенно. Но в процессе развития\исследования наоборот появляется много дополнительных фишек и усложнений. Когда работа завершена и всё ясно и очевидно, тогда можно оптимизацией заниматься и что-то сокращать/ускорять.

Я вижу, что можно анализировать бины, например, как предложено в статье, и потом выбирать удачные. Это займет мало кода и будет очень понятно.

 

Дискретизация с учителем, крайне любопытная штука, но жрет вычислительный ресурс не по детски

discretization::mdlp()

 
Maxim Dmitrievsky #:

Я вижу, что можно анализировать бины, например, как предложено в статье, и потом выбирать удачные. Это займет мало кода и будет очень понятно.

В какой статье? Что выше ссылка, так там нет анализа по сути, а лишь перебор квантовых таблиц. Вообще в CatBoost встроены разные методы квантования (которых нет в библиотеке KBinsDiscretizer) - поэкспериментируйте с настройками. Есть возможность сохранять квантовые таблицы и по ним потом преобразовывать выборку для иных методов обучения.