Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1298

 
Aleksey Vyazmikin:

Если совсем примитивно, то у первого дерева нет отклика на выборку, он возвращает ноль, а у четвертого дерева есть этот отклик и он считает "вероятность" 0,6 - технически исправили ошибку первого дерева, а фактически выявили связь, которой ранее не было вообще.

Ошибкой первого дерева может быть не только 0, но и 1.

Т.е. если первое дерево предсказало 1, а на самом деле там 0, то последующие деревья должны понижать итог с 1 до 0. Т.е. 2,3 и тд. деревья будут давать отрацательный прогноз, чтобы несколькими вычитаниями снизить 1 от первого дерева до 0 через N шагов.

 
elibrarius:

Ошибкой первого дерева может быть не только 0, но и 1.

Т.е. если первое дерево предсказало 1, а на самом деле там 0, то последующие деревья должны понижать итог с 1 до 0. Т.е. 2,3 и тд. деревья будут давать отрацательный прогноз, чтобы несколькими вычитаниями снизить 1 от первого дерева до 0 через N шагов.

Конечно, согласен. Но сути это не меняет же - важна закономерность, которую найдет дерево, а интерпретация этой закономерности - работа уже отдельного алгоритма.

 
Aleksey Vyazmikin:

А я не знаю про сообщество, т.е. не знаю, как там делают иные лица в иных областях?

Вытягивание данных мне видится логичным, так-как я ищу модель поведения человека (или алгоритма) с помощью МО, таких паттернов поведения может быть много и они могут быть независимы, поэтому и есть смысл вытянуть столько, сколько удастся, так-как обобщить все вместе их невозможно. А для кого то рынок это что-то целое, результат работы коллективного разума, некий голосующий орган без правил, те, видимо правильно для этой ситуации ищут одну модель, описывающую поведение рынка как отдельного организма.

Ну как не знаете, когда вы его часть )

может я разделяю, т.к. изначально стояла задача сделать что-то типа ИИ, который сам все отбирает, без ручной рутины. Рутина только при проектировании такой штуки

не представляю как можно перебирать сотни\тысячи моделей вручную, выделять что-то там. Наоборот хочется забыть о "придумывании" ТС как о страшном сне

 
Maxim Dmitrievsky:

Ну как не знаете, когда вы его часть )

может я разделяю, т.к. изначально стояла задача сделать что-то типа ИИ, который сам все отбирает, без ручной рутины. Рутина только при проектировании такой штуки

не представляю как можно перебирать сотни\тысячи моделей вручную, выделять что-то там. Наоборот хочется забыть о "придумывании" ТС как о страшном сне

Вот и я не представляю, как анализировать каждую модель отдельно - поэтому и сделал упор на пакетную обработку. Детальному анализу подлежат отдельные модели с целью улучшения общего алгоритма цикла создания моделей, поиска новых идей.

Проблема в том, что когда у тебя сотни тысяч вариантов моделей, которые дают совершенно разные результаты, трудно понять, что именно делать для улучшения результатов - вот тут у меня самый большой затык. То на 4 предикторах получается интересная модель, и кажется что нет смысла добавлять новые предикторы, а следует генерировать просто больше моделей, то напротив используется много предикторов и влияние большее имеет выборка для обучения, плюс много параметров для обучения у самого CatBoost. Поэтому склоняюсь к тому, что надо генерировать много моделей и сохранять 2-3 из каждых 100к, а там уже детальней их изучать.

 
Aleksey Vyazmikin:

Вот и я не представляю, как анализировать каждую модель отдельно - поэтому и сделал упор на пакетную обработку. Детальному анализу подлежат отдельные модели с целью улучшения общего алгоритма цикла создания моделей, поиска новых идей.

Проблема в том, что когда у тебя сотни тысяч вариантов моделей, которые дают совершенно разные результаты, трудно понять, что именно делать для улучшения результатов - вот тут у меня самый большой затык. То на 4 предикторах получается интересная модель, и кажется что нет смысла добавлять новые предикторы, а следует генерировать просто больше моделей, то напротив используется много предикторов и влияние большее имеет выборка для обучения, плюс много параметров для обучения у самого CatBoost. Поэтому склоняюсь к тому, что надо генерировать много моделей и сохранять 2-3 из каждых 100к, а там уже детальней их изучать.

да, типа такого, желательно как можно больше автоматизировать, что бы потом оставался банальный выбор какая больше нравится, за чашечкой кофе

сложно сделать, согласен, но это тогда и будет ИИ а не хухры мухры, не обычный классификатор какой-нибудь

из последнего - есть либы AutoML - нейросеть сама подбирает лучшую нейросеть или набор моделей для конкретной задачи, тоже прикольно. Пока не юзал
 
Maxim Dmitrievsky:

да, типа такого, желательно как можно больше автоматизировать, что бы потом оставался банальный выбор какая больше нравится, за чашечкой кофе

сложно сделать, согласен, но это тогда и будет ИИ а не хухры мухры, не обычный классификатор какой-нибудь

Сейчас у меня после обучения результаты обрабатываются скриптом(без интерпретатора модели - по результатам расчета CatBoost), и из 100к моделей достаются те, что отвечают заданным критериям(критерии модели и критерии торговли) на всех трех выборках, получается порядка 50-100 моделей, их я уже конвертирую для воспроизведения в терминале и там делаю повторный проход для последующего более детального отбора. В принципе, можно даже не запускать их в терминал, если точно знаешь, что хочешь, но пока я ищу критерии отбора и считаю не лишним посмотреть на разные модели визуально. А так, можно вроде как сохранять скриптом сразу кривые баланса, но я с графиками не умею работать - руки все не доходят разобраться.

Не знаю, можно ли в питоне создавать сразу много моделей, но если интересно, то могу скинуть батники, с помощью которых я это делаю.

 
Aleksey Vyazmikin:

Сейчас у меня после обучения результаты обрабатываются скриптом(без интерпретатора модели - по результатам расчета CatBoost), и из 100к моделей достаются те, что отвечают заданным критериям(критерии модели и критерии торговли) на всех трех выборках, получается порядка 50-100 моделей, их я уже конвертирую для воспроизведения в терминале и там делаю повторный проход для последующего более детального отбора. В принципе, можно даже не запускать их в терминал, если точно знаешь, что хочешь, но пока я ищу критерии отбора и считаю не лишним посмотреть на разные модели визуально. А так, можно вроде как сохранять скриптом сразу кривые баланса, но я с графиками не умею работать - руки все не доходят разобраться.

Не знаю, можно ли в питоне создавать сразу много моделей, но если интересно, то могу скинуть батники, с помощью которых я это делаю.

в питоне можно делать все что угодно и даже больше

не, пока не надо, спасибо.. читаю книжки интересные. Катбуст в питоне тоже юзал, сравнил с лесом, больших улучшений не увидел, но сам по себе настраивается и работает прикольно. Собственно в пару строк.

 
Maxim Dmitrievsky:

AutoML - нейросеть сама подбирает лучшую нейросеть или набор моделей для конкретной задачи, тоже прикольно. Пока не юзал

Да я ж делал нечто похожее - вопрос опять же в предикторах и критериях отбора(целевой). Сейчас (спустя много месяцев) допилю все идеи с предикторами и вернусь к этой теме. А результат есть в целом, ранее же постил как работают подобные модели, но нужны разнообразные выборки с различным разбросом, желательно от разных моделей.

А что эта AutoML использует в качестве предикторов и целевой?

 
Aleksey Vyazmikin:

Да я ж делал нечто похожее - вопрос опять же в предикторах и критериях отбора(целевой). Сейчас (спустя много месяцев) допилю все идеи с предикторами и вернусь к этой теме. А результат есть в целом, ранее же постил как работают подобные модели, но нужны разнообразные выборки с различным разбросом, желательно от разных моделей.

А что эта AutoML использует в качестве предикторов и целевой?

ну целевые известны должны быть, а предикторы трансформируются на автомате, еще модели перебираются

напишу когда (и если) изучу подробнее

Щас жду когда гуглы обновят TensorFlow до 2.0, надеюсь, с поддержкой питона 3.7. Люблю все от гуглов, и пакет этот один на се случаи жизни, в нем есть вообще всё. 

 
Maxim Dmitrievsky:

ну целевые известны должны быть, а предикторы трансформируются на автомате, еще модели перебираются

напишу когда (и если) изучу подробнее

Щас жду когда гуглы обновят TensorFlow до 2.0, надеюсь, с поддержкой питона 3.7. Люблю все от гуглов, и пакет этот один на се случаи жизни, в нем есть вообще всё. 

Пишите, как разберетесь, очень интересны предикторы, если они там публично оговорены. С целевой же так же сложно в нашем случае, так как происходит дополнительная оценка модели на деньгах, это хорошо у кого фиксированные TP и SL, для других же случаев даже хорошая модель с точки зрения предсказательной способности, может сливать. Во всяком случае я учитываю в оценке модели и кривую баланса классификации, так же проверяю на просадки и прочие критерии, как и для обычного баланса, так-как ожидаю равномерность точности классификации на всей выборке.

Ну а я так и не поставил пока питон - много что пока могу сделать и без него, в плане полно задумок, требующих реализации.

Причина обращения: