Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3011

 
Aleksey Vyazmikin #:

Интересно, именно про будущее, раскроете секреты?

Несколько раз писал.

 
mytarmailS #:

форест

на одном

Какой процент отбираете?

Мне кажется, что на форесте очень мало полезного, если он сплит использует по половине предиктора.

 
Maxim Dmitrievsky #:

что вы говорите до сих пор никто не понимает, по-моему )

вот у него все понятно без слов и просто, по принципу бритвы Оккама 

Нет, просто когда я пришел в ветку и начал говорить про отбор правил из деревьев и их оценку Вы смеялись над идеей.

Я сделал следующий шаг сейчас - создание условий для создания потенциально качественных правил через оценку квантовых отрезков предиктора, и опять сталкиваюсь с тотальным непониманием.

 
СанСаныч Фоменко #:

Несколько раз писал.

Тут приходится по сто раз говорить одно и тоже, что бы тебя услышали.

 
Aleksey Vyazmikin #:

Нет, просто когда я пришел в ветку и начал говорить про отбор правил из деревьев и их оценку Вы смеялись над идеей.

Я сделал следующий шаг сейчас - создание условий для создания потенциально качественных правил через оценку квантовых отрезков предиктора, и опять сталкиваюсь с тотальным непониманием.

то есть через простое вытаскивание правил из дерева не получилось счастья? В теории, там тоже как повезет, но за счет их (правил) количества можно было бы найти что-то

ведь это примерно то же самое, что перебор параметров стратегии в оптимизаторе, но в более изящном исполнении
 
Maxim Dmitrievsky #:

то есть через простое вытаскивание правил из дерева не получилось счастья?

Вполне хороший метод оказался, если не считать, что нет определенности по дальнейшей жизни правил с их последующей реинкарнацией. На длительных интервалах более 50% отобранных правил показывали позитивные результаты работы.

Я использовал генетическое дерево - это очень медленно, если выборка содержит множество предикторов.

Поэтому я решил искать возможность уменьшения объема информации, подаваемый дереву для обучения. Стал искать пути выделения потенциально полезных данных.

Другая проблема - большая похожесть листьев/правил по точкам активации. Да и с ростом базы листьев уникальность тяжело было найти.

В итоге конструкция интересная, есть что улучшать, но крайне медленная в моём случае оказалась. В общем не пригодной для экспериментов, но интересной для внедрения, если готова вся концепция устройства построения ТС.

Ну и конечно - я не знаю R, поспрашивал местных гуру, и толком никто не смог помочь решить мои задачи.

Сейчас бы добавил семплирование и принудительный отбор корневого предиктора (по списку) и блокировку уже использованного.

 
Aleksey Vyazmikin #:

Вполне хороший метод оказался, если не считать, что нет определенности по дальнейшей жизни правил с их последующей реинкарнацией. На длительных интервалах более 50% отобранных правил показывали позитивные результаты работы.

Я использовал генетическое дерево - это очень медленно, если выборка содержит множество предикторов.

Поэтому я решил искать возможность уменьшения объема информации, подаваемый дереву для обучения. Стал искать пути выделения потенциально полезных данных.

Другая проблема - большая похожесть листьев/правил по точкам активации. Да и с ростом базы листьев уникальность тяжело было найти.

В итоге конструкция интересная, есть что улучшать, но крайне медленная в моём случае оказалась. В общем не пригодной для экспериментов, но интересной для внедрения, если готова вся концепция устройства построения ТС.

Ну и конечно - я не знаю R, поспрашивал местных гуру, и толком никто не смог помочь решить мои задачи.

Сейчас бы добавил семплирование и принудительный отбор корневого предиктора (по списку) и блокировку уже использованного.

а при чем тут катбуст? зачем он вам, оттуда тоже правила вытаскиваются?

почему не взять простое дерево и идти от корня к верхушкам по правилам, давая меньший вес сложным правилам (штраф за сложность правила)

каждое правило прогнать в тестере на новых данных, предварительно выбросив те, что с большой ошибкой

ЗЫ, мне все равно не нравится такой подход интуитивно, пока не понял почему
 
Aleksey Vyazmikin #:

Ну и конечно - я не знаю R,

Я уже это слышу больше года..

 R можно выучить за неделю

 
Maxim Dmitrievsky #:

а при чем тут катбуст? зачем он вам, оттуда тоже правила вытаскиваются?

CatBoost - большая скорость проверки верности направления идей в первую очередь.

Правила могу вытаскивать из первого дерева, но они, конечно, получаются значительно слабей в среднем (бывают хорошие, но очень редко), поэтому оставил эту затею пока. Сейчас там есть альтернативный способ построения деревьев, возможно там правила сильней, но нет возможности работать на MQL5 с такой моделью без питона.

И вообще, у меня есть свои идеи, как строить модель, медленно создающуюся, но с теми же сразу проверками по которым отбирались листья. Может когда то дойду до её реализации в коде.

 
Maxim Dmitrievsky #:

почему не взять простое дерево и идти от корня к верхушкам по правилам, давая меньший вес сложным правилам (штраф за сложность правила)

каждое правило прогнать в тестере на новых данных, предварительно выбросив те, что с большой ошибкой

ЗЫ, мне все равно не нравится такой подход интуитивно, пока не понял почему

Разница по сути только в объемах данных и нагрузки на процессор при применении модели.

Ну и плюс, листья легче ансамблировать, собирая в группы и раздавая веса (я назвал это гербарием :) ).

Используется же много деревьев для создания правил, а значит сигналы пересекаются, чего нет просто в одном дереве.

Причина обращения: