Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2804

 
Aleksey Vyazmikin #:

CatBoost выбирает рандомно число предикторов при каждой итерации сплитования или построения дерева - зависит от настроек, а это значит, что у сильно коррелирующих предикторов больше шанса попасть в рандом, т.е. не у них самих, а у информации, которую они несут.

Уверены, что рандомно выбирает придикторы? Я не катбуст, а код базовых примеров бустинга смотрел. Там все предикторы используются. Т.е. берется самый лучший. Кореллированный с ним будет рядом, но чуть похуже. Но на каких то других уровнях сплита или в корректирующих деревьях может оказаться лучше другой из коррелированных предикторов.

 
Aleksey Vyazmikin #:

К тому же у меня есть свой метод группировки похожих предикторов и отбор из них лучшего варианта, и мне нужна контрольная группа в виде корреляции...

Так киданите пару формул фичей информативных, чтобы затестить
 
https://habr.com/ru/post/695276/ может кому будет полезно/интересно
Хитрые методики сэмплинга данных
Хитрые методики сэмплинга данных
  • 2022.10.27
  • habr.com
Любой, кто хоть раз обучал нейронки, знает, что принято на каждой эпохе шаффлить датасет, чтобы не повторялся порядок батчей. А зачем это делать? Обычно это объясняют тем, что шаффлинг улучшает генерализацию сетей, делает точнее эстимейт градиента на батчах и уменьшает вероятность застревания SGD в локальных минимумах. Здесь можно посмотреть...
 

иногда полезно наложить график баланса (синий) на график цен (оранжевый)

в данном случае хорошо видно, например, что модель зарабатывает только на падающем рынке на протяжении 10 лет

Более рафинированная модель точно так же учится зарабатывать в основном на падениях, но меньше просаживается при росте и консолидациях. Потому что все 10 лет рынок падал, обучающая выборка смещена


 
elibrarius #:

Уверены, что рандомно выбирает придикторы? Я не катбуст, а код базовых примеров бустинга смотрел. Там все предикторы используются. Т.е. берется самый лучший. Кореллированный с ним будет рядом, но чуть похуже. Но на каких то других уровнях сплита или в корректирующих деревьях может оказаться лучше другой из коррелированных предикторов.

Есть параметр отдельный, который позволяет брать только часть предикторов для оценки - берется рандомно - увеличивает число деревьев модели, но в теории ускоряет обучение.

Прям уверенным я бы был, если бы код их разобрал, поэтому говорю только о том, что они декларировали - есть маленький шанс, что я не правильно понял разработчиков.

Так вот они говорят о добавлении рандома к оценке сплитов, за счет этого у них улучшается обучение.

О том, что происходит предобработка с целью исключения коррелирующих предикторов - я не слышал.

То, что другой предиктор может быть лучше или полезней - согласен, но цель то у меня обучить как можно более разные модели. В том числе, что б они хоть чему то обучились.

 
Maxim Dmitrievsky #:
Так киданите пару формул фичей информативных, чтобы затестить

Не понял, Вам закинуть или в дата сет? Если в дата сет, то как это вообще связано с группировкой похожих или корреляцией, ведь целевая не участвует в этом процессе?

 
Aleksey Vyazmikin #:

Не понял, Вам закинуть или в дата сет? Если в дата сет, то как это вообще связано с группировкой похожих или корреляцией, ведь целевая не участвует в этом процессе?

формулы расчета фичей хороших, чтобы воспроизвести на питоне и mql. Метки сам подберу.

так чисто позырить, а то я только приращения использую

могу ботов на них скинуть после обучения
 
Maxim Dmitrievsky #:

иногда полезно наложить график баланса (синий) на график цен (оранжевый)

в данном случае хорошо видно, например, что модель зарабатывает только на падающем рынке на протяжении 10 лет

Более рафинированная модель точно так же учится зарабатывать в основном на падениях, но меньше просаживается при росте и консолидациях. Потому что все 10 лет рынок падал, обучающая выборка смещена


Цена построена по принципу дельт между закрытием и открытием сделки или это какое то нормирование времени?

 
Aleksey Vyazmikin #:

Цена построена по принципу дельт между закрытием и открытием сделки или это какое то нормирование времени?

да, в момент сделок фиксируется

 
Maxim Dmitrievsky #:

формулы расчета фичей хороших, чтобы воспроизвести на питоне и mql. Метки сам подберу.

так чисто позырить, а то я только приращения использую

могу ботов на них скинуть после обучения

Вы же знаете, что "хорошесть" фичей определяется целевой.

Принцип создания я описывал ранее. Код в MQL5 весь, и о каком либо преобразовании через функцию там речи не идет - формулу не представляется возможным дать.

Ну вот из простого - время начала текущего отрезка ZZ(48) - часто отбирается.

Причина обращения: