Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2254

 
Maxim Dmitrievsky:

 На нем твой PCA не решает, компоненты перестают быть актуальными при изменении волатильности 

Не понял о чем ты , но..

если ты сложишь все компоненты РСА на новых данных то получишь туже цену тик в тик, так что ... что ты имеешь ввиду под актуальностью я хз

 
mytarmailS:

Не понял о чем ты , но..

если ты сложишь все компоненты РСА на новых данных то получишь туже цену тик в тик, так что ... что ты имеешь ввиду под актуальностью я хз

короче давай за пса потом поговорим, я спать хочу )

кодеры не вкатили эмпирически

 
Maxim Dmitrievsky:

короче давай за пса потом поговорим, я спать хочу )

кодеры не вкатили эмпирически

окай

 
mytarmailS:

будешь первым

Смотрю один курс по байесовскому методу 2019 года, там интересные идеи есть, но формулы тормозят понимание. Вот подумал, что кто пробовал современные подходы с байесовской логикой. Лектор вообще утверждает, что все МО без байесовских методов оценки вероятности в МО - просто подгонка.


Кстати про подгонку, всё больше склоняюсь к выводу, что модели CatBoost ухудшают свои результаты на выборках вне обучения по причине нерепрезентативности выборки и способе построения модели. Дело в том, что там в классических моделях деревья симметричны и нет прунинга, что может приводить к ситуации, когда в один лист попадает очень мало данных, но при этом лист получает не малый вес, и если это ошибочное разделение, то на выборках вне обучение, если там будет много примеров в ошибочном листе, то это будет приводить к существенному искажению результатов. А таких листьев может быть тысяча. Если бы выборка была репрезентативна, то проблемы не существовало так как вес в листе был бы адекватен и соответствовал характеру распределения данных (энтропии). Нужно попробовать шунтировать листья с малым числом примеров путем обнуления их веса.

Идея в том, что бы модель реагировала только на те данные о которых имеет представление, а не суждение типа "если это правильно, то то не правильно", как происходит сейчас.
 
Aleksey Vyazmikin:

Смотрю один курс по байесовскому методу 2019 года, там интересные идеи есть, но формулы тормозят понимание. Вот подумал, что кто пробовал современные подходы с байесовской логикой. Лектор вообще утверждает, что все МО без байесовских методов оценки вероятности в МО - просто подгонка.


Кстати про подгонку, всё больше склоняюсь к выводу, что модели CatBoost ухудшают свои результаты на выборках вне обучения по причине нерепрезентативности выборки и способе построения модели. Дело в том, что там в классических моделях деревья симметричны и нет прунинга, что может приводить к ситуации, когда в один лист попадает очень мало данных, но при этом лист получает не малый вес, и если это ошибочное разделение, то на выборках вне обучение, если там будет много примеров в ошибочном листе, то это будет приводить к существенному искажению результатов. А таких листьев может быть тысяча. Если бы выборка была репрезентативна, то проблемы не существовало так как вес в листе был бы адекватен и соответствовал характеру распределения данных (энтропии). Нужно попробовать шунтировать листья с малым числом примеров путем обнуления их веса.

Идея в том, что бы модель реагировала только на те данные о которых имеет представление, а не суждение типа "если это правильно, то то не правильно", как происходит сейчас.

Реперзентативность - это важное условие.

Разве у катбуста, при делении получаются листья с малым числом примеров в листе? Рекомендованная глубина там 6, это 2^6=64 т.е. в лист в среднем попадет 1/64 часть строк от всей выборки. Если у вас хотя бы 10000 строк обучения, то будет примерно по 156 примеров в листе в среднем. Думаю это вполне репрезентативно, на мой взгляд.

Хотя если деревья делать симметричными, может там и будут какие-то искажения. Насколько малыми вы видели листья и сколько при этом подавалось строк на обучение?

 
elibrarius:

Реперзентативность - это важное условие.

Разве у катбуста, при делении получаются листья с малым числом примеров в листе? Рекомендованная глубина там 6, это 2^6=64 т.е. в лист в среднем попадет 1/64 часть строк от всей выборки. Если у вас хотя бы 10000 строк обучения, то будет примерно по 156 примеров в листе в среднем. Думаю это вполне репрезентативно, на мой взгляд.

Хотя если деревья делать симметричными, может там и будут какие-то искажения. Насколько малыми вы видели листья и сколько при этом подавалось строк на обучение?

Сейчас у меня точных чисел нет - это только предположение. Нужно возвращаться к своим старым кодам, там, кажется, у меня была возможность получить такую статистику - запамятовал. Вы правильно говорите, что среднее значение не выглядит пугающим, но это не значит, что не будет совсем мало примеров в одном листе.

Мы видим, что приделы экстремальной вероятности на выборке обучения и на тестовой выборки отличаются обычно существенно - предполагаю, что как раз причина в листьях с малым числом примеров, такие листья просто редко встречаются на тестовой выборке.

 

Есть такая визуализация оценки статистики по активации листьев деревьев - одна из старых моделей.

По y - номер листа, а по x - строка выборки. Цвет показывает коэффициент веса листа по модулю.

Видно, что даже тут есть редкие активации листьев, а значит предположение обоснованно - это выборка exam


 
Aleksey Vyazmikin:

Есть такая визуализация оценки статистики по активации листьев деревьев - одна из старых моделей.

По y - номер листа, а по x - строка выборки. Цвет показывает коэффициент веса листа по модулю.

Видно, что даже тут есть редкие активации листьев, а значит предположение обоснованно - это выборка exam


Редкая активация на Exam скорее означает, что рынок поменялся и то, что часто случалось на трейне, перестало случаться. И это не обязательно, что на трейне там тоже было мало активаций листа.
 
elibrarius:
Редкая активация на Exam скорее означает, что рынок поменялся и то, что часто случалось на трейне, перестало случаться. И это не обязательно, что на трейне там тоже было мало активаций листа.

Да, я согласен, что есть и эффект изменения рынка.

Давайте посмотрим на Train.

Ситуация чуть лучше, но так же есть листья с редким числом активаций.

Обратите внимание, как происходит обучение - строится дерево с большим весом - условно удачное, а потом множество с мелкими весами, а потом опять большое - такой пирог, и если убрать прожилки с мелкими весами, то и получается смещение вероятности.

 
Aleksey Vyazmikin:

Да, я согласен, что есть и эффект изменения рынка.

Давайте посмотрим на Train.

Ситуация чуть лучше, но так же есть листья с редким числом активаций.

Обратите внимание, как происходит обучение - строится дерево с большим весом - условно удачное, а потом множество с мелкими весами, а потом опять большое - такой пирог, и если убрать прожилки с мелкими весами, то и получается смещение вероятности.

Интересно что будет если обучить новую модель на этой диаграмме?

Вообще сама идея  -   обучить вторую модель на "внутренностях" первой

Причина обращения: