Попробуйте шунтировать листья с малым числом примеров в одном листе - Общее обсуждение

mytarmailS 2020.12.20 20:22 #22531

Maxim Dmitrievsky:

На нем твой PCA не решает, компоненты перестают быть актуальными при изменении волатильности

Не понял о чем ты , но..

если ты сложишь все компоненты РСА на новых данных то получишь туже цену тик в тик, так что ... что ты имеешь ввиду под актуальностью я хз

Maxim Dmitrievsky 2020.12.20 20:29 #22532

mytarmailS:

Не понял о чем ты , но..

если ты сложишь все компоненты РСА на новых данных то получишь туже цену тик в тик, так что ... что ты имеешь ввиду под актуальностью я хз

короче давай за пса потом поговорим, я спать хочу )

кодеры не вкатили эмпирически

mytarmailS 2020.12.20 20:34 #22533

Maxim Dmitrievsky:

короче давай за пса потом поговорим, я спать хочу )

кодеры не вкатили эмпирически

окай

Aleksey Vyazmikin 2020.12.20 21:49 #22534

mytarmailS:

будешь первым

Смотрю один курс по байесовскому методу 2019 года, там интересные идеи есть, но формулы тормозят понимание. Вот подумал, что кто пробовал современные подходы с байесовской логикой. Лектор вообще утверждает, что все МО без байесовских методов оценки вероятности в МО - просто подгонка.

Кстати про подгонку, всё больше склоняюсь к выводу, что модели CatBoost ухудшают свои результаты на выборках вне обучения по причине нерепрезентативности выборки и способе построения модели. Дело в том, что там в классических моделях деревья симметричны и нет прунинга, что может приводить к ситуации, когда в один лист попадает очень мало данных, но при этом лист получает не малый вес, и если это ошибочное разделение, то на выборках вне обучение, если там будет много примеров в ошибочном листе, то это будет приводить к существенному искажению результатов. А таких листьев может быть тысяча. Если бы выборка была репрезентативна, то проблемы не существовало так как вес в листе был бы адекватен и соответствовал характеру распределения данных (энтропии). Нужно попробовать шунтировать листья с малым числом примеров путем обнуления их веса.

Идея в том, что бы модель реагировала только на те данные о которых имеет представление, а не суждение типа "если это правильно, то то не правильно", как происходит сейчас.

Группировка листьев - требуются Есть ли закономерность в Обсуждение статьи "Выцарапываем профит

Forester 2020.12.21 05:24 #22535

Aleksey Vyazmikin:

Смотрю один курс по байесовскому методу 2019 года, там интересные идеи есть, но формулы тормозят понимание. Вот подумал, что кто пробовал современные подходы с байесовской логикой. Лектор вообще утверждает, что все МО без байесовских методов оценки вероятности в МО - просто подгонка.

Кстати про подгонку, всё больше склоняюсь к выводу, что модели CatBoost ухудшают свои результаты на выборках вне обучения по причине нерепрезентативности выборки и способе построения модели. Дело в том, что там в классических моделях деревья симметричны и нет прунинга, что может приводить к ситуации, когда в один лист попадает очень мало данных, но при этом лист получает не малый вес, и если это ошибочное разделение, то на выборках вне обучение, если там будет много примеров в ошибочном листе, то это будет приводить к существенному искажению результатов. А таких листьев может быть тысяча. Если бы выборка была репрезентативна, то проблемы не существовало так как вес в листе был бы адекватен и соответствовал характеру распределения данных (энтропии). Нужно попробовать шунтировать листья с малым числом примеров путем обнуления их веса.

Идея в том, что бы модель реагировала только на те данные о которых имеет представление, а не суждение типа "если это правильно, то то не правильно", как происходит сейчас.

Реперзентативность - это важное условие.

Разве у катбуста, при делении получаются листья с малым числом примеров в листе? Рекомендованная глубина там 6, это 2^6=64 т.е. в лист в среднем попадет 1/64 часть строк от всей выборки. Если у вас хотя бы 10000 строк обучения, то будет примерно по 156 примеров в листе в среднем. Думаю это вполне репрезентативно, на мой взгляд.

Хотя если деревья делать симметричными, может там и будут какие-то искажения. Насколько малыми вы видели листья и сколько при этом подавалось строк на обучение?

Что подать на вход Собираю команду для развития Группировка листьев - требуются

Aleksey Vyazmikin 2020.12.21 05:47 #22536

elibrarius:

Реперзентативность - это важное условие.

Разве у катбуста, при делении получаются листья с малым числом примеров в листе? Рекомендованная глубина там 6, это 2^6=64 т.е. в лист в среднем попадет 1/64 часть строк от всей выборки. Если у вас хотя бы 10000 строк обучения, то будет примерно по 156 примеров в листе в среднем. Думаю это вполне репрезентативно, на мой взгляд.

Хотя если деревья делать симметричными, может там и будут какие-то искажения. Насколько малыми вы видели листья и сколько при этом подавалось строк на обучение?

Сейчас у меня точных чисел нет - это только предположение. Нужно возвращаться к своим старым кодам, там, кажется, у меня была возможность получить такую статистику - запамятовал. Вы правильно говорите, что среднее значение не выглядит пугающим, но это не значит, что не будет совсем мало примеров в одном листе.

Мы видим, что приделы экстремальной вероятности на выборке обучения и на тестовой выборки отличаются обычно существенно - предполагаю, что как раз причина в листьях с малым числом примеров, такие листья просто редко встречаются на тестовой выборке.

FOREX - Тенденции, прогнозы Есть ли закономерность в Мой первый советник на

Aleksey Vyazmikin 2020.12.21 06:22 #22537

Есть такая визуализация оценки статистики по активации листьев деревьев - одна из старых моделей.

По y - номер листа, а по x - строка выборки. Цвет показывает коэффициент веса листа по модулю.

Видно, что даже тут есть редкие активации листьев, а значит предположение обоснованно - это выборка exam

Есть ли закономерность в Собираю команду для развития Группировка листьев - требуются

Forester 2020.12.21 07:06 #22538

Aleksey Vyazmikin:

Есть такая визуализация оценки статистики по активации листьев деревьев - одна из старых моделей.

По y - номер листа, а по x - строка выборки. Цвет показывает коэффициент веса листа по модулю.

Видно, что даже тут есть редкие активации листьев, а значит предположение обоснованно - это выборка exam

Редкая активация на Exam скорее означает, что рынок поменялся и то, что часто случалось на трейне, перестало случаться. И это не обязательно, что на трейне там тоже было мало активаций листа.

Aleksey Vyazmikin 2020.12.21 07:32 #22539

elibrarius:
Редкая активация на Exam скорее означает, что рынок поменялся и то, что часто случалось на трейне, перестало случаться. И это не обязательно, что на трейне там тоже было мало активаций листа.

Да, я согласен, что есть и эффект изменения рынка.

Давайте посмотрим на Train.

Ситуация чуть лучше, но так же есть листья с редким числом активаций.

Обратите внимание, как происходит обучение - строится дерево с большим весом - условно удачное, а потом множество с мелкими весами, а потом опять большое - такой пирог, и если убрать прожилки с мелкими весами, то и получается смещение вероятности.

Использование искусственного интеллекта в Стохастический резонанс MetaTrader4 build 147

mytarmailS 2020.12.21 08:24 #22540

Aleksey Vyazmikin:

Да, я согласен, что есть и эффект изменения рынка.

Давайте посмотрим на Train.

Ситуация чуть лучше, но так же есть листья с редким числом активаций.

Обратите внимание, как происходит обучение - строится дерево с большим весом - условно удачное, а потом множество с мелкими весами, а потом опять большое - такой пирог, и если убрать прожилки с мелкими весами, то и получается смещение вероятности.

Интересно что будет если обучить новую модель на этой диаграмме?

Вообще сама идея - обучить вторую модель на "внутренностях" первой

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2254