Если у вас на 100 примеров целевой 5 меток, то модель не может дать больше 0,5 вероятности по первому классу - Общее обсуждение

Aleksey Vyazmikin 2022.10.24 10:35 #27981

elibrarius #:

Разве это уникальность? За пределами обучения рыночные данные обычно не работают. Я вам там задал пару вопросов

Ну как не работают, обычно работают, но не очень хорошо.

Тут особенность в том, что модель CatBoost предпочитает все примеры отнести к вероятности менее 0,5 - таким образом не классифицирует целевую "1", а то, что от 0 до 0,5 так же весьма не очень распределено - в теме есть скрины модели.

Системы стратегического прогнозирования Советник всем миром Почему CopyTicks/CopyTicksRange показывают разные

mytarmailS 2022.10.24 10:55 #27982

Aleksey Vyazmikin #:

Тут особенность в том, что модель CatBoost предпочитает все примеры отнести к вероятности менее 0,5 - таким образом не классифицирует целевую "1", а то, что от 0 до 0,5 так же весьма не очень распределено - в теме есть скрины модели.

тут особенность в том что судя по всему присудствует сильная разбалансировки классов , е сли на 100 примеров 5 меток одного класса и 95 меток другого , как модель может дать больше 0,5 вероятности по первому классу?? это не вопрос к модели, это вопрос к автору датасета..

Обсуждение статьи "Random Decision Нужно ли нам визуальное работал на чужого дядю.

Aleksey Vyazmikin 2022.10.24 10:59 #27983

mytarmailS #:

тут особенность в том что судя по всему присудствует сильная разбалансировки классов , е сли на 100 примеров 5 меток одного класса и 95 меток другого , как модель может дать больше 0,5 вероятности по первому классу?? это не вопрос к модели, это вопрос к автору датасета..

Там более 30% первого класса. И, да, может, не вижу проблем. Достаточно найти одно правило\лист, которое будет с большей вероятностью предсказывать "1" чем "0", пусть и редко.

К тому же - никто не мешает изменить дата сет, сделав балансировку классов.

Обсуждение статьи "Метамодели в Новая версия платформы MetaTrader Как правильно оформить новую

mytarmailS 2022.10.24 11:16 #27984

Aleksey Vyazmikin #:

Там более 30% первого класса. И, да, может, не вижу проблем. Достаточно найти одно правило\лист, которое будет с большей вероятностью предсказывать "1" чем "0", пусть и редко.

К тому же - никто не мешает изменить дата сет, сделав балансировку классов.

притензии были у тебя к катбусту, а катбуст это не дерево\правило\лист

Forester 2022.10.24 11:32 #27985

Балансировка только НС нужна. Деревянные модели балансировки не требуют.

Aleksey Vyazmikin 2022.10.24 11:38 #27986

mytarmailS #:

притензии были у тебя к катбусту, а катбуст это не дерево\правило\лист

Претензия не к алгоритму, он такой, какой есть, а к тому, что ему лучше подавать уже разжёванные данные.

Раньше Вы как то это понимали...

Форум по трейдингу, автоматическим торговым системам и тестированию торговых стратегий

Машинное обучение в трейдинге: теория, модели, практика и алготорговля

mytarmailS, 2016.10.29 11:22

гипотетическая ситуация....

есть у нас 100 потенцыальных предикторов, для простоты объяснения пусть это будут индикаторы.

Представим что мы изначально знаем что во всех этих предикторах есть только одна прибыльная ситуация, это когда РСИ пересек отметку 90 а стохастик только что стал ниже нуля (ситуация из потолка естественно) , такая ситуация дает падение цены с вероятностью 90%, все остальные предикторы являются полнейшим шумом, все остальные ситуации в предикторах РСИ и стохастик тоже являются полнейшим шумом, а ситуаций там всяких разных еще сотни и сотни....

то бишь имеем около 0.01% полезного сигнала к 99,9% шума

Допустим каким то чудом ваш МО отсеет все 98 предикторов и оставит только два - РСИ и стохастик

в РСИ есть сотни ситуацый РСИ>0, РСИ>13, РСИ<85, РСИ=0, РСИ<145, ............ и так сотни и сотни, в схохастике ситуаций не меньше, рабочая ситуация только одна, по скольку вы тренируете МО распознавать все движения цены то МО будет строить модели учитывая все возможные ситуации которые имеються в РСИ и стохастике, а вероятность в тех ситуациях что они сработают почти нулевая, но МО обязан их учитывать и строить какие то модели по ним , не смотря на то что это есть самый настоящий шум, а та одна рабочая ситуация просто затеряется среди сотен других решений, вот оно переобучение....

НУ как дошло наконец???

Обоснуйте, при чем тут представление модели и пропорции целевых. Я говорю о том, что модель можно представить в виде модернизированного листа - правила.

Есть ли закономерность в Bayesian regression - Делал Обсуждение статьи "Прогнозирование рыночных

Aleksey Vyazmikin 2022.10.24 11:41 #27987

elibrarius #:
Балансировка только НС нужна. Деревянные модели балансировки не требуют.

Это так для хороших данных, в любом случае счетчики внутри алгоритма работают и принимают решения по числу выделяемых целевых...

mytarmailS 2022.10.24 11:56 #27988

Aleksey Vyazmikin #:

Тут особенность в том, что модель CatBoost предпочитает все примеры отнести к вероятности менее 0,5 - таким образом не классифицирует целевую "1", а то, что от 0 до 0,5 так же весьма не очень распределено.

если у нас на 100 примеров целевой 5 меток ("А") и 95 меток ("Б")

то модель не может дать вероятность по метке "А" блоьше 0,5

В каком то отдельном правиле может дать, но в посте написано катбуст , а это модель (сумма прогнозов правил) , а не одного правила , и в сумме такой большой вероятности не будет

даже если модель будет уверена в том что сейчас метка "А" , сумма вероятности правил метки "А" будет перебита суммой правил "Б" потому что правил "Б" будет намного больше

доливки в мт5 Можно ли нарисовать одну За что платит заказчик

mytarmailS 2022.10.24 12:10 #27989

elibrarius #:
Балансировка только НС нужна. Деревянные модели балансировки не требуют.

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

random forest for imbalanced data?

2018.04.16
MSilvy MSilvy 139 1 1 silver badge 8 8 bronze badges
stats.stackexchange.com

I have a dataset where yes=77 and no=16000, a highly imbalanced dataset. My plan was to identify the most important variables influencing the response variable using random forest and then develop a logistic regression model using the selected variable. I am planning to use...

Aleksey Vyazmikin 2022.10.24 12:15 #27990

mytarmailS #:

если у нас на 100 примеров целевой 5 меток ("А") и 95 меток ("Б")

то модель не может дать вероятность по метке "А" блоьше 0,5

В каком то отдельном правиле может дать, но в посте написано катбуст , а это модель (сумма прогнозов правил) , а не одного правила , и в сумме такой большой вероятности не будет

даже если модель будет уверена в том что сейчас метка "А" , сумма вероятности правил метки "А" будет перебита суммой правил "Б" потому что правил "Б" будет намного больше

Всё это зависит от предикторов и числа деревьев в модели.

Я же не настаиваю на именно модели CatBoost для обучения.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2799