Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2799

 
elibrarius #:

Разве это уникальность? За пределами обучения рыночные данные обычно не работают. Я вам там задал пару вопросов

Ну как не работают, обычно работают, но не очень хорошо.

Тут особенность в том, что модель CatBoost предпочитает все примеры отнести к вероятности менее 0,5 - таким образом не классифицирует целевую "1", а то, что от 0 до 0,5 так же весьма не очень распределено - в теме есть скрины модели.

 
Aleksey Vyazmikin #:

Тут особенность в том, что модель CatBoost предпочитает все примеры отнести к вероятности менее 0,5 - таким образом не классифицирует целевую "1", а то, что от 0 до 0,5 так же весьма не очень распределено - в теме есть скрины модели.

тут особенность в том что судя по всему присудствует сильная разбалансировки классов , е сли на 100 примеров 5 меток одного класса и 95 меток другого , как модель может дать больше 0,5 вероятности по первому классу??  это не вопрос к модели, это вопрос к автору датасета..

 
mytarmailS #:

тут особенность в том что судя по всему присудствует сильная разбалансировки классов , е сли на 100 примеров 5 меток одного класса и 95 меток другого , как модель может дать больше 0,5 вероятности по первому классу??  это не вопрос к модели, это вопрос к автору датасета..

Там более 30% первого класса. И, да, может, не вижу проблем. Достаточно найти одно правило\лист, которое будет с большей вероятностью предсказывать "1" чем "0", пусть и редко.

К тому же - никто не мешает изменить дата сет, сделав балансировку классов.
 
Aleksey Vyazmikin #:

Там более 30% первого класса. И, да, может, не вижу проблем. Достаточно найти одно правило\лист, которое будет с большей вероятностью предсказывать "1" чем "0", пусть и редко.

К тому же - никто не мешает изменить дата сет, сделав балансировку классов.

притензии были у тебя к катбусту, а катбуст это не дерево\правило\лист

 
Балансировка только НС нужна. Деревянные модели балансировки не требуют.
 
mytarmailS #:

притензии были у тебя к катбусту, а катбуст это не дерево\правило\лист

Претензия не к алгоритму, он такой, какой есть, а к тому, что ему лучше подавать уже разжёванные данные.

Раньше Вы как то это понимали...

Форум по трейдингу, автоматическим торговым системам и тестированию торговых стратегий

Машинное обучение в трейдинге: теория, модели, практика и алготорговля

mytarmailS, 2016.10.29 11:22

гипотетическая ситуация....

есть у нас 100 потенцыальных предикторов, для простоты объяснения пусть это будут индикаторы.

 Представим что мы изначально знаем что во всех этих предикторах  есть только одна прибыльная ситуация, это когда РСИ пересек отметку 90 а стохастик только что стал ниже нуля (ситуация из потолка естественно) ,  такая ситуация дает падение цены с вероятностью 90%, все остальные предикторы являются полнейшим шумом, все остальные ситуации в предикторах РСИ и стохастик тоже являются полнейшим шумом, а ситуаций там всяких разных еще сотни и сотни....

 то бишь имеем около 0.01% полезного сигнала к 99,9% шума 

Допустим каким то чудом ваш МО отсеет все 98 предикторов и оставит  только два - РСИ и стохастик

 в РСИ есть сотни ситуацый РСИ>0, РСИ>13, РСИ<85, РСИ=0, РСИ<145, ............ и так сотни и сотни, в схохастике ситуаций не меньше, рабочая ситуация только одна, по скольку вы тренируете МО распознавать все движения цены то МО будет строить модели учитывая все возможные ситуации которые имеються в РСИ и стохастике, а вероятность в тех ситуациях что они сработают почти нулевая, но МО обязан их учитывать и строить какие то модели по ним , не смотря на то что это есть самый настоящий шум,  а та одна рабочая ситуация просто затеряется среди сотен других решений, вот оно переобучение....

 НУ как дошло наконец???


Обоснуйте, при чем тут представление модели и пропорции целевых. Я говорю о том, что модель можно представить в виде модернизированного листа - правила.

 
elibrarius #:
Балансировка только НС нужна. Деревянные модели балансировки не требуют.

Это так для хороших данных, в любом случае счетчики внутри алгоритма работают и принимают решения по числу выделяемых целевых...

 
Aleksey Vyazmikin #:

Тут особенность в том, что модель CatBoost предпочитает все примеры отнести к вероятности менее 0,5 - таким образом не классифицирует целевую "1", а то, что от 0 до 0,5 так же весьма не очень распределено.

если у нас на 100 примеров целевой 5 меток ("А")  и 95 меток ("Б")

то модель не может дать вероятность по метке "А" блоьше 0,5

В каком то отдельном правиле может дать, но в посте написано катбуст , а это модель (сумма прогнозов правил) , а не одного правила , и в сумме такой большой вероятности не будет


даже если модель будет уверена в том что сейчас метка "А" , сумма вероятности правил метки "А" будет перебита суммой правил "Б" потому что правил "Б" будет намного больше 

 
elibrarius #:
Балансировка только НС нужна. Деревянные модели балансировки не требуют.

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

random forest for imbalanced data?
random forest for imbalanced data?
  • 2018.04.16
  • MSilvy MSilvy 139 1 1 silver badge 8 8 bronze badges
  • stats.stackexchange.com
I have a dataset where yes=77 and no=16000, a highly imbalanced dataset. My plan was to identify the most important variables influencing the response variable using random forest and then develop a logistic regression model using the selected variable. I am planning to use...
 
mytarmailS #:

если у нас на 100 примеров целевой 5 меток ("А")  и 95 меток ("Б")

то модель не может дать вероятность по метке "А" блоьше 0,5

В каком то отдельном правиле может дать, но в посте написано катбуст , а это модель (сумма прогнозов правил) , а не одного правила , и в сумме такой большой вероятности не будет


даже если модель будет уверена в том что сейчас метка "А" , сумма вероятности правил метки "А" будет перебита суммой правил "Б" потому что правил "Б" будет намного больше 

Всё это зависит от предикторов и числа деревьев в модели.

Я же не настаиваю на именно модели CatBoost для обучения.

Причина обращения: