Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2255

 
Maxim Dmitrievsky:

зачем вы ковыряете этот карбюратор? работает и ладно. Вы не улучшите ничего этим

Если понимаешь в чем проблема, то можешь искать решение. Очевидно, что у таких деревьев есть недостатки.

Но согласен, что с кодом CatBoost я не разберусь для внесения в него правок, увы.

Однако, есть возможность повлиять на модель, возможно зануление редких примеров в листьях даст положительный эффект, но желательно потом перевзвесить коэффициенты листьев - с этим сложней, но глобально решаемо.

Maxim Dmitrievsky:

возьмите простую нейросеть без листьев. Она будет работать на новых данных так же плохо как бустинг. О чем это говорит?

Я согласен, что и там будет эффект переобучения, но другого характера - вопрос в том, какой из этих эффектов можно точней выявлять и оценивать и с каким легче бороться.

Maxim Dmitrievsky:

есть прекрасный инструмент SHAP для отбора и интерпретации признаков, но он на питоне. Все уже давно сделано за вас )

На самом деле подавляющее большинство этих методов говорят лишь об использовании предикторов в моделях, но не делают какой либо оценки их самих. Нужны оценки предикторов независимые от модели - я работаю над этим, есть скромные положительные результаты.

Конечно мне хочется покрутить готовые решения на питоне или R, но есть сомнения, что я осилю новый синтаксис.

 
mytarmailS:

Интересно что будет если обучить новую модель на этой диаграмме?

Вообще сама идея  -   обучить вторую модель на "внутренностях" первой

Эта модель в примере из древних залежей, сейчас в моделях у меня по 60к листьев, что конечно много для формирования выборки. Возможно попробовать существенно сократив число деревьев. Однако замечу, что я оценивал листья от CatBoost и они очень слабы по своим характеристикам по отдельности в сравнении с листьями от генетического дерева.

На листьях(тысячах листьев) от генетического дерева я обучался - можно улучшить метрические показатели.

 
Aleksey Vyazmikin:

Если понимаешь в чем проблема, то можешь искать решение. Очевидно, что у таких деревьев есть недостатки.

Но согласен, что с кодом CatBoost я не разберусь для внесения в него правок, увы.

Однако, есть возможность повлиять на модель, возможно зануление редких примеров в листьях даст положительный эффект, но желательно потом перевзвесить коэффициенты листьев - с этим сложней, но глобально решаемо.

Я согласен, что и там будет эффект переобучения, но другого характера - вопрос в том, какой из этих эффектов можно точней выявлять и оценивать и с каким легче бороться.

На самом деле подавляющее большинство этих методов говорят лишь об использовании предикторов в моделях, но не делают какой либо оценки их самих. Нужны оценки предикторов независимые от модели - я работаю над этим, есть скромные положительные результаты.

Конечно мне хочется покрутить готовые решения на питоне или R, но есть сомнения, что я осилю новый синтаксис.

там оценивается именно влияние фичей на поведение конкретной модели

 
Aleksey Vyazmikin:

Если понимаешь в чем проблема, то можешь искать решение. Очевидно, что у таких деревьев есть недостатки.

Но согласен, что с кодом CatBoost я не разберусь для внесения в него правок, увы.

Однако, есть возможность повлиять на модель, возможно зануление редких примеров в листьях даст положительный эффект, но желательно потом перевзвесить коэффициенты листьев - с этим сложней, но глобально решаемо.

Я согласен, что и там будет эффект переобучения, но другого характера - вопрос в том, какой из этих эффектов можно точней выявлять и оценивать и с каким легче бороться.

На самом деле подавляющее большинство этих методов говорят лишь об использовании предикторов в моделях, но не делают какой либо оценки их самих. Нужны оценки предикторов независимые от модели - я работаю над этим, есть скромные положительные результаты.

Конечно мне хочется покрутить готовые решения на питоне или R, но есть сомнения, что я осилю новый синтаксис.

Пришел к выводу, что добавление по 1 (или удаление по 1) самое лучшее. Тут мое исследование. Наверное вы уже видели.

Сравнение разных методов оценки важности предикторов.
Сравнение разных методов оценки важности предикторов.
  • www.mql5.com
Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За
 
Maxim Dmitrievsky:

там оценивается именно влияние фичей на поведение конкретной модели

Я об этом и говорю, что оценка идет через получившуюся модель.

 
elibrarius:

Пришел к выводу, что добавление по 1 (или удаление по 1) самое лучшее. Тут мое исследование. Наверное вы уже видели.

Ранее не видел - посмотрел - в целом согласен, что реальный эффект можно получить через удаление. В CatBoost есть метод удаления предиктора и вроде как перевзвешивание модели без него, но я с ним не разбирался. Пока ограничивался именно добавлением и исключением предикторов, но не одного, а группами.

 
Aleksey Vyazmikin:

Я об этом и говорю, что оценка идет через получившуюся модель.

и это хорошо

можно посмотреть какие признаки портачат на новых данных

 

хз...  может из за опыта , а может из за того что я бухнул ...)

но мне кажется что вы ху..ней страдаете..) 

 
mytarmailS:

хз...  может из за опыта , а может из за того что я бухнул ...)

но мне кажется что вы ху..ней страдаете..) 

может потому, что ты презренный мещанин

 
Maxim Dmitrievsky:

может потому, что ты презренный мещанин

обидно

Причина обращения: