Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 555

 
Maxim Dmitrievsky:

так что я хз чему в этой жизни верить. .все нужно перепроверять


Спасение в бенчмарках)))

Различные преобразования и резы. Верхний - исходные данные.

train = об.выборка с легкой кв. test = ООS. time = время об. в сек.


 
По поводу выбросов в датасетах, на рынке может пригодиться такой метод.
 

Вот я иногда удивляюсь с этого форума. Тишь да гладь и всеобщее отупение. И вдруг появляются некие люди типа Vladimir или Vizard_ или наиподозрительнейший podotr и начинают показывать мастер-классы. Кто такие? Прошу всех поголовно предъявить паспорта и дипломы об образовании! :))))

 
СанСаныч Фоменко:

Использовать надо только предикторы, которые ИМЕЮТ ОТНОШЕНИЕ к целевой переменной. При этом "линейно" или "нелинейно" не имеет значения, не имеют отношения к очень точно сформулированному "имеют отношение".

ну это и все далее по тексту понятно, но причем здесь корреляция признака с целевой в изначально нелинейной модели

а я написал зачем она нужна в случае регрессионной, а в классификации нет, потому что там вообще не целевая а классы.. читайте глубже об чем пишу :)

 
Maxim Dmitrievsky:

ну это и все далее по тексту понятно, но причем здесь корреляция признака с целевой в изначально нелинейной модели

а я написал зачем она нужна в случае регрессионной, а в классификации нет, потому что там вообще не целевая а классы.. читайте глубже об чем пишу :)


Мне не надо читать глубже - я Вас прекрасно понимаю, а вот Вы меня совсем не понимаете.

Я пишу про переобученность (сверх подгонку) - это главный враг всех моделей классификации. Поведение переобученных моделей НЕ определено в будущем. 

Для борьбы с этим тотальным злом я вижу два инструмента:

1. Избавление входного набора предикторов от шумовых

2. Аккуратное тестирование

Все это я пишу на основе собственных расчетов, уверяю вас очень большого объема, которые я производил свыше года.

Мне лень искать, а затем формировать читабельный псот, так как у меня нет цели кого бы то ни было убеждать в чем-либо. 


ПС.

Вы продолжаете настаивать на безобидности и даже полезности шумовых предикторов - Вы не первый, таких людей полно, астрологи называются.

 
СанСаныч Фоменко:

Вы продолжаете настаивать на безобидности и даже полезности шумовых предикторов - Вы не первый, таких людей полно, астрологи называются.


где я такое написал?

 
Maxim Dmitrievsky:

где я такое написал?

Перечел Ваш пост

ну это и все далее по тексту понятно, но причем здесь корреляция признака с целевой в изначально нелинейной модели

а я написал зачем она (корреляция) нужна в случае регрессионной, а в классификации нет, потому что там вообще не целевая а классы



Получается, что я домыслил и по-моему наши разночтения основаны на следующем:

Вы против корреляции, а я никогда не писал о корреляции между предиктором и целевой переменной.

Называется "поговорили".

Я всегда писал: предиктор должен иметь отношение к целевой переменной. В значении слова "отношение" никогда не имел ввиду корреляцию, линейную, нелинейную регрессию. Более того, все алгоритмы "важности" предикторов, которую выдают алгоритмы классификации, меня также не устраивают.


Посмотрите мой пример: целевая: пол с классами мужчина/женщина, а предиктор: одежда со значением юбки/штаны. 

 
СанСаныч Фоменко:

Перечел Ваш пост



Получается, что я домыслил и по-моему наши разночтения основаны на следующем:

Вы против корреляции, а я никогда не писал о корреляции между предиктором и целевой переменной.

Называется "поговорили".

Я всегда писал: предиктор должен иметь отношение к целевой переменной. В значении слова "отношение" никогда не имел ввиду корреляцию, линейную, нелинейную регрессию. Более того, все алгоритмы "важности" предикторов, которую выдают алгоритмы классификации, меня также не устраивают.


Посмотрите мой пример: целевая: пол с классами мужчина/женщина, а предиктор: одежда со значением юбки/штаны. 


да, просто кое-где иногда пишут что признаки с целевыми должны именно коррелировать, т.е. должна быть линейная зависимость

ну и я написал что для регрессионных моделей это может быть резонно, что бы хотя бы 1 признак был линейно связан с целевой

про "отношение" конечно согласен :)

 
Vizard_:

Спасение в бенчмарках)))

Различные преобразования и резы. Верхний - исходные данные.

train = об.выборка с легкой кв. test = ООS. time = время об. в сек.



даже хороший результат на форварде не всегда предвестник последующего вывода профита на карточку :)

а вообще выше уже упоминалась кросс-валидация, по мне так самое оно

 
Переобучение - Возникает при наличии больших весов (~10^18), следствие мультиколлинеарности, что приводит к неустойчивости модели A(x, w).


Переобучение лечится: ранним остановом обучения модели, ограничением роста весов (регуляризация L1(Lasso) и L2), ограничением связей в сети (Dropout), также возможно применение штрафных функций (ElacticNet, Lasso).

Причем регуляризация L1 ведет к отбору признаков, так как зануляет их весовые коэффициенты.

Избавление от "шумовых" признаков - это и есть отбор признаков. Для этого существуют свои методы. Это не всегда идет на пользу модели, поэтому иногда применяют регуляризацию L2 (помогает решать проблему мультиколлинеарности).


СанСаныч Фоменко, Ваше высказывание об отношении признаков и таргетов несколько самоуверенно. Поскольку, как Вы можете утверждать то, что еще не доказано; то для чего и строится модель МО. Построенная и работающая модель дает некоторую оценку того, что взаимосвязь имеется с "такой-то" точностью.

А пример со штанами и юбками, отображает скудность знаний исследователя об исследуемой области, ибо в такой модели Вы выкидываете ценные признаки о месте проживания, времени года, широтам и долготе региона проживания, и так далее.


Перед построением модели следует разобраться в исследуемой области, ибо дьявол, как и гениальность, кроется в деталях.


PS. Наличие споров - это хорошо. Они помогают отполировать точки зрения, учат предоставлять хорошие аргументы к тезисам, и приводят к общей истине.

Причина обращения: