Посмотрите мой пример со штанами и юбками, отображает скудность знаний исследователя об исследуемой области - Общее обсуждение

Vizard_ 2018.01.06 21:28 #5541

Maxim Dmitrievsky:

так что я хз чему в этой жизни верить. .все нужно перепроверять

Спасение в бенчмарках)))

Различные преобразования и резы. Верхний - исходные данные.

train = об.выборка с легкой кв. test = ООS. time = время об. в сек.

Aleksey Terentev 2018.01.06 23:04 #5542

По поводу выбросов в датасетах, на рынке может пригодиться такой метод.

Alexander_K2 2018.01.06 23:05 #5543

Вот я иногда удивляюсь с этого форума. Тишь да гладь и всеобщее отупение. И вдруг появляются некие люди типа Vladimir или Vizard_ или наиподозрительнейший podotr и начинают показывать мастер-классы. Кто такие? Прошу всех поголовно предъявить паспорта и дипломы об образовании! :))))

"Вирусный" советник , индикатор, Не Грааль, просто обычненький Лавина

Maxim Dmitrievsky 2018.01.07 07:50 #5544

СанСаныч Фоменко:

Использовать надо только предикторы, которые ИМЕЮТ ОТНОШЕНИЕ к целевой переменной. При этом "линейно" или "нелинейно" не имеет значения, не имеют отношения к очень точно сформулированному "имеют отношение".

ну это и все далее по тексту понятно, но причем здесь корреляция признака с целевой в изначально нелинейной модели

а я написал зачем она нужна в случае регрессионной, а в классификации нет, потому что там вообще не целевая а классы.. читайте глубже об чем пишу :)

Любые вопросы новичков по Ошибки, баги, вопросы [АРХИВ]Любой вопрос новичка, чтоб

СанСаныч Фоменко 2018.01.07 08:13 #5545

Maxim Dmitrievsky:

ну это и все далее по тексту понятно, но причем здесь корреляция признака с целевой в изначально нелинейной модели

а я написал зачем она нужна в случае регрессионной, а в классификации нет, потому что там вообще не целевая а классы.. читайте глубже об чем пишу :)

Мне не надо читать глубже - я Вас прекрасно понимаю, а вот Вы меня совсем не понимаете.

Я пишу про переобученность (сверх подгонку) - это главный враг всех моделей классификации. Поведение переобученных моделей НЕ определено в будущем.

Для борьбы с этим тотальным злом я вижу два инструмента:

1. Избавление входного набора предикторов от шумовых

2. Аккуратное тестирование

Все это я пишу на основе собственных расчетов, уверяю вас очень большого объема, которые я производил свыше года.

Мне лень искать, а затем формировать читабельный псот, так как у меня нет цели кого бы то ни было убеждать в чем-либо.

ПС.

Вы продолжаете настаивать на безобидности и даже полезности шумовых предикторов - Вы не первый, таких людей полно, астрологи называются.

Bayesian regression - Делал Любые вопросы новичков по Обсуждение статьи "Случайные леса

Maxim Dmitrievsky 2018.01.07 08:37 #5546

СанСаныч Фоменко:

Вы продолжаете настаивать на безобидности и даже полезности шумовых предикторов - Вы не первый, таких людей полно, астрологи называются.

где я такое написал?

СанСаныч Фоменко 2018.01.07 08:49 #5547

Maxim Dmitrievsky:

где я такое написал?

Перечел Ваш пост

ну это и все далее по тексту понятно, но причем здесь корреляция признака с целевой в изначально нелинейной модели

а я написал зачем она (корреляция) нужна в случае регрессионной, а в классификации нет, потому что там вообще не целевая а классы

Получается, что я домыслил и по-моему наши разночтения основаны на следующем:

Вы против корреляции, а я никогда не писал о корреляции между предиктором и целевой переменной.

Называется "поговорили".

Я всегда писал: предиктор должен иметь отношение к целевой переменной. В значении слова "отношение" никогда не имел ввиду корреляцию, линейную, нелинейную регрессию. Более того, все алгоритмы "важности" предикторов, которую выдают алгоритмы классификации, меня также не устраивают.

Посмотрите мой пример: целевая: пол с классами мужчина/женщина, а предиктор: одежда со значением юбки/штаны.

Обсуждение статьи "Третье поколение Обсуждение статьи "Случайные леса Bayesian regression - Делал

Maxim Dmitrievsky 2018.01.07 09:40 #5548

СанСаныч Фоменко:

Перечел Ваш пост

Получается, что я домыслил и по-моему наши разночтения основаны на следующем:

Вы против корреляции, а я никогда не писал о корреляции между предиктором и целевой переменной.

Называется "поговорили".

Я всегда писал: предиктор должен иметь отношение к целевой переменной. В значении слова "отношение" никогда не имел ввиду корреляцию, линейную, нелинейную регрессию. Более того, все алгоритмы "важности" предикторов, которую выдают алгоритмы классификации, меня также не устраивают.

Посмотрите мой пример: целевая: пол с классами мужчина/женщина, а предиктор: одежда со значением юбки/штаны.

да, просто кое-где иногда пишут что признаки с целевыми должны именно коррелировать, т.е. должна быть линейная зависимость

ну и я написал что для регрессионных моделей это может быть резонно, что бы хотя бы 1 признак был линейно связан с целевой

про "отношение" конечно согласен :)

ДОКОЛЕ? Алгоритм объединения диапазонов отрезка Будьте готовы к выходу

Maxim Dmitrievsky 2018.01.07 09:42 #5549

Vizard_:

Спасение в бенчмарках)))

Различные преобразования и резы. Верхний - исходные данные.

train = об.выборка с легкой кв. test = ООS. time = время об. в сек.

даже хороший результат на форварде не всегда предвестник последующего вывода профита на карточку :)

а вообще выше уже упоминалась кросс-валидация, по мне так самое оно

Aleksey Terentev 2018.01.07 10:23 #5550

Переобучение - Возникает при наличии больших весов (~10^18), следствие мультиколлинеарности, что приводит к неустойчивости модели A(x, w).

Переобучение лечится: ранним остановом обучения модели, ограничением роста весов (регуляризация L1(Lasso) и L2), ограничением связей в сети (Dropout), также возможно применение штрафных функций (ElacticNet, Lasso).

Причем регуляризация L1 ведет к отбору признаков, так как зануляет их весовые коэффициенты.

Избавление от "шумовых" признаков - это и есть отбор признаков. Для этого существуют свои методы. Это не всегда идет на пользу модели, поэтому иногда применяют регуляризацию L2 (помогает решать проблему мультиколлинеарности).

СанСаныч Фоменко, Ваше высказывание об отношении признаков и таргетов несколько самоуверенно. Поскольку, как Вы можете утверждать то, что еще не доказано; то для чего и строится модель МО. Построенная и работающая модель дает некоторую оценку того, что взаимосвязь имеется с "такой-то" точностью.

А пример со штанами и юбками, отображает скудность знаний исследователя об исследуемой области, ибо в такой модели Вы выкидываете ценные признаки о месте проживания, времени года, широтам и долготе региона проживания, и так далее.

Перед построением модели следует разобраться в исследуемой области, ибо дьявол, как и гениальность, кроется в деталях.

PS. Наличие споров - это хорошо. Они помогают отполировать точки зрения, учат предоставлять хорошие аргументы к тезисам, и приводят к общей истине.

Регуляризация Машинное обучение и нейронные Bayesian regression - Делал

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 555