Если у вас на обучении кривые вероятности, то модель из коробки не отдает корректные вероятности - Общее обсуждение

Aleksey Vyazmikin 2023.12.24 18:47 #33531

Maxim Dmitrievsky #:
Вы вопросом на вопрос отвечать будете? Я знаю однозначный ответ, если что.

Maxim Dmitrievsky #:
То, что получаете на выходе моделей, не является вероятностями классов. Аналогия - регрессия, которая отдает одно значение. Классификатор работает по тому же принципу, он отдает значение (raw value), пропущенное через сигмоиду, а не вероятность.

Как получить вероятность?

А знаете, как получается значение в листьях моделей CB, воспроизвести можете?

Суть в том, что вероятности по истории оцениваются, но гарантий что и дальше таковыми они будут, может дать только теория при репрезентативной выборке. У нас такой выборки нет. Поэтому любые подгонки в этом направлении точность не дадут на новых данных. Коррекция может быть актуально по той причине, что в листья попал мусор, и именно это надо скорректировать, завысив или занизив точку классификации по сигмойде.

Или опять же не ясно, о чём речь.

Если нашли чего то умное, поделитесь :)

Интерполяция, аппроксимация и иже Опять TestGenerator: unmatched data Автоматический расчет описательных статистик

Maxim Dmitrievsky 2023.12.24 18:49 #33532

Aleksey Vyazmikin #:

А знаете, как получается значение в листьях моделей CB, воспроизвести можете?

Суть в том, что вероятности по истории оцениваются, но гарантий что и дальше таковыми они будут, может дать только теория при репрезентативной выборке. У нас такой выборки нет. Поэтому любые подгонки в этом направлении точность не дадут на новых данных. Коррекция может быть актуально по той причине, что в листья попал мусор, и именно это надо скорректировать, зависим или занизив точку классификации по сигмойде.

Или опять же не ясно, о чём речь.

Если нашли чего то умное, поделитесь :)

Я надеялся, что кто-нибудь хотя бы загуглит по наводке.

Даже если у вас на обучении кривые вероятности, о каких новых данных может идти речь. А бустинг и форест сильно грешат этим. Бустинг слишком самоуверен, форест недоуверен. При условии, конечно, что вообще планируете использовать порог.

Я сам наблюдал, как при увеличении порога, качество сделок не улучшается даже на трейне. Тогда вероятность чего модель возвращает? Ничего :)

На картинке Саныча самоуверенный бустинг, видно по выбросам краевых столбцов. Впадина должна быть более плавной. Это переобучения модель.

Есть ли закономерность в Состояние рынка - флэт Эксперт с интеллектом. Концепция.

СанСаныч Фоменко 2023.12.24 19:25 #33533

Maxim Dmitrievsky #:
Я надеялся, что кто-нибудь хотя бы загуглит по наводке.

Даже если у вас на обучении кривые вероятности, о каких новых данных может идти речь. А бустинг и форест сильно грешат этим. Бустинг слишком самоуверен, форест недоуверен. При условии, конечно, что вообще планируете использовать порог.

Я сам наблюдал, как при увеличении порога, качество сделок не улучшается даже на трейне. Тогда вероятность чего они возвращают? Ничего :)

Как-то не обращаете внимания на мои посты, сосредоточившись на вероятностях. Не важно как называется вероятность, важно, что если не улучшается, то модель переобучена, в корзину. Ошибка предсказания на ООВ, ООС и ВНЕ должна быть примерно одинакова.

Вот еще гистограмма

Другой алгоритм - другая гистограмма, хотя метки и предикторы одинаковы. Если Вы ищите некий теоретические вероятности, подразумевая, что разные алгоритмы классификации будут давать одинаковые гистограммы ... мне это в голову не приходит, так как приходится работать с конкретными алгоритмами и они будут предсказывать и их надо оценивать, а не какой-то теоретический идеал. Здесь главная оценка - это переобучение модели, а не близость вероятностей к некоему теоретическому идеалу.

Bayesian regression - Делал Предсказание рынка на основе Есть ли закономерность в

Maxim Dmitrievsky 2023.12.24 19:26 #33534

СанСаныч Фоменко #:

Как-то не обращаете внимания на мои посты, сосредоточившись на вероятностях. Не важно как называется вероятность, важно, что если не улучшается, то модель переобучена, в корзину. Ошибка предсказания на ООВ, ООС и ВНЕ должна быть примерно одинакова.

Модель из коробки не отдает корректные вероятности, любая. Об этом сказ. У вас предсказанные метки могут полностью совпасть, а вероятности - нет, не будут отражать реальную вероятность исхода.

Do you understand me?

СанСаныч Фоменко 2023.12.24 19:32 #33535

Maxim Dmitrievsky #:
Модель из коробки не отдает корректные вероятности, любая. Об этом сказ. У вас предсказанные метки могут полностью совпасть, а вероятности - нет.

Do you understand me?

Добавил свой пост. Любая модель дает корректные вероятности в том смысле, что ошибка классификации не будет колебаться.

Maxim Dmitrievsky 2023.12.24 19:34 #33536

СанСаныч Фоменко #:

Как-то не обращаете внимания на мои посты, сосредоточившись на вероятностях. Не важно как называется вероятность, важно, что если не улучшается, то модель переобучена, в корзину. Ошибка предсказания на ООВ, ООС и ВНЕ должна быть примерно одинакова.

Вот еще гистограмма

Другой алгоритм - другая гистограмма, хотя метки и предикторы одинаковы. Если Вы ищите некий теоретические вероятности, подразумевая, что разные алгоритмы классификации будут давать одинаковые гистограммы ... мне это в голову не приходит, так как приходится работать с конкретными алгоритмами и они будут предсказывать и их надо оценивать, а не какой-то теоретический идеал. Здесь главная оценка - это переобучение модели, а не близость вероятностей к некоему теоретическому идеалу.

Сдаетесь? Загуглите classification probability calibration, в R должно быть.

И probability curve своей модели постройте, в сравнении с эталоном.

СанСаныч Фоменко 2023.12.24 19:45 #33537

Maxim Dmitrievsky #:
Сдаетесь? Загуглите classification probability calibration, в R должно быть.

И probability curve своей модели постройте, в сравнении с эталоном.

Мы говорим о разном.

Я пишу о результате, а Вы об идеале промежуточных данных.

Для меня очевидно, что значения вероятности конкретных меток, которые дает RF и ada, будут разными, а вот предсказания конкретных меток практически одинаково. Меня не интересуют значения вероятностей, меня интересует ошибка предсказания

Если теоретизировать, то вероятность класса в Вашем смысле скорее всего получить невозможно, так как надо доказать, что Ваша вероятность удовлетворяет предельной теореме, а это очень сомнительно.

Публичное обсуждение формулы расчета Вопросы от начинающих MQL5 Обсуждение

Maxim Dmitrievsky 2023.12.24 19:46 #33538

СанСаныч Фоменко #:

Мы говорим о разном.

Я пишу о результате, а Вы об идеале промежуточных данных.

Значения вероятности классов, которые дает RF и ada будут разными, а вот предсказания конкретных меток практически одинаково. Меня не интересуют значения вероятностей, меня интересует ошибка предсказания.

Если теоретизировать, то вероятность класса в Вашем смысле скорее всего получить невозможно, так как надо доказать, что Ваша вероятность удовлетворяет предельной теореме, а это очень сомнительно.

Тем не менее, изначальный вопрос был, никто не ответил. Я говорю ровно о том, о чем спросил.

Значит есть к чему стремиться.

СанСаныч Фоменко 2023.12.24 19:48 #33539

Maxim Dmitrievsky #:
Тем не менее, изначальный вопрос был, никто не ответил.

Значит есть к чему стремиться.

Зачем? Если в смысле диссертации....

Maxim Dmitrievsky 2023.12.24 19:49 #33540

СанСаныч Фоменко #:

Зачем? Если в смысле диссертации....

Потому что трейдинг с кривыми вероятностями означает получение убылей вместо прибылей. Любой классификатор нуждается в калибровке, если это чувствительное к риску приложение.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3354