Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3354

 
Maxim Dmitrievsky #:
Вы вопросом на вопрос отвечать будете? Я знаю однозначный ответ, если что.
Maxim Dmitrievsky #:
То, что получаете на выходе моделей, не является вероятностями классов. Аналогия - регрессия, которая отдает одно значение. Классификатор работает по тому же принципу, он отдает значение (raw value), пропущенное через сигмоиду, а не вероятность.

Как получить вероятность?

А знаете, как получается значение в листьях моделей CB, воспроизвести можете?

Суть в том, что вероятности по истории оцениваются, но гарантий что и дальше таковыми они будут, может дать только теория при репрезентативной выборке. У нас такой выборки нет. Поэтому любые подгонки в этом направлении точность не дадут на новых данных. Коррекция может быть актуально по той причине, что в листья попал мусор, и именно это надо скорректировать, завысив или занизив точку классификации по сигмойде.

Или опять же не ясно, о чём речь.

Если нашли чего то умное, поделитесь :)

 
Aleksey Vyazmikin #:

А знаете, как получается значение в листьях моделей CB, воспроизвести можете?

Суть в том, что вероятности по истории оцениваются, но гарантий что и дальше таковыми они будут, может дать только теория при репрезентативной выборке. У нас такой выборки нет. Поэтому любые подгонки в этом направлении точность не дадут на новых данных. Коррекция может быть актуально по той причине, что в листья попал мусор, и именно это надо скорректировать, зависим или занизив точку классификации по сигмойде.

Или опять же не ясно, о чём речь.

Если нашли чего то умное, поделитесь :)

Я надеялся, что кто-нибудь хотя бы загуглит по наводке.

Даже если у вас на обучении кривые вероятности, о каких новых данных может идти речь. А бустинг и форест сильно грешат этим. Бустинг слишком самоуверен, форест недоуверен. При условии, конечно, что вообще планируете использовать порог.

Я сам наблюдал, как при увеличении порога, качество сделок не улучшается даже на трейне. Тогда вероятность чего модель возвращает? Ничего :)

На картинке Саныча самоуверенный бустинг, видно по выбросам краевых столбцов. Впадина должна быть более плавной. Это переобучения модель.
 
Maxim Dmitrievsky #:
Я надеялся, что кто-нибудь хотя бы загуглит по наводке.

Даже если у вас на обучении кривые вероятности, о каких новых данных может идти речь. А бустинг и форест сильно грешат этим. Бустинг слишком самоуверен, форест недоуверен. При условии, конечно, что вообще планируете использовать порог.

Я сам наблюдал, как при увеличении порога, качество сделок не улучшается даже на трейне. Тогда вероятность чего они возвращают? Ничего :)

Как-то не обращаете внимания на мои посты, сосредоточившись на вероятностях. Не важно как называется вероятность, важно, что если не улучшается, то модель переобучена, в корзину. Ошибка предсказания на ООВ, ООС и ВНЕ должна быть примерно одинакова. 

Вот еще гистограмма

Другой алгоритм - другая гистограмма, хотя метки и предикторы одинаковы. Если Вы ищите некий теоретические вероятности, подразумевая, что разные алгоритмы классификации будут давать одинаковые гистограммы ... мне это в голову не приходит, так как приходится работать с конкретными алгоритмами и они будут предсказывать и их надо оценивать, а не какой-то теоретический идеал. Здесь главная оценка - это переобучение модели, а не близость вероятностей к некоему теоретическому идеалу.

 
СанСаныч Фоменко #:

Как-то не обращаете внимания на мои посты, сосредоточившись на вероятностях. Не важно как называется вероятность, важно, что если не улучшается, то модель переобучена, в корзину. Ошибка предсказания на ООВ, ООС и ВНЕ должна быть примерно одинакова. 

Модель из коробки не отдает корректные вероятности, любая. Об этом сказ. У вас предсказанные метки могут полностью совпасть, а вероятности - нет, не будут отражать реальную вероятность исхода.
Do you understand me?
 
Maxim Dmitrievsky #:
Модель из коробки не отдает корректные вероятности, любая. Об этом сказ. У вас предсказанные метки могут полностью совпасть, а вероятности - нет. 
Do you understand me?

Добавил свой пост. Любая модель дает корректные вероятности в том смысле, что ошибка классификации не будет колебаться.

 
СанСаныч Фоменко #:

Как-то не обращаете внимания на мои посты, сосредоточившись на вероятностях. Не важно как называется вероятность, важно, что если не улучшается, то модель переобучена, в корзину. Ошибка предсказания на ООВ, ООС и ВНЕ должна быть примерно одинакова. 

Вот еще гистограмма

Другой алгоритм - другая гистограмма, хотя метки и предикторы одинаковы. Если Вы ищите некий теоретические вероятности, подразумевая, что разные алгоритмы классификации будут давать одинаковые гистограммы ... мне это в голову не приходит, так как приходится работать с конкретными алгоритмами и они будут предсказывать и их надо оценивать, а не какой-то теоретический идеал. Здесь главная оценка - это переобучение модели, а не близость вероятностей к некоему теоретическому идеалу.

Сдаетесь? Загуглите classification probability calibration, в R должно быть.

И probability curve своей модели постройте, в сравнении с эталоном.
 
Maxim Dmitrievsky #:
Сдаетесь? Загуглите classification probability calibration, в R должно быть.

И probability curve своей модели постройте, в сравнении с эталоном.

Мы говорим о разном.

Я пишу о результате, а Вы об идеале промежуточных данных.

Для меня очевидно, что значения вероятности конкретных меток, которые дает RF и ada, будут разными, а вот предсказания конкретных меток практически одинаково. Меня не интересуют значения вероятностей, меня интересует ошибка предсказания

Если теоретизировать, то вероятность класса в Вашем смысле скорее всего получить невозможно, так как надо доказать, что Ваша вероятность удовлетворяет предельной теореме, а это очень сомнительно.  

 
СанСаныч Фоменко #:

Мы говорим о разном.

Я пишу о результате, а Вы об идеале промежуточных данных.

Значения вероятности классов, которые дает RF и ada будут разными, а вот предсказания конкретных меток практически одинаково. Меня не интересуют значения вероятностей, меня интересует ошибка предсказания.

Если теоретизировать, то вероятность класса в Вашем смысле скорее всего получить невозможно, так как надо доказать, что Ваша вероятность удовлетворяет предельной теореме, а это очень сомнительно.  

Тем не менее, изначальный вопрос был, никто не ответил. Я говорю ровно о том, о чем спросил.
Значит есть к чему стремиться.
 
Maxim Dmitrievsky #:
Тем не менее, изначальный вопрос был, никто не ответил.
Значит есть к чему стремиться.

Зачем? Если в смысле диссертации....

 
СанСаныч Фоменко #:

Зачем? Если в смысле диссертации....

Потому что трейдинг с кривыми вероятностями означает получение убылей вместо прибылей. Любой классификатор нуждается в калибровке, если это чувствительное к риску приложение.
Причина обращения: