Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2943
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Поясните плиз как получается следующая формула в алгоритме классификации на деревьях с бустингом (можно ссылочку на PDF):
Во всех материалах, которые удалось находить в инете, формула просто волшебным образом "берется с потолка".
Поясните плиз как получается следующая формула в алгоритме классификации на деревьях (можно ссылочку на PDF):
Во всех материалах, которые удалось находить в инете, формула просто волшебным образом "берется с потолка".
Сложно сказать :) Математические выкладки можно посмотреть в этом видео
Сложно сказать :) Математические выкладки можно посмотреть в этом видео
Не, тут пусто. Я забыл упомянуть, что речь про бустинг.
Поясните плиз как получается следующая формула в алгоритме классификации на деревьях (можно ссылочку на PDF):
Во всех материалах, которые удалось находить в инете, формула просто волшебным образом "берется с потолка".
Если суммирование по классам, то в знаменателе индекс Джини или чистота узла (node purity). Чем она меньше, тем лучше. В числителе - число строк, попавших в лист.
Чем больше критерий тем лучше - классы разделяются чище, но без чрезмерного измельчения листов.
Вроде бы индекс Джини выбран потому, что он считается более чувствительным чем частота ошибки классификации.
Если суммирование по классам, то в знаменателе индекс Джини или чистота узла (node purity). Чем она меньше, тем лучше. В числителе - число строк, попавших в лист.
Чем больше критерий тем лучше - классы разделяются чище, но без чрезмерного измельчения листов.
Вроде бы индекс Джини выбран потому, что он считается более чувствительным чем частота ошибки классификации.
Нет, суммирование по записям, попавшим в узел. К мере информативности вопрос не относится. Это про передачу "остатков" между деревьями - там постоянно делается пересчет из вероятности в логит и обратно.
Нет, суммирование по записям, попавшим в узел. К мере информативности вопрос не относится. Это про передачу "остатков" между деревьями - там постоянно делается пересчет из вероятности в логит и обратно.
А как вообще частота может считаться для записи? Для класса понятно как.
Нет, суммирование по записям, попавшим в узел. К мере информативности вопрос не относится. Это про передачу "остатков" между деревьями - там постоянно делается пересчет из вероятности в логит и обратно.
Или речь о классификации посредством логистической регрессии? В любом случае, одной выдернутой откуда-то формулы недостаточно, нужен текст целиком.
Или речь о классификации посредством логистической регрессии? В любом случае, одной выдернутой откуда-то формулы недостаточно, нужен текст целиком.
Логит-функция в смысле ln(odds). Нужна для перевода области значений вероятности [0,1] в плюс-минус бесконечность - иначе не получится градиентом обучаться.
Например, вот текст - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea
А вот видео - https://www.youtube.com/watch?v=hjxgoUJ_va8
PS. ИМХО, и там и там есть ошибки в материале.Если суммирование по классам, то в знаменателе индекс Джини или чистота узла (node purity). Чем она меньше, тем лучше. В числителе - число строк, попавших в лист.
Чем больше критерий тем лучше - классы разделяются чище, но без чрезмерного измельчения листов.
Вроде бы индекс Джини выбран потому, что он считается более чувствительным чем частота ошибки классификации.
Наконец то кто-то про индекс Джини знает... Я еще в 18м искал, код для него. https://www.mql5.com/ru/blogs/post/723619
Логит-функция в смысле ln(odds). Нужна для перевода области значений вероятности [0,1] в плюс-минус бесконечность - иначе не получится градиентом обучаться.
Ну да. Используется для логистической регрессии, когда ищется вероятность (логит-функция от неё) принадлежности к классу.
Например, вот текст - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea
Вроде автор хочет популярно изложить внутренности бустинга, но взял для этого слишком сложный вариант задачи. У него смешаны логит регрессия, деревья и бустинг, которые сами по себе непросты для понимания. Суть бустинга невозможно изложить логично без функана. Для понимания сути логит регрессии - нужен теорвер (биномиальное распределение наверно).