Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2943

 

Поясните плиз как получается следующая формула в алгоритме классификации на деревьях с бустингом (можно ссылочку на PDF):

formula residuals

Во всех материалах, которые удалось находить в инете, формула просто волшебным образом "берется с потолка".

 
Stanislav Korotky #:

Поясните плиз как получается следующая формула в алгоритме классификации на деревьях (можно ссылочку на PDF):


Во всех материалах, которые удалось находить в инете, формула просто волшебным образом "берется с потолка".

Сложно сказать :) Математические выкладки можно посмотреть в этом видео


 
Aleksey Vyazmikin #:

Сложно сказать :) Математические выкладки можно посмотреть в этом видео

Не, тут пусто. Я забыл упомянуть, что речь про бустинг.

 
Stanislav Korotky #:

Поясните плиз как получается следующая формула в алгоритме классификации на деревьях (можно ссылочку на PDF):


Во всех материалах, которые удалось находить в инете, формула просто волшебным образом "берется с потолка".

Если суммирование по классам, то в знаменателе индекс Джини или чистота узла (node purity). Чем она меньше, тем лучше. В числителе - число строк, попавших в лист.

Чем больше критерий тем лучше - классы разделяются чище, но без чрезмерного измельчения листов.

Вроде бы индекс Джини выбран потому, что он считается более чувствительным чем частота ошибки классификации.

 
Aleksey Nikolayev #:

Если суммирование по классам, то в знаменателе индекс Джини или чистота узла (node purity). Чем она меньше, тем лучше. В числителе - число строк, попавших в лист.

Чем больше критерий тем лучше - классы разделяются чище, но без чрезмерного измельчения листов.

Вроде бы индекс Джини выбран потому, что он считается более чувствительным чем частота ошибки классификации.

Нет, суммирование по записям, попавшим в узел. К мере информативности вопрос не относится. Это про передачу "остатков" между деревьями - там постоянно делается пересчет из вероятности в логит и обратно.

 
Stanislav Korotky #:

Нет, суммирование по записям, попавшим в узел. К мере информативности вопрос не относится. Это про передачу "остатков" между деревьями - там постоянно делается пересчет из вероятности в логит и обратно.

А как вообще частота может считаться для записи? Для класса понятно как.

 
Stanislav Korotky #:

Нет, суммирование по записям, попавшим в узел. К мере информативности вопрос не относится. Это про передачу "остатков" между деревьями - там постоянно делается пересчет из вероятности в логит и обратно.

Или речь о классификации посредством логистической регрессии? В любом случае, одной выдернутой откуда-то формулы недостаточно, нужен текст целиком.

 
Aleksey Nikolayev #:

Или речь о классификации посредством логистической регрессии? В любом случае, одной выдернутой откуда-то формулы недостаточно, нужен текст целиком.

Логит-функция в смысле ln(odds). Нужна для перевода области значений вероятности [0,1] в плюс-минус бесконечность - иначе не получится градиентом обучаться.

Например, вот текст - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea

А вот видео - https://www.youtube.com/watch?v=hjxgoUJ_va8

PS. ИМХО, и там и там есть ошибки в материале.
Gradient Boosting Trees for Classification: A Beginner’s Guide
Gradient Boosting Trees for Classification: A Beginner’s Guide
  • Aratrika Pal
  • medium.com
Introduction Machine learning algorithms require more than just fitting models and making predictions to improve accuracy. Nowadays, most winning models in the industry or in competitions have been using Ensemble Techniques to perform better. One such technique is Gradient...
 
Aleksey Nikolayev #:

Если суммирование по классам, то в знаменателе индекс Джини или чистота узла (node purity). Чем она меньше, тем лучше. В числителе - число строк, попавших в лист.

Чем больше критерий тем лучше - классы разделяются чище, но без чрезмерного измельчения листов.

Вроде бы индекс Джини выбран потому, что он считается более чувствительным чем частота ошибки классификации.

О!
Наконец то кто-то про индекс Джини знает... Я еще в 18м искал, код для него. https://www.mql5.com/ru/blogs/post/723619
Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
Stanislav Korotky #:

Логит-функция в смысле ln(odds). Нужна для перевода области значений вероятности [0,1] в плюс-минус бесконечность - иначе не получится градиентом обучаться.

Ну да. Используется для логистической регрессии, когда ищется вероятность (логит-функция от неё) принадлежности к классу.

Вроде автор хочет популярно изложить внутренности бустинга, но взял для этого слишком сложный вариант задачи. У него смешаны логит регрессия, деревья и бустинг, которые сами по себе непросты для понимания. Суть бустинга невозможно изложить логично без функана. Для понимания сути логит регрессии - нужен теорвер (биномиальное распределение наверно).

Причина обращения: