Это просто волшебная формула, которая позволяет классифицировать на деревьях с бустингом. Индекс Джини выбран потому, что он считается более - Общее обсуждение

Stanislav Korotky 2023.03.02 14:46 #29421

Поясните плиз как получается следующая формула в алгоритме классификации на деревьях с бустингом (можно ссылочку на PDF):

formula residuals

Во всех материалах, которые удалось находить в инете, формула просто волшебным образом "берется с потолка".

Aleksey Vyazmikin 2023.03.02 14:52 #29422

Stanislav Korotky #:

Поясните плиз как получается следующая формула в алгоритме классификации на деревьях (можно ссылочку на PDF):

Во всех материалах, которые удалось находить в инете, формула просто волшебным образом "берется с потолка".

Сложно сказать :) Математические выкладки можно посмотреть в этом видео

Stanislav Korotky 2023.03.02 15:31 #29423

Aleksey Vyazmikin #:

Сложно сказать :) Математические выкладки можно посмотреть в этом видео

Не, тут пусто. Я забыл упомянуть, что речь про бустинг.

Aleksey Nikolayev 2023.03.02 15:39 #29424

Stanislav Korotky #:

Поясните плиз как получается следующая формула в алгоритме классификации на деревьях (можно ссылочку на PDF):

Во всех материалах, которые удалось находить в инете, формула просто волшебным образом "берется с потолка".

Если суммирование по классам, то в знаменателе индекс Джини или чистота узла (node purity). Чем она меньше, тем лучше. В числителе - число строк, попавших в лист.

Чем больше критерий тем лучше - классы разделяются чище, но без чрезмерного измельчения листов.

Вроде бы индекс Джини выбран потому, что он считается более чувствительным чем частота ошибки классификации.

Машинное обучение и нейронные Разговор с искусственным интеллектом Как рассчитывается матожидание?

Stanislav Korotky 2023.03.02 15:47 #29425

Aleksey Nikolayev #:

Если суммирование по классам, то в знаменателе индекс Джини или чистота узла (node purity). Чем она меньше, тем лучше. В числителе - число строк, попавших в лист.

Чем больше критерий тем лучше - классы разделяются чище, но без чрезмерного измельчения листов.

Вроде бы индекс Джини выбран потому, что он считается более чувствительным чем частота ошибки классификации.

Нет, суммирование по записям, попавшим в узел. К мере информативности вопрос не относится. Это про передачу "остатков" между деревьями - там постоянно делается пересчет из вероятности в логит и обратно.

Aleksey Nikolayev 2023.03.02 16:14 #29426

Stanislav Korotky #:

Нет, суммирование по записям, попавшим в узел. К мере информативности вопрос не относится. Это про передачу "остатков" между деревьями - там постоянно делается пересчет из вероятности в логит и обратно.

А как вообще частота может считаться для записи? Для класса понятно как.

Aleksey Nikolayev 2023.03.02 16:38 #29427

Stanislav Korotky #:

Нет, суммирование по записям, попавшим в узел. К мере информативности вопрос не относится. Это про передачу "остатков" между деревьями - там постоянно делается пересчет из вероятности в логит и обратно.

Или речь о классификации посредством логистической регрессии? В любом случае, одной выдернутой откуда-то формулы недостаточно, нужен текст целиком.

Stanislav Korotky 2023.03.02 17:39 #29428

Aleksey Nikolayev #:

Или речь о классификации посредством логистической регрессии? В любом случае, одной выдернутой откуда-то формулы недостаточно, нужен текст целиком.

Логит-функция в смысле ln(odds). Нужна для перевода области значений вероятности [0,1] в плюс-минус бесконечность - иначе не получится градиентом обучаться.

Например, вот текст - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea

А вот видео - https://www.youtube.com/watch?v=hjxgoUJ_va8

PS. ИМХО, и там и там есть ошибки в материале.

Gradient Boosting Trees for Classification: A Beginner’s Guide

Aratrika Pal
medium.com

Introduction Machine learning algorithms require more than just fitting models and making predictions to improve accuracy. Nowadays, most winning models in the industry or in competitions have been using Ensemble Techniques to perform better. One such technique is Gradient...

вопрос по Excel-MQL4 От теории к практике Советник всем миром

Forester 2023.03.02 18:12 #29429

Aleksey Nikolayev #:

Если суммирование по классам, то в знаменателе индекс Джини или чистота узла (node purity). Чем она меньше, тем лучше. В числителе - число строк, попавших в лист.

Чем больше критерий тем лучше - классы разделяются чище, но без чрезмерного измельчения листов.

Вроде бы индекс Джини выбран потому, что он считается более чувствительным чем частота ошибки классификации.

О!
Наконец то кто-то про индекс Джини знает... Я еще в 18м искал, код для него. https://www.mql5.com/ru/blogs/post/723619

Нужна ли деревьям и лесам балансировка по классам?

www.mql5.com

Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный

Aleksey Nikolayev 2023.03.02 18:21 #29430

Stanislav Korotky #:

Логит-функция в смысле ln(odds). Нужна для перевода области значений вероятности [0,1] в плюс-минус бесконечность - иначе не получится градиентом обучаться.

Ну да. Используется для логистической регрессии, когда ищется вероятность (логит-функция от неё) принадлежности к классу.

Stanislav Korotky #:

Например, вот текст - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea

Вроде автор хочет популярно изложить внутренности бустинга, но взял для этого слишком сложный вариант задачи. У него смешаны логит регрессия, деревья и бустинг, которые сами по себе непросты для понимания. Суть бустинга невозможно изложить логично без функана. Для понимания сути логит регрессии - нужен теорвер (биномиальное распределение наверно).

Алгоритм объединения диапазонов отрезка Есть ли закономерность в Машинное обучение и нейронные

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2943