Обсуждение статьи "Продвинутый ресемплинг и выбор CatBoost моделей брутфорс методом" - страница 8

 
Valeriy Yastremskiy:

Видимо у нас разные представления о рандом бустинг. Решающее дерево, это про отобранные признаки из случайного набора. Смысл, что наборы случайны, но выбор / кластеризация на плохие хорошие изначально была. Это как иголку бросать, углы мерять и число Пи вычислять)

из вики

  1. Построим решающее дерево, классифицирующее образцы данной подвыборки, причём в ходе создания очередного узла дерева будем выбирать набор признаков, на основе которых производится разбиение (не из всех M признаков, а лишь из m случайно выбранных). Выбор наилучшего из этих m признаков может осуществляться различными способами. В оригинальном коде Бреймана используется критерий Джини, применяющийся также в алгоритме построения решающих деревьев CART. В некоторых реализациях алгоритма вместо него используется критерий прироста информации. [3]
Я вас не понимаю.
Про Random boosting тоже впервые слышу.
Я говорил про случайный лес.
 
Maxim Dmitrievsky:

Да, деревьев много, но каждое пытается обучиться наилучшим образом на разных признаках. Это не то же самое, что объединять несколько лесов (в т.ч. и плохих)

В случ. лесе усредняются деревья.
Впрочем объединение случ. лесов построенных на одних и тех же признаках равнозначно 1 лесу с числом деревьев = числу деревьев во всех объединяемых лесах. Разницу даст только разная инициализация ГСЧ.
 
elibrarius:
В случ. лесе усредняются деревья.
Впрочем объединение случ. лесов построенных на одних и тех же признаках равнозначно 1 лесу с числом деревьев = числу деревьев во всех объединяемых лесах. Разницу даст только разная инициализация ГСЧ.

Разница в том, что каждое дерево без прунинга способно идеально запомнить датасет, из-за чего переобучается. Ансамбль деревьев против переобучения, т.к. возникает некоторое усреднение. Но каждое дерево само по себе хорошо.

Если стакать классификаторы, то там другая история. Усреднение с плохим классификатором ухудшает общий результат

 
Maxim Dmitrievsky:

Разница в том, что каждое дерево без прунинга способно идеально запомнить датасет, из-за чего переобучается. Ансамбль деревьев против переобучения, т.к. возникает некоторое усреднение. Но каждое дерево само по себе хорошо.

Если стакать классификаторы, то там другая история. Усреднение с плохим классификатором ухудшает общий результат

Кроме прунинга, есть ограничение по глубине и по числу примеров в листе.

Одно дерево тоже классификатор.

Надеюсь найдете время для сравнения усредненного и лучшего результатов на экзаменационной выборке. Чтобы не теоретические споры вести, а практикой подтвердить один из вариантов.

 
elibrarius:
Я вас не понимаю.
Про Random boosting тоже впервые слышу.
Я говорил про случайный лес.

Извиняюсь, очепятка. Форест конечно, лес. Кстати впервые реализован на фортране 77 (с ооп) в 1986 году, когда здесь еще учили (и я тоже) фортран 4 (без ооп).

Но суть не меняет. Выборка наилучших признаков, деревьев в ансамбле улучшает результат. Но при этом кластеризация на хорошие плохие наборы проводится из случайного набора признаков, не полного набора, что сокращает необходимые ресурсы, и при этом, как показала практика не сильно ухудшает результат. 

 
elibrarius:

Кроме прунинга, есть ограничение по глубине и по числу примеров в листе.

Одно дерево тоже классификатор.

Надеюсь найдете время для сравнения усредненного и лучшего результатов на экзаменационной выборке. Чтобы не теоретические споры вести, а практикой подтвердить один из вариантов.

Обучил 20 моделей

Iteration:  0 R^2:  0.8235250920362135
Iteration:  1 R^2:  0.6105081195352418
Iteration:  2 R^2:  0.5999893279334669
Iteration:  3 R^2:  0.7034867465493326
Iteration:  4 R^2:  0.49771677587528107
Iteration:  5 R^2:  0.8190243407873834
Iteration:  6 R^2:  0.9160173823652586
Iteration:  7 R^2:  0.809572709204347
Iteration:  8 R^2:  0.8537940261267768
Iteration:  9 R^2:  0.7244418893207643
Iteration:  10 R^2:  0.8809333905804972
Iteration:  11 R^2:  0.7920488879746739
Iteration:  12 R^2:  0.8377299883565552
Iteration:  13 R^2:  0.8667892348319326
Iteration:  14 R^2:  0.6321639879122785
Iteration:  15 R^2:  0.7561855032577106
Iteration:  16 R^2:  0.4121119648365902
Iteration:  17 R^2:  0.7421029264382919
Iteration:  18 R^2:  0.836331050771787
Iteration:  19 R^2:  0.7477743928781102

Лучшая:

Все 20:


 

50 моделей


 

100 моделей

лучшая

все


 

Еще раз, на 50 моделях:

Iteration:  0 R^2:  0.797041035933919
Iteration:  1 R^2:  0.6824496839528826
Iteration:  2 R^2:  -0.10034902026957526
Iteration:  3 R^2:  0.328548941268331
Iteration:  4 R^2:  0.057993335625261544
Iteration:  5 R^2:  0.43595119223755463
Iteration:  6 R^2:  -0.1461644857089356
Iteration:  7 R^2:  -0.9017316279265075
Iteration:  8 R^2:  0.0031339532771327283
Iteration:  9 R^2:  -0.6090350854501592
Iteration:  10 R^2:  -0.7554715262958651
Iteration:  11 R^2:  0.8889548573023011
Iteration:  12 R^2:  -0.6851507097155135
Iteration:  13 R^2:  -0.042098743896817226
Iteration:  14 R^2:  0.22006019984338276
Iteration:  15 R^2:  -0.4950383969975669
Iteration:  16 R^2:  0.2773014537990013
Iteration:  17 R^2:  0.4472756948107278
Iteration:  18 R^2:  0.3842534295398661
Iteration:  19 R^2:  -0.06660146376162235
Iteration:  20 R^2:  -0.13214701476491186
Iteration:  21 R^2:  -0.014549407007194204
Iteration:  22 R^2:  0.11446106552499291
Iteration:  23 R^2:  0.28201359760085487
Iteration:  24 R^2:  -0.32881820516653015
Iteration:  25 R^2:  -0.11531960758010862
Iteration:  26 R^2:  -0.22343090109420405
Iteration:  27 R^2:  -0.2359542081469308
Iteration:  28 R^2:  -0.2601186685105703
Iteration:  29 R^2:  0.7814611177095688
Iteration:  30 R^2:  -0.25351714267240644
Iteration:  31 R^2:  0.23253274050003103
Iteration:  32 R^2:  -0.06336213642832789
Iteration:  33 R^2:  0.8253438383511618
Iteration:  34 R^2:  0.2634214576140671
Iteration:  35 R^2:  0.1234251060806747
Iteration:  36 R^2:  0.5421316161448162
Iteration:  37 R^2:  0.2050233417898205
Iteration:  38 R^2:  0.4735349758266585
Iteration:  39 R^2:  -0.3067801197806268
Iteration:  40 R^2:  0.578989248941286
Iteration:  41 R^2:  0.2660816711693378
Iteration:  42 R^2:  0.19419203781618766
Iteration:  43 R^2:  -0.5900063179871913
Iteration:  44 R^2:  -0.4341693524447342
Iteration:  45 R^2:  0.593129434935225
Iteration:  46 R^2:  -0.6595885008415516
Iteration:  47 R^2:  -0.41482641919393526
Iteration:  48 R^2:  0.27611537596461266
Iteration:  49 R^2:  0.2459498592107655

Лучшая

усредненные


 

Еще раз