Обсуждение статьи "Продвинутый ресемплинг и выбор CatBoost моделей брутфорс методом" - страница 8
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Видимо у нас разные представления о рандом бустинг. Решающее дерево, это про отобранные признаки из случайного набора. Смысл, что наборы случайны, но выбор / кластеризация на плохие хорошие изначально была. Это как иголку бросать, углы мерять и число Пи вычислять)
из вики
Про Random boosting тоже впервые слышу.
Я говорил про случайный лес.
Да, деревьев много, но каждое пытается обучиться наилучшим образом на разных признаках. Это не то же самое, что объединять несколько лесов (в т.ч. и плохих)
Впрочем объединение случ. лесов построенных на одних и тех же признаках равнозначно 1 лесу с числом деревьев = числу деревьев во всех объединяемых лесах. Разницу даст только разная инициализация ГСЧ.
В случ. лесе усредняются деревья.
Впрочем объединение случ. лесов построенных на одних и тех же признаках равнозначно 1 лесу с числом деревьев = числу деревьев во всех объединяемых лесах. Разницу даст только разная инициализация ГСЧ.
Разница в том, что каждое дерево без прунинга способно идеально запомнить датасет, из-за чего переобучается. Ансамбль деревьев против переобучения, т.к. возникает некоторое усреднение. Но каждое дерево само по себе хорошо.
Если стакать классификаторы, то там другая история. Усреднение с плохим классификатором ухудшает общий результат
Разница в том, что каждое дерево без прунинга способно идеально запомнить датасет, из-за чего переобучается. Ансамбль деревьев против переобучения, т.к. возникает некоторое усреднение. Но каждое дерево само по себе хорошо.
Если стакать классификаторы, то там другая история. Усреднение с плохим классификатором ухудшает общий результат
Кроме прунинга, есть ограничение по глубине и по числу примеров в листе.
Одно дерево тоже классификатор.
Надеюсь найдете время для сравнения усредненного и лучшего результатов на экзаменационной выборке. Чтобы не теоретические споры вести, а практикой подтвердить один из вариантов.
Я вас не понимаю.
Про Random boosting тоже впервые слышу.
Я говорил про случайный лес.
Извиняюсь, очепятка. Форест конечно, лес. Кстати впервые реализован на фортране 77 (с ооп) в 1986 году, когда здесь еще учили (и я тоже) фортран 4 (без ооп).
Но суть не меняет. Выборка наилучших признаков, деревьев в ансамбле улучшает результат. Но при этом кластеризация на хорошие плохие наборы проводится из случайного набора признаков, не полного набора, что сокращает необходимые ресурсы, и при этом, как показала практика не сильно ухудшает результат.
Кроме прунинга, есть ограничение по глубине и по числу примеров в листе.
Одно дерево тоже классификатор.
Надеюсь найдете время для сравнения усредненного и лучшего результатов на экзаменационной выборке. Чтобы не теоретические споры вести, а практикой подтвердить один из вариантов.
Обучил 20 моделей
Лучшая:
Все 20:
50 моделей
100 моделей
лучшая
все
Еще раз, на 50 моделях:
Лучшая
усредненные
Еще раз