Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
8.4 Смещение и дисперсия по сравнению с overfitting и underfitting (L08: Оценка модели, часть 1)
8.4 Смещение и дисперсия по сравнению с overfitting и underfitting (L08: Оценка модели, часть 1)
В этом видео моя цель - установить рекорд самого короткого видео в этом курсе. Я хочу быть кратким и не затягивать тему слишком долго. У меня всего два слайда, так что это не займет много времени. В этом видео мы рассмотрим взаимосвязь между декомпозицией смещения и дисперсии и понятиями недообучения и переобучения.
Давайте начнем с рассмотрения графика, показанного ранее в этой лекции. Обратите внимание, что это простой набросок, не основанный на реальных цифрах. На практике отношения между этими терминами могут быть зашумлены при работе с наборами данных реального мира. На графике показана квадратичная потеря ошибки в зависимости от емкости модели, которая связана с ее сложностью или способностью соответствовать обучающим данным.
Емкость относится к тому, насколько хорошо модель может соответствовать тренировочному набору. Более высокая емкость означает, что модель лучше подходит для данных. Например, в параметрических моделях, таких как регрессия, емкость часто определяется количеством параметров или терминов. По мере увеличения емкости ошибка обучения уменьшается, потому что более сложная модель может лучше соответствовать обучающим данным.
Однако низкая ошибка обучения не гарантирует хорошей производительности на новых данных. Можно переобучить данные обучения, подобрав их слишком близко, что может привести к увеличению ошибки на новых данных, известной как ошибка обобщения. Ошибку обобщения можно оценить с помощью независимого набора тестов. Первоначально, по мере увеличения пропускной способности, ошибка обобщения в некоторой степени уменьшается. Но по достижении определенного момента ошибка снова начинает увеличиваться, что свидетельствует о переобучении.
Разрыв между ошибкой обучения и ошибкой обобщения представляет собой степень переобучения. По мере увеличения емкости модели разрыв увеличивается, потому что модель слишком точно соответствует данным, включая шум в данных. Степень переобучения указывает, насколько модель переобучает данные обучения и не может хорошо обобщить новые данные.
Теперь давайте свяжем эти понятия со смещением и дисперсией. На графике я добавил термины «предвзятость» и «дисперсия» красным цветом. По мере увеличения мощности модели увеличивается и ее дисперсия. Это можно наблюдать в случае глубоких деревьев решений по сравнению с короткими деревьями решений. Модели с более высокой дисперсией более склонны к переоснащению. Чем выше дисперсия, тем больше степень переобучения, которая представлена разрывом между ошибкой обучения и ошибкой обобщения.
И наоборот, по мере увеличения дисперсии смещение уменьшается. Более сложная модель обычно имеет меньшее смещение. На графике может показаться, что смещение уменьшается, а затем снова растет, но это всего лишь результат плохого рисунка. На самом деле смещение асимптотически уменьшается по мере увеличения дисперсии при увеличении емкости модели.
С другой стороны, когда модель имеет низкую емкость (например, простая модель), она не соответствует данным, что приводит к низкой производительности как на обучающих, так и на тестовых наборах. Это связано с высоким уклоном. Недообучение происходит, когда модель слишком упрощена, чтобы уловить основные закономерности в данных.
Подводя итог, можно сказать, что высокое смещение коррелирует с недостаточной подгонкой, а высокая дисперсия — с переоснащением. В следующем видео мы кратко рассмотрим декомпозицию смещения-дисперсии потери 0-1, которая более актуальна для задач классификации. Хотя это менее интуитивно понятно, чем разложение квадрата ошибки, оно дает представление о компонентах смещения и дисперсии в контексте классификации.
8.5 Разложение смещения-дисперсии потерь 0/1 (L08: Оценка модели, часть 1)
8.5 Разложение смещения-дисперсии потерь 0/1 (L08: Оценка модели, часть 1)
В этом обсуждении мы углубились в декомпозицию квадрата ошибки и ее связь с переобучением и недообучением. Теперь мы переключим наше внимание на разложение смещения-дисперсии потери 0/1, которое немного сложнее из-за его кусочного характера. Потеря 0/1 присваивает значение 0, если истинная метка соответствует предсказанной метке, и 1 в противном случае. Анализировать эту функцию потерь сложнее, поскольку она не является непрерывной функцией.
Чтобы исследовать разложение смещения-дисперсии в контексте потери 0/1, мы обратимся к работе Педро Доминго и Коммона Дитриха. Статья Педро Доминго «Единая декомпозиция дисперсии смещения» была направлена на объединение различных декомпозиций дисперсии смещения, связанных с потерей 0/1. Несколько авторов предложили разные декомпозиции, но каждая из них имеет существенные недостатки.
В этом классе мы в первую очередь сосредоточимся на интуиции, стоящей за мостом между декомпозицией смещения-дисперсии и потерей 0/1. Мы кратко обсудим работу по комбинаторике 1995 года и объяснение этой работы Педро Доминго. Для более подробного понимания вы можете обратиться к упомянутым документам.
Давайте начнем с пересмотра квадрата потерь при ошибке, который мы определили как квадрат разницы между истинным значением и прогнозируемым значением. Ранее мы рассмотрели ожидание этой потери по разным тренировочным наборам и разложили ее на смещение и дисперсию. Теперь мы введем обобщенное обозначение, используя функцию L для представления убытков и расчета ожидания этой функции.
Обсуждая разложение квадрата ошибки на смещение-дисперсию, мы разложили его на смещение и дисперсию. Термин смещения, обозначаемый как Bias(Y), представляет собой разницу между истинной меткой (Y) и средним прогнозом (E[Y_hat]). Термин дисперсии, обозначаемый как Var(Y_hat), измеряет изменчивость прогнозов относительно среднего прогноза. Эти термины фиксируют, насколько прогнозы отклоняются от истинной метки и насколько они разбросаны, соответственно.
Теперь мы определим новый термин, называемый основным предсказанием. В случае потери квадрата ошибки основным прогнозом является средний прогноз по различным обучающим наборам. Однако, имея дело с потерей 0/1, основное предсказание получается путем выбора режима предсказаний, т. е. наиболее частого предсказания. Это различие имеет решающее значение для понимания разложения смещения-дисперсии в контексте классификации.
Давайте рассмотрим, как смещение и дисперсия могут быть определены с точки зрения потери 0/1. Мы будем ссылаться на очищенную версию предыдущего слайда. В правой части мы вводим член смещения. В работах Конга и Дитриха смещение определяется как 1, если основное предсказание (E[Y_hat]) не равно истинной метке (Y), и 0 в противном случае. Это определение фиксирует, соответствует ли основной прогноз истинной метке или нет.
Далее давайте сосредоточимся на случае, когда смещение равно нулю, что указывает на то, что основной прогноз соответствует истинной метке. В этом случае потери равны дисперсии. По определению потеря представляет собой вероятность того, что прогноз не соответствует истинной метке. Таким образом, мы можем интерпретировать дисперсию как вероятность того, что предсказание (Y_hat) не равно основному предсказанию (E[Y_hat]). Эта вероятность отражает изменчивость прогнозов, когда смещение равно нулю.
Теперь давайте углубимся в случай, когда смещение равно единице, что немного сложнее. Начнем с того, что перепишем потерю как единицу минус вероятность того, что прогноз соответствует истинной метке. Это эквивалентно единице минус точность. Мы рассмотрим два аспекта: когда Y не равно основному предсказанию и когда Y равно основному предсказанию.
Когда Y не равно основному прогнозу, потеря равна единице, что указывает на неправильную классификацию. В этом случае член дисперсии не влияет на потери, поскольку основной прогноз отличается от истинной метки, а изменчивость прогнозов не имеет значения. Всю потерю можно отнести к члену смещения, который фиксирует тот факт, что основной прогноз не соответствует истинной метке.
С другой стороны, когда Y равно основному прогнозу, потеря равна единице минус вероятность того, что все остальные прогнозы отличаются от основного прогноза. Эта вероятность представляет собой изменчивость прогнозов, когда смещение равно единице. Таким образом, в данном случае потери учитываются в термине дисперсии, отражающем неопределенность в прогнозах относительно основного прогноза.
Подводя итог, можно сказать, что в декомпозиции смещения-дисперсии потери 0/1 член смещения фиксирует ошибку неправильной классификации, когда основной прогноз не соответствует истинной метке. Термин дисперсии учитывает изменчивость прогнозов, когда основной прогноз соответствует истинной метке.
Важно отметить, что разложение смещения на дисперсию для потерь 0/1 является более нюансированным и сложным по сравнению с потерями квадрата ошибки из-за дискретного характера функции потерь. Термины систематической ошибки и дисперсии определяются на основе концепции основного прогноза и охватывают различные аспекты эффективности классификации.
Понимание компромисса смещения и дисперсии в контексте потери 0/1 имеет решающее значение для оценки и улучшения моделей классификации. Анализируя компоненты смещения и дисперсии, мы можем получить представление об источниках ошибок и принять обоснованные решения, чтобы смягчить проблемы недообучения или переобучения.
Если вы заинтересованы в более подробном изучении декомпозиции дисперсии смещения для потери 0/1, я рекомендую прочитать статью Педро Доминго «Единая декомпозиция дисперсии смещения» и связанные с ней работы Конга и Дитриха. Эти документы содержат подробные объяснения и математические формализмы для разложения.
Компромисс между смещением и дисперсией — это фундаментальная концепция машинного обучения, которая связана со способностью модели балансировать между недообучением и переоснащением. Погрешность представляет собой ошибку из-за допущений или упрощений модели, что приводит к неподходящему сценарию, когда модель слишком проста, чтобы уловить лежащие в основе закономерности в данных. С другой стороны, член дисперсии представляет собой ошибку из-за чувствительности модели к небольшим колебаниям обучающих данных, что приводит к сценарию переобучения, когда модель слишком сложна и фиксирует шум, а не обобщаемые закономерности.
В случае потери 0/1 член смещения фиксирует ошибку неправильной классификации, когда основной прогноз отличается от истинной метки. Высокое смещение указывает на то, что модель постоянно делает неверные прогнозы и не может уловить истинные основные закономерности в данных. Это часто происходит, когда модель слишком проста или ей не хватает сложности, необходимой для отражения сложности проблемы.
Термин дисперсии, с другой стороны, фиксирует изменчивость прогнозов, когда основной прогноз соответствует истинной метке. Он отражает чувствительность модели к различным выборкам обучающих данных и нестабильность ее прогнозов. Высокая дисперсия указывает на то, что модель чрезмерно чувствительна к небольшим изменениям в обучающих данных и, вероятно, переоснащается. Это означает, что модель может хорошо работать на обучающих данных, но не может обобщать невидимые данные.
В идеале мы хотим найти модель, которая обеспечивает баланс между смещением и дисперсией, сводя к минимуму оба типа ошибок. Тем не менее, между ними часто возникает компромисс. Уменьшение смещения может увеличить дисперсию и наоборот. Это известно как компромисс смещения и дисперсии.
Для достижения правильного баланса можно использовать различные техники. Методы регуляризации, такие как регуляризация L1 или L2, могут помочь уменьшить сложность модели и контролировать дисперсию. Перекрестную проверку можно использовать для оценки производительности модели на различных подмножествах данных и выявления возможного переобучения. Методы ансамбля, такие как бэггинг или бустер, также могут использоваться для уменьшения дисперсии путем объединения нескольких моделей.
Понимание компромисса смещения и дисперсии имеет решающее значение для выбора модели и настройки гиперпараметров. Это позволяет нам оценить эффективность обобщения модели и принять обоснованные решения для повышения ее точности и надежности.
8.6 Различные варианты использования термина «Bias» (L08: Оценка модели, часть 1)
8.6 Различные варианты использования термина «bias» (L08: Оценка модели, часть 1)
Термин «bias в машинном обучении» был объяснен как перегруженный термин, означающий, что он используется для обозначения разных вещей в разных контекстах. В предыдущем курсе по машинному обучению, который вел спикер, обсуждались единицы смещения и нейронные сети, но это отличалось от статистического смещения, обсуждаемого в этой лекции. В контексте машинного обучения смещение относится к предпочтениям или ограничениям алгоритма машинного обучения, также известному как индуктивное смещение.
Докладчик привел пример алгоритма дерева решений, чтобы проиллюстрировать индуктивное смещение. Деревья решений отдают предпочтение более мелким деревьям, чем более крупным. Если два дерева решений имеют одинаковую производительность на обучающем наборе, алгоритм отдаст предпочтение меньшему дереву и прекратит выращивание дерева, если нельзя будет сделать улучшения. Это предпочтение более мелких деревьев является примером индуктивного смещения, влияющего на алгоритм дерева решений.
Спикер сослался на статью Дитриха и Хана, в которой предвзятость машинного обучения противопоставляется статистической предвзятости. Надлежащие и неуместные предубеждения обсуждались в связи с абсолютным предубеждением. Несоответствующие смещения не содержат хорошего приближения к целевой функции, что означает, что алгоритм не подходит для решения проблемы. С другой стороны, соответствующие смещения позволяют получить хорошие приближения к целевой функции.
Относительное смещение описывалось как слишком сильное или слишком слабое. Слишком сильное смещение может не исключать хороших приближений, но вместо этого предпочитает более плохие гипотезы. И наоборот, слишком слабое смещение учитывает слишком много гипотез, что может привести к переоснащению.
Докладчик поделился примером имитационного исследования с использованием моделей дерева решений, чтобы продемонстрировать взаимодействие между предвзятостью и дисперсией. В исследовании оценивалась средняя частота ошибок и было обнаружено, что некоторые ошибки были вызваны предвзятостью, а другие — дисперсией.
Другим важным типом обсуждаемой предвзятости была предвзятость справедливости, которая относится к демографическим различиям в алгоритмических системах, которые нежелательны по социальным причинам. Модели машинного обучения могут несправедливо относиться к определенным демографическим данным, и эта предвзятость может быть связана с несбалансированными наборами данных или другими факторами. Докладчик рекомендовал обратиться к книге Fair ML Book за дополнительной информацией о справедливости в машинном обучении.
Спикер кратко упомянул проект, над которым они работали, связанный с сокрытием мягкой биометрической информации с изображений лиц при сохранении точности сопоставления. Цель состояла в том, чтобы защитить конфиденциальность, не позволяя алгоритмам извлекать гендерную информацию из изображений лиц. Спикер оценил производительность своей системы и коммерческих алгоритмов сопоставления лиц, отметив предвзятость в бинарном гендерном классификаторе коммерческого программного обеспечения, основанном на цвете кожи.
Спикер подчеркнул важность сведения к минимуму систематических ошибок и учета того, как классификаторы работают с разными демографическими данными. Они подчеркнули необходимость таких методов, как избыточная выборка, для устранения предубеждений и обеспечения более справедливых результатов.
В лекции были рассмотрены различные формы bias в машинном обучении, включая индуктивную предвзятость, статистическую предвзятость и предвзятость справедливости. Примеры и обсуждения проливают свет на проблемы и соображения, связанные с устранением предвзятости и обеспечением справедливости в алгоритмах машинного обучения.
9.1 Введение (L09 Model Eval 2: доверительные интервалы)
9.1 Введение (L09 Model Eval 2: доверительные интервалы)
Всем привет! Сегодня нас ждет очень интересная и познавательная лекция. В отличие от предыдущей лекции, в которой затрагивалась довольно сухая тема установки и декомпозиции смещения и дисперсии, эта сессия обещает быть более увлекательной. Мы обсудим различные методы повторной выборки и проведем моделирование на разных наборах данных, чтобы увидеть, как повторная выборка влияет на обучение алгоритмов. Разделив набор данных на обучающие и тестовые наборы, мы уменьшаем доступный размер обучения, что может повлиять на производительность модели.
Кроме того, мы изучим доверительные интервалы и различные методы их построения. Это включает в себя использование интервалов нормальной аппроксимации и различных методов начальной загрузки. Доверительные интервалы приобрели важное значение в машинном обучении, и в недавних публикациях требуется их включение. Рецензенты теперь более серьезно относятся к доверительным интервалам. Они обеспечивают ожидания в этой области и оказываются полезными не только для рецензентов, но и для других читателей, изучающих ваши модели.
Теперь давайте углубимся в темы лекций. Мы начнем с введения, а затем перейдем к методу удержания для оценки модели. Затем мы рассмотрим, как можно использовать метод удержания для выбора модели. Двигаясь дальше, мы углубимся в построение доверительных интервалов с использованием различных методов, начиная с нормального интервала аппроксимации.
Методы повторной выборки также будут в центре внимания. Мы проанализируем метод повторной задержки, где метод задержки применяется к версиям обучающей выборки с повторной выборкой. Кроме того, мы рассмотрим эмпирические доверительные интервалы, основанные на методах повторной выборки. Здесь мы столкнемся со знакомой техникой бутстрапа, обсуждавшейся в лекции о бэггинге и модели ансамбля.
Как только мы поймем, как создавать эмпирические доверительные интервалы с помощью метода начальной загрузки, мы рассмотрим две расширенные версии: начальную загрузку точки 632 и начальную загрузку точки 632 плюс. Важно отметить контекст этой лекции в более широких рамках оценки модели. Мы не будем вводить новые алгоритмы машинного обучения, а вместо этого сосредоточимся на основных методах сравнения и выбора моделей.
Эти методы имеют решающее значение, поскольку сложно определить, какой алгоритм машинного обучения хорошо работает с данным набором данных. Нам часто приходится пробовать и сравнивать многочисленные алгоритмы, чтобы найти наиболее эффективный. Кроме того, оценка производительности модели жизненно важна для разработки таких приложений, как распознавание изображений на iPhone, где точное прогнозирование меток изображений имеет решающее значение.
Помимо оценки эффективности обобщения невидимых данных, мы также сравниваем разные модели. Используя один и тот же алгоритм и обучающий набор, мы можем получить несколько моделей с разными настройками гиперпараметров. Мы сравниваем эти модели, чтобы выбрать лучшую. Кроме того, мы можем использовать разные алгоритмы и захотеть оценить их эффективность на определенных типах данных, таких как изображения или текст.
Чтобы выбрать лучшую модель, мы можем либо точно оценить абсолютную производительность обобщения, либо ранжировать модели без абсолютных значений производительности. Последний подход помогает избежать систематических ошибок, возникающих при многократном использовании одного и того же набора тестов. Система ранжирования позволяет нам выбрать лучшую модель, не полагаясь на точные оценки эффективности обобщения.
В следующих лекциях мы рассмотрим методы перекрестной проверки, статистические тесты для оценки модели и метрики оценки, выходящие за рамки точности, такие как точность, полнота и кривые рабочих характеристик приемника (ROC).
Эти лекции имеют решающее значение, поскольку они предоставляют средства для сравнения различных алгоритмов машинного обучения и выбора наиболее подходящей модели. Хотя они не вводят новых алгоритмов, они предлагают практические идеи и методы для оценки производительности модели.
Таким образом, наша сегодняшняя лекция будет посвящена методам повторной выборки, доверительным интервалам и их роли в машинном обучении. К концу этой серии лекций вы будете иметь полное представление об оценке моделей и инструментах, необходимых для принятия обоснованных решений в области машинного обучения. Давайте начнем наше исследование этих тем!
9.2 Оценка удержания (оценка модели L09 2: доверительные интервалы)
9.2 Оценка удержания (оценка модели L09 2: доверительные интервалы)
В этом видео мы обсудим метод удержания для оценки модели. Хотя этот метод не нов, есть некоторые интересные аспекты, которые мы раньше не исследовали. Метод удержания включает в себя разделение набора данных на обучающий набор и тестовый набор. Учебный набор используется для обучения или подбора модели, а тестовый набор используется для оценки производительности модели.
Тем не менее, есть несколько соображений, о которых следует помнить. Во-первых, ошибка обучающего набора является оптимистически смещенной оценкой ошибки обобщения. Это означает, что ошибка обучения не может надежно оценить производительность модели, потому что она может переобучать данные обучения. С другой стороны, тестовый набор обеспечивает несмещенную оценку ошибки обобщения, если он не зависит от обучающего набора. Однако с концептуальной точки зрения набор тестов может быть пессимистически предвзятым. Это предубеждение возникает из-за того, что когда мы делим набор данных на обучающий и тестовый наборы, мы теряем ценные данные. Даже при небольшом наборе данных удаление 30 % данных для оценки может значительно повлиять на производительность модели.
Чтобы проиллюстрировать это положение, давайте рассмотрим простой пример. Представьте, что у нас есть набор данных, состоящий всего из 10 точек данных. Если мы удалим 30% данных для оценки, модель будет обучена только на 70% данных. Эти ограниченные обучающие данные могут привести к снижению производительности модели, поскольку модели машинного обучения обычно выигрывают от большего количества данных. Если мы строим кривую обучения, мы обычно наблюдаем, что по мере увеличения размера набора данных производительность обобщения улучшается. Поэтому удержание значительной части данных для оценки может ухудшить модель.
Несмотря на этот недостаток, оценить модель необходимо. В академических кругах мы обычно сообщаем о производительности набора тестов и считаем свою задачу выполненной. Однако в промышленности мы часто обучаем модель на всем наборе данных после ее оценки на тестовом наборе. Это позволяет нам точно сообщать о производительности модели заинтересованным сторонам, например руководителям проектов. Но обучение всему набору данных может привести к пессимистическому смещению в оценке производительности набора тестов. Например, если точность модели на тестовом наборе достигла 95 %, обучение на полном наборе данных может повысить производительность модели до 96 %. В этом случае первоначальная оценка точности 95% является пессимистичной.
Использование только метода удержания не всегда идеально. Он имеет ограничения, такие как неучет дисперсии обучающих данных. Когда мы разделяем данные случайным образом, разные разделения могут привести к разной производительности модели. Эта изменчивость делает оценку тестового набора менее надежной, поскольку она дает только точечную оценку. Кроме того, метод удержания не учитывает возможность оптимистического смещения, когда тестовый набор используется несколько раз для настройки и сравнения моделей.
Чтобы лучше понять влияние предубеждений, давайте рассмотрим концепцию пессимистического предубеждения. С точки зрения выбора модели 10%-ное пессимистическое смещение не влияет на ранжирование моделей на основе точности прогноза. Предположим, у нас есть три модели: h2, h1 и h3. Даже если все оценки точности пессимистически смещены на 10%, ранжирование остается прежним. Цель выбора модели состоит в том, чтобы выбрать наилучшую доступную модель, и постоянный пессимистический уклон во всех моделях не изменяет относительный рейтинг.
Точно так же могут быть случаи, когда ошибка набора тестов является оптимистичной. Это происходит, когда один и тот же набор тестов используется несколько раз для настройки и сравнения разных моделей. Многократное использование тестового набора может привести к систематической ошибке выжившего, когда рассматриваются только модели, которые хорошо работают на тестовом наборе. Примером этого является вопрос «Обобщаются ли классификаторы CIFAR-10 на CIFAR-10?» документ, в котором исследуются переоснащение и оптимистические смещения в классификаторах, обученных и оцененных на наборе данных изображений CIFAR-10.
В заключение, несмотря на то, что метод удержания является широко используемым подходом для оценки модели, он имеет свои ограничения и потенциальные ошибки. Для преодоления этих ограничений были разработаны альтернативные методы, такие как перекрестная проверка и начальная загрузка.
Перекрестная проверка — это метод, который включает в себя разделение набора данных на несколько подмножеств или сгибов. Модель обучается на комбинации этих складок и оценивается на оставшейся складке. Этот процесс повторяется несколько раз, при этом каждая складка служит тестовым набором один раз. Перекрестная проверка обеспечивает более полную оценку производительности модели, поскольку использует различные подмножества данных для обучения и тестирования. Это помогает смягчить влияние случайных разбиений данных и обеспечивает более надежную оценку эффективности обобщения модели.
Начальная загрузка — это еще один метод повторной выборки, который устраняет ограничения метода удержания. Он включает в себя случайную выборку набора данных с заменой для создания нескольких образцов начальной загрузки. Каждый пример начальной загрузки используется как обучающий набор, а остальные данные используются как тестовый набор. Путем многократной выборки с заменой начальная загрузка генерирует несколько разбиений обучающих тестов, что позволяет более надежно оценить производительность модели.
И перекрестная проверка, и начальная загрузка помогают устранить предвзятость, связанную с методом удержания. Они обеспечивают более надежные оценки производительности модели за счет более эффективного использования доступных данных и учета изменчивости разбиений обучения и тестирования.
Хотя метод удержания является прямым подходом к оценке модели, он имеет ограничения и потенциальные ошибки. Чтобы смягчить эти проблемы, такие методы, как перекрестная проверка и начальная загрузка, предлагают более надежные и надежные оценки производительности модели. Важно рассмотреть эти альтернативные методы в зависимости от конкретных требований и ограничений рассматриваемой проблемы.
9.3 Выбор модели удержания (оценка модели L09 2: доверительные интервалы)
9.3 Выбор модели удержания (оценка модели L09 2: доверительные интервалы)
В предыдущем видео мы обсуждали метод удержания для оценки модели. Теперь мы рассмотрим, как мы можем изменить этот метод для выбора модели. Напомним, что в предыдущем видео мы разделили набор данных на обучающий набор и тестовый набор. Мы обучили модель на тренировочном наборе, используя алгоритм машинного обучения и фиксированные настройки гиперпараметров. Затем мы оценили модель на тестовом наборе. Кроме того, мы дополнительно подгоняем модель ко всему набору данных, чтобы использовать больше данных, ожидая повышения производительности.
Теперь мы стремимся использовать метод удержания для выбора модели, который тесно связан с настройкой гиперпараметров. Выбор модели включает в себя выбор лучшей модели среди различных настроек гиперпараметров. В процессе настройки гиперпараметров мы создаем несколько моделей, каждая из которых соответствует определенной настройке гиперпараметра. Выбор модели помогает нам определить модель с оптимальной настройкой гиперпараметров.
Чтобы объяснить модифицированный метод удержания для выбора модели, давайте разберем шаги. Во-первых, вместо того, чтобы разбивать набор данных только на обучающий и тестовый наборы, мы делим его на три набора: обучающий набор, проверочный набор и тестовый набор. Это разделение позволяет нам иметь независимый набор данных, набор проверки, для выбора модели.
Далее мы рассматриваем различные настройки гиперпараметров и подбираем несколько моделей, используя обучающие данные. Например, мы можем использовать алгоритм K ближайших соседей со значениями гиперпараметров k = 3, k = 5 и k = 7, что приводит к трем моделям.
Этап выбора модели включает в себя оценку этих моделей с использованием проверочного набора. Поскольку модели могут соответствовать обучающим данным, это не подходит для выбора лучшей модели. Поэтому мы полагаемся на набор независимых проверок для оценки моделей. Мы вычисляем показатели производительности, такие как точность прогнозирования, для каждой модели и выбираем модель с наилучшей производительностью в качестве оптимальной модели, соответствующей лучшим настройкам гиперпараметров.
Однако многократное использование проверочного набора для выбора модели может привести к смещению, аналогичному проблеме, с которой мы столкнулись с тестовым набором в предыдущем видео. Чтобы получить объективную оценку производительности модели, мы резервируем независимый набор тестов. После выбора лучшей модели мы оцениваем ее работу на тестовом наборе и сообщаем о результатах.
При желании перед окончательной оценкой мы можем перестроить модель, используя объединенные данные обучения и проверки. На этом шаге используется больше данных для потенциального повышения производительности модели. Наконец, мы оцениваем окончательную модель на независимом тестовом наборе и сообщаем о ее производительности. Хотя у нас нет набора тестов для дальнейшей оценки модели, основанной на комбинированных данных, обычно ожидается, что она будет лучше из-за увеличения объема данных.
На практике метод удержания для выбора модели может варьироваться, и не все шаги строго соблюдаются. Некоторые практики напрямую оценивают выбранную модель на тестовом наборе без повторного обучения на объединенных данных. Тем не менее ключевая идея состоит в том, чтобы иметь отдельные наборы данных для обучения, проверки и тестирования, чтобы обеспечить беспристрастную оценку производительности и облегчить выбор лучшей модели.
В следующем видео мы углубимся в понятие доверительных интервалов.
9.4 Доверительные интервалы ML посредством нормального приближения (L09 Model Eval 2: доверительные интервалы)
9.4 Доверительные интервалы ML посредством нормального приближения (L09 Model Eval 2: доверительные интервалы)
В этом видео мы сосредоточимся на доверительных интервалах, особенно для оценки ошибки классификации или точности классификации на основе набора тестов. Мы будем использовать метод нормального приближения, который является самым простым подходом. Однако мы также обсудим лучшие методы, основанные на передискретизации, в будущих видео.
В настоящее время мы находимся в основном разделе, исследуя доверительные интервалы с использованием метода нормальной аппроксимации. В последующих видеороликах мы рассмотрим различные методы повторной выборки, начиная с метода повторной задержки, а затем перейдем к таким методам, как бутстреп для построения эмпирических доверительных интервалов, которые более эффективны при работе с небольшими наборами данных, обычно встречающимися в традиционном машинном обучении.
Давайте начнем с обсуждения биномиального распределения, с которым вы, возможно, уже знакомы из других классов статистики. Биномиальное распределение обеспечивает количество успехов с параметрами n и p, представляющими количество испытаний и вероятность успеха, соответственно. Среднее значение биномиального распределения равно n, умноженному на p. Например, если у нас есть 100 испытаний с вероятностью успеха 33%, среднее значение будет равно 30.
На рисунке слева вы можете увидеть функцию плотности вероятности биномиального распределения для различных значений p и n. Эта функция плотности иллюстрирует вероятность разного количества успехов. Кроме того, дисперсия биномиального распределения рассчитывается как n умножить на p умножить (1 - p), что мы будем использовать позже. Найдите минутку, чтобы ознакомиться с этой моделью.
Теперь давайте подключим биномиальное распределение к машинному обучению. Мы можем рассматривать проигрыш 0:1 как испытание Бернулли, где у нас есть две возможности: правильная классификация (успех) и неправильная классификация (неудача). Мы можем считать неправильную классификацию успехом, а правильную классификацию неудачей. Эта точка зрения согласуется с концепцией орла и решки при подбрасывании монеты. Чтобы оценить вероятность успеха (т. е. неправильной классификации), мы можем эмпирически вычислить ее, выполнив большое количество испытаний и подсчитав количество успехов, деленное на общее количество испытаний. Среднее количество успехов равно n, умноженному на p, что соответствует среднему значению биномиального распределения.
Связь между потерей 0-1 и биномиальным распределением помогает нам понять понятие ошибки в машинном обучении. Мы можем рассматривать проигрыш 0-1 как испытание Бернулли, а истинную ошибку как вероятность правильного предсказания. Чтобы оценить истинную ошибку, мы используем набор тестов и вычисляем долю неправильных прогнозов. Эта пропорция представляет собой ошибку классификации, которую можно разделить на размер тестового набора, чтобы получить значение от нуля до единицы.
При построении доверительных интервалов мы используем те же методы, что и для одновыборочных доверительных интервалов из других классов статистики. Доверительный интервал — это интервал, который, как ожидается, будет содержать интересующий параметр с определенной вероятностью. Наиболее распространенный уровень достоверности — 95 %, но можно использовать и другие уровни, например 90 % или 99 %. Выбор уровня достоверности определяет ширину интервала, причем более высокие уровни приводят к более широким интервалам.
Чтобы формально определить доверительный интервал, мы рассматриваем несколько выборок, многократно взятых из предполагаемого распределения. В нашем случае мы предполагаем нормальное распределение. При построении 95% доверительного интервала с использованием этого метода, если бы мы построили бесконечное количество интервалов на основе бесконечного числа выборок, мы ожидали бы, что 95% этих интервалов будут содержать истинный параметр.
Вам может быть интересно, почему мы предполагаем, что данные могут быть получены из нормального распределения. Причина в том, что биномиальное распределение напоминает нормальное распределение при большом числе испытаний. Даже для относительно небольшого количества испытаний данные уже демонстрируют форму, подобную стандартному нормальному распределению. Вот почему мы используем нормальное приближение
метод построения доверительных интервалов в этом случае.
Теперь давайте углубимся в детали построения доверительного интервала для ошибки классификации с использованием метода нормальной аппроксимации. Во-первых, нам нужно рассчитать стандартное отклонение биномиального распределения. Как упоминалось ранее, дисперсия биномиального распределения выражается как n раз p раз (1 - p). Таким образом, стандартное отклонение представляет собой квадратный корень из дисперсии.
Затем мы определяем z-оценку, соответствующую желаемому уровню достоверности. Z-оценка представляет собой количество стандартных отклонений от среднего значения стандартного нормального распределения. Для уровня достоверности 95% z-показатель составляет приблизительно 1,96. Общая формула для расчета z-оценки: (x - μ) / σ, где x — желаемый уровень достоверности, μ — среднее значение, а σ — стандартное отклонение.
Чтобы построить доверительный интервал, мы начинаем с оценочной частоты ошибок из тестового набора, который представляет нашу точечную оценку. Затем мы вычитаем и добавляем произведение z-показателя и стандартного отклонения от точечной оценки. Это дает нам нижнюю и верхнюю границы доверительного интервала соответственно. Результирующий интервал представляет собой диапазон значений, в пределах которого мы ожидаем, что истинная ошибка классификации попадет с указанным уровнем достоверности.
Важно отметить, что метод нормальной аппроксимации предполагает, что количество испытаний (размер тестового набора) достаточно велико. Если набор тестов мал, это приближение может быть неточным. В таких случаях методы повторной выборки, такие как начальная загрузка, могут обеспечить более надежные доверительные интервалы.
Таким образом, построение доверительных интервалов для ошибки классификации с использованием метода нормальной аппроксимации включает следующие этапы:
Имейте в виду, что в следующих видеороликах мы рассмотрим более продвинутые методы, основанные на методах повторной выборки, которые особенно полезны для небольших наборов данных. Эти методы обеспечивают эмпирические доверительные интервалы и часто более точны, чем обычный метод аппроксимации.
9.5 Повторная выборка и повторная задержка (L09 Model Eval 2: доверительные интервалы)
9.5 Повторная выборка и повторная задержка (L09 Model Eval 2: доверительные интервалы)
В этом видео мы углубимся в тему повторной выборки и конкретно обсудим метод повторного удержания. Ранее мы исследовали обычный метод удержания, при котором набор данных делится на обучающий и тестовый наборы. Мы также изучили, как можно использовать метод нормальной аппроксимации для построения доверительных интервалов на основе производительности, оцененной на тестовом наборе. Теперь мы сосредоточимся на методах повторной выборки, начиная с метода повторной задержки.
Чтобы представить наглядную иллюстрацию, давайте рассмотрим кривые обучения. Кривые обучения служат индикаторами того, выиграет ли наша модель от дополнительных обучающих данных. На графике ось X представляет размер тренировочного набора, а ось Y представляет производительность, измеряемую как точность. Однако тот же график можно использовать для измерения ошибки, перевернув его. Показанная здесь производительность основана на наборе рукописных цифр Amnesty, но для ускорения вычислений использовалось только подмножество из 5000 изображений. Из этих 5000 изображений 3000 были выделены для обучения, а 1500 отведены в качестве тестового набора. Также был создан еще один набор данных, состоящий из 3500 изображений, и из него были построены обучающие наборы разного размера.
Каждая точка данных на графике соответствует определенному размеру обучающей выборки, в то время как размер тестовой выборки остается постоянным и составляет 1500. Наблюдаемая тенденция заключается в том, что по мере уменьшения размера обучающей выборки точность обучения увеличивается. Однако по мере увеличения размера обучающей выборки точность обучения снижается. Одно из возможных объяснений этой тенденции заключается в том, что при меньшем обучающем наборе модели легче запоминать данные, включая любые выбросы или шум. По мере роста размера обучающей выборки становится все труднее запоминать данные из-за наличия более разнообразных выбросов. Однако больший обучающий набор способствует лучшему обобщению, что приводит к повышению производительности на тестовом наборе.
Стоит отметить, что график останавливается на обучающем наборе размером 3500, так как большего набора данных не было. Тестовый набор, показанный красным цветом, оставался фиксированным на уровне 1500 образцов. При резервировании этих образцов для тестирования была введена пессимистическая погрешность, поскольку модель, возможно, не достигла своей полной мощности. Емкость относится к потенциалу модели для улучшения с большим количеством данных. В этом случае для повышения эффективности использовался простой классификатор softmax, представляющий собой полиномиальную логистическую регрессию. Однако для подобных экспериментов можно использовать и другие классификаторы.
Что касается кривых обучения, важно учитывать размер набора данных и его влияние на производительность классификатора. Увеличение размера набора данных может повысить производительность классификатора, особенно когда кривые обучения указывают на уменьшение ошибки теста по мере увеличения размера обучающего набора. Например, при работе над проектом, связанным с прогнозированием рейтинга фильмов, сбор большего количества обзоров фильмов из таких источников, как IMDb, может повысить производительность классификатора.
В рабочее время студенты часто спрашивают об улучшении производительности классификатора для своих проектов. Улучшение классификатора может включать различные стратегии, такие как изменение параметров, выбор признаков или извлечение признаков. Однако увеличение размера набора данных — простой, но эффективный метод, который может дать положительные результаты. Изучение кривых обучения помогает определить, могут ли дополнительные данные принести пользу модели, вместо того, чтобы сосредотачиваться исключительно на настройке гиперпараметров.
Важно признать пессимистическую предвзятость, возникающую в результате разделения набора данных на обучающие и тестовые наборы. Удерживая значительную часть данных для тестирования, модель, возможно, не раскрыла весь свой потенциал из-за ограниченных данных для обучения. Одно из решений состоит в том, чтобы уменьшить размер набора тестов, чтобы устранить эту погрешность. Однако уменьшение размера набора тестов создает еще одну проблему: увеличение дисперсии. Дисперсия оценки производительности модели увеличивается с меньшим набором тестов, что может привести к менее надежным оценкам.
Чтобы смягчить эти проблемы, мы можем использовать метод, называемый перекрестной проверкой Монте-Карло, который включает многократное повторение метода удержания и усреднение результатов. Этот метод широко известен как метод повторного удерживания.
В методе повторного удержания мы выполняем несколько итераций процесса удержания, где мы случайным образом разделяем набор данных на обучающий и тестовый наборы. Каждая итерация использует другое случайное разбиение, гарантируя, что разные подмножества данных используются для обучения и тестирования в каждой итерации. Повторяя этот процесс несколько раз, мы можем получить несколько оценок производительности для нашей модели.
Ключевым преимуществом метода повторных задержек является то, что он обеспечивает более надежную и надежную оценку производительности модели по сравнению с однократным разделением задержек. Поскольку на каждой итерации используется другое случайное разбиение, мы можем зафиксировать изменчивость производительности из-за случайности данных. Это помогает нам получить более точную оценку истинной производительности модели на невидимых данных.
Получив оценки производительности для каждой итерации, мы можем рассчитать среднюю производительность и использовать ее в качестве окончательной оценки. Кроме того, мы также можем вычислить дисперсию или стандартное отклонение оценок производительности, чтобы получить представление о изменчивости результатов.
Важно отметить, что в методе повторного удержания обучающий и тестовый наборы должны быть непересекающимися на каждой итерации, чтобы гарантировать, что модель оценивается на невидимых данных. Кроме того, размер обучающих и тестовых наборов следует определять на основе размера доступного набора данных и желаемого компромисса между обучающими и оценочными данными.
Метод повторного удержания особенно полезен, когда набор данных достаточно велик, чтобы допустить несколько случайных разбиений. Это помогает обеспечить более надежную оценку производительности модели и может быть особенно полезно при работе с ограниченными данными.
Таким образом, метод повторной задержки — это метод повторной выборки, который включает многократное повторение процесса задержки с различными случайными разбиениями набора данных. Это помогает получить более надежные оценки производительности и зафиксировать изменчивость производительности модели. Усредняя результаты повторяющихся итераций удержания, мы можем получить более точную оценку истинной производительности модели.
9.6 Доверительные интервалы начальной загрузки (модель L09 Eval 2: доверительные интервалы)
9.6 Доверительные интервалы начальной загрузки (модель L09 Eval 2: доверительные интервалы)
Добро пожаловать! Вот мы и подошли к наиболее интересным частям этой лекции. В этом видео мы сосредоточимся на эмпирических доверительных интервалах с использованием метода начальной загрузки. В качестве краткого обзора мы ранее обсуждали метод начальной загрузки, когда говорили о методах упаковки. При бэггинге мы брали бутстреп-образцы из тренировочного набора. Но задумывались ли вы когда-нибудь, почему этот метод называется «самозагрузочным»?
Что ж, термин «бутстрап» произошел от фразы «подтягиваться за бутстрапы», которая образно использовалась для описания невыполнимой задачи. Метод начальной загрузки действительно является сложной техникой, поскольку он включает в себя оценку распределения выборки из одной выборки. Таким образом, мы метафорически пытаемся подтянуть себя, пытаясь решить эту сложную задачу.
Со временем значение «бутстрапа» расширилось, включив в него концепцию улучшения себя посредством упорных усилий без посторонней помощи. Однако в контексте метода бутстрапа мы сосредоточены исключительно на самой технике, а не на политических коннотациях, связанных с «подтягиванием себя за бутстрапы».
Теперь давайте углубимся в метод начальной загрузки и то, как он позволяет нам оценить распределение выборки и неопределенность наших оценок производительности. Метод начальной загрузки, впервые представленный Брэдли Эфроном в 1979 году, представляет собой метод повторной выборки, используемый для оценки распределения выборки, когда у нас есть доступ только к одному набору данных.
Чтобы понять концепцию, представьте, что у вас есть только один набор данных, и вы хотите использовать его для оценки различных выборочных статистических данных. Эти статистические данные могут представлять интерес, например, среднее значение выборки, стандартное отклонение, R-квадрат или корреляции. Метод начальной загрузки позволяет нам генерировать новые наборы данных путем повторной выборки из исходного набора данных, имитируя процесс получения выборок из населения. Важно отметить, что выборка выполняется с заменой, в отличие от метода повторной задержки, при котором выборка производится без замены.
Нарисовав эти бутстрап-выборки и вычислив желаемую выборочную статистику, например, выборочное среднее, мы можем наблюдать, что распределение выборочных средних следует нормальному распределению. Стандартное отклонение этого распределения, известное как стандартная ошибка среднего, может быть оценено путем деления стандартного отклонения выборки на квадратный корень размера выборки.
Метод начальной загрузки позволяет нам построить доверительные интервалы, оценивая стандартное отклонение и используя его для определения неопределенности, связанной с нашими оценками производительности. Доверительные интервалы обеспечивают диапазон правдоподобных значений параметра истинной совокупности. В случае метода начальной загрузки мы вычисляем стандартное отклонение эмпирически и используем его для расчета доверительных интервалов.
Теперь давайте разберемся с этапами процедуры начальной загрузки. Во-первых, мы делаем выборку с заменой из исходного набора данных. Затем мы вычисляем желаемую статистику выборки, используя эту выборку начальной загрузки. Мы повторяем эти два шага большое количество раз, обычно рекомендуется около 200 или более раз, чтобы получить распределение выборочной статистики. Стандартное отклонение этого распределения служит оценкой стандартной ошибки статистики выборки. Наконец, мы можем использовать стандартную ошибку для вычисления доверительных интервалов, которые обеспечивают меру неопределенности нашей оценки производительности.
Когда дело доходит до оценки производительности классификатора с использованием метода начальной загрузки, мы можем немного изменить подход. Рассмотрим набор данных размера n. В этом случае мы выполняем p раундов начальной загрузки, где в каждом раунде мы получаем выборку начальной загрузки из исходного набора данных. Затем мы подгоняем модель к каждой из этих бутстрап-выборок и вычисляем точность для готовых выборок, которые являются выборками, не включенными в бутстрап-выборку. Усредняя точность по всем раундам начальной загрузки, мы получаем точность начальной загрузки. Этот подход решает проблему переобучения путем оценки модели на невидимых данных, а не на выборках, используемых для обучения. Кроме того, точность начальной загрузки обеспечивает меру изменчивости производительности модели.
Подводя итог шагам, связанным с оценкой производительности классификатора с использованием метода начальной загрузки:
Точность начальной загрузки может служить оценкой производительности классификатора на невидимых данных и обеспечивает меру неопределенности, связанную с оценкой производительности. Кроме того, это может помочь оценить стабильность и надежность классификатора.
Используя метод начальной загрузки, мы можем получить ценную информацию о производительности наших моделей и оценить неопределенность, связанную с нашими оценками производительности. Этот метод особенно полезен, когда у нас ограниченные данные и мы хотим максимально использовать доступный набор данных. Метод начальной загрузки позволяет нам аппроксимировать распределение выборки, строить доверительные интервалы и эффективно оценивать производительность классификаторов.
В заключение, метод начальной загрузки — это мощный метод повторной выборки, который позволяет нам оценить распределение выборки и оценить неопределенность оценок производительности с использованием одного набора данных. Он обеспечивает практический подход к решению различных статистических задач и нашел применение в самых разных областях, включая машинное обучение, статистику и анализ данных. Понимая и применяя метод начальной загрузки, мы можем повысить нашу способность принимать обоснованные решения и делать надежные выводы на основе ограниченных данных.
9.7 Методы начальной загрузки .632 и .632+ (L09 Model Eval 2: доверительные интервалы)
9.7 Методы начальной загрузки .632 и .632+ (L09 Model Eval 2: доверительные интервалы)
В этом видео мы углубимся в темы, обсуждавшиеся в предыдущем видео. В предыдущем видео мы рассмотрели метод бутстрапа, в частности, бутстрап «из коробки», который используется для построения эмпирических доверительных интервалов. В этом видео мы рассмотрим два продвинутых метода начальной загрузки: начальную загрузку 0,632 и начальную загрузку 0,632+. Эти методы связаны, и их происхождение будет объяснено далее в этом видео.
Чтобы кратко повторить процедуру начальной загрузки, мы начнем с набора данных и создадим образцы начальной загрузки путем выборки с заменой. Для каждого образца начальной загрузки мы подбираем модель и оцениваем ее производительность на готовых образцах. В предыдущем видео мы также продемонстрировали, как реализовать эту процедуру на Python, используя объектно-ориентированный подход.
В текущем видео ведущий представляет реализацию кода, упрощающую процесс. Они создали класс под названием «BootstrapOutOfBag», который принимает в качестве входных данных количество раундов начальной загрузки и случайное начальное число. Этот класс предоставляет метод под названием «разделить», который делит набор данных на обучающие и тестовые подмножества. Обучающие подмножества соответствуют образцам начальной загрузки, а тестовые подмножества представляют собой готовые образцы. Перебирая эти разбиения, докладчик демонстрирует, как выполнить процедуру начальной загрузки и оценить производительность модели.
Затем докладчик представляет другую реализацию под названием «bootstrap_0.632_score». Эта реализация позволяет пользователям удобно вычислять оценки «из коробки» или «бутстрап». Предоставляя классификатор, обучающий набор, количество разбиений и случайное начальное число, пользователи могут вычислить среднюю точность и получить доверительные интервалы с помощью метода процентилей.
Далее в видео рассматривается недостаток метода начальной загрузки «из коробки», который известен как пессимистическая предвзятость. Брэдли Эфрон предложил оценку 0,632 как способ устранить эту погрешность. Пессимистическое смещение возникает из-за того, что бутстреп-выборки содержат меньше уникальных точек данных по сравнению с исходным набором данных. На самом деле, только 63,2% точек данных в выборках начальной загрузки уникальны. Докладчик объясняет расчеты вероятности, лежащие в основе этого рисунка, и предоставляет визуализацию, чтобы проиллюстрировать, как он ведет себя для различных размеров выборки.
Чтобы преодолеть пессимистическую предвзятость, в видео представлен метод начальной загрузки 0,632. Этот метод сочетает в себе точность выборок из упаковки и выборок начальной загрузки в каждом раунде. Точность в каждом раунде рассчитывается как сумма двух слагаемых: точности вне упаковки и точности повторной замены. Точность вне пакета представляет собой производительность на образцах, которые не были включены в выборку начальной загрузки, в то время как точность повторной замены измеряет производительность на тех же данных, которые использовались для подбора модели.
Объединяя эти два термина, метод начальной загрузки 0,632 стремится обеспечить менее предвзятую оценку производительности модели. Этот метод устраняет чрезмерно оптимистичный характер точности повторной замены путем включения точности вне упаковки.
В заключение, это видео основано на концепциях, обсуждавшихся в предыдущем видео, и представляет расширенные методы начальной загрузки: начальную загрузку 0,632 и начальную загрузку 0,632+. Эти методы направлены на смягчение пессимистической погрешности бутстрапа вне пакета за счет учета точности как бутстрапа, так и бутстрапа. В видео представлены реализации кода и пояснения для облегчения понимания и применения этих методов.