Машинное обучение и нейронные сети - страница 4

 
Мне кажется, что Маск сам боится нейронок. Ведь кто знает, может однажды они отберут у него работу
 

Курс машинного обучения Калифорнийского технологического института - CS 156: Лекция 1 - Проблема обучения




Caltech's Machine Learning Course - CS 156. Lecture 01 - The Learning Problem

Первая лекция курса машинного обучения Ясера Абу-Мостафы знакомит с проблемой обучения, которая представляет собой процесс поиска закономерностей в данных для прогнозирования без вмешательства человека. Он объясняет необходимость математической формализации для абстрагирования практических задач обучения и представляет первый в курсе алгоритм машинного обучения — модель персептрона, которая использует весовой вектор для классификации точек данных по бинарным категориям. Лекция также охватывает различные виды обучения, включая обучение с учителем, обучение без учителя и обучение с подкреплением, и представляет аудитории проблему обучения с учителем для решения вопроса определения целевой функции обучения. Профессор затрагивает различные темы, связанные с машинным обучением. Он подчеркивает необходимость избегать предвзятости при выборе наборов данных, а также важность сбора достаточного количества данных. Профессор также обсуждает роль набора гипотез в машинном обучении и влияние выбора функции ошибки на метод оптимизации. Он также затрагивает критерии включения методов машинного обучения в курс и акцентирует внимание на предоставлении практических знаний, а не чистой теории.

  • 00:00:00 В этом разделе Ясер Абу-Мостафа представляет план курса по машинному обучению и объясняет важность как математических, так и практических аспектов предмета. Он заявляет, что темы курса не должны быть отдельными, а следуют логической сюжетной линии. Затем он углубляется в проблему обучения, приводя пример того, как зритель оценивает фильм, что актуально для Netflix, поскольку они используют его для персонализации рекомендаций для своих клиентов. Он упоминает о важности математической формализации для абстрагирования практических задач обучения и представляет первый в курсе алгоритм машинного обучения. Он также дает обзор типов обучения и заканчивается интересной головоломкой.

  • 00:05:00 В этом разделе лектор объясняет, что суть машинного обучения заключается в наличии закономерностей наряду с доступностью данных. Кроме того, он описывает необходимость поиска закономерностей, что математически невозможно без надлежащих данных. На примере рейтингов фильмов он рассказывает о создании системы прогнозирования рейтинга с использованием зрительских предпочтений в качестве вектора факторов и сопоставления их с содержанием фильма. Хотя эта система работает, она не считается машинным обучением, поскольку требует вмешательства человека. Идея машинного обучения заключается в том, что оно может решить проблему без вмешательства человека, самостоятельно находя закономерности и предпринимая корректирующие действия для улучшения системы.

  • 00:10:00 В этом разделе спикер обсуждает подход к обучению и то, как он реконструирует процесс оценки, чтобы выяснить, какие факторы будут соответствовать этой оценке. Процесс машинного обучения начинается со случайных факторов и подталкивает их к значениям оценок, снова и снова перебирая 100 миллионов оценок, в конечном итоге находя значимые факторы с точки зрения оценок. Затем спикер использует метафору из финансового приложения, одобрение кредита, чтобы объяснить математические компоненты, составляющие проблему обучения, которые включают информацию о заявителе, образец кредитоспособности и решение одобрить или отказать в кредите.

  • 00:15:00 В этом разделе инструктор обсуждает проблему обучения и то, как она применяется к утверждению кредита. Целевая функция — это идеальная формула утверждения кредита, которая неизвестна, а гипотеза — это формула, созданная для аппроксимации целевой функции. Данные используются для изучения гипотезы, а алгоритм обучения используется для создания формулы из набора формул-кандидатов, известного как набор гипотез. Причина ограничения алгоритма обучения набором гипотез состоит в том, чтобы избежать недостатка неограниченной формулы и извлечь выгоду из предопределенного набора формул на выбор.

  • 00:20:00 В этом разделе спикер объясняет, что он показал проблему обучения в виде изображения, чтобы обсудить компоненты решения на рисунке. Он отмечает, что набор гипотез играет жизненно важную роль в теории обучения, поскольку, среди прочего, он говорит нам, насколько хорошо мы учимся. Он объясняет, что набор гипотез, алгоритм обучения и окончательная гипотеза составляют модель обучения, такую как модель персептрона и алгоритм обучения персептрона. Далее он приводит простой пример модели персептрона, использующий формулу кредитного рейтинга, основанную на различных атрибутах клиента, который может либо одобрить, либо отклонить заявку на кредитную карту на основе порогового значения.

  • 00:25:00 В этом разделе профессор обсуждает, как определить гипотезу h и набор гипотез, содержащий все гипотезы, имеющие одинаковую функциональную форму. Используя модель персептрона, которая разделяет данные на две области, алгоритм обучения играет с параметрами, чтобы перемещать линию в надежде получить правильное решение. Профессор также представляет алгоритм обучения персептрона, который берет обучающие данные и перемещается по пространству гипотез, чтобы вывести окончательную гипотезу, которую предоставляет заказчик. Алгоритм начинает со случайных весов и перемещается, пока не найдет правильный вес, который используется в окончательной гипотезе.

  • 00:30:00 В этом разделе спикер объясняет алгоритм обучения персептрона (PLA), который представляет собой линейную модель, способную классифицировать точки данных по бинарным категориям. Алгоритм использует вектор весов, который учитывает все атрибуты в наборе данных, и, если точка неправильно классифицирована, алгоритм обновляет вектор весов, чтобы он лучше вел себя в этой конкретной точке. Спикер также обсуждает проблемы с этим подходом и итерациями PLA, но что, выбрав неправильно классифицированную точку и применив к ней итерацию, вы в конечном итоге получите правильное решение, если данные изначально были линейно разделимы.

  • 00:35:00 В этом разделе лектор обсуждает различные типы обучения, начиная с самого популярного типа обучения с учителем. Этот тип обучения включает в себя использование данных с явно заданными выходными данными, такими как кредитное поведение клиентов, чтобы помочь классифицировать будущие случаи. Лектор использует пример обучения машины распознавать различные монеты, используя физические измерения, такие как размер и масса. Монеты могут быть сгруппированы на основе их размеров, что может помочь машине различать их. Другие упомянутые типы обучения включают обучение без учителя, которое будет подробно обсуждаться позже в курсе, и обучение с подкреплением, которое будет кратко представлено.

  • 00:40:00 В этом разделе лектор обсуждает контролируемое и неконтролируемое обучение на примерах классификации монет и изучения языка. При обучении с учителем предоставляются обучающие данные и правильные выходные данные, и после того, как система обучена, ее можно использовать для классификации будущего примера. Однако при обучении без учителя предоставляются только входные данные, а целевая функция неизвестна. Несмотря на это, неконтролируемое обучение по-прежнему может быть полезно для группировки данных в кластеры и выявления закономерностей, которые могут помочь в будущей классификации. Лектор также объясняет, как неконтролируемое обучение может быть использовано для изучения языка путем погружения в язык и разработки модели языка посредством воздействия на него.

  • 00:45:00 В этом разделе видео объясняется концепция обучения с подкреплением как метода, позволяющего системе учиться на опыте. Лектор использует пример малыша, прикасающегося к чашке горячего чая, чтобы проиллюстрировать, как работает обучение с подкреплением. Позволяя системе делать любые выводы (даже сумасшедшие) и постепенно полагаясь на обусловливание посредством поощрения или наказания результатов, система в конечном итоге может научиться ориентироваться в таких играх, как нарды. Этот подход является удобным и простым методом создания желаемой системы вместо написания кода и изучения математики, стоящей за ним.

  • 00:50:00 В этом разделе лекции профессор представляет классу и онлайн-аудитории проблему контролируемого обучения. Проблема связана с обучающими данными, в которых некоторые точки сопоставлены с +1, а другие — с -1. Цель состоит в том, чтобы изучить целевую функцию и определить значение функции для контрольной точки. Профессор подчеркивает, что целевая функция неизвестна и может быть любой, что делает невозможным определение шаблона, применимого за пределами данного обучающего набора. Это представляет собой сложную задачу для обучения, требующую методов, выходящих за рамки простого запоминания примеров.

  • 00:55:00 В этом разделе лекции профессор обсуждает вопросы из сессии вопросов и ответов. Он обращается к проблеме линейной разделимости и объясняет, что, хотя это и упрощенное предположение, существуют алгоритмы, которые могут иметь дело со случаем линейной неразделимости, и на следующей неделе будет изучен метод, позволяющий сделать нелинейно разделимые точки линейно разделимыми. Профессор также упоминает, что скорость сходимости алгоритма перцептрона меняется в зависимости от размерности и может привести к патологическим случаям, когда это займет вечность. Кроме того, он обсуждает, что трудно узнать, есть ли конкретный шаблон для обнаружения, но есть разделение между целевой функцией и тем, можем ли мы ее изучить, что будет объяснено в полной лекции позже.
  • 01:00:00 В этом разделе видео профессор обсуждает, как он пытается не смотреть на предоставленный ему конкретный набор данных или адаптировать свою систему к нему, чтобы не разочароваться, когда появится другой набор данных. Он объясняет, что машинное обучение — это дисциплина, которая пытается охватить наибольшую территорию с наименьшими предположениями, и ее можно применять как на практике, так и в науке. Кроме того, профессор упоминает, что оптимизация — это инструмент машинного обучения, но это не то, что люди, обучающиеся машинному обучению, изучают сами по себе. Наконец, он отмечает, что набор гипотез для машинного обучения может быть любым, как непрерывным, так и дискретным.

  • 01:05:00 В этом разделе профессор рассказывает о предвзятости выборки при утверждении кредита и о том, как она влияет на качество используемых данных. Он объясняет, что использование необъективной выборки может привести к неточным результатам, но использование клиентской базы для принятия решений все же может работать, потому что клиентская база находится дальше в области классификации. Затем он обсуждает теоретические и практические аспекты сбора данных и то, сколько данных необходимо для создания разумной системы. Наконец, он обращается к проблеме выбора размера набора гипотез и заявляет, что цель обучения состоит в том, чтобы прогнозировать использование данных для получения разумного шаблона, который будет обобщаться за пределами набора данных.

  • 01:10:00 В этом разделе лекции, посвященном проблеме обучения, профессор обсуждает роль теории в машинном обучении, в частности, как она измеряет сложность набора гипотез и объем данных, необходимых для формулирования утверждений об обобщении. Профессор также отвечает на вопросы онлайн-аудитории, в том числе о том, как исправить обратную связь с помощью проверки и использования различных типов функций для гипотез. Кроме того, обсуждается роль алгоритма обучения и набора гипотез с акцентом на то, как выбор функции ошибок влияет на выбор метода оптимизации. Наконец, профессор поясняет, что произойдет, если результат точно соответствует пороговому значению алгоритма персептрона.

  • 01:15:00 В этом разделе лекции профессор обсуждает идею о том, что для работы машинного обучения должен существовать шаблон. Если шаблона нет, то и учиться нечему. Он также упоминает о важности данных и о том, как они играют ключевую роль в обучении. Профессор подчеркивает важность прохождения математических разделов плана, чтобы полностью понять компоненты, которые делают обучение возможным. Он также кратко затрагивает вопрос о том, почему персептрон часто связывают с нейроном, и упоминает, что аналогия с биологией будет более подробно обсуждаться позже. Наконец, профессор упоминает, что выбор модели и байесовские принципы будут обсуждаться позже в ходе курса.

  • 01:20:00 В этом разделе спикер обсуждает критерии включения методов машинного обучения в курс. Он заявляет, что будут включены наиболее полезные на практике методы и что он стремится дать общее представление о концепциях и инструментах для их практического использования. Он упоминает, что существуют различные иерархические методы с разветвлениями в обобщении, которые он может затронуть при обсуждении машин опорных векторов, но в целом его внимание сосредоточено на предоставлении практических знаний, а не чистой теории.
 

Лекция 2 - Возможно ли обучение?



Caltech's Machine Learning Course - CS 156. Lecture 02 - Is Learning Feasible?

В лекции обсуждается возможность обучения, в частности, использование машинного обучения для определения закономерностей на основе имеющихся данных. Лектор вводит понятие ню и мю в вероятности и то, как оно связано с проблемой обучения. Исследуется добавление вероятности, что позволяет осуществить обучение без ущерба для целевой функции, а это означает, что не нужно делать никаких предположений о функции, которая будет изучена. Обсуждается концепция переобучения и то, как она связана со сложностью модели, при этом большее количество гипотез приводит к худшему обобщению. В конце концов, лекция завершается просьбой просмотреть слайд о значении ню равно мю.

  • 00:00:00 В этом разделе Ясер Абу-Мостафа обсуждает три критерия определения того, является ли машинное обучение правильным методом для приложения: существует ли шаблон, который можно изучить, если шаблон нельзя определить математически и если существует достаточно данных для представления шаблона. Кроме того, он объясняет, что если шаблона нет, машинное обучение все равно можно попробовать, но оно потерпит неудачу, а если шаблон можно определить математически, машинное обучение может быть не оптимальной техникой. Абу-Мостафа далее объясняет обучение с учителем, когда целевая функция неизвестна, но предоставляются входные и выходные данные, и то, как оно называется «контролируемым», поскольку выходные данные действуют как наблюдатель в процессе обучения.

  • 00:05:00 В этом разделе лектор обсуждает возможность обучения и то, как нельзя выучить неизвестную функцию. Чтобы ответить на этот вопрос, лекция посвящена вероятностной ситуации, когда образец берется из корзины с красными или зелеными шариками с вероятностью выбора красного шарика, представленного мю. Лекция переводит эту ситуацию в обучение, а затем находит решение дилеммы, в конечном счете заявляя, что обучение возможно в определенном смысле.

  • 00:10:00 В этом разделе видео ведущий описывает эксперимент с непрозрачным контейнером, содержащим шарики, где вероятность подобрать красный шарик равна мю, а вероятность подобрать зеленый шарик равна 1 минус мю. Значение mu неизвестно, и цель состоит в том, чтобы определить, может ли частота выборки nu (доля красных шариков в выборке шариков) предоставить какую-либо информацию о mu. Ответ — нет для небольших выборок, но для более крупных выборок nu может быть близок к mu с более высокой вероятностью, открывая возможности для статистического вывода. Различие между возможным и вероятным является ключевым в науке и технике.

  • 00:15:00 В этом разделе лектор представляет неравенство Хёффдинга, формулу, которая будет использоваться на протяжении всего курса, чтобы доказать что-то об измерении VC. Неравенство утверждает, что вероятность события, когда частота выборки не приближается к частоте бина в пределах заданного допуска, мала и экспоненциально уменьшается с увеличением размера выборки. Однако меньший допуск приводит к более высокому показателю экспоненты, что сводит на нет преимущества отрицательной экспоненты. Формула с двойками предпочтительнее исходной формулы, поскольку она верна.

  • 00:20:00 В этом разделе лекции неравенство Хёффдинга вводится как инструмент ограничения отклонения частоты дискретизации от истинной частоты. Неравенство верно для каждого N и эпсилон, что делает его очень привлекательным, несмотря на то, что в нем есть экспонента. Распределение вероятностей nu явно зависит от mu, которое является неизвестным значением, но неравенство не зависит от mu, что является преимуществом. Также обсуждается компромисс между N и эпсилон, поскольку чем меньше эпсилон, тем больше N необходимо для компенсации того же уровня связанной вероятности. Наконец, поясняется логика утверждения, что ню примерно такое же, как мю, подразумевая, что мю примерно такое же, как ню.

  • 00:25:00 В этом разделе видео спикер обсуждает концепцию мю и ню в вероятности и то, как она связана с проблемой обучения. Они объясняют, что в то время как в случае вероятности цель состоит в том, чтобы вывести мю из ню путем создания различных выборок и вычисления вероятности, в задаче обучения неизвестная величина является полной функцией с областью определения, которая может быть евклидовым пространством 10-го порядка. Затем оратор продолжает вводить концепцию цветового кодирования в этом сценарии, чтобы указать на соответствие между гипотезой и целевой функцией. Благодаря этому сопоставлению говорящий фактически добавил вероятность к проблеме обучения.

  • 00:30:00 В этом разделе исследуется добавление вероятности к проблеме обучения. Вероятность вводится во входное пространство путем применения распределения вероятностей по входному пространству, которое генерирует точки независимо. Введенное распределение вероятностей не требует предположений, и этот механизм можно применять к любому распределению вероятностей. Добавление вероятности обеспечивает возможность обучения без ущерба для целевой функции, а это означает, что не нужно делать никаких предположений о функции, которая будет изучена. Однако обсуждается проблема проверки, где описанная ситуация эквивалентна поиску банком определенной формулы для одобрения кредита на основе заданных данных.

  • 00:35:00 В этом разделе лектор объясняет, как превратить простую задачу проверки гипотезы в бинарную задачу, которую можно изучить. Начав с одного бина и высокого порога, он выбирает вес 0,1 для лет проживания, поскольку это слабо влияет на проблему обучения. Однако этот метод не учитывает несколько гипотез, а это означает, что более разумно выбирать из нескольких бинов. Для этого требуется сканировать разные образцы, что может обеспечить эффективное обучение. Лектор вводит обозначения, которые будут использоваться в оставшейся части доклада, называя nu и mu описательными именами, поскольку они представляют частоту в выборке и внутри бина соответственно, следовательно, вводя E_in как частоту ошибок в выборке.

  • 00:40:00 В этом разделе лекции профессор вводит обозначения для производительности в выборке и вне выборки. Производительность вне выборки относится к чему-то, чего раньше не видели, и если модель хорошо работает на данных вне выборки, это означает, что она научилась. Неравенство Хёффдинга, которое используется для измерения различий в производительности внутри выборки и вне выборки, затем применяется к нескольким группам гипотез, но профессор объясняет, что в данном случае оно неприменимо. Затем обсуждается причина, по которой это неприменимо, и аудитории предлагается подбросить монетку пять раз и записать результаты, чтобы проиллюстрировать это.

  • 00:45:00 В этом разделе профессор описывает, как неравенство Хёффдинга применяется к ситуации обучения, когда данные случайным образом попадают в одну из двух категорий. Он объясняет, что несколько корзин затрудняют решение проблемы и ослабляют гарантию неравенства Хёффдинга, поскольку оно вычисляет вероятность того, что из корзины выпадет пять решек. Хотя каждая из корзин может пройти тест пяти головок, они не указывают на реальную вероятность корзины, поскольку очень высока вероятность того, что где-то произойдет что-то плохое. Профессор заканчивает этот раздел, заявляя, что им нужно найти что-то, что поможет им эффективно работать с несколькими корзинами.

  • 00:50:00 В этом разделе лектор обсуждает вероятность того, что ошибка внутри выборки будет близка к ошибке вне выборки в рамках Сценария подлинного обучения, который включает выбор одной гипотезы из набора на основе внутривыборочной ошибки. критерий. Вероятность этого события меньше или равна вероятности того, что какая-либо гипотеза из конечного набора неверна, которая рассчитывается с использованием Union Bound в вероятности. Хотя эта оценка пессимистична и не учитывает перекрытия, ее можно использовать для расчета верхней границы всех вероятностей. Каждое слагаемое в этой оценке соответствует фиксированной гипотезе, которую можно заменить границей Хёффдинга. В конечном счете, вероятность того, что ошибка внутри выборки близка к ошибке вне выборки, по-прежнему ограничена членом с экспонентой в нем, но она включает в себя дополнительный фактор, который вызывает беспокойство.

  • 00:55:00 В этом разделе профессор обсуждает проблему переобучения и то, как она связана со сложностью используемой модели. С большим количеством гипотез увеличивается и вероятность того, что произойдет что-то плохое. Профессор объясняет, что наличие более сложной модели может привести к запоминанию в образце и плохому обобщению вне образца. На сессии вопросов и ответов обсуждается неравенство Хёффдинга и его последствия, в том числе случай, когда результат тривиален, и почему количество гипотез для моделей обучения часто бесконечно. Лекция завершается просьбой просмотреть слайд 6 о значении ню равно мю.
  • 01:00:00 В этом разделе видео профессор объясняет концепцию причины и следствия в статистике и то, как она связана с машинным обучением. Он подчеркивает, что частота в выборке является следствием, а бин — причиной. Это понимание имеет решающее значение при использовании неравенства Хеффдинга для вывода бина на основе выборки, при этом рассматривая мю как константу, а ню как причину. Профессор также уточняет, что каждый h в машинном обучении — это гипотеза, а модель — это набор гипотез, доступных для выбора. Сложность модели и отдельные гипотезы будут обсуждаться позже в ходе курса. Наконец, профессор обсуждает, как расширить уравнение для поддержки диапазона ответов, а не только бинарного ответа, что может быть достигнуто путем сопоставления ожидаемого значения чего-либо со средним значением выборки.

  • 01:05:00 В этом разделе профессор объясняет, что обучение возможно, но необходимо учитывать дисперсию переменной. Он отмечает, что ожидаемое значение и среднее значение выборки функции связаны с вероятностью и что это просто более простой случай вероятности и среднего значения выборки. Кроме того, он поясняет, что использование нескольких бинов необходимо для представления нескольких гипотез в обучении, поскольку разные гипотезы приведут к разным цветам. Профессор также объясняет, как работает выбор лучших гиперплоскостей и как алгоритмы обучения решают эту проблему, выбирая конкретное решение, которым они заканчиваются. Наконец, он указывает, что единственное обращение к вероятности, необходимое в обучении, — это применить распределение вероятностей к X, чтобы получить выгоду от вероятностного анализа в обучении, но что байесовский подход поместит распределение вероятностей в H в конце курс.

  • 01:10:00 В этом разделе обсуждение сосредоточено вокруг гибкости набора гипотез (H), используемого в алгоритме обучения. Символ «g» используется для обозначения окончательной гипотезы, выбранной алгоритмом из H. Однако g может быть другим, поскольку он относится ко всему процессу обучения, который пошел на ее выбор из набора гипотез в соответствии с данными и правилом обучения. Кроме того, важно отметить, что хотя алгоритм персептрона или любой алгоритм линейного обучения выбирает гипотезу на каждом этапе, это скрытый процесс с точки зрения анализа, поскольку цель состоит в том, чтобы выбрать одну правильную окончательную гипотезу g из H. Наконец, модифицированное неравенство Хёффдинга является расширением обычного неравенства Хёффдинга, которое позволяет делать заявления одновременно по ряду гипотез в наборе гипотез, чтобы гарантировать хорошие результаты при учете вероятности того, что могут произойти плохие вещи.

  • 01:15:00 В этом разделе профессор обсуждает взаимосвязь между неравенством Хёффдинга и p-значениями в статистике. Он объясняет, что неравенство Хёффдинга связано с оценкой надежности выборки и вероятности отклонения. Он также отмечает, что в статистике существуют и другие законы больших чисел, но акцентирует внимание на этой формуле как на наиболее полезной для понимания теории обобщения. Профессор отмечает, что, хотя изучение различных проявлений внутривыборочной близости к вневыборочной и вероятностей ошибок полезно, это не является основной темой курса. Лекция заканчивается, и студенты освобождаются до следующей недели.
Lecture 02 - Is Learning Feasible?
Lecture 02 - Is Learning Feasible?
  • 2012.04.09
  • www.youtube.com
Is Learning Feasible? - Can we generalize from a limited sample to the entire space? Relationship between in-sample and out-of-sample. Lecture 2 of 18 of Cal...
 

Лекция 3: Линейная модель I




Caltech's Machine Learning Course - CS 156. Lecture 03 -The Linear Model I

В этой лекции рассматриваются темы линейных моделей в машинном обучении, представления входных данных, алгоритма персептрона, карманного алгоритма и линейной регрессии, включая ее использование в классификации. Профессор подчеркивает важность использования реальных данных для опробования различных идей и вводит понятие признаков для упрощения жизни алгоритма обучения. В лекции также обсуждаются вычислительные аспекты псевдоинверсии в линейной регрессии и проблемы, которые могут возникнуть при использовании линейной регрессии для классификации неразделимых данных. Наконец, представлена концепция использования нелинейных преобразований для того, чтобы сделать данные более линейными, с примером, демонстрирующим, как получить разделяемые данные с помощью преобразования x1² и x2² из исходной точки.

Также профессор освещает различные темы, связанные с линейной моделью в машинном обучении. Он обсуждает нелинейные преобразования и рекомендации по их выбору, ошибки в выборке и вне выборки в бинарной классификации, использование линейной регрессии для корреляционного анализа и получение значимых признаков из входных данных. Профессор также подчеркивает важность понимания различий между E_in и E_out и того, как они влияют на производительность модели. Наконец, он затрагивает взаимосвязь между линейной регрессией и оценкой максимального правдоподобия, использование нелинейных преобразований и роль теории в понимании концепций машинного обучения.

  • 00:00:00 В этом разделе Ясер Абу-Мостафа углубляется в тему множественных гипотез в модели. Поскольку вероятность того, что произойдет что-то плохое, может накапливаться для нескольких гипотез, можно применить ограничение объединения — математическое правило. Этот метод позволяет сделать вероятность события или другого события меньше или равной сумме отдельных вероятностей, предоставляя полезный инструмент для ограничения вероятности того, что произойдет что-то плохое. Когда одиночный набор гипотез или бин соответствует одной гипотезе, вероятность того, что окончательная гипотеза будет неверной, мала. Однако больший набор гипотез приведет к большому коэффициенту М, что сделает вероятность бессмысленной.

  • 00:05:00 В этом разделе лектор обсуждает важность линейных моделей в машинном обучении и предоставляет последовательность тем, затронутых в лекции, которая включает персептрон и его обобщение на неразделимые данные, вещественную функцию, и, наконец, к нелинейному случаю. Он также представляет практический набор данных из почтовых индексов в почтовом отделении, который будет использоваться для проверки различных идей, и подчеркивает важность проверки идей на реальных данных. Лектор исследует вопрос представления входных данных, подчеркивая проблему кодирования 256 действительных чисел необработанных входных данных 16 на 16 пикселей уровня серого, что может привести к слишком большому количеству параметров, но решается с помощью методов извлечения признаков.

  • 00:10:00 В этом разделе видео обсуждается концепция представления входных данных и идея функций, упрощающих жизнь алгоритма обучения. Лектор приводит пример извлечения дескрипторов изображения, таких как яркость и симметрия, для получения более высокого уровня представления необработанной информации. Используя эти функции, алгоритму нужно определить значения лишь нескольких параметров вместо всех 257 параметров в исходном пространстве, что лучше для обобщения. Затем в лекции представлены диаграммы рассеяния координат интенсивности и симметрии, чтобы проиллюстрировать, как особенности делают проблему линейно разделимой, и знакомит с ролью алгоритма обучения персептрона в определении границы решения.

  • 00:15:00 В этом разделе мы узнаем о поведении алгоритма обучения персептрона, когда данные не являются линейно разделимыми. Из-за своей природы исправления ошибочных классификаций по одной, иногда ошибка будет увеличиваться или уменьшаться, и это не может гарантировать сходимость для таких случаев. Чтобы решить эту проблему, мы вводим карманный алгоритм, что означает, что мы измеряем внутривыборочную ошибку промежуточной гипотезы во время каждой итерации и оставляем в кармане только лучшую. В конце концов, мы сообщаем гипотезу в нашем кармане как окончательную гипотезу. Алгоритм кармана дает лучшие результаты, поскольку он считает, что значение кармана на каждой итерации, которое было найдено, лучше, чем последующее, и, таким образом, ошибки внутри выборки и вне выборки намного меньше.

  • 00:20:00 В этом разделе лекции профессор Абу-Мостафа обсуждает карманный алгоритм, который представляет собой модифицированную версию алгоритма обучения персептрона, который можно использовать для общих неразделимых данных. Алгоритм завершается на определенной итерации и сообщает значение кармана. Он объясняет, что граница классификации карманного алгоритма лучше, чем у алгоритма обучения персептрона, хотя данные по-прежнему не вполне разделимы. Затем вводится линейная регрессия как широко используемый статистический подход для поиска взаимосвязи между переменными, особенно для анализа взаимосвязи между средними баллами различных курсов и будущими доходами. Наконец, пример утверждения кредита снова рассматривается, чтобы показать, как можно использовать регрессию для прогнозирования кредитного лимита клиента на основе его данных.

  • 00:25:00 В этом разделе профессор представляет концепцию линейной регрессии и объясняет, что она используется для прогнозирования реальных выходных значений на основе входных переменных. Результатом является гипотеза, которая принимает линейную форму с точки зрения входных переменных. Переменные кодируются как входные данные, а алгоритм зависит от линейности сигнала. Набор данных для этого примера представляет собой исторические данные от предыдущих клиентов, в которых сотрудник оценивал их кредитные заявки и определял кредитную линию. Цель состоит в том, чтобы повторить то, что делают эксперты, чтобы автоматизировать систему определения кредитных линий. Алгоритм линейной регрессии измеряет ошибку и пытается найти оптимальные веса для определения гипотезы, которая хорошо аппроксимирует f. Стандартная функция ошибки, используемая в линейной регрессии, представляет собой квадрат ошибки.

  • 00:30:00 В этом разделе лектор обсуждает, как оценить кредитную линию и важность определения меры ошибки, такой как квадрат ошибки, который обычно используется в линейной регрессии. Ошибка в выборке используется для оценки того, насколько хорошо гипотеза работает с набором данных, где каждый пример вносит свой вклад в ошибку. Алгоритм линейной регрессии стремится минимизировать эту ошибку, находя линию, которая соответствует данным в соответствии с правилом квадрата ошибки. Алгоритм применяется к многомерным пространствам, где линия является гиперплоскостью. Выражение для E_in представлено как квадрат нормы чего-то, что объединяет различные x_n.

  • 00:35:00 В этом разделе вводится понятие линейной модели, где входные данные представлены в виде матрицы X с вектором выходов y. Градиент берется для минимизации E_in по отношению к параметру w. Это приводит к прямому квадратному уравнению, которое нужно решить, в котором X переставляется X, обратимая квадратная матрица. Из-за этого решение простое, и формула для w имеет вид X ^ †, где X ^ † - это псевдообратное значение X, что является сокращением для обратного X, транспонированного X, умноженного на X транспонированного. Поскольку X необратим, у него нет традиционной инверсии, но есть псевдоинверсия.

  • 00:40:00 В этом разделе лектор объясняет вычислительные аспекты псевдоинверсии в линейной регрессии. Формула псевдообращения включает в себя обращение и умножение матриц, что может потребовать значительных вычислительных ресурсов для больших матриц. Тем не менее, лектор отмечает, что для большинства практических приложений это не проблема, поскольку существует множество доступных пакетов для вычисления псевдообратного решения или решения для линейной регрессии. Чтобы использовать линейную регрессию, необходимо ввести данные в правильном формате, построить матрицу X и вектор y, а затем подставить их в формулу псевдообратной. Полученное умножение дает значения для w, весов для линейной модели.

  • 00:45:00 В этом разделе представлена концепция использования линейной регрессии для классификации. Объясняется, что функции классификации с двоичным значением также являются вещественными, и для приблизительного изучения этих функций можно использовать линейную регрессию. Веса, полученные из линейной регрессии, также можно использовать в качестве начальных весов для алгоритмов классификации, таких как алгоритм персептрона, обеспечивая быстрый старт и потенциально более быструю сходимость. Кроме того, обсуждается идея использования знака сигнала, полученного в результате линейной регрессии, для классификации как +1 или -1. Наконец, граница линейной регрессии объясняется на примере.

  • 00:50:00 В этом разделе лекции профессор обсуждает проблемы, которые могут возникнуть при использовании линейной регрессии для классификации, особенно при работе с неразделимыми данными. Он демонстрирует, что алгоритм будет пытаться привести все значения к одной и той же классификации, что часто приводит к ошибкам в процессе классификации. Затем он вводит идею использования нелинейных преобразований, чтобы сделать данные более линейными, например, в случае определения стабильности кредитной линии на основе количества лет проживания. Однако он подчеркивает, что важно понимать, что подразумевается под «линейным» с точки зрения этих моделей для эффективного использования.

  • 00:55:00 В этом разделе лектор обсуждает важность линейности весов при построении алгоритмов обучения, таких как персептрон и линейная регрессия, поскольку это позволяет алгоритмам работать независимо от значений x. Это открывает возможность выполнять нелинейные преобразования входных данных, не выходя за рамки линейных моделей, поскольку веса, придаваемые нелинейным функциям, линейно зависят от параметров. Приведен пример нелинейного преобразования, когда данные преобразуются с использованием измерений x1² и x2² от начала координат, в результате чего получаются разделимые данные. Тем не менее, нелинейное преобразование — сложный вопрос, чувствительный к проблемам обобщения, поэтому рекомендации будут обсуждаться далее в следующей лекции.
  • 01:00:00 В этом разделе профессор обсуждает нелинейные преобразования и рекомендации о том, как далеко можно зайти при их выборе. Он подчеркивает важность обобщения и теоретических знаний при выборе нелинейных преобразований. Затем обсуждение переходит к ошибкам внутри и вне выборки, особенно в контексте бинарной классификации. Профессор поясняет, что при обучении обрабатывается только ошибка внутри выборки, в то время как ошибка вне выборки обрабатывается неявно с гарантией того, что хорошие результаты в выборке перейдут в хорошие результаты вне выборки. Также объясняется различие между вероятностью ошибки и частотой ошибки в классификации. Затем лекция касается использования линейной регрессии для определения корреляции между средним баллом и будущим доходом. Доступность данных и включение w_0 в линейную регрессию также кратко обсуждаются.

  • 01:05:00 В этом разделе профессор объясняет, что порог необходим для линейной регрессии, так как он компенсирует смещение в зависимости от значений переменных, позволяя построить правильную модель. В бинарном случае, при использовании +1 или -1 в качестве выходных данных, гипотеза линейной регрессии имеет наименьшую квадратичную ошибку из целей на примерах, а выходные данные гипотезы наиболее близки к значению +1 или -1 с среднеквадратическая ошибка. Хотя этот метод может работать, он может неправильно классифицировать точки, поскольку линейная регрессия пытается подобрать нерелевантные точки, которые могут испортить классификацию. Профессор предлагает использовать линейную регрессию в качестве начального веса, а затем использовать правильный алгоритм классификации для его дальнейшей точной настройки. Для получения функций не существует общего алгоритма, и лучший подход — просмотреть необработанные входные данные и попытаться сделать вывод о значимых функциях на основе постановки задачи. Однако если признаков слишком много, это может стать проблемой, и именно здесь нелинейные преобразования могут помочь упростить пространство признаков.

  • 01:10:00 В этом разделе профессор обсуждает концепцию функций, которые являются любыми высокоуровневыми представлениями необработанных входных данных. Линейная модель является строительным блоком для множества моделей машинного обучения, и в некоторых случаях другие модели могут давать более высокую производительность, но он подчеркивает, что линейная модель выполняет свою работу. Профессор также подчеркивает разницу между E_in и E_out: E_in легко оценить, в то время как E_out требует теоретических гарантий того, что ошибка внутри выборки отслеживает ошибку вне выборки. Кроме того, он объясняет, что линейную регрессию все еще можно использовать для подбора полинома путем преобразования входной переменной посредством нелинейного преобразования. Наконец, он кратко рассказывает о взаимосвязи между методом наименьших квадратов линейной регрессии и оценкой максимального правдоподобия в литературе по статистике, которая включает больше предположений о вероятностях и шуме.

  • 01:15:00 В этом разделе профессор рассказывает о взаимосвязи между моделью линейной регрессии и максимальной вероятностью, но предпочитает представлять линейную регрессию в контексте машинного обучения, не делая слишком много предположений о распределениях. Профессор также обсуждает нелинейные преобразования и то, как они используются в машинном обучении, включая полиномы и радиальные базисные функции. Он также отвечает на вопросы о поиске закономерностей в генераторах псевдослучайных чисел и о различных способах обработки непрерывных и дискретных ответов, которые зависят от решаемой проблемы. Наконец, профессор подчеркивает важность теории для более глубокого понимания методов машинного обучения.
Lecture 03 -The Linear Model I
Lecture 03 -The Linear Model I
  • 2012.04.12
  • www.youtube.com
The Linear Model I - Linear classification and linear regression. Extending linear models through nonlinear transforms. Lecture 3 of 18 of Caltech's Machine ...
 

Лекция 4: Ошибка и шум




Caltech's Machine Learning Course - CS 156. Lecture 04 - Error and Noise

В лекции 04 курса машинного обучения профессор Абу-Мостафа обсуждает важность ошибок и шума в реальных задачах машинного обучения. Он объясняет концепцию нелинейного преобразования, используя пространство признаков Z, которое необходимо для сохранения линейности в обучении. В лекции также рассматриваются компоненты диаграммы обучения с учителем, подчеркивая важность измерения ошибок в количественной оценке эффективности гипотезы. Шумные цели вводятся как типичный компонент реальных проблем обучения, который необходимо учитывать при минимизации ошибки в выборке. Лекция заканчивается обсуждением теории обучения и ее значения для оценки ошибок внутри выборки, ошибок вне выборки и сложности модели.

Профессор объясняет, как изменения в распределении вероятностей могут повлиять на алгоритм обучения и как могут различаться меры погрешности для разных приложений. Он также обсуждает алгоритм линейной регрессии, использование квадрата ошибки по сравнению с абсолютным значением для измерения ошибки в оптимизации и компромисс между сложностью и производительностью в моделях машинного обучения. Профессор разъясняет разницу между входным пространством и извлечением признаков и отмечает, что теория того, как одновременно улучшить обобщение и минимизировать ошибку, будет рассмотрена в следующих лекциях.

  • 00:00:00 В этом разделе профессор Абу-Мостафа обсуждает важность ошибок и шума при рассмотрении реальных проблем машинного обучения. Сначала он пересматривает концепцию нелинейного преобразования и то, как оно помогает преобразовывать переменные и сохранять линейность весового вектора w, что необходимо для процесса обучения. Затем он вводит понятие ошибки и шума в диаграмме обучения, признавая практические соображения, возникающие в реальных жизненных ситуациях. Лекция также включает пример неразделимых данных, которые можно разделить с помощью нелинейного преобразования.

  • 00:05:00 В этом разделе обсуждается нелинейное преобразование, называемое phi, при котором каждая точка в выборочном пространстве x_n подвергается преобразованию, а соответствующая точка z_n получается в пространстве признаков Z, которое может быть сильно нелинейным пространством. Это позволяет набору данных стать линейно разделимым в новом пространстве признаков, которое затем применяется с помощью простых алгоритмов линейной модели, таких как линейная регрессия или классификация, для получения разделяющей границы. Однако, когда дана контрольная точка, она находится во входном пространстве, поэтому эта точка должна быть преобразована с использованием обратного преобразования, чтобы определить, где она находится в пространстве признаков для соответствующей классификации. Эта процедура хорошо работает при любом размере измерений для любого нелинейного преобразования, но важно быть осторожным с преобразованием, чтобы избежать проблем обобщения.

  • 00:10:00 В этом разделе инструктор обсуждает компоненты диаграммы обучения с учителем и знакомит с понятием мер ошибок и зашумленных целей. Он объясняет, что цель измерения ошибок состоит в том, чтобы количественно определить, насколько хорошо или плохо гипотеза аппроксимирует неизвестную целевую функцию. Мера ошибки определяется как E двух функций, и он подчеркивает, что это количественная мера. Далее он заявляет, что шумные цели являются практическим компонентом реальных проблем обучения, которые необходимо принимать во внимание.

  • 00:15:00 В этом разделе спикер объясняет, как функция ошибок используется для измерения того, насколько хорошо функция гипотезы аппроксимирует целевую функцию в алгоритмах машинного обучения. Функция ошибок возвращает число, которое вычисляется путем сравнения значения двух функций в одной и той же точке. Обычно используется точечное определение, а среднее значение поточечных ошибок используется для определения функции ошибок во всем пространстве. Внутривыборочная ошибка функции ошибок представляет собой среднее значение поточечных ошибок в обучающей выборке, а вневыборочная ошибка требует разделения данных на обучающую и проверочную выборки. Докладчик подчеркивает важность минимизации функции ошибок для разработки точной функции гипотезы.

  • 00:20:00 В этом разделе лектор обсуждает вневыборочную ошибку, которая является вневыборочной версией показателя ошибки. Ожидаемое значение получается путем усреднения всех точек во входном пространстве X. Двоичная ошибка — это вероятность ошибки в целом, которая вычисляется с использованием распределения вероятностей во входном пространстве X. Диаграмма обучения обновляется добавлением меры ошибки , который определяется по пунктам. Мера ошибки определяется в контексте проверки отпечатков пальцев с двумя типами ошибок — ложным принятием и ложным отклонением. При определении меры ошибки каждый тип ошибки наказывается для получения лучшей гипотезы.

  • 00:25:00 В этом разделе спикер обсуждает концепцию ошибки и шума в системах проверки отпечатков пальцев и то, как можно использовать машинное обучение для создания гипотезы о принятии или отклонении лиц на основе их отпечатков пальцев. Докладчик отмечает, что выбор одной функции ошибки над другой не имеет никаких преимуществ и что это зависит от предметной области. Например, в случае с супермаркетами ложные отказы обходятся дорого, поскольку они могут разочаровать покупателей и заставить их пойти в другое место, в то время как ложные приемки не имеют большого значения. Однако в случае ЦРУ ложные приемы потенциально могут привести к нарушениям безопасности, что делает их более дорогостоящими, чем ложные отказы. Поэтому матрицу ошибок необходимо корректировать в зависимости от конкретного приложения.

  • 00:30:00 В этом разделе спикер обсуждает важность мер погрешности в практических задачах обучения и объясняет, что используемая мера погрешности должна быть указана пользователем, который будет использовать несовершенную систему. Он предполагает, что если пользователь может сформулировать количественную функцию ошибки, то с ней и следует работать. Однако, когда пользователи не указывают конкретные функции ошибок, можно использовать другие правдоподобные или дружественные меры. Правдоподобные меры имеют аналитические достоинства, в то время как дружественные меры просты в использовании. Спикер модифицирует диаграмму обучения, чтобы ввести меру ошибки, которая имеет решающее значение для того, чтобы прояснить, что система должна изучать.

  • 00:35:00 В этом разделе основное внимание уделяется мере ошибки и ее роли в алгоритме обучения. Мера ошибки выполняет две основные функции: оценивает окончательную гипотезу и аппроксимирует целевую функцию, а также передает меру ошибки алгоритму обучения для минимизации ошибки в выборке. Кроме того, шумные цели вводятся как норма для реальных проблем. Целевая функция не всегда является функцией и на нее могут влиять шумы от неучтенной информации и обстоятельств, что делает ее вероятностной, а не детерминированной. Вместо целевой функции используется целевое распределение, где y генерируется распределением вероятностей при заданном x, представляющем вероятностную зависимость. Концепция зашумленных целей рассматривается путем введения идеи детерминированной целевой функции плюс шум, и этот подход используется для упрощения понятия целевого распределения.

  • 00:40:00 В этом разделе спикер обсуждает концепцию шума в машинном обучении и то, как он может повлиять на процесс обучения. Целевая функция определяется как ожидаемое значение y при данном x, а оставшаяся часть называется шумом. Если целевая функция определена нечетко, ее можно представить как распределение вероятностей, а зашумленные цели можно представить как условное распределение вероятностей y при заданном x. Диаграмма обучения для обучения с учителем включает зашумленные цели, и проводится различие между вероятностями x и y при заданном x. Несмотря на связанные с этим сложности, спикер отмечает, что у каждого компонента диаграммы обучения есть причина для того, чтобы быть там.

  • 00:45:00 В этом разделе спикер объясняет концепцию целевого распределения, которое представляет собой вероятностное распределение кредитоспособности с учетом входных данных, и подчеркивает, что это то, чему вы пытаетесь научиться посредством контролируемого обучения. Распределение входных данных, с другой стороны, играет роль количественного определения относительной важности входных данных в целевом распределении, но это не то, что вы пытаетесь изучить. Спикер также предупреждает, что смешивание двух дистрибутивов, что теоретически возможно, может привести к путанице в отношении истинного целевого дистрибутива. Наконец, спикер представляет теорию обучения, которая направлена на приближение к целевому распределению и подчеркивает ее важность для понимания и приобретения вторичных инструментов.

  • 00:50:00 В этом разделе лектор объясняет, что вневыборочная ошибка для функции g должна быть близка к нулю, так как это означает хорошее обобщение. Однако, поскольку это количество невозможно узнать, мы можем использовать ошибку внутри выборки в качестве прокси для ошибки вне выборки, если у нас есть правильные проверки. Полная история обучения включает в себя два вопроса: можем ли мы убедиться, что характеристики вне выборки достаточно близки к характеристикам в выборке (теоретический вопрос), и можем ли мы сделать ошибку в выборке достаточно малой (практический вопрос). )? Лектор отмечает, что в некоторых приложениях невозможно получить вневыборочную производительность, близкую к нулю, например, в финансовом прогнозировании, где есть чисто зашумленные данные. Несмотря на это, хедж-фонды все еще могут зарабатывать деньги, используя некоторую неэффективность.

  • 00:55:00 В этом разделе лекции профессор обсуждает важность ошибки вне выборки и теорию, которая будет рассмотрена в течение следующих двух недель. Теория имеет дело с пониманием ошибки внутри выборки, ошибки вне выборки и сложности модели, и для оценки этих факторов будут даны формальные определения. Основная цель теории - охарактеризовать возможность обучения для случаев, когда набор гипотез бесконечен, например, в моделях персептрона и линейной регрессии. Теория будет измерять модель по одному параметру, отражающему сложность модели, что поможет существенно изменить практическое обучение. Профессор также отвечает на один вопрос, обсуждая относительное влияние P of x на алгоритм обучения.
  • 01:00:00 В этом разделе профессор обсуждает, как изменения в распределении вероятностей могут повлиять на алгоритм обучения, особенно на выбор обучающих примеров. Профессор объясняет, что распределение вероятностей входных данных играет техническую роль, но его акцент на одних частях пространства по сравнению с другими может повлиять на выбор, сделанный алгоритмом. Что касается наилучшего способа выбора между N парами x и y или N y на x, профессор предлагает получить их независимо, а не для одного и того же ввода, чтобы избежать работы с очень специфической частью входного пространства и улучшить обобщение. Наконец, профессор отмечает, что существует способ измерения плохого или хорошего обобщения, который будет частью теории.

  • 01:05:00 В этом разделе профессор объясняет, что показатели ошибок могут быть разными для разных предметных областей, даже для одной и той же системы и одних и тех же обучающих данных. Он приводит примеры того, как правильный баланс между ложным принятием и ложным отклонением может отличаться для супермаркета и ЦРУ. Профессор также поясняет, что структура вероятности x (P(x)) не имеет значения при обучении с учителем, если для обучения и тестирования используется одно и то же распределение. Далее он объясняет, что любое распределение вероятностей будет достаточным для применения вероятностного подхода к проблеме обучения. Наконец, профессор принимает просьбу упростить случай меры квадрата ошибки и решения в закрытой форме, о чем он расскажет в обзоре.

  • 01:10:00 В этом разделе профессор обсуждает, как алгоритм линейной регрессии был получен на основе минимизации квадрата ошибки, что привело к простому решению в закрытой форме. Он также объясняет, как дисбаланс вероятности y влияет на процесс обучения и что вознаграждение и затраты эквивалентны. Кроме того, он уточняет, что при обращении к входному пространству в машинном обучении оно включает в себя все возможные точки только с точки зрения их входных частей, в то время как извлечение признаков включает в себя обработку ввода для удаления ненужной информации. Анализ главных компонент - еще один метод обнаружения информативных направлений во входном пространстве представления.

  • 01:15:00 В этом разделе лекции профессор обсуждает использование меры квадрата ошибки в сравнении с абсолютным значением меры ошибки в оптимизации. Он объясняет, что квадрат ошибки является гладкой функцией и обладает многими желаемыми свойствами, тогда как абсолютное значение не является гладким и может привести к комбинаторной оптимизации. Однако, если использование абсолютного значения необходимо для конкретной заслуги, его все же можно использовать. Кроме того, он уточняет, что целью является функция f от x, а не w, транспонированная x, и что шум — это разница между y и ожидаемым значением y при заданном x. Наконец, профессор отмечает, что в моделях машинного обучения существует компромисс между сложностью и производительностью, но ответы на вопросы о том, как одновременно улучшить обобщение и минимизировать ошибку, будут рассмотрены в следующих четырех лекциях.
Lecture 04 - Error and Noise
Lecture 04 - Error and Noise
  • 2012.04.15
  • www.youtube.com
Error and Noise - The principled choice of error measures. What happens when the target we want to learn is noisy. Lecture 4 of 18 of Caltech's Machine Learn...
 

Лекция 5 - Обучение vs тестирование




Caltech's Machine Learning Course - CS 156. Lecture 05 - Training Versus Testing

В лекции 5 своего курса «Обучение на основе данных» профессор Абу-Мостафа обсуждает концепции ошибок и шума в машинном обучении, разницу между обучением и тестированием, а также функцию роста, которая измеряет максимальное количество дихотомий, которые могут быть получены с помощью набор гипотез для заданного количества точек. Он также вводит точку разрыва, которая соответствует сложности набора гипотез и гарантирует полиномиальную скорость роста в N, если она существует, и обсуждает различные примеры наборов гипотез, таких как положительные лучи, интервалы и выпуклые множества. В лекции подчеркивается важность понимания этих концепций и их математических основ, чтобы полностью понять сложность наборов гипотез и их потенциал для возможного обучения.

Профессор затронул различные темы, связанные с обучением и тестированием. Он ответил на вопросы аудитории о небинарных целевых функциях и функциях гипотез, а также о компромиссе точек разрушения. Профессор объяснил важность нахождения функции роста и почему она предпочтительнее использования 2 в степени N для измерения вероятности того, что обобщение будет высоким. Кроме того, он обсудил взаимосвязь между точкой останова и ситуацией обучения, отметив, что наличие точки останова означает, что обучение возможно, а значение точки останова говорит нам о ресурсах, необходимых для достижения определенной производительности. Наконец, профессор объяснил альтернативы Хефдингу и почему он придерживается его, чтобы люди были знакомы с ним.

  • 00:00:00 В этом разделе профессор Абу-Мостафа обсуждает понятия ошибки и шума и то, как они связаны с машинным обучением в практических ситуациях. Он объясняет важность определения показателей ошибок и того, как они используются для определения эффективности гипотезы по сравнению с целевой функцией. Кроме того, он обсуждает концепцию зашумленных целей, где цель не является детерминированной функцией, а скорее зависит от x и распределяется в соответствии с распределением вероятностей. Профессор Абу-Мостафа также представляет курс теории, который продлится в течение следующих трех лекций, уделяя особое внимание обучению и тестированию, а также математической структуре, реалистично описывающей это.

  • 00:05:00 В этом разделе лектор исследует разницу между обучением и тестированием в контексте итогового экзамена. Практические задачи и решения, представленные перед итоговым экзаменом, служат учебным набором. Итоговый экзамен служит тестовым набором. Лектор подчеркивает, что цель не в том, чтобы хорошо сдать выпускной экзамен, а в том, чтобы понять материал, что и отражено в небольшом E_out. Математическое описание тестирования включает в себя то, насколько хорошо человек выступил на выпускном экзамене, в то время как математическое описание обучения включает в себя то, как человек справился с практическими задачами. Загрязнение практического набора приводит к ухудшению показателей по метрике E_in. Лектор акцентирует внимание на необходимости замены величины М на более удобную в измерении сложности наборов гипотез.

  • 00:10:00 В этом разделе спикер обсуждает важность понимания того, откуда берется гипотеза М и окружающий ее контекст, чтобы заменить ее. Докладчик объясняет, что есть плохие события, которые называются B, и цель состоит в том, чтобы избежать ситуации, когда производительность в выборке не отслеживает производительность вне выборки. Цель состоит в том, чтобы гарантировать, что вероятность любого из плохих событий мала, независимо от корреляции между событиями. Затем спикер объясняет пример с персептроном и то, как определить плохое событие с точки зрения изображения, чтобы обеспечить лучшую оценку.

  • 00:15:00 В этом разделе лектор обсуждает понятия E_in и E_out, которые представляют внутривыборочные и вневыборочные ошибки для гипотезы соответственно. Затем он исследует, как сравниваются изменения E_in и E_out при переходе от одной гипотезы к другой, утверждая, что они малы и движутся в одном направлении из-за области перекрытия между гипотезами. Лектор предполагает, что прежнюю меру сложности М можно заменить новой величиной, характеризующей сложность любой модели, но это потребует доказательства на следующей лекции. Он вводит количество и подчеркивает необходимость хорошо его понять, прежде чем переходить к доказательству.

  • 00:20:00 В этом разделе лектор объясняет, что такое дихотомии и как они связаны с гипотезами. Дихотомии — это множественные гипотезы, определенные только для подмножества точек, и они представляют различные возможные комбинации красного и синего цветов на конечном наборе точек данных. Например, если имеется только несколько дихотомий, набор гипотез не является сильным, но если их много, набор гипотез является сильным. Лектор описывает дихотомию как непрозрачный лист бумаги с отверстиями, помещенный поверх входного пространства, на котором виден только узор из красных и синих точек. Дихотомии — это формальный способ выражения гипотез, когда функция дает либо -1, либо +1 для синей и красной областей.

  • 00:25:00 В этом разделе лектор обсуждает количество гипотез и дихотомий в случае с персептроном. Он объясняет, что может быть бесконечное количество гипотез из-за того, что персептрон имеет бесконечные значения. Однако количество дихотомий ограничено, поскольку есть только конечное количество точек, на которые можно вернуть +1 или -1. Функция роста, обозначаемая «m», заменяет количество гипотез подсчетом наибольшего количества дихотомий, которые можно получить, используя их набор гипотез для любых N точек. Лектор упоминает, что функция роста вычисляется путем максимизации количества дихотомий по отношению к любому выбору N точек из входного пространства.

  • 00:30:00 В этом разделе лектор объясняет понятие функции роста и ее применение к персептронам. Функция роста набора гипотез — это функция, которая сообщает вам максимальное количество дихотомий, которое может быть получено для заданного количества точек. Для персептронов получение функции роста является сложной задачей, поскольку для этого требуется найти функцию роста для каждого количества точек, начиная с одной. Кроме того, для каждого количества точек существуют определенные совокупности точек, которые персептрон не может генерировать. Тем не менее, эти ограничения ожидаемы, поскольку персептроны представляют собой простые модели с простым алгоритмом.

  • 00:35:00 В этом разделе лектор обсуждает концепцию функций роста, используя примеры различных моделей, включая положительные лучи и положительные интервалы. Он объясняет, что функция роста для положительных лучей равна N+1, а это означает, что количество дихотомий зависит от количества отрезков, возможных между N точками. Между тем положительные интервалы имеют большую функцию роста, потому что два параметра, начало и конец интервала, могут варьироваться для получения разных дихотомий.

  • 00:40:00 В этом разделе лектор обсуждает функции роста для наборов гипотез разной степени сложности. Для простейшего набора гипотез дихотомии в строке формула функции роста представляет собой просто количество способов выбрать 2 сегмента из N+1 сегментов, что эквивалентно (N+1) выбрать 2. Для следующего набора гипотез выпуклых областей на плоскости, лектор отмечает, что некоторые области неверны, потому что они невыпуклые. Формула функции роста для этого набора требует более сложного подсчета, поскольку не все дихотомии верны. Затем лектор предлагает оптимальный выбор для размещения точки, которая находится на периметре круга, чтобы максимизировать функцию роста для этого набора гипотез.

  • 00:45:00 В этом разделе лектор обсуждает функцию роста для выпуклых множеств и почему она не так мощна, как функция роста для положительных интервалов. Лектор показывает, как работает функция роста для каждой из гипотез. Они также обсуждают, как заменить максимальное M конечным числом m, которое может быть функцией роста. Лектор приходит к выводу, что если функция роста полиномиальна, то обучение возможно с использованием этой гипотезы. Однако лектор признает, что вычислить функцию роста в явном виде непросто.

  • 00:50:00 В этом разделе вводится понятие точки останова для определения точки, в которой набор гипотез не может получить все возможные дихотомии. Точка останова соответствует сложности набора гипотез, и если ни один набор данных размера k не может быть разрушен набором гипотез, то k является для него точкой останова. Точка излома для двумерного персептрона равна 4. В лекции также рассматриваются примеры положительных лучей, интервалов и выпуклых множеств, чтобы объяснить, как найти точку излома для каждого набора гипотез. Дополнительно установлено, что если множество гипотез не имеет точки излома, то оно будет иметь бесконечный рост.

  • 00:55:00 В этом разделе профессор объясняет концепцию функции роста и то, как она гарантирует полиномиальную скорость роста по N, если существует точка разрыва. С ограничением точки останова существует огромное комбинаторное ограничение, которое устраняет возможные дихотомии в массовом порядке, сводя неограниченную функцию роста от 2 до N к полиномиальной. Профессор приводит пример набора трехточечной гипотезы с точкой разрыва, равной двум, где дихотомии ограничены, а нарушители удаляются до тех пор, пока не останется только одна дихотомия, удовлетворяющая ограничению.
  • 01:00:00 В этом разделе профессор отвечает на вопросы аудитории о небинарных целевых функциях и функциях гипотез, а также о компромиссе точек разрушения. Он объясняет, что теория, которую он разрабатывает, применима для бинарных функций, но для вещественных функций есть аналог, более технический, который он раскроет с помощью метода компромисса между смещением и дисперсией. Что касается критических моментов, он утверждает, что это хорошо для подгонки данных, но плохо для обобщения, и ключевое значение имеет поиск правильного баланса между приближением и обобщением. Кроме того, он разъясняет важность полиномиального роста и то, как он гарантирует малую вероятность того, что произойдет что-то плохое.

  • 01:05:00 В этом разделе профессор обсуждает головоломку, в которой 3 бита помещаются в каждую строку, и предпринимаются попытки получить как можно больше разных строк при условии, что две точки не могут быть разбиты. Профессор выполняет упражнение по добавлению строк и отслеживанию всех возможных комбинаций, чтобы не нарушить ограничение. В конце профессор приходит к выводу, что при этом ограничении можно получить только четыре возможных шаблона, и нельзя добавить больше строк. Это ограничение связано с тем, что число гипотез бесконечно для персептронов, а функция роста либо тождественна 2 с N, либо полиномиальна, и между ними нет ничего промежуточного.

  • 01:10:00 В этом разделе лекции профессор обсуждает важность нахождения функции роста и почему она предпочтительнее использования 2 в степени N для измерения вероятности того, что обобщение будет высоким. Профессор объясняет, что нахождение полиномиальной функции роста даст управляемую правую часть и приведет к высокой вероятности обобщения. Профессор также отвечает на вопросы студентов о количестве точек тестирования и обучения, вневыборочной ошибке для различных гипотез и о том, почему она называется функцией роста. Профессор отмечает, что существуют разные методы нахождения функции роста, и иногда оценка точки излома будет просто оценкой, а не точным значением.

  • 01:15:00 В этом разделе профессор обсуждает взаимосвязь между точкой останова и учебной ситуацией. Он объясняет, что наличие точки останова означает, что обучение возможно, а значение точки останова говорит нам о ресурсах, необходимых для достижения определенной производительности. Он также затрагивает альтернативы Hoeffding и почему он придерживается их. Цель состоит в том, чтобы люди стали настолько знакомы с Hoeffding, чтобы они знали его досконально, чтобы при введении модификаций они не заблудились.
Lecture 05 - Training Versus Testing
Lecture 05 - Training Versus Testing
  • 2012.04.19
  • www.youtube.com
Training versus Testing - The difference between training and testing in mathematical terms. What makes a learning model able to generalize? Lecture 5 of 18 ...
 

Лекция 6 - Теория обобщения




Caltech's Machine Learning Course - CS 156. Lecture 06 - Theory of Generalization

В лекции обсуждается теория обобщения и функция роста как количество дихотомий, которые могут быть порождены гипотезой, заданной на наборе N точек, с целью охарактеризовать всю функцию роста и обобщить для каждого N, характеризуя разрыв точка. Докладчик демонстрирует процесс вычисления функции роста для различных наборов гипотез и доказывает верхнюю границу функции роста с использованием комбинаторного тождества. Обсуждение также касается использования функции роста в неравенстве Хёффдинга, VC, связанного с перекрытием между гипотезами, и неравенства Вапника-Червоненкиса, которое является полиномиальным по N, причем порядок полинома определяется точкой излома.

Профессор обсуждает теорию обобщения, разъясняя предыдущие моменты и объясняя концепцию точки останова, которая используется для расчета ресурсов, необходимых для обучения. Основное внимание в обучении уделяется приближению к E_out, а не к E_in, что позволяет учащемуся работать со знакомыми величинами. Профессор также объясняет причину замены M функцией роста и то, как это связано с комбинаторной величиной B N и k. Обсуждая функции регрессии, профессор подчеркивает компромисс между смещением и дисперсией и то, как обучаемость не зависит от целевой функции. Наконец, профессор отмечает, что одни и те же принципы применимы ко всем типам функций.

  • 00:00:00 В этом разделе мы узнаем о дихотомиях как о мини-гипотезах, ограниченных конечным набором точек и функцией роста. Функция роста подсчитывает количество дихотомий, которые могут быть сгенерированы гипотезой, установленной на наборе из N точек. Точка останова для персептронов определяется как точка, в которой закономерности начинают упускаться из-за использования гипотез из ограниченного набора. Теоретическая цель состоит в том, чтобы охарактеризовать всю функцию роста и обобщить ее для каждого N, охарактеризовав точку разрыва. Мы также видим, что ограничение на количество паттернов для нескольких точек приводит к потере многих паттернов для большего количества точек, независимо от набора гипотез и входного пространства.

  • 00:05:00 В этом разделе лектор обсуждает два пункта: первый показывает, что функция роста является полиномиальной с точкой излома, а второй демонстрирует замену М, числа гипотез, в неравенстве Хёффдинга. Лектор подчеркивает, что им не нужно определять особенности функции роста, а нужно только показать, что она ограничена полиномом, чтобы ее можно было использовать в неравенстве Хёффдинга. Лектор представляет ключевую величину, называемую B of N и k, которая является комбинаторной величиной, представляющей максимальное количество дихотомий на N точках с точкой разрыва k. Граница для B числа N, k находится рекурсивно путем заполнения таблицы N точками и выделения последней точки для введения рекурсии.

  • 00:10:00 В этом разделе докладчик обсуждает, как сгруппировать строки матрицы, представляющие расширение двоичной последовательности. Первая группа, S_1, состоит из строк, которые появляются только один раз в зависимости от расширения. Вторая группа, S_2, состоит из строк, которые появляются с обоими расширениями. Используя эти группы, говорящий определяет количество строк в группе S_1 как альфа, а количество строк в группе S_2 как бета. С помощью этих определений говорящий может найти рекурсию для максимального количества строк/шаблонов, которое может быть получено в N точках, так что никакие k столбцов не имеют всех возможных паттернов.

  • 00:15:00 В этом разделе лекции спикер обсуждает теорию обобщения и способы оценки бета. Он объясняет, что анализируя вторую часть матрицы S_2, содержащую повторяющиеся блоки шаблонов, он может утверждать, что эти блоки шаблонов имеют точку разрыва k минус 1, а не k. Он также объясняет, что, взяв альфа плюс бета, то есть общее количество строк или шаблонов в мини-матрице, он может сказать что-то о точке останова для этой маленькой матрицы. В конце он заявляет, что, собрав все вместе, он может оценить полную матрицу и количество ее строк.

  • 00:20:00 В этом разделе спикер анализирует матрицу и выводит формулу рекурсии для решения верхней границы B для N и k, где B для N и k — функция максимального роста набора гипотез с разрывом точка к. Вычисляя значения B для N и k по формуле рекурсии, говорящий заполняет таблицу верхней границей B для N и k. Сначала заполняются граничные условия для таблицы, а затем заполняется остальная часть таблицы с использованием формулы рекурсии.

  • 00:25:00 В этом разделе спикер обсуждает теорию обобщения и рассказывает о таблице, представляющей максимальное количество дихотомий или паттернов при заданном количестве точек N и контрольной точке k. Спикер объясняет, как заполняется таблица и как ограничение может быть пустым. Кроме того, они представляют формулу, которая вычисляет максимальное количество дихотомий или шаблонов, чтобы быть верхней границей для функции роста любого набора гипотез, который имеет точку излома k, не задавая никаких вопросов о наборе гипотез или входном пространстве.

  • 00:30:00 В этом разделе лектор обсуждает шаг индукции для доказательства теоремы о формуле для N и k. Шаг включает в себя предположение, что формула верна для заданных значений N и k, а затем доказательство того, что она также верна для N-1 и k-1. Лектор демонстрирует процесс манипулирования двумя формулами, слияния сумм и сведения их к одной величине с использованием алгебраических или комбинаторных аргументов. Цель состоит в том, чтобы установить, что данная формула верна для всех значений N и k, включая ранее принятые значения, и отсюда теорема доказана.

  • 00:35:00 В этом разделе спикер объясняет процесс доказательства верхней границы B для N и k, функции роста для множества гипотез, имеющего точку излома k, с использованием комбинаторного тождества. Полученный полином полезен, поскольку точка останова является фиксированным числом и не растет с увеличением N. Затем выступающий показывает, что верхняя граница полиномиальна по N, показывая, что максимальная степень равна N относительно k минус 1, т.е. постоянный. Наконец, оратор применяет верхнюю границу к трем примерам наборов гипотез и показывает, что все они удовлетворяют этой границе.

  • 00:40:00 В этом разделе лектор обсуждает вычисление функции роста для положительных лучей и положительных интервалов. Используя точку разрыва, которая является единственным необходимым входом, он может найти функцию роста без учета геометрии набора гипотез. Затем лектор применяет этот метод к двумерному персептрону, где функция роста неизвестна, но известно, что точка излома равна 4. Используя точку излома, он может полностью ограничить функцию роста, что важно в упрощении характеристики множеств гипотез. Затем лектор объясняет, как эту функцию роста можно использовать в неравенстве Хёффдинга, чтобы заменить количество гипотез с помощью границы объединения, которая практически бесполезна, когда M значимо или бесконечно.

  • 00:45:00 В этом разделе лектор объясняет наглядное доказательство полиномиальной ограниченности функции роста. Пространство возможных наборов данных охватывает все оси, а закрашенная область представляет неверную область, где E_in отклоняется от E_out из-за определенных наборов данных. Закрашивая эту неверную область красным цветом и используя неравенство Хёффдинга, лектор показывает, что закрашенная область мала, что позволяет связанному объединению заявлять о возможности множественных гипотез. Однако, когда добавляется больше гипотез, цветная область заполняет холст, что приводит к проблеме с объединением. Затем лектор объясняет два аспекта, необходимые для установления взаимосвязи между функцией роста и перекрытиями, а также подход к тому, чтобы E_out соответствовал аргументу конечной выборки.

  • 00:50:00 В этом разделе лектор представляет привязку VC в качестве нового холста для характеристики совпадений между гипотезами. Он объясняет, что функция роста — это абстрактная величина, которая характеризует эти совпадения и сообщает вам количество дихотомий, которые ведут себя одинаково. Лектор объясняет, что избыточность улавливается функцией роста и что окрашивание точки зависит не только от образца, но и от всего пространства. Лектор преодолевает это, выбирая две выборки вместо одной, независимо сгенерированные из одного и того же распределения, для отслеживания E_out и E_in, не полагаясь на всю гипотезу.

  • 00:55:00 В этом разделе спикер обсуждает концепцию отслеживания между E_in и E_in dash, которые являются двумя разными образцами, и отслеживают ли они друг друга или нет. Если используется несколько бинов, связь между E_out и E_in становится все слабее и слабее. Они также свободно разъединяются по мере увеличения количества бункеров. Математические разветвления множества гипотез происходят здесь так же, как и для одного бина. По мере того, как спикер проходит технические детали доказательства, эпсилон становится эпсилон больше 2, а затем становится эпсилон больше 4. При подключении они получают эпсилон в квадрате больше 16, что дает коэффициент 1/8. Полученный результат называется полиномиальным по N неравенством Вапника-Червоненкиса, порядок которого определяется точкой излома.
  • 01:00:00 В этом разделе видеолекции модератор просит профессора пояснить некоторые моменты, высказанные на предыдущих слайдах. Профессор объясняет, что N точек, выбранных на слайде 5, соответствуют определенному набору точек во входном пространстве в машинном обучении, но в абстракции это просто абстрактные метки. Профессор также поясняет, что использование ими альфа и бета в лекции является просто соглашением об именах, и нет никаких утверждений об относительных значениях этих двух. Наконец, профессор объясняет, что точка останова вычисляется путем посещения входного пространства и набора гипотез и выяснения для данного набора гипотез, каково максимальное количество точек, которые нельзя разделить всеми возможными способами.

  • 01:05:00 В этом разделе профессор объясняет, что для большинства моделей обучения уже установлены точные или ограниченные точки останова, а это означает, что ресурсы, необходимые для обучения, можно оценить до начала процесса обучения. Хотя могут быть случаи, когда границы не являются точными, в большинстве случаев расхождение между точной оценкой функции роста и квадратичной оценкой будет незначительным. В лекции подчеркивается, что основное внимание в обучении уделяется не фактическому значению E_in, а его приближению к E_out, что позволяет учащемуся работать со знакомыми величинами. Наконец, профессор уверяет аудиторию, что венчурный капитал, являющийся строительным блоком для понимания теорий обучения, будет подробно рассмотрен в следующей лекции.

  • 01:10:00 В этом разделе профессор объясняет причину замены M функцией роста и изменения, которые необходимо было внести, чтобы выполнить технические требования заявления. Профессор также разъясняет определение B для N и k, подробно описывая, как это верхняя граница для любого набора гипотез с точкой разрыва, и как это чисто комбинаторная величина. Затем профессор обращается к вопросу, касающемуся доказательства B для N и k, утверждая, что k не меняется при уменьшении x_N до x_N-1, поскольку никакие k столбцов меньшего набора не могут иметь все возможные шаблоны. Наконец, профессор отмечает, что анализ и анализ VC применимы к бинарным функциям, хотя их можно распространить и на функции с действительными значениями.

  • 01:15:00 В этом разделе профессор обсуждает, как вместо того, чтобы вдаваться в технические расширения обучаемости, он предпочел бы использовать другой подход, компромисс смещения и дисперсии, при обсуждении функций регрессии. Он также поясняет, что обучаемость подтверждается условиями, касающимися набора гипотез, и что она не зависит от целевой функции. Далее он объясняет, что вопрос обобщения не зависит от целевой функции, но вопрос о том, можно ли минимизировать E_in, чтобы сделать пользователя счастливым, зависит от целевой функции. Наконец, профессор утверждает, что одни и те же принципы применяются независимо от типа функции.

Lecture 06 - Theory of Generalization
Lecture 06 - Theory of Generalization
  • 2012.04.21
  • www.youtube.com
Theory of Generalization - How an infinite model can learn from a finite sample. The most important theoretical result in machine learning. Lecture 6 of 18 o...
 

Лекция 7 - Размерность VC (Vapnik–Chervonenkis)



Caltech's Machine Learning Course - CS 156. Lecture 07 - The VC Dimension

Лекция знакомит с понятием размерности VC, которое представляет собой максимальное количество точек, которые могут быть разрушены набором гипотез, и объясняет его практическое применение. Размерность VC представляет степени свободы модели, и обсуждается ее связь с количеством параметров в модели. Приведены примеры, демонстрирующие, как вычислить размерность VC для различных наборов гипотез. Исследуется взаимосвязь между количеством необходимых примеров и параметром VC, и отмечается, что между ними существует пропорциональная связь. Также обсуждаются последствия увеличения размерности VC для производительности алгоритма обучения. В целом, лекция дает представление о теории VC и ее практическом применении для машинного обучения.

Также видео охватывает концепцию обобщения и границы обобщения, что является положительным утверждением, показывающим компромисс между размером набора гипотез и хорошим обобщением в машинном обучении. Профессор объясняет размер VC, который является наибольшим значением до первой точки останова, и как его можно использовать для аппроксимации количества необходимых примеров. Он отмечает важность выбора правильной меры ошибки и поясняет, что оценка размерности VC является неточной оценкой, которую можно использовать для сравнения моделей и приблизительного количества необходимых примеров. Лекция заканчивается выделением общих черт между этим материалом и темой планирования экспериментов и тем, как принципы обучения распространяются на другие ситуации, выходящие за рамки строгих сценариев обучения.

  • 00:00:00 В этом разделе лектор подытоживает основной результат предыдущей лекции по теории обучения, а именно неравенство ВК (Вапника-Червоненкиса), которое характеризует обобщение в машинном обучении. Была введена функция роста, которая характеризует избыточность, необходимую для переключения с неравенства Хеффдинга на неравенство VC, и связана с плохими событиями с перекрывающимися областями. Техническая проблема с E_out была решена, и функция роста использовалась для замены числа гипотез M. Затем определялась и точно вычислялась размерность VC, связанная с точкой разрыва, для персептронов в пространстве любой размерности. Также обсуждаются интерпретация измерения VC и его практическое применение.

  • 00:05:00 В этом разделе вводится понятие размерности VC как максимальное количество точек, которое может быть разрушено набором гипотез. Размерность VC обозначается как d_VC и представляет собой наибольшее значение N, такое, что функция роста равна 2 относительно N. Важно отметить, что размерность VC не гарантирует, что все N точек могут быть разрушены, а только то, что существуют N точек, которые можно разбить. В этом разделе приведены примеры, такие как положительные лучи и двумерные персептроны, чтобы продемонстрировать, как вычислить размерность VC для заданного набора гипотез. Размерность VC используется для ограничения функции роста набора гипотез и служит порядком полинома, который ограничивает функцию роста.

  • 00:10:00 В этом разделе основное внимание уделяется размерности VC выпуклых множеств и ее связи с обучением. Измерение VC представляет собой максимальное количество точек, которые могут быть разрушены набором гипотез. Если размерность VC конечна, окончательная гипотеза будет обобщаться независимо от используемого входного распределения или алгоритма обучения. Диаграмма обучения, которая включает в себя целевую функцию, алгоритм обучения и распределение входных данных, показывает, что теория VC не зависит от алгоритма обучения и целевой функции и зависит только от набора гипотез. В целом, в теории VC есть три блока: гипотеза, множество гипотез и размерность VC.

  • 00:15:00 В этом разделе мы узнаем о VC-размерности персептронов, которая является набором гипотез, с которым имеет дело вся теория VC, поскольку именно набор имеет VC-размерность и говорит нам, можем ли мы обобщить . Хотя размерность VC персептронов в двумерном пространстве равна трем, простая формула утверждает, что в d-мерном пространстве размерность VC равна d плюс один. Это важно для понимания важности размерности VC, и мы докажем это, показав, что размерность VC не превышает d плюс один и не менее d плюс один. Чтобы продемонстрировать, мы создадим определенный набор из N точек (N равно d плюс один), используя матрицу, которую нужно разбить, если возможно их разбить.

  • 00:20:00 В этом разделе лектор показывает определенный набор точек d плюс 1 и демонстрирует, что их можно разбить с помощью обратимой матрицы. Затем он задает аудитории вопрос об аспекте венчурного капитала и просит их выбрать, какой вывод они могут сделать на основе результатов демонстрации. Правильный ответ — b, что означает, что размерность VC больше или равна d плюс 1.

  • 00:25:00 В этом разделе профессор обсуждает, как доказать, что размерность VC не превышает d плюс 1. Он спрашивает аудиторию, какое из нескольких утверждений устанавливает предпосылку, и они отвечают «d». Затем профессор объясняет что ему нужно показать, что существует набор из d плюс 2 точки, которые он не может разрушить.Он делает это, показывая, что для набора из d плюс 2 точки всегда будет одна точка, которая является линейной комбинацией других. Поэтому он строит дихотомию, которую, как он показывает, невозможно реализовать с помощью персептрона.

  • 00:30:00 В этом разделе видео спикер объясняет концепцию дихотомии в персептроне, которая, по сути, присваивает метки +1 или -1 определенным точкам. С помощью алгебраических свойств показано, что невозможно разрушить любой набор из d плюс 2 точки с размерностью VC, равной d плюс 1. Это связано с количеством параметров в модели персептрона, которое равно d плюс 1. , а размерность VC дает максимальное количество точек, которые можно разрушить.

  • 00:35:00 В этом разделе лекция знакомит с понятием измерения ВК и его интерпретацией. Размерность VC — это мера степеней свободы модели и того, как она соотносится с количеством имеющихся у нее параметров. В лекции эти степени свободы сравниваются с регуляторами в аудиосистеме, где большее количество регуляторов может дать вам больший контроль над звуком, но их эффективное использование может оказаться сложной задачей. В лекции объясняется, что измерение VC абстрагирует детали математики внутри модели и фокусируется на ее выразительной силе. В лекции также обсуждается соответствие между размерностью ВК и степенями свободы различных моделей, таких как положительные лучи, показывая, что размерность ВК равна единице при наличии одной степени свободы, что соответствует модели с одним параметром.

  • 00:40:00 В этом разделе лектор обсуждает степени свободы и их связь с размерностью VC в контексте простых моделей. Хотя измерение VC подсчитывает количество гипотез, которые могут быть получены с помощью модели, оно не обязательно равно количеству параметров. Создавая искусственный пример, лектор показывает, что параметры не всегда могут вносить вклад в степени свободы. Вместо этого эффективные степени свободы могут быть более надежно измерены размерностью VC, и лектор демонстрирует, как модель с восемью параметрами может фактически иметь ту же размерность VC, что и модель только с двумя параметрами. Наконец, лектор отмечает, что практиков может интересовать количество точек данных, необходимых для системы, и то, как это может быть связано с измерением VC набора гипотез.

  • 00:45:00 В этом разделе спикер обсуждает взаимосвязь между количеством необходимых примеров и значением параметра VC. Неравенство VC имеет две небольшие величины производительности, которые они хотят сделать как можно меньше. Один из них — E_in недалеко от E_out, а другой — дельта, которая имеет маленькое значение. После принятия решения об определенных значениях эпсилон и дельта спикер объясняет, как определить количество примеров, необходимых для их достижения, глядя на функцию N в степени размерности VC, умноженную на e в степени -N, нанесенную на график. Интересная часть кривой — это место, где вероятность меньше 1, и затем спикер исследует последствия увеличения размерности VC с 4 до 5.

  • 00:50:00 В этом разделе лектор обсуждает взаимосвязь между количеством примеров в наборе данных и параметром VC, который является мерой сложности алгоритма обучения. Он использует несколько графиков, чтобы проиллюстрировать, как производительность алгоритма изменяется по мере увеличения размерности VC, и подчеркивает, что количество примеров, необходимых для достижения определенного уровня производительности, пропорционально размерности VC. Однако он также отмечает, что, хотя границы производительности гарантированно следуют определенной монотонности, фактическая производительность может не всегда соответствовать ей, что может быть источником разочарования для практиков.

  • 00:55:00 В этом разделе лектор обсуждает наблюдения и практические применения измерения ВК. Первый урок заключается в том, что существует пропорциональная зависимость между параметром VC и количеством примеров, необходимых для достижения определенного уровня производительности. Лектор предлагает эмпирическое правило, согласно которому необходимо в 10 раз увеличить размер VC, чтобы попасть в зону комфорта неравенства VC, где утверждение о вероятности имеет смысл. Второе практическое наблюдение заключается в том, что для огромного диапазона разумных эпсилон и дельта эмпирическое правило также остается верным. Затем лектор упрощает формулу неравенства VC и называет ее формулой капитала Омега, заявляя, что она зависит от функции роста и что по мере увеличения размерности VC формула Омеги становится хуже.
  • 01:00:00 В этом разделе спикер обсуждает концепцию обобщения и то, как большее количество примеров может повлиять на функцию роста и полиномиальное поведение. Он вводит идею границы обобщения, которая является положительным утверждением, а не характеристикой плохих событий. С вероятностью, большей или равной 1 минус дельта, E_in отслеживает E_out, что означает, что они находятся в пределах Omega, что зависит от количества примеров и размера VC набора гипотез. Спикер упрощает границу обобщения, перестраивая ее, чтобы показать, что E_out ограничен E_in плюс Omega. Он объясняет, как эта граница иллюстрирует компромисс между размером набора гипотез и хорошим обобщением, что приводит к концепции регуляризации в машинном обучении.

  • 01:05:00 В этом разделе профессор объясняет, что измерение VC является самым большим значением сразу после первой точки останова, а это означает, что любая более крупная точка, выступающая в качестве точки останова, также будет учитываться. Понятие точки останова охватывает множество значений, но измерение VC является уникальным, которое выделяется. Он также поясняет, что при обсуждении разрушения N точек люди выбирают точки, которые нужно разбить. Профессор объясняет, что эпсилон и дельта — это два параметра эффективности обучения, где эпсилон — это параметр аппроксимации, который гарантирует, что E_in отслеживает E_out, а дельта — это мера вероятности, определяющая вероятность того, что утверждение вероятности не сработает. Отвечая на вопрос о влиянии меры ошибки на количество выбираемых точек, профессор объясняет, что при работе с мерой ошибки в бинарном смысле нет необходимости беспокоиться о дисперсии, поскольку есть верхняя граница, но при использовании других содомены или меры ошибок, модификации необходимы.

  • 01:10:00 В этом разделе профессор объясняет, что получение точного размера VC редко, но они знают точную размерность для персептронов. Когда дело доходит до нейронных сетей, оценка размера VC не может быть выше определенного числа из-за избыточности и отмены. Профессор подчеркивает, что граница размерности VC является приблизительной оценкой, но она по-прежнему сохраняет свое концептуальное значение и может использоваться в качестве ориентира для сравнения моделей и приблизительного количества необходимых примеров. Эмпирическое правило состоит в том, чтобы использовать по крайней мере 10-кратное измерение VC, чтобы попасть в интересующую область неравенства VC, которая зависит от желаемого клиентом уровня точности. Профессор отмечает, что между этим материалом и темой планирования экспериментов есть общие черты, а принципы обучения распространяются и на другие ситуации, выходящие за рамки строгих сценариев обучения.
Lecture 07 - The VC Dimension
Lecture 07 - The VC Dimension
  • 2012.04.26
  • www.youtube.com
The VC Dimension - A measure of what it takes a model to learn. Relationship to the number of parameters and degrees of freedom. Lecture 7 of 18 of Caltech's...
 

Лекция 8: Компромис смещения и дисперсии



Caltech's Machine Learning Course - CS 156. Lecture 08 - Bias-Variance Tradeoff

Профессор обсуждает компромисс между смещением и дисперсией в машинном обучении, объясняя, как сложность набора гипотез влияет на компромисс между обобщением и приближением. Лектор вводит понятие систематической ошибки и дисперсии, которые измеряют отклонение между средним значением гипотез, создаваемых алгоритмом машинного обучения, и фактической целевой функцией, а также насколько распределение гипотез данной модели варьируется в зависимости от различных наборов данных, соответственно. Компромисс приводит к тому, что больший набор гипотез имеет меньшее смещение, но большую дисперсию, в то время как меньший набор гипотез будет иметь большее смещение, но меньшую дисперсию. Лектор подчеркивает важность наличия достаточных ресурсов данных для эффективной навигации по набору гипотез и подчеркивает разницу в масштабе между анализом смещения-дисперсии и анализом VC.

Также он обсуждает компромисс между простыми и сложными моделями с точки зрения их способности аппроксимировать и обобщать, с меньшим количеством примеров, требующих простых моделей, и большим количеством примеров, требующих более сложных моделей. Анализ смещения-дисперсии специфичен для линейной регрессии и предполагает знание целевой функции, а проверка является золотым стандартом для выбора модели. Ансамблевое обучение обсуждается с помощью бэггинга, который использует бутстреп для усреднения нескольких наборов данных, уменьшая дисперсию. Также объясняется баланс между дисперсией и ковариацией в ансамблевом обучении, а линейная регрессия классифицируется как метод обучения с подбором в качестве первой части обучения, в то время как теория подчеркивает хорошую производительность вне выборки.

  • 00:00:00 В этом разделе акцент смещается на компромисс между смещением и дисперсией, что является еще одним подходом к пониманию обобщения. В предыдущих лекциях анализ VC установил обобщающую способность выбранной гипотезы через измерение VC набора гипотез. Граница VC выполняется для любого алгоритма обучения, для любых входных данных и для любой целевой функции. Одним из аспектов анализа VC является то, что он обеспечивает практическую меру. Построив график зависимости вероятности ошибки от количества примеров, мы обнаружили, что количество необходимых примеров пропорционально измерению VC, или эмпирическому правилу: вам нужно 10-кратное измерение VC, чтобы начать получать интересные свойства обобщения. Наконец, мы обобщили анализ VC в оценке обобщения, которую мы будем использовать в более поздних методах, таких как регуляризация.

  • 00:05:00 В этом разделе лектор обсуждает компромисс между приближением и обобщением, когда дело доходит до обучения. Обучение направлено на достижение небольшого E_out, что означает, что гипотеза хорошо аппроксимирует целевую функцию и что это приближение выполняется вне выборки. Однако наличие более сложного набора гипотез повышает вероятность хорошей аппроксимации f, но затрудняет определение подходящей гипотезы. Одним из идеальных наборов гипотез для обучения является одноэлементная гипотеза, которая оказывается целевой функцией. Тем не менее, поскольку мы не знаем целевую функцию, нам нужен достаточно большой набор гипотез, чтобы иметь шанс. Кроме того, лектор обсуждает, как анализ смещения-дисперсии также разлагает E_out, тогда как анализ VC делает упор на количественную оценку компромисса.

  • 00:10:00 В этом разделе спикер представляет компромисс между смещением и дисперсией и то, как он связан с функциями с действительным знаком и регрессией с использованием квадрата ошибки. Цель состоит в том, чтобы разложить ошибку вне выборки на два концептуальных компонента: приближение и обобщение. Для этого говорящий использует ожидаемое значение ошибки по отношению к конкретному набору данных, поскольку окончательная гипотеза зависит от используемого набора данных, но стремится устранить зависимость путем интегрирования набора данных. Результатом является способ анализа общего поведения ошибки при заданном количестве точек данных для работы.

  • 00:15:00 В этом разделе лектор объясняет, как рассчитать ожидаемые значения поведения для всех возможных реализаций 100 примеров. Изменив порядок интегрирования и избавившись от ожидания, лектор получает чистую декомпозицию. Следующий шаг включает в себя вывод средней гипотезы путем получения ожидаемого значения всех возможных гипотез. Хотя это, безусловно, невыполнимая задача, она предоставляет концептуальный инструмент для анализа. Понимание технической полезности g bar становится важным при расширении верхнего выражения для получения линейного члена, который в конечном итоге требует определения g bar.

  • 00:20:00 В этом разделе лектор разбивает количество на два шага, которые определяют, насколько гипотеза, которую алгоритм машинного обучения выводит из заданного набора данных, отличается от целевой функции. На первом этапе оценивается, насколько эта гипотеза отличается от наилучшей гипотезы, которую алгоритм может создать с учетом заданного набора данных, а на втором этапе оценивается, насколько эта наилучшая гипотеза отклоняется от фактической целевой функции. Лектор приходит к двум величинам, смещению и дисперсии, для обозначения этих двух шагов. Смещение измеряет отклонение между средним значением гипотез, создаваемых алгоритмом машинного обучения, и фактической целевой функцией, которая устанавливает конечность для набора гипотез алгоритма. Между тем, дисперсия измеряет, насколько распределение гипотез данной модели варьируется в зависимости от разных наборов данных.

  • 00:25:00 В этом разделе профессор обсуждает компромисс между смещением и дисперсией в машинном обучении. Он объясняет, что систематическая ошибка — это ограничение набора гипотез, а дисперсия — это разница в результатах при использовании разных наборов данных. Затем он показывает, как возникает компромисс между обобщением и аппроксимацией при изменении размера набора гипотез, и иллюстрирует эту идею сравнением малого и большого набора гипотез. Он утверждает, что больший набор гипотез будет иметь меньшее смещение, но большую дисперсию, в то время как меньший набор гипотез будет иметь большее смещение, но меньшую дисперсию.

  • 00:30:00 В этом разделе спикер вводит концепцию компромисса между смещением и дисперсией, когда смещение уменьшается, а дисперсия увеличивается по мере увеличения набора гипотез. Чтобы понять это, спикер приводит конкретный пример, где целевая функция является синусоидой, и даны два разных набора гипотез: постоянная модель и линейная модель. Затем докладчик показывает, что линейная модель дает лучшее приближение синусоиды, но с некоторыми ошибками. Это не ситуация обучения, но она иллюстрирует компромисс между смещением и дисперсией в аппроксимации целевой функции, прокладывая путь к более сложным задачам обучения.

  • 00:35:00 В этом разделе лектор объясняет компромисс между смещением и дисперсией в машинном обучении. Он использует пример подгонки линии к двум точкам, во-первых, чтобы аппроксимировать целевую функцию, а во-вторых, чтобы учиться на примерах. Анализ смещения-дисперсии необходим для оценки производительности модели независимо от того, какие две точки используются, и для преодоления проблем, связанных с зависимостью от набора данных. Затем лектор генерирует наборы данных размером в две точки, подгоняет к ним линию и показывает, что ожидаемая ошибка вне выборки в основном является суммой смещения и дисперсии. Очень светло-зеленая линия, полоса g от x, — это средняя гипотеза, которую он получает, повторяя эту игру. Тем не менее, это не результат процесса обучения, потому что разные наборы данных будут давать разные оценки.

  • 00:40:00 В этом разделе видео концепция компромисса смещения и дисперсии обсуждается в контексте машинного обучения. Дисперсия рассчитывается как стандартное отклонение результата процесса обучения, а смещение — это ошибка между прогнозируемым результатом и целевой функцией. Компромисс между смещением и дисперсией демонстрируется с использованием двух моделей, одна с небольшим смещением и большой дисперсией, а другая с большим смещением и небольшой дисперсией. Понятно, что в ситуации обучения сложность модели должна соответствовать доступным ресурсам данных, а не целевой сложности.

  • 00:45:00 В этом разделе спикер обсуждает компромисс между смещением и дисперсией в обучении и вводит понятие кривых обучения. Кривые обучения отображают ожидаемые значения E_out (ошибка вне выборки) и E_in (ошибка внутри выборки) в зависимости от N, размера набора данных. По мере увеличения N ошибка вне выборки обычно уменьшается, но на эту тенденцию может влиять сложность используемой модели. Докладчик подчеркивает важность наличия достаточного количества ресурсов данных для эффективной навигации по набору гипотез и отмечает, что зашумленные данные могут сделать эту навигацию еще более сложной. Кривые обучения дают визуальное представление о компромиссе смещения и дисперсии и о том, как он меняется с увеличением N.

  • 00:50:00 В этом разделе лектор обсуждает взаимосвязь между анализом смещения и отклонения и анализом VC с использованием кривых обучения. Он объясняет, что обе теории обсуждают приближение и принимают во внимание то, что происходит с точки зрения обобщения. Лектор подчеркивает разницу в масштабе между двумя теориями и упоминает, что систематическая ошибка зависит от набора гипотез. Наконец, лектор кратко описывает анализ случая линейной регрессии и рекомендует его как хорошее упражнение для понимания линейной регрессии.

  • 00:55:00 В этом разделе инструктор описывает модели ошибок внутри выборки и модели ошибок вне выборки, в частности, используя кривые обучения. Преподаватель использует линейную регрессию и шум, чтобы проиллюстрировать простую формулу для ожидаемой ошибки в выборке: она почти идеальна, и вы делаете лучше, чем идеально, в соотношении d плюс 1. Преподаватель выделяет очень конкретную кривую, которая показывает, что чем больше у вас точек данных, тем меньше шума будет влиять на частоту ошибок. Однако, когда вы подгоняете к выборочным данным, вы в конечном итоге подгоняете шум, и это навредит вам, а не поможет вам в долгосрочной перспективе.
  • 01:00:00 В этом разделе профессор рассказывает о компромиссе между простыми и сложными моделями и их способности аппроксимировать и обобщать. В то время как сложные модели могут лучше аппроксимировать целевую функцию и обучающие примеры, простые модели лучше с точки зрения способности к обобщению. Это связано с тем, что между ними существует компромисс, и сумма обеих величин может идти в любом направлении. Ключевым моментом является соответствие сложности модели доступным ресурсам данных. Меньшее количество примеров означает, что следует использовать простые модели, в то время как большие ресурсы примеров требуют сложных моделей для повышения производительности. Ожидаемую ошибку обобщения можно найти по формуле, которая представляет собой размерность VC, деленную на количество примеров.

  • 01:05:00 В этом разделе профессор обсуждает особенности анализа смещения-дисперсии для линейной регрессии и как он предполагает, что вы знаете целевую функцию. Хотя это полезное руководство и его можно использовать для понимания того, как повлиять как на смещение, так и на дисперсию, его нельзя подключить, чтобы рассказать вам, что такое модель. Он также упоминает, что золотым стандартом выбора модели является проверка, которая включает в себя ансамблевые методы, такие как бустинг. Затем профессор кратко представляет идею г-бара как теоретического инструмента анализа, но отмечает, что это не является предметом этой лекции.

  • 01:10:00 В этом разделе профессор рассказывает об ансамблевом обучении с помощью бэггинга, который представляет собой процесс использования набора данных для создания большого количества различных наборов данных путем их начальной загрузки и усреднения. Это дает некоторый дивиденд в отношении обучения ансамбля и может помочь уменьшить дисперсию за счет усреднения многих вещей. Затем модератор спрашивает, проявляется ли по-прежнему смещение-дисперсия в байесовском подходе. Профессор объясняет, что хотя байесовский подход делает определенные допущения, систематическая дисперсия все же существует. Наконец, он говорит о связи аппроксимации числовой функции с экстраполяцией в машинном обучении и дилемме ковариации смещения-дисперсии.

  • 01:15:00 В этом разделе лекции профессор обсуждает баланс между дисперсией и ковариацией в контексте ансамблевого обучения. Он объясняет, что в анализе смещения-дисперсии он мог позволить себе роскошь выбирать независимо сгенерированные наборы данных, создавать независимые модели, а затем усреднять их. Однако на практике при построении моделей на основе вариаций набора данных начинает играть роль ковариация между моделями. Позже, когда его спросили, является ли линейная регрессия методом обучения или просто аппроксимацией функции, профессор заявил, что линейная регрессия — это метод обучения, а подгонка — это первая часть обучения. Дополнительным элементом является обеспечение того, чтобы модель хорошо работала вне выборки, о чем и идет речь в теории.
Lecture 08 - Bias-Variance Tradeoff
Lecture 08 - Bias-Variance Tradeoff
  • 2012.04.28
  • www.youtube.com
Bias-Variance Tradeoff - Breaking down the learning performance into competing quantities. The learning curves. Lecture 8 of 18 of Caltech's Machine Learning...
 

Лекция 9: Линейная модель II



Caltech's Machine Learning Course - CS 156. Lecture 09 - The Linear Model II

В этой лекции рассматриваются различные аспекты линейной модели, включая декомпозицию смещения и дисперсии, кривые обучения и методы для линейных моделей, таких как перцептроны, линейная регрессия и логистическая регрессия. Докладчик подчеркивает компромисс между сложностью и производительностью обобщения, предостерегая от переобучения и подчеркивая важность правильной зарядки измерения VC пространства гипотез для действительных гарантий. Также обсуждается использование нелинейных преобразований и их влияние на поведение обобщения. В лекции также рассматриваются логистическая функция и ее приложения для оценки вероятностей, а также вводятся понятия вероятности и меры кросс-энтропийной ошибки в контексте логистической регрессии. Наконец, объясняются итерационные методы оптимизации функции ошибок, такие как градиентный спуск.

Также лекция охватывает ряд тем, связанных с линейными моделями и алгоритмами оптимизации в машинном обучении. Профессор объясняет компромисс между скоростью обучения и скоростью в оптимизации градиентного спуска, представляя алгоритм логистической регрессии и обсуждая его меры ошибок и алгоритм обучения. Также рассматриваются проблемы завершения в градиентном спуске и классификации нескольких классов. Роль получения и выбора функций в машинном обучении подчеркивается и обсуждается как искусство в предметных областях, оцениваемых с точки зрения измерения VC. В целом, эта лекция представляет собой всесторонний обзор линейных моделей и алгоритмов оптимизации для машинного обучения.

  • 00:00:00 В этом разделе Ясер Абу-Мостафа обсуждает декомпозицию смещения и дисперсии в ошибке вне выборки и иллюстрирует, как она сочетается с набором гипотез. Он также объясняет кривые обучения, которые описывают ошибку обобщения и то, как количество примеров, пропорциональное измерению VC, будет определять свойства обобщения. Также обсуждаются методы для линейных моделей.

  • 00:05:00 В этом разделе лекции спикер кратко повторяет линейную модель с точки зрения линейной классификации и линейной регрессии, которые были рассмотрены в предыдущих лекциях, а затем переходит к третьему типу линейной модели — логистической регрессии. Прежде чем приступить к логистической регрессии, спикер связывает концы с концами с точки зрения нелинейных преобразований и проблем обобщения. Нелинейные преобразования предлагают платформу для применения алгоритмов обучения в пространстве Z (пространстве признаков), при этом окончательная гипотеза все еще находится в пространстве X (входное пространство). В случае нелинейных преобразований докладчик подчеркивает, что вопросы обобщения были опущены, и что он предоставит недостающую часть лекции.

  • 00:10:00 В этом разделе лектор обсуждает цену, которую платят за выполнение нелинейных преобразований, когда дело доходит до поведения обобщения в пространстве X. Используя линейную модель в пространстве X, вы можете получить весовой вектор из d+1 свободных параметров. Однако размер VC в пространстве признаков потенциально может быть намного больше, чем размер пространства X. Если размерность VC слишком велика, то, хотя полином 17-го порядка можно подогнать, реальных шансов на обобщение нет. Обсуждаются два случая, когда первый случай почти линейно разделим, а второй случай действительно нелинейный. Чтобы E_in равнялось нулю, нужно перейти в многомерное пространство, что становится проблемой, поскольку нужно классифицировать только две точки.

  • 00:15:00 В этом разделе лекции преподаватель обсуждает компромисс между аппроксимацией и обобщением при работе с линейными моделями. Он говорит о том, что использование более сложной модели, такой как поверхность четвертого порядка, может лучше аппроксимировать данные, но может не дать хорошего обобщения. Он также упоминает идею использования преобразования в нелинейное пространство, но предостерегает от поиска скидки в количестве параметров. Преподаватель объясняет, что зарядка измерения VC всего пространства гипотез, исследуемого в уме, важна для того, чтобы гарантия, обеспечиваемая неравенством VC, была действительной.

  • 00:20:00 В этом разделе обсуждение сосредоточено на опасностях отслеживания данных при выборе модели перед просмотром данных. Подчеркивается, что эта практика может привести к загрязнению набора гипотез, а это означает, что данные больше не заслуживают доверия для отражения реальной производительности. Вводится понятие логистической регрессии, а также ее уникальная модель, мера ошибки и алгоритм обучения. Эта линейная модель считается важным дополнением к рассмотренным ранее моделям персептрона и линейной регрессии и представляет собой полезный пример сложностей и вариаций, существующих в машинном обучении.

  • 00:25:00 В этом разделе лектор обсуждает линейную модель и различные способы ее использования, такие как перцептроны, линейная регрессия и логистическая регрессия. Для линейной классификации гипотезой является решение +1 или -1, что является прямой пороговой обработкой сигнала. В случае линейной регрессии выходные данные совпадают с входными, тогда как логистическая регрессия применяет к сигналу нелинейность, называемую логистической функцией, которая интерпретируется как вероятность того, что что-то произойдет. Лектор объясняет форму логистической функции и ее применение для оценки вероятностей различных проблем, таких как приложения для кредитных карт.

  • 00:30:00 В этом разделе понятие мягкого порога или сигмоиды вводится в контексте логистической функции. Эта функция принимает линейный сигнал в качестве входных данных и выводит вероятность. Это особенно полезно при прогнозировании исходов, таких как риск сердечного приступа, когда на вероятность события влияет множество факторов. Выходные данные логистической регрессии рассматриваются как реальная вероятность в процессе обучения, даже если входные данные не предоставляют эту информацию напрямую.

  • 00:35:00 В этом разделе мы обсудим обучение с учителем на медицинских данных и способы создания модели, аппроксимирующей скрытую целевую функцию. Примеры даны в виде двоичного вывода, на который влияет вероятность, что делает этот случай зашумленным. Цель - от d-мерного евклидова пространства до 0,1 с вероятностной интерпретацией, f от x. Гипотеза g об х находится путем нахождения весов и скалярного произведения их с х. Цель состоит в том, чтобы выбрать веса таким образом, чтобы гипотеза логистической регрессии отражала целевую функцию, используя меру ошибки, построенную по правдоподобию, которая была бы правдоподобной и удобной для оптимизатора. Мера ошибки ранжирует различные гипотезы в соответствии с вероятностью того, что они действительно являются целью, сгенерировавшей данные.

  • 00:40:00 В этом разделе лекции спикер обсуждает использование вероятности и споры вокруг ее применения. Он объясняет, что использование правдоподобия заключается в поиске наиболее правдоподобной гипотезы с учетом данных. Однако это не совсем чистый процесс, поскольку вероятность не является той вероятностью, которая требуется. Затем выступающий представляет формулу вероятности и объясняет, как ее можно использовать для получения полноценной меры ошибки. Затем формула используется для определения вероятности всего набора данных, которая является произведением вероятностей отдельных точек данных. Он приходит к выводу, что при выборе гипотезы всегда будет компромисс, поскольку предпочтение одному примеру может испортить другие.

  • 00:45:00 В этом разделе лекции спикер объясняет, как максимизация вероятности гипотезы в наборе данных может привести к минимизации меры ошибки. Взятие натурального логарифма позволяет максимизации стать минимизацией, что приводит к мере ошибки в обучающем наборе. После упрощения формулы говорящий называет меру ошибки ошибкой внутри выборки логистической регрессии и определяет ее как меру ошибки между гипотезой, зависящей от w, применяемой к x_n, и значением, заданным в качестве метки для этого примера. , то есть y_n. Спикер также обсуждает интересную интерпретацию оценки риска, которая идентифицирует тех, кто подвержен риску сердечных приступов, на основе знака w, транспонированного x_n.

  • 00:50:00 В этом разделе мера кросс-энтропийной ошибки представлена как способ измерения точности бинарных предсказаний. Цель состоит в том, чтобы минимизировать эту меру ошибки, чтобы улучшить прогнозы модели. Однако, в отличие от линейной регрессии, не существует решения в закрытой форме для минимизации меры ошибки для логистической регрессии. Вместо этого необходимо итеративное решение, которое будет достигнуто с помощью метода градиентного спуска. Этот метод включает в себя шаг по самому крутому склону поверхности и повторение до тех пор, пока не будет достигнут минимум. Выпуклость меры ошибки для логистической регрессии делает градиентный спуск хорошим выбором для оптимизации.

  • 00:55:00 В этом разделе лекции профессор обсуждает итерационные методы, используемые для нахождения минимального значения функции ошибок в линейной модели. Он объясняет, что эти методы включают в себя перемещение по поверхности небольшими шагами и выполнение локальных приближений с использованием исчисления, в частности рядов Тейлора. Затем он вводит концепцию градиентного спуска, где следующий вес определяется текущим весом плюс движение в определенном направлении, которое определяется путем нахождения единичного вектора в направлении наискорейшего спуска. Профессор продолжает объяснять, как в качестве направления движения выбирается направление, при котором внутреннее произведение между вектором и единичным вектором достигает наибольшего отрицательного значения.
  • 01:00:00 В этом разделе лектор обсуждает компромисс между размером шага или скоростью обучения в оптимизации градиентного спуска. Выполнение очень маленьких шагов в конечном итоге приведет к минимуму, но это займет вечность, в то время как выполнение больших шагов будет быстрее, но может не применять линейное приближение. После анализа графиков лучший компромисс — изначально иметь большую скорость обучения, чтобы использовать преимущества крутых склонов, и быть более осторожным, когда она приближается к минимуму, чтобы избежать перерегулирования. Затем лектор представляет формулу для фиксированной скорости обучения, где скорость обучения пропорциональна размеру градиента. Затем вводится алгоритм логистической регрессии, где градиент вычисляется с использованием формулы ошибки в выборке, а следующий вес получается путем вычитания скорости обучения, умноженной на градиент, из текущего веса. Наконец, все три линейные модели, персептрон, линейная регрессия и логистическая регрессия, обобщаются на одном слайде и применяются к кредитной области.

  • 01:05:00 В этом разделе профессор обсуждает различные типы линейных моделей, которые могут быть реализованы в кредитном анализе, а также соответствующие меры ошибок и используемые алгоритмы обучения. Например, персептрон используется для бинарной классификации, а логистическая регрессия используется для вычисления вероятности невыполнения обязательств. Для каждой модели использовались разные меры ошибок, такие как ошибка бинарной классификации для персептрона и ошибка кросс-энтропии для логистической регрессии. Используемый алгоритм обучения зависел от выбранной меры ошибки, например, алгоритм обучения персептрона для ошибки классификации и градиентный спуск для кросс-энтропийной ошибки. Наконец, профессор кратко обсуждает критерии завершения и проблемы, возникающие с завершением в градиентном спуске, поскольку правильно проанализированное завершение немного сложно из-за множества неизвестных на поверхности ошибок.

  • 01:10:00 В этом разделе спикер объясняет, что градиентный спуск — это эффективный, но ненадежный алгоритм оптимизации. Если поверхность, по которой пытается пройти алгоритм оптимизации, имеет несколько локальных минимумов, алгоритм может найти только локальный минимум вместо глобального минимума, который дает наилучший результат. Докладчик предлагает использовать комбинацию критериев для завершения алгоритма оптимизации и отмечает, что сопряженный градиент является допустимой альтернативой градиентному спуску. Докладчик предполагает, что, если локальные минимумы станут реальной проблемой в приложении, существует множество подходов в области оптимизации для решения этой проблемы.

  • 01:15:00 В этом разделе профессор объясняет концепцию перекрестной энтропии, которая представляет собой способ получения связи между двумя распределениями вероятностей с использованием логарифмических и ожидаемых значений. Профессор также обсуждает ограничения бинарного поиска и методов 2-го порядка в оптимизации, подчеркивая, что, хотя более сложные методы могут привести к лучшим результатам, они могут быть слишком дорогими с точки зрения циклов процессора. Наконец, отвечая на вопрос, профессор подтверждает, что логистическая регрессия может быть применена к многоклассовой среде, как показано на примере распознавания цифр.

  • 01:20:00 В этом разделе лекции профессор обсуждает различные методы многоклассовой классификации, в том числе порядковую регрессию и бинарные решения на основе дерева. Профессор также представляет использование функции tanh, которая будет использоваться в качестве нейронной функции в нейронных сетях. Также обсуждается концепция скорости обучения, при этом профессор упоминает, что существуют эвристики для адаптивной скорости обучения, которые можно использовать, и представлено эмпирическое правило выбора скорости обучения. Кроме того, проводится различие между значимыми функциями и функциями, полученными в результате просмотра конкретного набора данных, причем первые с меньшей вероятностью лишаются гарантии VC.

  • 01:25:00 В этом разделе профессор обсуждает процесс получения признаков в машинном обучении и подчеркивает, что это искусство, которое зависит от предметной области. Хотя на основе данных можно получить признаки, окончательный набор гипотез по-прежнему будет определять поведение обобщения. Профессор также отмечает, что выбор функций выполняется автоматически в машинном обучении, но становится частью обучения и оплачивается с точки зрения измерения VC. Тема выбора признаков будет дополнительно рассмотрена в будущей лекции о нейронных сетях и скрытых слоях.
Lecture 09 - The Linear Model II
Lecture 09 - The Linear Model II
  • 2012.05.02
  • www.youtube.com
The Linear Model II - More about linear models. Logistic regression, maximum likelihood, and gradient descent. Lecture 9 of 18 of Caltech's Machine Learning ...