Машинное обучение и нейронные сети - страница 47

 

CS480/680 Лекция 6: Сжатие модели для НЛП (Ашутош Адхикари)



CS480/680 Лекция 6: Сжатие модели для НЛП (Ашутош Адхикари)

В этом видео ведущий обсуждает концепцию сжатия моделей для НЛП, а также проблемы времени обработки и требований к памяти по мере увеличения количества и глубины глубоких нейронных сетей. Методы сжатия моделей классифицируются, и вводится самый старый метод — сокращение и совместное использование параметров. Докладчик далее развивает концепцию системы «ученик-учитель» для сжатия моделей в НЛП и то, как целевая функция используется для сжатия более крупной модели в меньшую модель ученика при сохранении точности. Наконец, подчеркивается потенциальная важность сжатия моделей в контексте недавней работы по разработке крупномасштабных моделей НЛП.

  • 00:00:00 В этом разделе ведущий видео обсуждает проблему сжатия модели по мере увеличения количества и глубины глубоких нейронных сетей, а также время их обработки и требования к памяти. Цель состоит в том, чтобы уменьшить количество параметров, необходимых в нейронных сетях, сохранив при этом точность и знания, чтобы обеспечить более быстрое и эффективное развертывание в онлайн-приложениях. Методы сжатия моделей разделены на категории, и докладчик углубляется в самый старый метод: сокращение и совместное использование параметров, разработанный Яном Лекуном в 1990 году. В презентации также затрагиваются методы сокращения каналов, которые имели успех в сверточных нейронных сетях в компьютерном зрении, но менее исследуется с помощью моделей НЛП. Наконец, докладчик подчеркивает потенциальную важность сжатия моделей в контексте недавней работы по разработке крупномасштабных моделей для задач НЛП.

  • 00:05:00 В этом разделе спикер представляет концепцию системы «ученик-учитель» для сжатия моделей в НЛП. Модель учителя — это более крупная модель, которая используется для извлечения представлений из меньшей модели ученика и их сжатия. Целевая функция используется, чтобы помочь сети учеников захватить все представления, полученные сетью учителей, вместе с целью классификации. Хотя методы обрезки и обмена подробно не изучались, механизмы внимания и преобразователи будут рассмотрены в следующих лекциях. Спикер отмечает, что эти огромные модели по своей сути являются трансформерами, неоднократно применявшимися.
 

CS480/680 Лекция 7: Смесь гауссианов



CS480/680 Лекция 7: Смесь гауссианов

В этой лекции о смеси гауссианов спикер объясняет, как модель можно использовать для классификации путем построения априорного распределения для каждого класса, что позволяет построить вероятностную модель с использованием теоремы Байеса для оценки вероятности класса для данного точка данных. В лекции также рассматривается процесс вычисления вероятности того, что точка данных принадлежит определенному классу, и то, как это используется для определения прогноза класса. В примечаниях к лекциям исследуется взаимосвязь между функцией softmax и распределением максимума дуги, а также то, как форма и границы гауссиана определяются ковариационной матрицей. Наконец, лекция подробно описывает процесс обучения по методу максимального правдоподобия и то, как его можно использовать для оценки среднего значения и ковариационной матрицы для смешанной модели Гаусса.

  • 00:00:00 В этом разделе лектор обсуждает использование смесей гауссианов для классификации, которая является статистической моделью в семействе генеративных моделей. Они объясняют, как распределения Гаусса используются для моделирования неточностей и шума в данных, которые можно использовать для имитации создания набора данных для таких приложений, как генерация текста и изображений. В лекции приводится пример линейной регрессии и того, как ее также можно преобразовать в генеративную модель с помощью распределений Гаусса.

  • 00:05:00 В этом разделе лектор обсуждает возможность генерации похожих изображений людей через модель, которая может генерировать данные, подобные обучающей выборке. Лектор использует в качестве примера линейную регрессию, а затем переходит к классификации, где строится априорное распределение для каждого класса. На основе этой идеи можно построить вероятностную модель с использованием теоремы Байеса для оценки вероятности класса для данной точки данных. В лекции подчеркивается, что это не байесовское обучение, а скорее байесовский вывод.

  • 00:10:00 В этом разделе инструктор обсуждает предположения, сделанные в модели Mixture of Gaussians, и способы использования байесовского вывода для вычисления апостериорной вероятности класса. Модель предполагает, что существует конечное число категориальных классов, которые могут быть представлены с помощью полиномиального распределения. Предполагается, что условное распределение класса является распределением Гаусса с одной и той же ковариационной матрицей для каждого класса. Вероятность является произведением априорного и классового условного распределения, которое можно упростить, исключив первый член, не зависящий от класса. Это упрощение возможно из-за предположения об одной и той же ковариационной матрице для каждого класса, хотя в целом это может не всегда выполняться.

  • 00:15:00 В этом разделе спикер объясняет, как апостериорная функция может быть выражена в виде логистической сигмовидной функции, которая особенно популярна в нейронных сетях, поскольку принимает любое действительное число и дает результат от 0 до 1. Они получают выражение для апостериорного и показать, что его можно выразить как W (транспонировать) X + W_0, где W — коэффициент x, а W_0 — постоянная часть, которая не зависит от X. Логистическая функция имеет конкретное определение и используется для получения результат, который можно интерпретировать как вероятность.

  • 00:20:00 В этом разделе лектор обсуждает использование логистической функции в контексте смесей гауссианов. Логистическая функция используется для сжатия выходных данных между 0 и 1, и ее конкретное определение может быть получено путем обработки коэффициентов X как параметров, а постоянная часть как W равна нулю. Матрица среднего и ковариации, а также вероятности класса могут быть объединены вместе для получения желаемых параметров. Это помогает в вычислении апостериорной вероятности точки данных, принадлежащей определенному классу. Лектор также объясняет использование условных выражений классов, представленных распределениями Гаусса, при нахождении вероятностей классов точек данных. Эти условные выражения класса могут иметь разную форму колокольчика, и апостериорная вероятность будет иметь более высокую вероятность для класса, соответствующего точке данных.

  • 00:25:00 В этом разделе видео лектор объясняет, как рассчитывается вероятность принадлежности точки данных к определенному классу для смешанной модели Гаусса. Если средние значения двух гауссианов различны, и мы предполагаем, что они имеют одинаковую ковариационную матрицу, в зависимости от местоположения точки, естественно, будет более высокая вероятность принадлежать к классу, у которого гауссиана имеет среднее значение ближе к точке. Дается формула для условного распределения класса, и после вычисления апостериорного распределения можно сделать прогноз класса на основе вероятности того, что этот класс больше 0,5. Лектор также показывает границы между двумя классами, что представляет интерес при прогнозировании.

  • 00:30:00 В этом разделе лекция исследует границу класса использования смесей гауссианов и то, как выглядит граница в предположении, что есть два гауссиана и у них одинаковая ковариационная матрица. Граница возникает с вероятностью, когда все классы одинаковы (0,5). Это упрощает транспонирование W до X bar = 0, что означает, что разделитель является линейным. Это простая модель и линейный разделитель, и он используется, когда есть два класса. Когда классов больше двух, выполняется одно и то же вычисление, и результатом является функция softmax, которая также широко используется в нейронных сетях и уходит своими корнями в смесь гауссовых вычислений.

  • 00:35:00 В этом разделе лектор объясняет взаимосвязь между функцией softmax и распределением дуги max и почему она называется softmax. Распределение дугового максимума присваивает вероятность единице классификатору с наибольшим значением и нулю для всех остальных классов, в то время как функция softmax дает более мягкую версию этого, присваивая ненулевые вероятности всем классам. Экспоненциальная функция возникает при рассмотрении смесей гауссианов и вычислении апостериорного распределения для нескольких классов. Границы различных классов также могут быть показаны в апостериорном распределении. В конспектах лекций объясняется, что функция softmax широко используется в нейронных сетях для определения выходного класса.

  • 00:40:00 В этом разделе лектор объясняет, как форма и границы гауссианы определяются матрицей ковариации и как это влияет на разделение классов. Используя разные ковариационные матрицы, можно создать нелинейные границы, тогда как использование одной и той же матрицы приведет к линейным границам. Лектор также обсуждает, как оценить мощности смешанной модели Гаусса, а именно пи, мю 1, мю 2 и сигма, которые представляют вероятность каждого класса, среднее значение гауссианов и ковариационную матрицу шума соответственно. Для этого используется метод максимального правдоподобия.

  • 00:45:00 В этом разделе лектор объясняет процесс обучения методом максимального правдоподобия, где основная проблема заключается в том, чтобы найти мощности модели, которые максимизируют вероятность данных. Чтобы решить эту оптимизационную задачу, лектор берет лог выражения, чтобы упростить его. Полученное выражение выглядит сложным, но на самом деле оно красивое и имеет вогнутую форму с единственным глобальным оптимумом. Этот метод позволяет объединить условные обозначения двух классов в одно выражение, используя удобные метки для классов 0 и 1.

  • 00:50:00 В этом разделе лекции докладчик обсуждает, как максимизация логарифмической функции правдоподобия соответствует вогнутой функции, которую можно оптимизировать для получения выборочного среднего и эмпирического среднего данных для каждого класса в смесь моделей Гаусса. Вероятность каждого класса можно оценить, взяв долю данных, принадлежащих этому классу, что является интуитивным подходом, подтверждаемым принципом максимального правдоподобия. Точно так же среднее значение входных данных для каждого класса можно оценить, взяв сумму всех точек данных и разделив ее на количество точек в этом классе. Эти оценки дают формальное обоснование интуитивного подхода к оценке этих параметров.

  • 00:55:00 В этом разделе докладчик обсуждает процесс оценки среднего и ковариационной матрицы для смешанной модели Гаусса с использованием обучения по методу максимального правдоподобия. Задаются целевые выходные данные, и функция правдоподобия максимизируется, чтобы определить правильные значения для среднего и ковариационной матрицы. При оценке ковариационной матрицы берется линейная комбинация эмпирических ковариационных матриц для каждого класса, которая взвешивается по количеству точек данных, принадлежащих каждому классу. Докладчик поясняет, что, хотя в этом процессе используются как байесовский вывод, так и обучение по методу максимального правдоподобия, в первой части обсуждения речь шла не об обучении, а о выводе с использованием теоремы Байеса.

  • 01:00:00 В этом разделе спикер объясняет, что часть машинного обучения смеси гауссианов включает определение мощностей, необходимых для каждой функции в гауссовой модели. Для этого они используют обучение методом максимального правдоподобия, но возможно и байесовское обучение. Однако лекция будет охватывать только обучение с максимальной вероятностью. Затем спикер завершает раздел и заявляет, что на следующем занятии будет рассмотрено расширение этой темы для классификации.
 

CS480/680 Лекция 8: Логистическая регрессия и обобщенные линейные модели



CS480/680 Лекция 8: Логистическая регрессия и обобщенные линейные модели

В этой первой части лекции «CS480/680: логистическая регрессия и обобщенные линейные модели» представлена идея экспоненциального семейства распределений и его связь с логистической регрессией — мощным методом, используемым для задач классификации. В лекции объясняется, что логистическая регрессия направлена на подбор наилучшей логистической функции, которая моделирует апостериорную модель для заданного набора данных, а для задач с несколькими измерениями и весами можно использовать метод Ньютона для нахождения минимума целевой функции, которая является выпуклой. функция. Преподаватель также подчеркивает важность логистической регрессии в рекомендательных системах и размещении рекламы, где простота и эффективность метода делают его идеальным для предоставления персонализированных рекомендаций на основе характеристик и поведения пользователей.

Лекция также затрагивает тему логистической регрессии и обобщенных линейных моделей. Преподаватель обсуждает ограничения метода Ньютона для логистической регрессии, такие как проблема переобучения, вызванная произвольно большими весами, и проблемы сингулярности в матрице Гессе. Для предотвращения переобучения предлагается регуляризация. Преподаватель знакомит с обобщенными линейными моделями (GLM), которые можно использовать для эффективной работы с нелинейными сепараторами. GLM включают в себя отображение входных данных в новое пространство, где линейная регрессия и классификация могут выполняться нелинейным способом, если отображение нелинейно. В лекции также рассматриваются базисные функции и их типы, которые можно использовать для выполнения нелинейной регрессии и классификации.

  • 00:00:00 В этом разделе видео в лекции обсуждаются ограничения статистической модели для классификации на основе смесей гауссианов, которая предполагает гауссово распределение. Чтобы устранить это ограничение, они вводят широкий класс распределений, известный как экспоненциальное семейство, что привело к разработке мощного и гибкого метода, называемого логистической регрессией. Лекция рисует на доске, чтобы проиллюстрировать смеси гауссианов, и объясняет, что этот метод подходит, когда данные образуют кластеры определенной формы. Однако, если данные не имеют такой формы, предположение о гауссовском распределении необходимо ослабить. В лекции вводится понятие экспоненциального семейства распределений и объясняется его значение в развитии логистической регрессии.

  • 00:05:00 В этом разделе спикер обсуждает экспоненциальное семейство, в которое входят многие известные распределения, такие как Бернулли, Пуассона и Гамма. Семейство называется экспоненциальным, потому что функция плотности произведения имеет экспоненту, а экспонента имеет линейный член в тета, некоторые члены в X и другие члены в тета и X. Ключом к различным распределениям в семействе являются точные функции T для X, a для теты и B для X. Прелесть этого семейства в том, что любое распределение в нем можно переписать в виде сигмовидной логистической функции. Эта характеристика позволяет докладчику вводить вероятностные дискриминационные модели, целью которых является непосредственная оценка параметров логистической функции, вместо того, чтобы делать предположения о возмущении данных некоторым шумом и оценивать параметры связанного распределения.

  • 00:10:00 В этом разделе мы узнаем о логистической регрессии, которая представляет собой метод, используемый для подбора или поиска наилучшей логистической функции, которая моделирует апостериорную модель для заданного набора данных. Апостериорное распределение следует распределению softmax, когда имеется несколько классов. Мы хотели бы найти W, который максимизирует апостериорные данные для некоторых данных. Эта задача оптимизации преобразуется в задачу минимизации путем введения отрицательного знака. Цель состоит в том, чтобы найти наилучшее W, обеспечивающее максимально возможную вероятность правильного класса Y для большинства точек данных.

  • 00:15:00 В этом разделе инструктор обсуждает логистическую регрессию и то, как ее можно использовать для задач классификации. Цель состоит в том, чтобы найти W, который минимизирует субъективность, но важно отметить, что хотя этот метод называется логистической регрессией, на самом деле это проблема классификации. Однако идея состоит в том, что логистическая регрессия является формой регрессии, потому что мы пытаемся оценить апостериорную вероятность класса с заданным X, который является числовым значением. Преподаватель продолжает объяснять, что для решения этой проблемы оптимизации необходим итеративный метод, потому что нет способа изолировать переменную в выражении в закрытой форме.

  • 00:20:00 В этом разделе лекции инструктор обсуждает, как работать с нелинейным уравнением в логистической регрессии. Показано, что целевая функция логистической регрессии является выпуклой функцией, что упрощает поиск глобального оптимума. Преподаватель объясняет, что для нахождения минимума целевой функции можно использовать итерационные методы, такие как градиентный спуск или метод Ньютона. Хотя можно использовать градиентный спуск, он неэффективен, и определить правильный размер шага сложно. Метод Ньютона намного быстрее и требует меньше шагов, что делает его популярным выбором для оптимизации.

  • 00:25:00 В этом разделе лекции спикер обсуждает метод под названием метод Ньютона для логистической регрессии, который является улучшением по сравнению с градиентным спуском. Метод Ньютона включает в себя начало с начального предположения для W, а затем вычитание из W обратного значения гессиана, умноженного на градиент последней функции. Этот метод по существу включает повторение трех взвешенных наименьших квадратов и аппроксимирует цель квадратичной функцией вместо прямой, что обеспечивает лучшее приближение кривой и более быструю сходимость. Прелесть этого метода в том, что каждый раз, когда аппроксимируется квадратичная функция, минимум может быть оптимально найден в замкнутой форме, что устраняет необходимость вычисления длины шага.

  • 00:30:00 В этом разделе спикер представляет метод Ньютона, который представляет собой метод оптимизации второго порядка, который на каждом шаге приближает функцию с квадратичной функцией, находит минимум этой квадратичной кривой и переделывает функцию. Это отличается от градиентного спуска, который включает в себя минимизацию квадратичной функции. Метод Ньютона может быть намного быстрее и точнее, поскольку квадратичная функция соответствует кривой лучше, чем общая линейная регрессия, но он требует вычисления гессиана, который включает все производные второго порядка, и может быть дорогостоящим в задачах большой размерности. Поэтому он лучше подходит для задач с небольшим количеством измерений и весов.

  • 00:35:00 В этом разделе инструктор объясняет причину аппроксимации сложной нелинейной функции логистической регрессии квадратичной функцией с использованием метода Ньютона. Хотя градиентный спуск дешевле, аппроксимация с помощью квадратичной функции лучше подходит, позволяя делать более точные шаги. Также можно вычислить минимум квадратичной функции. Метод Ньютона не гарантирует нахождения глобального оптимума для невыпуклых целей, но, поскольку функция логистической регрессии выпукла, существует единственный глобальный оптимум, и метод Ньютона может начинаться где угодно. Главное, что необходимо вычислить для применения метода Ньютона, — это гессиан, который можно получить с помощью вывода, приводящего к выражению, включающему набор данных со строкой единиц и диагональной матрицей сигм.

  • 00:40:00 В этом разделе инструктор обсуждает логистическую регрессию и ее важность как метода машинного обучения, особенно для рекомендательных систем и размещения рекламы. Логистическая регрессия используется для предоставления пользователям рекомендаций, таких как рекомендации по продуктам или рекомендации по рекламе. Идея состоит в том, чтобы показывать объявления, на которые пользователь нажимает с высокой вероятностью, и это можно смоделировать как проблему классификации. Преподаватель также представляет структуру гессиана и способы его получения с помощью формулы, что важно для программирования логистической регрессии и применения метода Ньютона. В то время как некоторые студенты могут найти математику непосильной, важно понять эти методы, чтобы увидеть, как они возникают и почему они работают.

  • 00:45:00 В этом разделе объясняется концепция логистической регрессии как метода предоставления пользователям рекомендаций, например продуктов или приложений, на основе их характеристик и поведения. Логистическая регрессия часто используется для таких типов задач, потому что она проста, гибка и эффективна в реализации, а прогнозы основаны на вычислении скалярного произведения. Примеры функций, которые можно учитывать при выработке рекомендаций, включают в себя то, были ли уже загружены и установлены определенные приложения, возраст, пол, местоположение и любую другую соответствующую информацию, которая есть у компании или смартфона о пользователе.

  • 00:50:00 В этом разделе лектор объясняет, как можно использовать логистическую регрессию для задач классификации с двумя классами, где вероятность возникновения события больше или равна 0,5. Если есть несколько классов, можно использовать распределение softmax с вектором W для каждого класса K. Лектор подчеркивает, что логистическая регрессия упрощает прогнозирование, поскольку включает только вычисление точечного произведения, и это можно сделать эффективным за счет использования разреженности. и парализует некоторые вычисления.

  • 00:55:00 В этом разделе спикер обсуждает эффективность логистической регрессии и то, как ее можно запустить на устройствах с низким уровнем ресурсов, используя разреженность и распараллеливая вычисления. Вычисление скалярного произведения может игнорировать нулевые записи, что ускоряет вычисление длинных векторов, содержащих миллионы записей. Модель обучения также можно распараллелить с помощью графического процессора, что идеально подходит для таких систем, как рекомендательные системы, которым требуются быстрые и масштабируемые прогнозы. Кроме того, расширение функций легко и требует только масштабирования, а не перепроектирования всего.

  • 01:00:00 В этом разделе профессор обсуждает ограничения метода Ньютона для логистической регрессии и проблему переобучения. Хотя метод Ньютона является методом быстрой оптимизации, он не масштабируется для больших наборов данных и миллионов функций. Логистическая регрессия имеет тенденцию легко подходить из-за ее выпуклой оптимизации, которая находит глобальный оптимум, который слишком хорошо соответствует данным. Переоснащение может привести к сингулярностям в матрице Гессе, что сделает невозможным применение метода Ньютона. Сигмовидная функция логистической регрессии изменяется от нуля до единицы, но никогда не достигает единицы асимптотически, поэтому для достижения вероятности, близкой к единице, W транспонирование X bar должно быть сколь угодно большим, что приводит к переоснащению.

  • 01:05:00 В этом разделе лектор обсуждает проблему переобучения в моделях логистической регрессии. Они объясняют, что по мере того, как W транспонирует X bar, стремится к бесконечности, величина W также стремится к бесконечности, что может привести к тому, что веса станут сколь угодно большими. Кроме того, гессиан будет стремиться к нулю из-за сигмовидной функции, что затрудняет применение метода Ньютона, поскольку вычисление обратного значения гессиана будет невозможно численно. Чтобы предотвратить переоснащение, лектор предлагает использовать регуляризацию, где добавляется штрафной член, чтобы минимизировать величину весов. Это также помогает предотвратить проблемы с сингулярностью.

  • 01:10:00 В этом разделе видео инструктор обсуждает, как предотвратить переоснащение в логистической регрессии и обобщенных линейных моделях путем добавления штрафного члена с использованием метода Ньютона. Однако ограничение логистической регрессии заключается в том, что граница между классами всегда линейна. Чтобы преодолеть это ограничение и работать с нелинейными разделителями, инструктор вводит обобщенные линейные модели, которые включают отображение входных данных в новое пространство, где линейная регрессия и классификация могут выполняться нелинейным способом, если отображение не является линейным. линейный. Этот простой подход позволяет обобщить линейные модели для работы в нелинейных условиях и служит основой для ядерных методов, которые будут рассмотрены позже в этом курсе.

  • 01:15:00 В этом разделе докладчик обсуждает, как аппроксимировать функцию с помощью нелинейной регрессии и обобщенных линейных моделей. Идея состоит в том, чтобы отобразить данные из исходного пространства в новое пространство, используя функцию отображения, обозначенную Phi, которая отображает каждый вход X в новую функцию. Функция отображения обозначает базовую функцию, которая может фиксировать нелинейности, определяя отображение, которое позволит пользователю перемещаться из любого исходного пространства в новое пространство, делая его нелинейным. Цель состоит в том, чтобы найти коэффициенты, такие как веса, для получения наилучшей функции и этого пространства гипотез. В конечном счете, используя эту технику, мы можем выполнять линейную регрессию или классификацию, неявно фиксируя нелинейности в исходном пространстве.

  • 01:20:00 В этом разделе инструктор объясняет, как использовать логистическую регрессию и обобщенные линейные модели для классификации точек данных. Процесс включает в себя отображение входного пространства в пространство более высокого измерения с использованием базисных функций, а затем поиск оптимальной гиперплоскости для разделения данных в этом более высоком измерении. Преподаватель подчеркивает, что для выбора подходящих базовых функций необходимы предварительные знания о возможном пространстве функций, но существуют методы, доступные для изучения базовых функций. Кроме того, инструктор объясняет, как веса в модели определяют вектор, перпендикулярный гиперплоскости.

  • 01:25:00 В этом разделе лектор обсуждает базисные функции и их типы, которые можно использовать для логистической регрессии и обобщенных линейных моделей. Лектор сначала вводит полиномиальные базисные функции, поскольку их можно использовать для построения полиномиальных функций, взяв все степени X до определенной степени. Затем лектор представляет два примера нелинейных базисных функций: функцию Гаусса и сигмоидальную функцию. Базисные функции Гаусса можно использовать, изменив mu и s, где mu указывает положение выступа на оси x, а s показывает ширину выступа. Сигмовидные функции являются нелинейными функциями, но не распределениями вероятностей, и их можно использовать с сигмой, примененной к X минус mu J, деленной на s, в качестве базовой функции. Другие нелинейные функции, которые можно использовать в качестве базисных, включают вейвлеты, синусы и косинусы.

  • 01:30:00 В этом разделе лекции спикер обсуждает, как обобщить линейные модели, чтобы неявно выполнять нелинейную регрессию и классификацию. Заменив входную переменную X на Phi of X, которая является входом в новое пространство, можно использовать различные нелинейные функции. Функцию Phi можно применять к различным частям исходных входных данных X и использовать для захвата базовой функции с помощью набора базисных функций, таких как полиномы или гауссианы. На этом тема завершается, что дает фундаментальное понимание нелинейной логистической регрессии и обобщенных линейных моделей.
 

CS480/680 Лекция 9: Персептроны и однослойные нейронные сети



CS480/680 Лекция 9: Персептроны и однослойные нейронные сети

Эта лекция знакомит с нейронными сетями с акцентом на элементарный тип, персептрон, который создает линейный разделитель для классификации. В лекции рассматривается, как веса используются для вычисления линейной комбинации входных данных, которые проходят через функцию активации для получения выходных данных, и как различные веса могут использоваться для аппроксимации логических вентилей, таких как вентили И, ИЛИ и НЕ. Лектор обсуждает нейронную сеть с прямой связью и то, как алгоритм обучения персептрона используется для бинарной классификации и как градиентный спуск может оптимизировать веса. Обсуждаются ограничения использования линии для разделения данных, и в качестве возможного решения вводится функция активации логистической сигмоиды с акцентом на то, как можно обучить веса с помощью функции активации логистической сигмоиды.

В этой лекции о персептронах и однослойных нейронных сетях рассказывается об использовании логистических сигмовидных функций активации для минимизации квадрата ошибки и о введении скорости обучения в качестве ключевого параметра в последовательном градиентном спуске. Лектор также демонстрирует, как можно составить нейронные сети с несколькими слоями для сколь угодно близкой аппроксимации любой функции, используя функции хранения мусора, и как можно использовать обратное распространение для обучения сети обучению произвольным функциям. Преподаватель подчеркивает универсальность и эффективность нейронных сетей, ссылаясь на их широкое использование при решении различных задач, таких как распознавание речи, компьютерное зрение, машинный перевод и встраивание слов.

  • 00:00:00 В этом разделе лекции основное внимание уделяется краткому введению в нейронные сети с особым акцентом на персептрон, который представляет собой элементарный тип нейронной сети, не имеющий скрытых слоев. Он производит линейный разделитель для классификации и играет решающую роль в истории нейронных сетей. Позже более сложные формы нейронных сетей становятся более обобщенными. В лекции также затрагивается вопрос о том, как работает мозг и как его можно эмулировать с помощью вычислений. В то время как мозг состоит из нейронов, компьютер функционирует с использованием логических вентилей, которые взаимодействуют через электрический сигнал, что делает вычисления последовательными. Однако сигналы мозга распространяются параллельно, что делает его более надежным.

  • 00:05:00 В этом разделе спикер обсуждает хрупкость компьютеров по сравнению с человеческим мозгом и то, как нейронные сети пытаются подражать организации мозга. Нейронные сети состоят из узлов, называемых единицами, которые соответствуют нейронам в реальной нейронной сети, и связей, соответствующих синапсам. Вычисления производятся с помощью числовых сигналов, которые передаются между блоками. Цель состоит в том, чтобы активировать нейроны при вводе правильного шаблона, что позволяет выполнять более надежные вычисления, которые могут обрабатывать удаление некоторых нейронов с помощью методов регуляризации. Вдохновение для нейронных сетей исходит от организации и распространения химических сигналов в реальных биологических нейронных сетях.

  • 00:10:00 В этом разделе лектор объясняет, как веса используются в нейронных сетях для вычисления линейной комбинации входных данных и получения нового сигнала. Затем этот новый сигнал проходит через функцию активации, которая применяет некоторую нелинейность для получения выходных данных. Каждый узел в сети получает входные данные, перемасштабирует их с весами и применяет функцию активации для получения выходных данных, которые затем передаются следующим узлам в сети. Лектор подчеркивает, что веса имеют решающее значение для поведения сети и могут быть скорректированы в процессе обучения для повышения производительности.

  • 00:15:00 В этом разделе лектор обсуждает, как блоки в нейронной сети вычисляют нелинейную функцию линейной комбинации входных данных на основе весов, присвоенных каждому входному сигналу. Сами входы могут быть предыдущими узлами, прошедшими нелинейную функцию активации. Вместо того, чтобы создавать базовые функции для отображения входных данных в новое пространство, нейронные сети позволяют части сети научиться переназначать входные данные в новое пространство. Нелинейные функции активации необходимы, чтобы сделать сеть более выразительной, и лектор объясняет два популярных примера таких функций: пороговую функцию активации и сигмовидную функцию.

  • 00:20:00 В этом разделе лекции профессор обсуждает использование функций активации в нейронных сетях, в частности, функцию хранения мусора и сигмовидную функцию. Он объясняет, что, хотя функция удержания мусора полезна для вывода нулей и единиц, она не является гладкой и непрерывной, что может затруднить ее использование с методами на основе градиента. Сигмовидная функция представляет собой сглаженную версию функции удержания мусора и имеет ту же форму, но может регулироваться по наклону. Затем профессор исследует проектирование блоков в нейронных сетях, которые могут эмулировать основные вентили, такие как вентили И, ИЛИ и НЕ. Он демонстрирует пример устройства с функцией активации хранения мусора, которое может эмулировать вентиль НЕ-И, и спрашивает, можно ли придумать какие-то веса, чтобы обеспечить вывод, соответствующий концу входов.

  • 00:25:00 В этом разделе лектор обсуждает, как можно использовать разные веса в нейронной сети персептрона для эмуляции логических вентилей, таких как конечные, или, а не вентили. Путем настройки весов, используемых в персептроне, нейронная сеть может быть спроектирована так, чтобы выдавать желаемые выходные данные таблицы истинности для каждого из этих вентилей. Лектор приводит примеры различных весов, которые можно использовать для эмуляции каждого из логических вентилей, включая веса для конечных вентилей, или вентилей, а не вентилей.

  • 00:30:00 В этом разделе лектор обсуждает два широких класса сетей: нейронные сети с прямой связью, состоящие из ориентированного графа узлов, движущихся в одном направлении; и рекуррентные нейронные сети, которые цикличны по своей природе и полезны для обработки ввода различной длины, что делает их популярными при обработке естественного языка. Лектор фокусируется на нейронных сетях с прямой связью и приводит простой пример с двумя модулями ввода, одним скрытым слоем с двумя модулями и одним модулем вывода. Изменяя веса соединений между слоями, они объясняют, что можно эмулировать конечные или узловые единицы, допуская аппроксимацию любой булевой функции.

  • 00:35:00 В этом разделе лектор объясняет концепцию персептрона, который по сути представляет собой простую однослойную нейронную сеть с прямой связью, используемую для бинарной классификации. Обсуждается алгоритм обучения персептрона, в котором каждая выходная единица обучается отдельно путем перебора набора данных для каждой пары XY и корректировки весов в зависимости от того, является ли полученный результат правильным или нет. В лекции также обсуждается использование матричного представления весов в нейронных сетях.

  • 00:40:00 В этом разделе учитель объясняет алгоритм обучения персептрона, который используется для работы с единицами, которые проходят через пороговую функцию. Алгоритм применяет очень простое правило: если расчет сети правильный, то веса можно оставить прежними, но если выходные данные неверны, необходимо внести коррективы, просто добавив вход X к весам или вычтя их. , в зависимости от выхода. Цель состоит в том, чтобы увеличить линейную комбинацию входных данных и весов, если выходной сигнал должен быть положительным, или уменьшить его, если он должен быть отрицательным, чтобы персептрон вычислил выходной сигнал, который ближе к правильному ответу. Суть в том, чтобы воспользоваться тем фактом, что функция удержания мусора возвращает 1, когда линейная комбинация положительна, и 0, когда она отрицательна.

  • 00:45:00 В этом разделе спикер обсуждает использование градиентного спуска для оптимизации весов алгоритма персептрона. Функция потерь определяется как ошибка неправильной классификации, где для каждой точки данных X и Y она считается неправильно классифицированной, когда произведение YW транспонирования X отрицательно. Ожидается, что точка будет положительной, если она принадлежит классу 1, и отрицательной, если она принадлежит классу -1. Неправильно классифицированные баллы суммируются для получения цели, которую можно минимизировать. Затем вычисляется градиент по отношению к цели, чтобы сделать шаг в направлении, противоположном градиенту, для оптимизации.

  • 00:50:00 В этом разделе лекции о персептронах и однослойных нейронных сетях профессор обсуждает использование градиентного спуска с последовательной обработкой для обновления весов в алгоритме персептрона. Алгоритм опирается на линейно разделимые данные, чтобы в конечном итоге правильно классифицировать все обучающие экземпляры. Представлена теорема о том, что пороговый алгоритм обучения персептрона будет сходиться тогда и только тогда, когда данные линейно разделимы. Раздел заканчивается объяснением и визуализацией линейно разделимых данных по сравнению с нелинейно разделимыми данными.

  • 00:55:00 В этом разделе лекции профессор обсуждает ограничения попытки разделить набор данных линией и вводит возможность использования логистической сигмовидной функции активации вместо пороговой функции активации. Логистическая сигмоида может быть нелинейной, но она по-прежнему дает линейный разделитель в точке, где вероятность равна 0,5 для каждого класса. Следовательно, использование логистической сигмоиды по-прежнему дает нам линейный разделитель и пространство гипотез, такое же, как и в логистической регрессии. Затем профессор обращается к вопросу о том, как обучить веса персептрона с помощью логистической сигмовидной функции активации.

  • 01:00:00 В этом разделе спикер обсуждает подход к определению цели и минимизации квадрата ошибки в персептронах с логистическими сигмовидными функциями активации. Они объясняют, что алгоритм максимального правдоподобия по сути такой же, как и логистическая регрессия, а для минимизации квадрата ошибки требуется найти градиент и предпринять шаги в его направлении. Они также представляют идею использования скорости обучения для определения размера шага в последовательном градиентном спуске и упоминают, что это критический параметр, который часто необходимо корректировать. Докладчик предполагает, что на практике обычно предпринимаются шаги в отношении мини-пакетов точек данных или только одной точки данных.

  • 01:05:00 В этом разделе лектор объясняет, как нейронные сети с несколькими слоями могут сколь угодно точно аппроксимировать любую функцию. Соединяя разные нейроны вместе, он демонстрирует создание двухмерного гребня путем добавления двух параллельных сигмовидных единиц с противоположными наклонами, а затем показывает, как можно скомпоновать два гребня, образуя выпуклость при перпендикулярном пересечении. Этот метод позволяет создавать классификаторы, которые могут присваивать баллы одному классу в одном небольшом регионе, а другому классу — везде. Лектор иллюстрирует соответствующую сеть, включающую в себя четыре сигмовидных элемента и гребень с функцией активации тождества.

  • 01:10:00 В этом разделе лекции о персептронах и однослойных нейронных сетях профессор обсуждает построение выпуклостей с использованием функций хранения мусора или сигмоид, а также то, как их можно разбить на мозаику и сложить вместе, чтобы сколь угодно точно аппроксимировать любую кривую. . Он объясняет, что этот подход можно использовать для регрессии, а нейронную сеть можно обучить произвольной функции с помощью таких алгоритмов, как обратное распространение ошибки. Обратное распространение — это, по сути, форма градиентного спуска, которая использует структуру сети для одновременного вычисления всех частных производных.

  • 01:15:00 В этом разделе инструктор объясняет, как частные производные для всех весов в нейронной сети могут быть получены одновременно за постоянное число проходов по сети с использованием алгоритма обратного распространения. Преподаватель подчеркивает, что нейронные сети получили широкую популярность благодаря своей универсальности и мощности в решении различных задач, таких как распознавание речи и компьютерное зрение. В современном машинном переводе и встраивании слов также используются нейронные сети, и их популярность отчасти объясняется их эффективностью.
 

CS480/680 Лекция 10: Многослойные нейронные сети и обратное распространение



CS480/680 Лекция 10: Многослойные нейронные сети и обратное распространение

В этой лекции о многослойных нейронных сетях и обратном распространении объясняются ограничения линейных моделей и необходимость нелинейных моделей, таких как многослойные нейронные сети. Лектор обсуждает различные функции активации, которые можно использовать в нейронных сетях, и то, как они учитывают нелинейные базисные функции. Далее в лекции объясняется, как алгоритм обратного распространения используется для вычисления градиента ошибки по отношению к каждому весу в нейронной сети. Также обсуждаются инструменты автоматической дифференциации как способ эффективного вычисления дельт и градиентов в нейронной сети. В целом лекция подчеркивает гибкость и мощь нейронных сетей в аппроксимации широкого спектра функций.

Лектор в этом видео обсуждает вопросы оптимизации нейронных сетей, такие как медленная сходимость, локальная оптимизация, невыпуклая оптимизация и переобучение. Чтобы преодолеть медленную сходимость, можно использовать такие методы, как регуляризация и отсев. Кроме того, спикер объясняет поведение градиентного спуска для оптимизации, подчеркивая необходимость оптимизации размера шага для повышения его эффективности. В качестве решения предлагается алгоритм гранта DES, который регулирует скорость обучения для каждого измерения отдельно. Докладчик также представляет RMSProp, взвешенное скользящее среднее предыдущих градиентов. Наконец, спикер обсуждает Адама, который включает взвешенное скользящее среднее самого градиента, и показывает, что он превосходит другие методы, такие как SGD Нестерова.

  • 00:00:00 В этом разделе лектор дает краткий обзор линейной регрессии и трех моделей линейной классификации. Однако проблема этих моделей в том, что они по-прежнему дают нам линейный разделитель. Таким образом, лекция переводит обсуждение на нелинейные модели и знакомит с необходимостью многослойных нейронных сетей.

  • 00:05:00 В этом разделе инструктор рассматривает линейные модели, включая персептрон и его пороговую функцию активации, а также сигмовидную функцию активации. Преподаватель объясняет, что линейные модели можно расширить до нелинейных моделей, чтобы учесть функции, которые не являются прямыми линиями, а скорее кривыми. Для этого вводится нелинейная регрессия, в которой используется функция отображения Phi of X для перемещения данных в новое пространство. Преподаватель также знакомит с многоуровневыми нейронными сетями, которые предоставляют адаптивные базовые функции для нелинейной регрессии, а затем соотносят их с обобщенной моделью линейной регрессии. Наконец, преподаватель обсуждает обобщенную нелинейную классификацию.

  • 00:10:00 В этом разделе лекции спикер обсуждает, как работать с неограниченными нелинейными моделями. Проблема с линейными моделями с базисными функциями, которые мы видели до сих пор, заключается в том, что мы должны выбирать базисные функции априори, и у нас может не хватить знаний предметной области для этого. Решение состоит в том, чтобы выбрать базисные функции, которые зависят от данных и позволяют использовать очень большое или даже бесконечное количество базисных функций без какой-либо платы. Эта идея изначально была подходом в методах ядра и была доминирующим набором методов примерно до 2010 года.

  • 00:15:00 В этом разделе видео обсуждается внедрение многослойных нейронных сетей в глубокое обучение, которое привело ко многим успехам, которые мы наблюдаем сегодня в глубоком обучении. В частности, видео фокусируется на двухслойной нейронной сети с полностью связанными узлами, где каждое соединение имеет вес, который может быть представлен в матрице. Скрытые единицы и единицы вывода рассчитываются с использованием функции активации и линейных комбинаций, при этом каждый слой имеет свой собственный набор весов. Регулируя полномочия внутри базовых функций, можно адаптировать их и варьировать в зависимости от обучающих наборов, что приводит к более успешной модели глубокого обучения.

  • 00:20:00 В этом разделе лекции профессор объясняет, что нейронные сети по сути являются математическими функциями, состоящими из нескольких слоев и весов. Они используют функции активации, такие как сигмоидальный или гиперболический тангенс, для добавления нелинейности. Эти функции активации могут действовать как базовые функции для следующего слоя и могут использоваться в нелинейной регрессии. Используя нелинейные функции активации в первом слое и функцию идентичности в выходном слое, нейронную сеть можно представить как линейную комбинацию нелинейных базисных функций.

  • 00:25:00 В этом разделе спикер обсуждает двухслойные нейронные сети для нелинейной регрессии и классификации. Математическая формула для двухслойной нейронной сети включает скрытые блоки с сигмовидной функцией активации и выходные блоки с функцией активации тождества. Сигма действует как нелинейная базисная функция, параметризованная некоторыми весами, что позволяет базисным функциям адаптироваться по мере обучения модели. Этот подход является основным отличием нелинейной и линейной регрессии. Точно так же для классификации докладчик показывает, как та же формула применяется при вычислении базисных функций, которые являются нелинейными через первый слой.

  • 00:30:00 В этом разделе лектор объясняет, чем многослойные нейронные сети отличаются от логистической регрессии, несмотря на схожую интерпретацию. Нейронная сеть позволяет использовать более адаптивные базовые функции, используя веса, которые обновляются во время обучения. Нелинейность возникает из-за использования сигма-функции, которую можно заменить другими функциями, такими как функция Гаусса или функция 10h. Нейронную сеть можно использовать как для классификации, так и для регрессии путем настройки функции активации. Лектор также упоминает, что в сети можно использовать несколько классов, заменив функцию Sigma другой подходящей функцией.

  • 00:35:00 В этом разделе лекции рассматривается оптимизация весов для многослойных нейронных сетей, которая включает в себя как веса линейной комбинации, так и веса, определяющие нелинейные базисные функции. Наиболее популярным алгоритмом оптимизации является минимизация ошибок, который сравнивает выходные данные нейронной сети с целевым значением и вычисляет разницу. Обратное распространение — это популярный алгоритм, который позволяет вычислять ошибки и распространять их обратно по сети для вычисления градиента по отношению к каждому весу. Градиент используется для вычисления алгоритма обновления для оптимизации весов. Алгоритм обратного распространения вычисляется вручную, но такие пакеты, как Tensor Flow и PyTorch, предлагают инструменты для автоматической дифференциации.

  • 00:40:00 В этом разделе спикер объясняет алгоритм обратного распространения, используемый для вычисления градиента или частной производной ошибки относительно каждого веса в нейронной сети. Алгоритм разделен на две фазы: прямая фаза, где выходные данные сети вычисляются на основе входных данных, и обратная фаза, где дельта, мера ошибки, распространяется обратно для вычисления частной производной ошибки по отношению к каждому масса. Частная производная вычисляется в два этапа с использованием цепного правила для частной производной и Delta J и Zi. Докладчик иллюстрирует алгоритм с полностью подключенной сетью, состоящей из двух входов, двух скрытых блоков и двух блоков вывода, и показывает, как алгоритм вычисляет вывод каждого блока и выполняет обратное распространение ошибок.

  • 00:45:00 В этом разделе видео спикер обсуждает, как получить частные производные в многослойных нейронных сетях с помощью алгоритма обратного распространения ошибки. Докладчик объясняет, что, начиная с выходного слоя, можно вычислить частную производную ошибки по каждой выходной единице J, используя рекурсивную формулу, которая зависит от дельты выходных единиц. Затем докладчик демонстрирует простой пример использования прямой и обратной фазы для вычисления выходных данных скрытых и выходных единиц в нейронной сети.

  • 00:50:00 В этом разделе спикер объясняет, как вычислять дельты и градиенты в нейронной сети и как инструменты автоматической дифференциации могут помочь сделать это эффективно. Они предоставляют уравнения для вычисления дельты для скрытых слоев и выходных слоев и показывают, как использовать их для вычисления градиентов. Спикер подчеркивает, что инструменты автоматической дифференциации позволяют сэкономить время и силы при ручном вычислении градиентов при работе с разными архитектурами и функциями. Раздел завершается примерами того, как всего с тремя скрытыми единицами нейронная сеть может аппроксимировать произвольные функции, такие как квадрат х, абсолютное значение х и синус х.

  • 00:55:00 В этом разделе лектор обсуждает способность нейронных сетей аппроксимировать разные функции. Сеть может сходиться к нелинейным базисным функциям, которые могут довольно хорошо аппроксимировать гладкие функции, такие как квадратичные и синусоидальные функции. Однако для негладких функций, таких как абсолютная функция, нейронная сеть изо всех сил пытается аппроксимировать ее без достаточного количества скрытых единиц. Тем не менее, даже для прерывистых функций, таких как ступенчатая функция, сеть все еще может обеспечить разумное приближение. Затем лектор переходит к обсуждению оптимизации нейронных сетей, которое включает в себя вычисление градиента с использованием автоматического дифференцирования и выполнение стохастического градиентного спуска. Хотя это общий метод оптимизации, сходимость может быть медленной без дополнительных методов оптимизации.

  • 01:00:00 В этом разделе лектор обсуждает вопросы, которые могут возникнуть при оптимизации нейронных сетей, включая медленную сходимость, локальную оптимизацию, невыпуклую оптимизацию и переобучение. Медленную сходимость можно преодолеть с помощью таких методов, как регуляризация и отсев. Чтобы проиллюстрировать концепцию медленной сходимости, лектор рисует шарообразную поверхность, представляющую функцию ошибок. Градиентный спуск может медленно сходиться, если он начинается за пределами глобального минимума, а современные методы, такие как импульс и скорость адаптивного обучения, могут ускорить сходимость.

  • 01:05:00 В этом разделе лектор обсуждает поведение градиентного спуска для оптимизации. Направление градиента обычно перпендикулярно контурной линии, и проблема с одним шагом в его направлении заключается в том, что он может выйти за пределы минимума. С другой стороны, если градиент мал, может потребоваться много маленьких шагов, чтобы добраться до минимума. Таким образом, есть регионы, где следует предпринять более крупные шаги, и регионы, где более целесообразны более мелкие шаги. Такое поведение подчеркивает необходимость оптимизации размера шагов для повышения эффективности градиентного спуска.

  • 01:10:00 В этом разделе спикер обсуждает потенциальные проблемы, связанные с использованием размера градиента для определения размера шага в нейронной сети. Поскольку размер градиента может не совпадать в разных измерениях, одно из решений, предложенных алгоритмом гранта DES, состоит в том, чтобы настроить скорость обучения для каждого измерения отдельно, взяв сумму квадрата градиентов, наблюдаемых до сих пор, и разделив размер шага. на квадратный корень из этого значения. Это позволяет регулировать размер шага в соответствии с величиной градиента в каждом измерении. Однако в некоторых приложениях скорость обучения может снижаться слишком быстро, что препятствует прогрессу.

  • 01:15:00 В этом разделе спикер обсуждает проблемы с градиентным спуском в нейронных сетях и то, как настройка скорости обучения может помочь в стохастическом градиентном спуске. Докладчик вводит понятие «размерность» в нейронной сети, где на вес приходится одно измерение. Они объясняют проблему накоплением больших сумм и необходимостью уменьшить размер этих шагов. Спикер предлагает решение этой проблемы с введением rmsprop, который представляет собой взвешенное скользящее среднее предыдущих градиентов с экспоненциальным затуханием, которое забывает старые градиенты. Однако этот метод не идеален, и спикер признает его ограниченность.

  • 01:20:00 В этом разделе лектор обсуждает проблему градиента, которому не хватает импульса в области, где он стабилен, что приводит к необходимости увеличения размера шага при одном и том же направлении. Это приводит к версии эвристики, известной как Адам, которая включает взвешенное скользящее среднее значение самого градиента и сохранение его в sT. При выполнении обновления вместо шага в действии и градиенте делается шаг в действии этой скользящей средней. Этот метод является эвристическим, который был опубликован в ICLR в 2015 году, и основное отличие от его предшественников заключается в том, что он поставляется с некоторыми теориями и доказательствами сходимости его свойств. Однако, когда он был опубликован, с некоторыми доказательствами возникли проблемы, что привело к изменениям с большим количеством доказательств, чтобы придумать что-то более принципиальное.

  • 01:25:00 В этом разделе спикер объясняет компромисс между несколькими хорошими шагами и высокой ценой за каждый шаг или быстрым быстрым выполнением множества мелких шагов, которые не являются очень хорошими шагами, но в целом все равно заканчиваются ближе к минимуму. Он также обсуждает методы оптимизации, которые плохо масштабируются, такие как методы оптимизации второго порядка, такие как метод Ньютона. На практике эвристики, как правило, работают хорошо, несмотря на отсутствие хорошей теории. Затем спикер приводит эмпирические сравнения между Адамом и другими методами, такими как SGD Нестерова, и показывает, что Адам, как правило, работает довольно хорошо.
 

CS480/680 Лекция 11: Методы ядра



CS480/680 Лекция 11: Методы ядра

В этой лекции концепция ядерных методов представлена как способ масштабирования обобщенных линейных моделей путем отображения данных из одного пространства в новое пространство с использованием нелинейной функции. Двойной трюк или трюк ядра объясняется как метод, который позволяет работать в многомерных пространствах без дополнительных затрат, что приводит к использованию функции ядра, которая вычисляет скалярное произведение пар точек в новом пространстве. Обсуждаются различные методы построения ядер, в том числе полиномиальные ядра и ядра Гаусса, которые можно использовать для измерения сходства между точками данных и которые полезны в задачах классификации. Также вводятся правила составления ядер для создания новых ядер, которые могут контролировать их сложность. В лекции подчеркивается важность выбора функций, имеющих соответствие с Phi, транспонирующих Phi, поскольку матрица граммов должна быть положительно полуопределенной и иметь собственные значения, большие или равные нулю.

В этой лекции о ядерных методах докладчик определяет ядра как положительно полуопределенные функции, которые можно разложить на матрицу, умноженную на ее транспонирование. Обсуждаются различные типы ядер, такие как полиномиальное и гауссово, и их приложения для сравнения различных типов данных, таких как строки, наборы и графики. Докладчик также объясняет, как ядра подстрок могут быстро вычислять сходство между словами, увеличивая длину подстрок и используя динамическое программирование. Кроме того, показано, что машины опорных векторов эффективны при классификации документов с использованием новостных статей агентства Reuters.

  • 00:00:00 В этом разделе докладчик представляет методы ядра, которые полезны для масштабирования обобщенных линейных моделей. Дается краткий обзор сходств и различий между обобщенными линейными моделями и нейронными сетями, подчеркивая, что фиксированные нелинейные базисные функции используются в линейных моделях и что оптимизация, как правило, проще и выпуклее, в то время как адаптивные базисные функции используются в нейронных сетях. , и оптимизация, как правило, сложнее. Введение ядра приведет к уловке, которая позволит избежать платы за большее пространство при работе с моделями, включающими нелинейные отображения.

  • 00:05:00 В этом разделе лектор объясняет эволюцию парадигм машинного обучения, подчеркивая, что ограниченное пространство гипотез не было серьезной проблемой, когда объем данных был недостаточным. Однако эра нейронных сетей, начавшаяся в 2009 году, принесла много данных и вычислительных мощностей, что сделало необходимым наличие более богатого пространства гипотез. Лектор знакомит с двойным трюком или трюком с ядром, вычислительной техникой, которая позволяет работать в многомерных пространствах без дополнительных затрат путем отображения данных в новое пространство с использованием нелинейных функций. Он объясняет, как этот прием вместе с функцией ядра позволяет нам рассматривать большое или бесконечное количество базисных функций без необходимости их явного вычисления.

  • 00:10:00 В этом разделе лектор сосредоточится на методах ядра, которые нацелены на вычисление скалярного произведения между парами точек в новом пространстве и поиск способов сделать стоимость вычисления этих скалярных произведений намного дешевле для лучшего масштабирования. алгоритмы. Следовательно, скалярные произведения переименовываются в функции ядра, и если мы можем определить выходные данные этих ядер для каждой пары точек, нам не нужно вычислять базовое пространство признаков, определяемое Phi of X, которое является ключом для определения ядер. которые быстро оцениваются и не требуют вычислений относительно Phi для X. В качестве примера используется линейная регрессия, и лектор показывает, что W на самом деле является линейной комбинацией точек данных, которые являются коэффициентами, умноженными на Phi для X n, и заменяет W другим выражением, Phi умножить на A, где Phi — матрица всех точек в новом пространстве.

  • 00:15:00 В этом разделе спикер представляет концепцию методов ядра, которая включает отображение данных из одного пространства в новое пространство с помощью функции отображения. Он показывает, как можно оптимизировать задачу линейной регрессии в новом пространстве, используя коэффициенты (a) линейной комбинации отображаемых точек, а не матрицу весов (W). Это приводит к использованию функции ядра, которая вычисляет скалярное произведение пар точек в новом пространстве, которое определяется как матрица Грама. Результатом является альтернативный способ найти решение проблемы регрессии путем оптимизации коэффициентов с использованием функции ядра.

  • 00:20:00 В этом разделе лектор обсуждает, как делать прогнозы, используя решение в двойственном пространстве, что приводит к другой сложности вычислений, чем в простом пространстве. В простом пространстве сложность зависит от количества базисных функций, но в двойственном пространстве она зависит от количества данных, что позволяет использовать многомерные пространства без увеличения сложности. Ключевым моментом является вычисление функции ядра без обращения к точкам в новом пространстве, и существуют различные способы определения функций ядра, которые неявно соответствуют скалярным произведениям. Важно выбирать функции, которые имеют соответствие с Phi, транспонируют Phi, поскольку матрица граммов должна быть положительно полуопределенной и иметь собственные значения, большие или равные нулю. Лектор приводит пример того, как определить ядро напрямую, а затем выяснить соответствующее отображение.

  • 00:25:00 В этом разделе лектор определяет функцию ядра как скалярное произведение двух векторов в исходном пространстве в квадрате. Возникает вопрос, является ли это действительной функцией ядра, которую можно вычислить без обращения к Phi, функции преобразования пространства. Расширяя функцию, лектор может определить отображение Phi, не вычисляя его явно, и получить действительную функцию ядра с базисными функциями. В то время как обычно функции ядра вычисляются, сначала определяя Phi, а затем проводя скалярное произведение, этот метод позволяет напрямую вычислять функцию ядра в исходном пространстве.

  • 00:30:00 В этом разделе лектор обсуждает метод построения ядер. Идея состоит в том, чтобы построить новые ядра, которые могут контролировать свою сложность и следить за тем, чтобы она не зависела от нового пространства. Лектор объясняет десять правил составления ядер для создания новых корректных ядер, и, если функция не является допустимым ядром, есть основные строительные блоки, которые могут помочь составить их вместе для получения более сложных ядер. Далее в лекции представлены общие ядра, используемые на практике, такие как полиномиальное ядро, где скалярное произведение в исходном пространстве возводится в некоторую степень, в результате чего пространство признаков представляет собой все произведения степени M элементов в X. Лекция будет продолжена. на обсуждение ядра Гаусса в следующем классе.

  • 00:35:00 В этом разделе лектор объясняет, что для достижения гибкости в регрессионных или классификационных моделях без затрат на вычисления требуется высокая размерность, что может быть проблемой. Чтобы избежать этой проблемы, используются ядра, которые определяют функцию, сообщающую нам скалярное произведение между парами точек в новом пространстве. Затем полиномиальное ядро вводится как обычное ядро, которое берет скалярное произведение в исходном пространстве, возведенное в степень M. Лектор приводит конкретный пример ядра в двумерном пространстве и расширяет его, чтобы продемонстрировать соответствующее скалярное произведение в 3D пространство.

  • 00:40:00 В этом разделе лектор объясняет методы ядра, которые используются для неявного преобразования входного пространства в пространство большей размерности, где классы могут быть линейно разделимы, даже если они не находятся в исходном пространстве. В лекции объясняется, как этот метод обобщается на произвольно высокую мощность M, где он создает новые функции, которые по существу представляют собой все комбинации M возможных функций. Однако это приведет к экспоненциально большому пространству спроса, что было бы вычислительно невозможно для изображений. Чтобы обойти это, в ядро можно добавить константу C, чтобы учитывать все особенности степеней до M.

  • 00:45:00 В этом разделе объяснялась концепция полиномиального ядра и ядра Гаусса. Полиномиальное ядро используется для вычисления скалярного произведения двух векторов и может измерять сходство между двумя точками данных до второй степени. С другой стороны, ядро Гаусса обозначается формулой, которая вычисляет сходство между двумя точками данных и является популярным ядром, используемым в машинном обучении. Ядра, по сути, являются кратчайшим путем для вычисления скалярного произведения в новом пространстве и могут интерпретироваться как мера сходства между точками данных, что полезно в задачах классификации.

  • 00:50:00 В этом разделе лектор объясняет, как ядро Гаусса можно рассматривать как меру сходства между двумя точками, с высоким значением, если точки идентичны, и низким значением, если они далеко друг от друга. Однако доказательство того, что ядро Гаусса является действительным ядром, является сложной задачей, поскольку пространство признаков бесконечно. Вместо этого лектор использует правила из предыдущей лекции, чтобы обосновать достоверность ядра, в частности, правило номер четыре, в котором говорится, что взятие экспоненты ядра приводит к другому действительному ядру, и далее исследует другие правила для выражения ядра Гаусса. как комбинация действительных ядер.

  • 00:55:00 В этом разделе видео лектор демонстрирует использование различных правил, чтобы показать, что K из XX простых чисел, которое равно e минус X минус X простых чисел, деленное на 2 квадрата сигмы, является допустимым ядром. . Лектор разлагает X минус X простых чисел и разделяет члены на разные экспоненты, прежде чем использовать правила 1, 2, 4 и 8, чтобы показать, что это правильное ядро. Используемые правила включают замену a на единичную матрицу и демонстрацию того, что X транспонирует X простое число, деленное на сигма-квадрат, и e в X транспонирует X простое число, деленное на сигма-квадрат, являются допустимыми ядрами.

  • 01:00:00 В этом разделе спикер объясняет, что ядра — это положительно полуопределенные функции, которые можно разложить в матрицу, умноженную на ее транспонирование. Он также объясняет, что использование полиномиального ядра, например, потребует построения всех мономов до определенной степени, что приводит к экспоненциальной размерности. Однако при работе непосредственно с ядром все, что нужно, — это вычислить сходство между каждой парой точек данных, что делает его более эффективным с точки зрения вычислений. Также обсуждается ядро Гаусса, которое имеет бесконечное пространство признаков, что делает его мощным инструментом для представления произвольных функций. Кроме того, докладчик отмечает, что, хотя ядра определены относительно векторов, они также могут применяться к другим типам объектов, таким как наборы, строки или графы.

  • 01:05:00 В этом разделе лектор обсуждает идею отображения строк и документов с помощью методов ядра. Этот метод включает определение ядра, которое измеряет сходство между двумя документами или строками как взвешенную сумму всех несмежных подстрок, которые появляются в обоих документах. Однако перечисление всех этих функций может занять много времени и ресурсов, и именно здесь в игру вступают невекторные ядра. Эти ядра полезны при сравнении документов, которые могут содержать новые или придуманные слова, и могут отображать каждую строку или документ в новое пространство признаков, соответствующее тому, содержит ли строка определенную подстроку.

  • 01:10:00 В этом разделе спикер объясняет концепцию ядра подстроки, которая используется для определения сходства между двумя словами. Ядро подстроки принимает значение лямбда, возведенное в степень, представляющую длину подстроки, которая меньше для более важных совпадений и больше для менее важных. Ядро может эффективно вычислять скалярные произведения в пространствах признаков, которые состоят из подстрок различной длины, присутствующих в двух словах. Для эффективного вычисления этих ядер в статье предлагается постепенно увеличивать длину подстрок с помощью динамического программирования. Это позволяет вычислять ядра за линейное время, которое в противном случае было бы экспоненциальным.

  • 01:15:00 В этом разделе спикер обсуждает, как можно использовать машины опорных векторов с ядрами, чтобы работать в гораздо более богатом пространстве. Докладчик цитирует документ, в котором выполняется классификация документов с использованием новостных статей агентства Reuters, и показывает результаты с использованием этой методики. Подход может быть весьма мощным и будет обсуждаться в следующем классе.
 

CS480/680 Лекция 13: Машины опорных векторов



CS480/680 Лекция 13: Машины опорных векторов

Эта лекция представляет собой введение в машины опорных векторов (SVM) как тип метода ядра, используемого для классификации. SVM по-прежнему популярны для решения проблем с небольшим количеством данных и считаются разреженными, поскольку они могут работать с подмножеством данных и игнорировать остальные. Докладчик объясняет концепцию опорных векторов, которые являются ближайшими точками данных к границе решения, и наглядный пример того, как SVM находит линейный разделитель для разделения классов при максимальном запасе. Обсуждаются различия между SVM и персептронами, причем SVM используют уникальный линейный разделитель с максимальным запасом и менее подвержены переобучению. Задача оптимизации для SVM может быть переписана с использованием лагранжиана, что приведет к эквивалентной задаче без ограничений. Решение, полученное из лагранжиана, можно заменить обратно, чтобы получить выражение, включающее функцию ядра, что приводит к оптимизации двойной задачи. Также объясняются преимущества работы в двойном пространстве с функцией ядра, которая вычисляет сходство между парами точек данных. SVM вычисляют степень сходства между точкой запроса и всеми векторами поддержки, чтобы определить наиболее похожие, и обсуждение также вращается вокруг количества векторов поддержки и того, как оно влияет на классификацию точек.

В этом видео обсуждается концепция машин опорных векторов (SVM) в категоризации текста, где документы представлены в виде векторов количества слов. SVM эффективны для минимизации потерь в наихудшем случае, что делает классификатор пригодным для любой возможной выборки, даже для разных наборов данных. Исследователи использовали SVM с двойным представлением и отображением ядра, чтобы отображать данные в пространстве еще большего размера, не теряя точности и не жертвуя масштабируемостью. В лекции также рассматривается использование SVM для извлечения соответствующих документов из набора данных и балансировки точности и полноты. Видео завершается обсуждением способности SVM предоставлять линейные или нелинейные разделители данных, а также проблем, связанных с многоклассовой классификацией и нелинейно разделяемыми данными.

  • 00:00:00 В этом разделе спикер представляет машины опорных векторов (SVM), которые представляют собой разновидность метода ядра, используемого для классификации. Исторически SVM были наиболее важным и популярным методом классификации в машинном обучении, пока нейронные сети не взяли верх после 2010 года. Однако SVM по-прежнему хорошо работают для проблем с небольшим количеством данных и считаются разреженными, поскольку они могут работать с подмножеством данных и игнорировать отдых. Затем выступающий представляет наглядный пример двух классов данных и того, как SVM находит линейный разделитель для разделения этих классов при максимальном запасе, который представляет собой наименьшее расстояние до ближайшей точки в каждом классе.\

  • 00:05:00 В этом разделе объясняется концепция опорных векторов в машинах опорных векторов (SVM). Опорные векторы — это важные точки данных, расположенные ближе всего к границе решения, и они, по сути, определяют, куда пойдет линейный разделитель. Окончательный линейный разделитель в SVM, который максимизирует расстояние, иначе называемое запасом до ближайших точек данных, получается путем решения задачи оптимизации. Интуиция, стоящая за максимизацией поля, заключается в том, чтобы гарантировать, что точки данных, которые могут быть зашумленными, не будут неправильно классифицированы границей решения.

  • 00:10:00 В этом разделе объясняется концепция максимального запаса в машинах опорных векторов (SVM) для достижения лучшей классификации. Максимальный запас гарантирует, что классификация более устойчива к шуму и может лучше обобщаться для будущих примеров. Расстояние от точки до разделителя вычисляется с использованием скалярного произведения между вектором весов и вектором признаков для этой точки данных, которое затем нормализуется для получения максимального запаса. Также приводится формула для вычисления расстояния от любой точки до разделителя и обсуждается цель, которая оптимизируется в SVM. Подчеркивается, что существует единственная линия с максимальной маржой, и, следовательно, любые две строки, равные по марже, не являются линией максимальной маржи.

  • 00:15:00 В этом разделе обсуждаются различия между машинами опорных векторов (SVM) и персептронами. Перцептроны находят линейный разделитель, но этот разделитель зависит от начальных значений, используемых для инициализации весов. Персептроны также используют простое правило обновления для обучения и полагаются на переворачивание меток для измерения расстояния между линейным разделителем и точками данных. Напротив, SVM используют задачу квадратичной оптимизации, чтобы найти линейный разделитель максимального поля, который меньше зависит от инициализации. В SVM также введена концепция временного резерва, позволяющая классифицировать мягкую маржу, и есть хитрость ядра для нелинейной классификации. В целом SVM имеют более высокую точность классификации по сравнению с персептронами.

  • 00:20:00 В этом разделе лектор сравнивает стандартные персептроны с машинами опорных векторов (SVM). В то время как первому не хватает надежности, и он может быстро переобучиться, второй использует уникальный линейный разделитель максимального поля и менее подвержен переобучению. SVM оптимизируются с помощью выпукло-квадратичной оптимизации для минимизации весов при условии, что все точки данных находятся как минимум на одной единице расстояния от линейного разделителя. Хотя эта оптимизация может показаться сложной, на самом деле ее довольно легко выполнить с помощью множества доступных пакетов оптимизации.

  • 00:25:00 В этом разделе спикер представляет более удобную задачу оптимизации для машин опорных векторов, где расстояние между точками фиксировано и составляет не менее единицы, а масштаб W сведен к минимуму. Докладчик демонстрирует, что эта задача эквивалентна предыдущей задаче оптимизации. Эта новая формулировка допускает двойное представление, в котором вычисления в новом пространстве признаков могут выполняться с точки зрения скалярных произведений, которые можно заменить функцией ядра, аналогично тому, что было сделано с гауссовыми процессами.

  • 00:30:00 В этом разделе спикер объясняет, как задачу оптимизации для машин опорных векторов можно переписать с помощью лагранжиана, что приведет к эквивалентной задаче без ограничений. Эта новая цель включает штрафной срок для каждого нарушенного ограничения, который зависит от новой переменной а, которая обязательно положительна и больше нуля, когда происходит нарушение. Установив эту переменную так, чтобы максимизировать минимум лагранжиана, новая задача математически эквивалентна исходной задаче с ограничениями. Этот прием помогает упростить процесс оптимизации и сделать его более эффективным.

  • 00:35:00 В этом разделе лектор обсуждает использование штрафных условий и ограничений в задачах оптимизации для машин опорных векторов. Они объясняют, что ограничение, ограничивающее расстояние между точками, можно заменить штрафным сроком, который оптимизируется путем выбора коэффициента. Однако эта проблема оптимизации приводит к проблеме максимума, которую нелегко решить. Чтобы решить эту проблему, лектор описывает, как вычислить внутреннюю задачу минимизации в закрытой форме, придя к решению, где W — это линейная комбинация точек данных в новом пространстве признаков. Отличные от нуля коэффициенты, являющиеся опорными векторами, определяют значение W.

  • 00:40:00 В этом разделе лектор объясняет, как решение, полученное из лагранжиана, можно подставить обратно, чтобы получить выражение, включающее функцию ядра. Эта функция ядра позволяет нам работать в многомерном пространстве, не беспокоясь о размерности, поскольку мы можем вычислять функцию ядра непосредственно между каждой парой точек. Это приводит к оптимизации двойной задачи, когда мы оптимизируем другой набор переменных для получения коэффициентов. Большинство этих коэффициентов в конечном итоге будут равны нулю, что сделает задачу оптимизации разреженной и уменьшит вычислительную сложность. Получив коэффициенты, мы можем использовать их для классификации точек данных, взяв скалярное произведение признаков и коэффициентов с положительным или отрицательным результатом, соответствующим разным классам.

  • 00:45:00 В этом разделе инструктор объясняет концепцию машин опорных векторов (SVM) в линейно разделимом случае. Они показывают, что линейный разделитель в двумерном пространстве может быть представлен скалярным произведением вектора нормали и входных признаков. Точки на линейном разделителе соответствуют скалярному произведению, равному 0. Затем они объясняют преимущества работы в двойном пространстве, которое включает замену весов функцией ядра, которая вычисляет сходство между парами точек данных. Результирующая сумма зависит только от количества опорных векторов и позволяет классифицировать на основе синуса линейной комбинации ядер между точкой запроса и каждой точкой в наборе данных.

  • 00:50:00 В этом разделе лектор объясняет, что алгоритм SVM вычисляет степень сходства между точкой запроса и всеми опорными векторами, чтобы определить наиболее похожие из них. Затем класс этих наиболее похожих опорных векторов будет «голосовать» за предсказанный класс точки запроса. Это похоже на взвешенный метод ближайшего соседа с весами, определяемыми функцией ядра. Однако количество опорных векторов не обязательно может быть одинаковым для каждого класса и может варьироваться в зависимости от размерности пространства.

  • 00:55:00 В этом разделе обсуждение вращается вокруг количества опорных векторов и того, как оно влияет на классификацию точек. Несмотря на наличие большего количества опорных векторов в одном классе, количество опорных векторов не влияет на склонность классифицировать точки в этом классе. Причина этого в том, что каждый опорный вектор вносит свой вклад в сумму, положительную или отрицательную, указывая, принадлежит ли точка к тому же классу, что и опорный вектор. Кроме того, известно, что машины опорных векторов хорошо обобщают и менее склонны к переобучению, поскольку максимизация маржи эквивалентна минимизации верхней границы наихудших потерь для любого базового входного распределения.

  • 01:00:00 В этом разделе лекции спикер объясняет концепцию машин опорных векторов и то, как они работают в категоризации текста. Машины опорных векторов эффективны для минимизации потерь в наихудшем случае и обеспечения качества классификатора по отношению к любой возможной выборке, которая может соответствовать различным наборам данных. Лекция представляет собой тематическое исследование категоризации текста, где классификаторы обучаются на архиве новостных статей, которые уже были классифицированы. Популярным подходом было преобразование каждого документа в вектор количества слов с использованием модели векторного пространства, где порядок слов игнорируется и создается вектор, равный длине словаря. Такой подход помог автоматизировать категоризацию статей и улучшить масштабируемость.

  • 01:05:00 В этом разделе лекции профессор объясняет, как документы могут быть представлены в виде многомерных векторов, где каждый признак соответствует слову в словаре документа. Хотя естественно пытаться уменьшить размерность этих векторов за счет извлечения признаков, это может привести к потере информации, поскольку большинство слов имеют определенный уровень релевантности. Чтобы решить эту проблему, исследователи использовали машины опорных векторов с двойным представлением и отображением ядра, чтобы сопоставить данные с пространством еще большего размера. Этот подход хорошо масштабируется по количеству измерений, что делает его полезным инструментом для анализа многомерных данных.

  • 01:10:00 В этом разделе докладчик обсуждает использование машин опорных векторов для извлечения документов из набора данных. Точность и полнота — это меры, используемые для оценки процента извлеченных релевантных документов и процента релевантных документов в наборе данных соответственно. Цель состоит в том, чтобы сбалансировать точность и полноту, и алгоритм опорных векторов оказался лучшим алгоритмом для этой цели. Они смогли сохранить все функции и отобразить их в пространстве более высокого измерения, не теряя точности и не жертвуя масштабируемостью. Количество опорных векторов, требуемых в пространстве большего размера, может увеличиваться, но работа в этом пространстве не связана с дополнительными затратами.

  • 01:15:00 В этом разделе мы узнаем о машинах опорных векторов (SVM) и о том, как они могут дать нам линейный или нелинейный разделитель для наших данных. SVM используют уникальную гиперплоскость, чтобы максимизировать запас для хорошего обобщения, и мы можем использовать выпуклую квадратичную оптимизацию, чтобы гарантировать глобальную оптимальность. Однако необходимо решить два важных вопроса: можем ли мы выполнить классификацию по нескольким классам и что нам делать, если наши данные не являются линейно разделимыми? Следующий набор слайдов будет посвящен этим вопросам.
 

CS480/680 Лекция 14: Методы опорных векторов (продолжение)



CS480/680 Лекция 14: Методы опорных векторов (продолжение)

Этот раздел лекции посвящен обработке нелинейно разделимых данных и перекрывающихся классов при использовании машин опорных векторов (SVM) путем введения резервных переменных и учета мягкого запаса. Докладчик объясняет, как переменные резерва позволяют классифицировать точки в пределах поля без внесения ошибки классификации. Штрафной член добавляется к задаче оптимизации, чтобы регулировать использование резервных переменных, контролируемых весом C, который регулирует компромисс между минимизацией ошибок и сложностью модели. Докладчик также обсуждает различные подходы к использованию SVM для задач классификации с несколькими классами, включая «один против всех», попарное сравнение и непрерывное ранжирование, причем последний фактически является подходом для SVM с несколькими классами. Кроме того, вводится понятие мультиклассовой маржи, которое включает буфер вокруг линейного разделителя, определяемый разностью весовых векторов для каждой пары классов.

  • 00:00:00 В этом разделе лектор обсуждает, как поступать с нелинейно разделяемыми данными и перекрывающимися классами при использовании машин опорных векторов (SVM). Решение состоит в том, чтобы ввести переменные резерва и рассмотреть так называемое мягкое поле, которое ослабляет предположение о том, что все точки должны быть удалены как минимум на одну единицу от разделителя. Переменные Slack допускают, чтобы поле было меньше единицы, так что даже точки в пределах поля можно классифицировать без внесения ошибки классификации.

  • 00:05:00 В этом разделе вводится понятие мягкого запаса как способ учета неправильно классифицированных точек и точек в пределах поля путем введения резервных переменных. Штрафной член также добавляется к задаче оптимизации, чтобы регулировать использование резервных переменных и обеспечивать минимизацию штрафа за временную переменную. Это контролируется весом C, который также определяет компромисс между минимизацией ошибок и сложностью модели. Сумма резервных переменных обычно является верхней границей количества ошибочных классификаций. Вес C можно рассматривать как коэффициент регуляризации, который регулирует компромисс между минимизацией ошибок и сложностью модели, и когда C достигает бесконечности, восстанавливается исходный классификатор с жесткими границами.

  • 00:10:00 В этом разделе спикер продолжает обсуждать машины опорных векторов и способы обработки неправильных классификаций и выбросов. Мягкие поля могут справляться с незначительными неправильными классификациями, но по-прежнему чувствительны к выбросам. Опорные векторы будут соответствовать активным ограничениям, которые имеют равенство, в то время как векторы с неравенством не активны, если расстояние уже больше единицы, что означает, что все переменные резерва будут равны нулю. Докладчик также коснется того, как расширить машины опорных векторов для работы с несколькими классами, где исторически рассматривались три подхода, один из которых — «один против всех», где каждая машина опорных векторов будет различать класс и все другие классы.

  • 00:15:00 В этом разделе лекции спикер объясняет различные подходы к использованию машин опорных векторов для классификации данных с несколькими классами. Первый подход, «один против всех», предполагает обучение машины опорных векторов для каждого класса по сравнению с остальными, но это может привести к конфликтам в классификации. Второй подход, попарное сравнение, требует обучения методам опорных векторов для каждой пары классов, что может потребовать значительных вычислительных ресурсов. Третий подход, непрерывное ранжирование, обучает одну машину опорных векторов возвращать непрерывное значение для ранжирования классов на основе этих значений. Докладчик иллюстрирует эти подходы на примерах и приходит к выводу, что попарное сравнение не является идеальным из-за его вычислительной стоимости, оставляя один против всех как наименее благоприятный и непрерывный ранжирование в качестве фактического подхода для использования методов опорных векторов с несколькими классами.

  • 00:20:00 В этом разделе лектор обсуждает различные подходы к использованию машин опорных векторов для задач многоклассовой классификации. Они объясняют, как использование нескольких линейных разделителей для различения разных классов приводит к неоднозначным точкам, и описывают альтернативный подход, непрерывное ранжирование. Идея этого подхода состоит в том, чтобы использовать отдельные векторы весов для каждого класса и сравнивать величину скалярных произведений входных данных с вектором весов каждого класса, выбирая класс с наибольшим скалярным произведением. Этот подход обобщает концепцию поля для сравнения скалярных произведений разных классов и гарантирует, что правильный класс имеет скалярное произведение, которое больше, чем все неправильные классы, по крайней мере, на единицу.

  • 00:25:00 В этом разделе лекции ведущий объясняет концепцию многоклассовой маржи в машинах опорных векторов (SVM). Поле для нескольких классов соответствует наличию буфера вокруг линейного разделителя, который определяется разностью весовых векторов для каждой пары классов. Проблема оптимизации остается такой же, как и у бинарных SVM, с заменой только ограничений. При перекрывающихся классах и нескольких классах могут быть введены резервные переменные и штрафной термин для обработки классификации нескольких классов с мягким запасом. Мультиклассовый SVM теперь является общей формулировкой, которая работает с несколькими классами и перекрывающимися классами.
 

CS480/680 Лекция 15: Глубокие нейронные сети



CS480/680 Лекция 15: Глубокие нейронные сети

В этом видео рассматриваются основы глубокого обучения, в том числе концепции глубоких нейронных сетей, проблема исчезающего градиента и эволюция глубоких нейронных сетей в задачах распознавания изображений. Лектор объясняет, как можно использовать глубокие нейронные сети для более краткого представления функций и как они вычисляют функции, которые становятся все более высокого уровня по мере того, как сеть становится глубже. Рассматриваются решения проблемы исчезающего градиента, в том числе использование выпрямленных линейных единиц (ReLU) и нормализация партии. В лекции также рассматриваются блоки max-out и их преимущества как обобщения ReLU, которое позволяет использовать несколько линейных частей.

В лекции о глубоких нейронных сетях обсуждаются две проблемы, требующие решения для эффективного глубокого обучения: проблема переобучения из-за многослойной выразительности сети и потребность в высокой вычислительной мощности для обучения сложных сетей. Лектор предлагает такие решения, как регуляризация и отсев во время обучения, а также параллельные вычисления во время вычислений. В лекции также подробно рассказывается, как отсев можно использовать во время тестирования путем масштабирования входных и скрытых величин единиц. Наконец, лекция завершается представлением некоторых прорывных приложений глубоких нейронных сетей в распознавании речи, распознавании изображений и машинном переводе.

  • 00:00:00 В этом разделе мы узнаем об основах глубокого обучения, в частности, что такое глубокая нейронная сеть и чем она отличается от обычной нейронной сети. Мы обнаруживаем, что термин «глубокое обучение» в основном используется в маркетинговых целях, поскольку концепция нейронных сетей с множеством скрытых слоев была впервые предложена в 1980-х годах. Однако преимущество использования глубоких нейронных сетей заключается в том, что они, как правило, очень выразительны, что позволяет им хорошо соответствовать данным. Задача заключается в их эффективном обучении, и именно здесь возникает «великая и исчезающая проблема».

  • 00:05:00 В этом разделе лектор обсуждает вопросы обучения больших нейронных сетей и проблему переобучения из-за большого количества весов и параметров. Раньше исследователи отдавали предпочтение нейронным сетям с одним скрытым слоем, потому что они могли аппроксимировать любую функцию с помощью достаточного количества скрытых единиц. Тем не менее, нейронные сети с несколькими скрытыми слоями имеют то преимущество, что уменьшают общий размер сети, который может быть уменьшен экспоненциально, как показано на примере функции четности. Лектор показывает архитектуру нейронной сети, которая кодирует функцию четности, где скрытый слой представляет собой пороговый персептрон, который кодирует логическую функцию «и», а единицей вывода является логическая функция «или».

  • 00:10:00 В этом разделе лектор объясняет, как можно настроить нейронную сеть, чтобы определить, является ли количество включенных входов четным или нечетным. Каждый скрытый блок в полностью связанной сети отвечает за проверку одного определенного шаблона, где входы нечетные, а выходной блок является просто ИЛИ скрытых блоков. Есть 8 паттернов с 4 нечетными входами, и каждая скрытая единица отвечает за один из этих паттернов. Однако лектор отмечает, что в целом наличие n входных данных приведет к экспоненциальному увеличению количества скрытых единиц, что делает этот подход не масштабируемым и предлагает альтернативный подход.

  • 00:15:00 В этом разделе лектор рассказывает о концепции глубоких нейронных сетей, которые включают несколько слоев и могут использоваться для более краткого представления функций. В лекции приводится пример функции четности, которая может быть представлена только экспоненциально большей сетью только с одним скрытым слоем или сетью линейного размера с несколькими скрытыми слоями. Затем лектор обсуждает, как глубокие нейронные сети можно использовать на практике для задач компьютерного зрения, таких как распознавание лиц, когда входные данные (например, интенсивность пикселей) передаются в сеть, а промежуточные значения вычисляются для получения классификации на выходе.

  • 00:20:00 В этом разделе видео обсуждается, как глубокие нейронные сети вычисляют функции, которые в начале сети являются простыми и становятся все более высокого уровня по мере того, как мы углубляемся. В компьютерном зрении до глубокого обучения специалисты-практики вручную разрабатывали функции для своих задач. Однако глубокое обучение позволяет изучать функции как часть сети, что позволяет работать с необработанными данными. Этот прорыв был впервые осуществлен Джеффом Хинтоном в 2006 году, который разработал первую эффективную глубокую нейронную сеть.

  • 00:25:00 В этом разделе обсуждается история глубоких нейронных сетей и их прорывы в распознавании речи и классификации изображений. Первый прорыв произошел в 2009 году, когда Джефф Хинтон разработал способ обучения глубоких нейронных сетей слой за слоем с использованием ограниченных машин Больцмана, что привело к значительному улучшению тестов распознавания речи. Примерно в 2013 году рекуррентные нейронные сети заменили ограниченные машины Больцмана, что привело к еще лучшим результатам. Второй прорыв произошел в классификации изображений, когда в 2010 году была предложена программа ImageNet Large Scale Visual Recognition Challenge. Несмотря на годы исследований, компьютеры не могли точно классифицировать изображения по 1000 категориям. Однако к 2012 году алгоритмы глубокого обучения снизили уровень ошибок с 26% до 15%, а к 2016 году Microsoft достигла уровня ошибок 3,1%, превзойдя возможности человека.

  • 00:30:00 В этом разделе спикер обсуждает историю и эволюцию глубоких нейронных сетей, в частности, в задачах распознавания изображений. Частота ошибок в задачах классификации изображений была значительно снижена в 2012 году благодаря внедрению сверточной нейронной сети под названием AlexNet группой Джеффа Хинтона. Это привело к пониманию того, что нейронные сети могут достигать замечательных результатов, и были разработаны более сложные архитектуры для дальнейшего снижения частоты ошибок. Со временем глубина сетей увеличилась, и наметилась четкая тенденция к более глубоким сетям. Возможность применять и использовать глубокие нейронные сети для задач распознавания изображений стала результатом различных инноваций, в том числе более совершенных методов обучения и предотвращения переобучения.

  • 00:35:00 В этом разделе рассматривается проблема исчезновения градиентов в глубоких нейронных сетях, которая возникает, когда частные производные весов, связанных с ребрами в предыдущих слоях, меньше по величине, что приводит к незначительным значениям по мере углубления сети. Это затрудняло для исследователей обучение нейронных сетей с несколькими слоями, потому что нижние слои не обучались, поэтому не давали значимых результатов для улучшения прогнозов сети. Частично это было связано с используемыми функциями активации, такими как сигмовидная функция или функция гиперболического тангенса, градиент которых всегда был меньше 1, что затрудняло оптимизацию весов и корректировку начальных вычислений.

  • 00:40:00 В этом разделе лектор объясняет проблему исчезновения градиента в глубокой нейронной сети. Он создает игрушечную нейронную сеть с сигмовидной единицей активации и показывает, как градиент состоит из частных производных, которые являются произведениями факторов, причем каждый фактор является либо частной производной сигмоиды, либо весом. Поскольку частные производные сигмоиды всегда меньше единицы, а веса инициализированы величинами меньше единицы, умножение этих коэффициентов приводит к тому, что частные производные становятся все меньше и меньше. Это приводит к тому, что веса оказывают все меньшее и меньшее влияние по мере того, как мы возвращаемся к слоям, что приводит к проблеме исчезновения градиента. Затем лектор представляет некоторые общие решения, такие как предварительное обучение, различные функции активации, пропуск соединений и нормализация пакетов, и фокусируется на выпрямленных линейных единицах и единицах максимального выхода в качестве возможных решений.

  • 00:45:00 В этом разделе лектор обсуждает решения проблемы исчезающих градиентов, возникающих из-за проблемных функций активации. Одним из возможных решений является использование функций активации, которые имеют производные больше нуля, такие как выпрямленная линейная единица (ReLU), которая возвращает линейную комбинацию входных данных или ноль. Другим решением является пакетная нормализация, которая гарантирует, что данные эффективно находятся в диапазоне, где градиент имеет тенденцию быть близким к единице. Эти решения допускают некоторые пути с исчезающими градиентами, если достаточное количество путей имеют градиенты, равные единице, что распространяется на градиент через нейронную сеть.

  • 00:50:00 В этом разделе лектор рассказывает о выпрямленных линейных установках (ReLU), их преимуществах и недостатках. Первоначально ReLU подвергались критике за то, что они имеют разрыв в нуле, что вызывает проблемы с вычислением градиентов с использованием градиентного спуска. Однако на практике этот вопрос не имеет существенного значения, поскольку числовые значения редко равны нулю. Напротив, функция мягких потерь, которая аппроксимирует ReLU, является гладкой и непрерывной, но ее градиент везде меньше единицы. Следовательно, сглаживание ReLU не помогает устранить проблему исчезновения градиента. Несмотря на то, что в ReLU есть часть, которую можно было бы проигнорировать, они все же полезны, потому что есть входы, для которых каждый блок будет производить что-то в линейной части.

  • 00:55:00 В этом разделе спикер обсуждает преимущества выпрямленных линейных блоков (ReLU) и вводит концепцию блоков максимального выхода. Он объясняет, что ReLU стали популярными, потому что в случаях, когда градиент не исчезает, их можно обучать быстрее, требуя меньше градиентного спуска. Затем спикер представляет единицы максимального выхода как обобщение ReLU, которое допускает несколько линейных частей, а не только нулевую часть и линейную часть, и демонстрирует, как они строятся, беря максимум различных линейных комбинаций. Показано, что форма единицы с максимальным выходом имеет несколько линейных комбинаций, каждая из которых соответствует линии, и становится агрегацией скрытого слоя единиц идентичности с максимальной единицей.

  • 01:00:00 В этом разделе лекции профессор обсуждает две проблемы, которые необходимо решить, чтобы глубокое обучение было эффективным. Первая проблема — это вопрос переобучения, возникающий из-за высокой выразительности многослойных сетей. Регуляризация — это одно из решений, которое включает в себя минимизацию величины весов, чтобы они оставались небольшими и ограниченными. Другим решением является отсев, при котором некоторые сетевые блоки случайным образом отбрасываются во время обучения, чтобы сделать сеть более надежной и предотвратить переобучение. Вторая проблема заключается в необходимости высокой вычислительной мощности для обучения сложных сетей, что может быть достигнуто за счет параллельных вычислений с использованием графических процессоров или распределенных вычислений.

  • 01:05:00 В этом разделе спикер обсуждает использование отсева во время тестирования глубоких нейронных сетей. Во время обучения отсев — это метод, при котором некоторые входные или скрытые единицы случайным образом удаляются из сети, чтобы предотвратить переоснащение. Однако во время тестирования используется вся сеть, что может привести к тому, что величины линейных комбинаций будут выше. Чтобы решить эту проблему, входные единицы масштабируются, умножая их на 1 минус вероятность их выпадения, и то же самое делается для скрытых единиц. Докладчик приводит пример полностью подключенной сети с тремя входами, четырьмя скрытыми единицами и одним выходом и объясняет использование генератора случайных чисел для удаления некоторых входных и скрытых единиц во время обучения.

  • 01:10:00 В этом разделе инструктор обсуждает, что произойдет, если все входные или скрытые единицы будут удалены в нейронной сети, и как регуляризация отсева может решить эту проблему. Хотя маловероятно, что все единицы будут удалены, это может повлиять на точность, если они будут удалены. Регуляризация отбрасывания помогает предотвратить переоснащение и заставляет сеть становиться устойчивой по отношению к отброшенным функциям. Алгоритм регуляризации отсева включает в себя выборку переменных Бернулли для создания искаженной сети, в которой некоторые единицы отбрасываются, и умножение величин оставшихся единиц на 1 минус вероятность отбрасывания. Во время обучения градиент вычисляется относительно изуродованной сети.

  • 01:15:00 В этом разделе ведущий обсуждает технику отсева, используемую в глубоких нейронных сетях, чтобы сделать сеть надежной и предотвратить переоснащение. Dropout — это форма аппроксимированного и выборочного обучения, при которой каждая итерация вычисляет искаженную сеть, отбрасывая определенные узлы, что приводит к одной гипотезе или функции, которая может кодировать то, что изучается. Всю сеть можно рассматривать как среднее значение всех изуродованных сетей с корректировкой того, что вычисляется. Этот метод похож на байесовское обучение, и было доказано, что он аппроксимирует некоторые вычисления по отношению к глубокому гауссовскому процессу. Это помогает объяснить, почему отсев может хорошо работать на практике. В заключение докладчик представляет некоторые приложения, в которых глубокие нейронные сети совершили прорыв, включая распознавание речи, распознавание изображений и машинный перевод.

  • 01:20:00 В этом разделе спикер описывает исторический современный метод распознавания речи, который представлял собой скрытую марковскую модель, использующую смесь гауссов. Однако в 2009 году Джефф Хинтон и его исследовательская группа предложили заменить гауссову смесь глубокой нейронной сетью, в которой использовалась многоуровневая ограниченная машина Больцмана. Эта гибридная модель между вероятностной моделью и глубокой нейронной сетью привела к значительному снижению частоты ошибок, что наблюдалось в нескольких тестах. Благодаря этому прорыву несколько компаний, в том числе Google и Microsoft, начали использовать глубокие нейронные сети, что в конечном итоге привело к возрождению в области глубокого обучения.

  • 01:25:00 В этом разделе лектор обсуждает прорывы в нейронных сетях, начиная с прорыва в распознавании изображений, произошедшего в 2012 году. Прорыв произошел благодаря развитию сверточных нейронных сетей, которые принимают на вход двумерные массивы интенсивностей пикселей, иметь слои свертки, которые вычисляют объекты с разной степенью детализации, и плотные слои, которые полностью связаны. Увеличение данных также использовалось для улучшения распознавания, делая его инвариантным к вращению и другим факторам. Результатом стало значительное снижение частоты ошибок с 26,2% до 16,4% для лучших участников соревнований. Хотя 16% по-прежнему относительно высоки, трудно точно классифицировать изображения среди тысяч классов, и была измерена точность предсказания пяти лучших, а не лучших.

  • 01:30:00 В этом разделе лектор обсуждает производительность алгоритма глубокой нейронной сети на примере изображения могущества. Алгоритм возвращает пять потенциальных классов и присваивает каждому из них показатель достоверности, чтобы определить вероятность того, что это правильный класс. Сеть в целом работает хорошо, правильно распознавая такие объекты, как контейнеровоз и мотороллер, с высокой степенью достоверности, но бывают случаи, когда она неправильно классифицирует объект.
 

CS480/680 Лекция 16: Сверточные нейронные сети



CS480/680 Лекция 16: Сверточные нейронные сети

В этом видео представлены сверточные нейронные сети (CNN) и объясняется их важность в обработке изображений как особого типа нейронной сети с ключевыми свойствами. Лектор обсуждает, как свертка может использоваться для обработки изображений, например, при обнаружении краев, и как CNN могут обнаруживать функции аналогичным образом. Объясняется концепция сверточных слоев и их параметров, а также процесс обучения CNN с использованием обратного распространения ошибки и градиентного спуска с общими весами. Лектор также предоставляет принципы проектирования для создания эффективных архитектур CNN, таких как использование меньших фильтров и нелинейная активация после каждой свертки.

В этой лекции о сверточных нейронных сетях (CNN) докладчик обсуждает концепцию остаточных соединений как решение проблемы исчезающего градиента, с которой сталкиваются глубокие нейронные сети. Эти пропущенные соединения позволяют сокращать сетевые пути и игнорировать бесполезные слои, но при этом иметь возможность использовать их, если это необходимо, чтобы избежать создания выходных данных, близких к нулю. Использование методов пакетной нормализации также введено для смягчения проблемы исчезающих градиентов. Кроме того, докладчик отмечает, что CNN можно применять к последовательным данным и тензорам с более чем двумя измерениями, например, в видеопоследовательностях, и что 3D CNN также возможны для определенных приложений. Платформа TensorFlow выделена как предназначенная для вычислений с многомерными массивами.

  • 00:00:00 В этом разделе ведущий представляет сверточные нейронные сети (CNN) и объясняет их важность в обработке изображений как особый тип нейронной сети с ключевыми свойствами. Далее в лекции обсуждается, как CNN могут масштабироваться для обработки больших наборов данных и последовательностей. Докладчик объясняет, что CNN названы в честь математической операции свертки, которая изменяет две функции для получения третьей функции, с примером использования свертки для сглаживания. В конспектах лекций гауссианы также используются в качестве весовых функций для операции свертки.

  • 00:05:00 В этом разделе обсуждается концепция свертки как в непрерывном, так и в дискретном случаях, когда выход Y представляет собой взвешенную комбинацию X в окрестности. Применительно к изображениям это двумерная функция, где каждый пиксель является измерением этой функции в определенной координате в направлениях x и y. Веса, применяемые к интенсивности каждого пикселя, могут создать новое изображение Y. В качестве примера можно использовать простую свертку для обнаружения краев в изображении в градациях серого для обнаружения вертикальных краев.

  • 00:10:00 В этом разделе спикер обсуждает, как можно использовать свертки для обнаружения признаков в нейронных сетях. Свертка — это, по сути, линейная комбинация подмножества единиц на основе определенного шаблона весов, которая может помочь обнаружить такие функции, как края или другие шаблоны, которые могут быть важны для данной задачи. Спикер также объясняет, что шаблон весов определяет фильтр для обнаружения объекта в окрестности, а нелинейная функция активации усиливает выходные данные. Габ или фильтры — это популярный класс фильтров, которые соответствуют общим картам признаков, вдохновленным тем, как работает зрительная кора человека.

  • 00:15:00 В этом разделе лектор объясняет, как работают сверточные нейронные сети. Идея состоит в том, чтобы обнаруживать небольшие края на изображении, применяя патчи весов, которые соответствуют определенной функции, и величина каждого патча определяется его цветом. Эти патчи применяются к изображению путем чередования слоев свертки и объединения слоев. Сверточный слой работает путем вычисления свертки, соответствующей другому вектору, с использованием фильтра определенного размера с теми же весами. Ключевыми элементами сверточной нейронной сети являются эти слои свертки и объединения, которые чередуются для обнаружения различных функций на изображении.

  • 00:20:00 В этом разделе объясняется концепция сверточных слоев в нейронных сетях. Сверточные слои используют окно фиксированного размера или патч с набором весов или фильтром, примененным к нему. Этот фильтр повторно используется в каждом окне слоя, создавая гораздо более разреженное представление соединений между входами и выходами по сравнению с полносвязным слоем. В 1D примере берется патч размером 3 на 1 и к каждому окну ввода применяется фильтр. Точно так же в 2D-примере берется участок размером 3 на 3 с тем же набором весов, применяемым к скользящим окнам для обнаружения определенных элементов, таких как края. Повторно используя один и тот же фильтр в экземплярах окна, сверточные слои обеспечивают более компактную и эффективную структуру сети.

  • 00:25:00 В этом разделе лектор объясняет сверточные нейронные сети и то, как они работают с сигналами изображения и звука, используя один и тот же набор весов для каждого фрагмента изображения или сигнала. Сеть обнаруживает объекты, применяя фильтр пула, который вычисляет локальную равную дисперсию, позволяя сети распознавать объекты независимо от их местоположения. Этот метод можно использовать для распознавания цифр с растровым изображением в качестве входных данных и созданием метки от 0 до 9 в качестве вывода. Лектор отмечает, что обратное распространение и автоматическое дифференцирование обрабатывают общие веса, обновляя веса для ребер, имеющих одинаковый вес.

  • 00:30:00 В этом разделе видео лектор объясняет, как работают сверточные нейронные сети (CNN). Первым шагом является применение свертки 5x5 к входному изображению с использованием фильтра, который позволяет обнаруживать более крупные объекты, чем более мелкие фильтры. Это создает карту объектов размером 28x28, которую можно использовать для проверки наличия или отсутствия объектов в разных местах. Затем применяется слой максимального пула, чтобы уменьшить размер карты объектов до 14x14, используя максимум каждого патча 2x2. Затем применяется еще одна свертка с использованием фильтра 5x5 для обнаружения функций более высокого уровня, который создает 12 карт функций, которые снова подвергаются максимальному объединению. Интуиция, стоящая за максимальным объединением, заключается в том, что точное расположение некоторых функций, таких как глаза или нос при распознавании лиц, может незначительно отличаться.

  • 00:35:00 В этом разделе лектор обсуждает вторую часть нейронной сети, которая предназначена для классификации. Обычный подход состоит в том, чтобы взять полностью связанный слой, сгладить объекты и построить вектор узлов для вычисления классов с весами, скорректированными посредством обратного распространения. Прелесть сверточных нейронных сетей заключается в том, что веса для сверточных фильтров не разрабатываются людьми, а инициализируются случайным образом и обновляются по мере обучения сети, что позволяет сети научиться извлекать соответствующие функции. Сеть способна оптимизировать и предлагать функции, которые лучше работают на практике, благодаря решению, основанному на данных.

  • 00:40:00 В этом разделе лектор обсуждает концепцию разреженных соединений в сверточных нейронных сетях, которая относится к тому факту, что узлы имеют лишь несколько соединений, а не являются полностью связанными. Это позволяет использовать гораздо меньшее количество весов и более разреженные вычисления. Лектор также объясняет, как в сверточном слое нейронной сети задаются такие параметры, как количество фильтров, размер ядра, шаг и отступы. Приведенные примеры помогают дополнительно прояснить, как эти параметры используются при определении сверточных слоев.

  • 00:45:00 В этом разделе лектор объясняет, как работают сверточные нейронные сети. Лектор демонстрирует, как сверточный слой обрабатывает входное изображение, применяя к нему ядро. Размер ядра определяет размер выходных данных, а шаг определяет, насколько ядро перемещается по входным данным. Заполнение также можно использовать для сохранения исходного размера ввода. Лектор приводит примеры того, как разные размеры ядра и шага влияют на выходной размер сверточный слой.

  • 00:50:00 В этом разделе лектор обсуждает процесс обучения сверточных нейронных сетей (CNN) с использованием обратного распространения ошибки и градиентного спуска с распределением весов между переменными. Процесс вычисления частной производной ничем не отличается, если переменная появляется в функции несколько раз, и для обучения можно использовать такие алгоритмы, как Adam и RMSprop. Когда дело доходит до проектирования архитектуры нейронной сети, это зависит от проблемы и является искусством, а не наукой. Однако некоторые эмпирические правила показали хорошие результаты, например, использование стека небольших фильтров вместо одного большого фильтра для меньшего количества параметров и более глубокой сети.

  • 00:55:00 В этом разделе видео инструктор объясняет практическое правило проектирования архитектур сверточных нейронных сетей (CNN). Он предполагает, что использование фильтров меньшего размера, как правило, работает лучше и дает меньше параметров по сравнению с фильтрами большего размера. При использовании стека фильтров меньшего размера вместо фильтра большего размера воспринимающее поле остается прежним, а количество необходимых параметров уменьшается. Кроме того, добавление нелинейной активации после каждой свертки может повысить производительность CNN. Эти принципы проектирования могут быть полезны для создания эффективных архитектур для различных приложений.

  • 01:00:00 В этом разделе обсуждается использование остаточных слоев в сверточных нейронных сетях. Остаточные слои были предложены в 2015 году как способ избежать ухудшения качества сетей, вызванного добавлением слишком большого количества слоев. Идея состоит в том, чтобы создать пропущенные соединения, чтобы сократить пути в сети, эффективно уменьшая глубину и более эффективно распространяя градиент. Остаточное соединение пропускает некоторые слои и добавляет вход X к выходу пропущенных слоев. Таким образом, если дополнительные уровни бесполезны, их можно игнорировать без ущерба для производительности сети.

  • 01:05:00 В этом разделе спикер вводит понятие остаточных соединений в сверточных нейронных сетях (CNN) и объясняет, как они могут решить проблему исчезающих градиентов. Используя пропущенные соединения, которые, по сути, добавляют функцию идентификации к выходным данным слоя, сети предоставляется возможность игнорировать определенные бесполезные слои, но при этом иметь возможность использовать их, если она того пожелает. Это позволяет избежать проблемы слоев, производящих выходные данные, близкие к нулю, что может привести к полному игнорированию сетью этих слоев. Докладчик также упоминает, что пропущенные соединения не влияют на размер градиента, и предлагает использовать пакетную нормализацию в качестве еще одного подхода к смягчению проблемы исчезающих градиентов.

  • 01:10:00 В этом разделе видео спикер обсуждает методы решения таких проблем, как проблема исчезающего градиента и нормализация в сверточных нейронных сетях. Пакетная нормализация — это обычно используемая эвристика, при которой значения нормализуются в соответствии с любым пакетом данных, который используется с дисперсией 1 и центрируется на 0, отдельно для каждого измерения. Кроме того, пропущенные соединения могут способствовать более быстрому распространению градиентов, поскольку они обеспечивают более короткие пути для обратного распространения. Наконец, докладчик отмечает, что сверточные нейронные сети можно использовать не только для компьютерного зрения, включая последовательные данные и тензоры с более чем двумя измерениями, как это видно в таких приложениях, как видеопоследовательности. Платформа TensorFlow предназначена для выполнения вычислений в отношении многомерных массивов, а не ограничивается только векторами или матрицами.

  • 01:15:00 В этом разделе упоминается, что трехмерные сверточные нейронные сети существуют, и хотя они не так распространены, есть несколько приложений, в которых их можно использовать.