Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
CS480/680 Лекция 6: Сжатие модели для НЛП (Ашутош Адхикари)
CS480/680 Лекция 6: Сжатие модели для НЛП (Ашутош Адхикари)
В этом видео ведущий обсуждает концепцию сжатия моделей для НЛП, а также проблемы времени обработки и требований к памяти по мере увеличения количества и глубины глубоких нейронных сетей. Методы сжатия моделей классифицируются, и вводится самый старый метод — сокращение и совместное использование параметров. Докладчик далее развивает концепцию системы «ученик-учитель» для сжатия моделей в НЛП и то, как целевая функция используется для сжатия более крупной модели в меньшую модель ученика при сохранении точности. Наконец, подчеркивается потенциальная важность сжатия моделей в контексте недавней работы по разработке крупномасштабных моделей НЛП.
CS480/680 Лекция 7: Смесь гауссианов
CS480/680 Лекция 7: Смесь гауссианов
В этой лекции о смеси гауссианов спикер объясняет, как модель можно использовать для классификации путем построения априорного распределения для каждого класса, что позволяет построить вероятностную модель с использованием теоремы Байеса для оценки вероятности класса для данного точка данных. В лекции также рассматривается процесс вычисления вероятности того, что точка данных принадлежит определенному классу, и то, как это используется для определения прогноза класса. В примечаниях к лекциям исследуется взаимосвязь между функцией softmax и распределением максимума дуги, а также то, как форма и границы гауссиана определяются ковариационной матрицей. Наконец, лекция подробно описывает процесс обучения по методу максимального правдоподобия и то, как его можно использовать для оценки среднего значения и ковариационной матрицы для смешанной модели Гаусса.
CS480/680 Лекция 8: Логистическая регрессия и обобщенные линейные модели
CS480/680 Лекция 8: Логистическая регрессия и обобщенные линейные модели
В этой первой части лекции «CS480/680: логистическая регрессия и обобщенные линейные модели» представлена идея экспоненциального семейства распределений и его связь с логистической регрессией — мощным методом, используемым для задач классификации. В лекции объясняется, что логистическая регрессия направлена на подбор наилучшей логистической функции, которая моделирует апостериорную модель для заданного набора данных, а для задач с несколькими измерениями и весами можно использовать метод Ньютона для нахождения минимума целевой функции, которая является выпуклой. функция. Преподаватель также подчеркивает важность логистической регрессии в рекомендательных системах и размещении рекламы, где простота и эффективность метода делают его идеальным для предоставления персонализированных рекомендаций на основе характеристик и поведения пользователей.
Лекция также затрагивает тему логистической регрессии и обобщенных линейных моделей. Преподаватель обсуждает ограничения метода Ньютона для логистической регрессии, такие как проблема переобучения, вызванная произвольно большими весами, и проблемы сингулярности в матрице Гессе. Для предотвращения переобучения предлагается регуляризация. Преподаватель знакомит с обобщенными линейными моделями (GLM), которые можно использовать для эффективной работы с нелинейными сепараторами. GLM включают в себя отображение входных данных в новое пространство, где линейная регрессия и классификация могут выполняться нелинейным способом, если отображение нелинейно. В лекции также рассматриваются базисные функции и их типы, которые можно использовать для выполнения нелинейной регрессии и классификации.
CS480/680 Лекция 9: Персептроны и однослойные нейронные сети
CS480/680 Лекция 9: Персептроны и однослойные нейронные сети
Эта лекция знакомит с нейронными сетями с акцентом на элементарный тип, персептрон, который создает линейный разделитель для классификации. В лекции рассматривается, как веса используются для вычисления линейной комбинации входных данных, которые проходят через функцию активации для получения выходных данных, и как различные веса могут использоваться для аппроксимации логических вентилей, таких как вентили И, ИЛИ и НЕ. Лектор обсуждает нейронную сеть с прямой связью и то, как алгоритм обучения персептрона используется для бинарной классификации и как градиентный спуск может оптимизировать веса. Обсуждаются ограничения использования линии для разделения данных, и в качестве возможного решения вводится функция активации логистической сигмоиды с акцентом на то, как можно обучить веса с помощью функции активации логистической сигмоиды.
В этой лекции о персептронах и однослойных нейронных сетях рассказывается об использовании логистических сигмовидных функций активации для минимизации квадрата ошибки и о введении скорости обучения в качестве ключевого параметра в последовательном градиентном спуске. Лектор также демонстрирует, как можно составить нейронные сети с несколькими слоями для сколь угодно близкой аппроксимации любой функции, используя функции хранения мусора, и как можно использовать обратное распространение для обучения сети обучению произвольным функциям. Преподаватель подчеркивает универсальность и эффективность нейронных сетей, ссылаясь на их широкое использование при решении различных задач, таких как распознавание речи, компьютерное зрение, машинный перевод и встраивание слов.
CS480/680 Лекция 10: Многослойные нейронные сети и обратное распространение
CS480/680 Лекция 10: Многослойные нейронные сети и обратное распространение
В этой лекции о многослойных нейронных сетях и обратном распространении объясняются ограничения линейных моделей и необходимость нелинейных моделей, таких как многослойные нейронные сети. Лектор обсуждает различные функции активации, которые можно использовать в нейронных сетях, и то, как они учитывают нелинейные базисные функции. Далее в лекции объясняется, как алгоритм обратного распространения используется для вычисления градиента ошибки по отношению к каждому весу в нейронной сети. Также обсуждаются инструменты автоматической дифференциации как способ эффективного вычисления дельт и градиентов в нейронной сети. В целом лекция подчеркивает гибкость и мощь нейронных сетей в аппроксимации широкого спектра функций.
Лектор в этом видео обсуждает вопросы оптимизации нейронных сетей, такие как медленная сходимость, локальная оптимизация, невыпуклая оптимизация и переобучение. Чтобы преодолеть медленную сходимость, можно использовать такие методы, как регуляризация и отсев. Кроме того, спикер объясняет поведение градиентного спуска для оптимизации, подчеркивая необходимость оптимизации размера шага для повышения его эффективности. В качестве решения предлагается алгоритм гранта DES, который регулирует скорость обучения для каждого измерения отдельно. Докладчик также представляет RMSProp, взвешенное скользящее среднее предыдущих градиентов. Наконец, спикер обсуждает Адама, который включает взвешенное скользящее среднее самого градиента, и показывает, что он превосходит другие методы, такие как SGD Нестерова.
CS480/680 Лекция 11: Методы ядра
CS480/680 Лекция 11: Методы ядра
В этой лекции концепция ядерных методов представлена как способ масштабирования обобщенных линейных моделей путем отображения данных из одного пространства в новое пространство с использованием нелинейной функции. Двойной трюк или трюк ядра объясняется как метод, который позволяет работать в многомерных пространствах без дополнительных затрат, что приводит к использованию функции ядра, которая вычисляет скалярное произведение пар точек в новом пространстве. Обсуждаются различные методы построения ядер, в том числе полиномиальные ядра и ядра Гаусса, которые можно использовать для измерения сходства между точками данных и которые полезны в задачах классификации. Также вводятся правила составления ядер для создания новых ядер, которые могут контролировать их сложность. В лекции подчеркивается важность выбора функций, имеющих соответствие с Phi, транспонирующих Phi, поскольку матрица граммов должна быть положительно полуопределенной и иметь собственные значения, большие или равные нулю.
В этой лекции о ядерных методах докладчик определяет ядра как положительно полуопределенные функции, которые можно разложить на матрицу, умноженную на ее транспонирование. Обсуждаются различные типы ядер, такие как полиномиальное и гауссово, и их приложения для сравнения различных типов данных, таких как строки, наборы и графики. Докладчик также объясняет, как ядра подстрок могут быстро вычислять сходство между словами, увеличивая длину подстрок и используя динамическое программирование. Кроме того, показано, что машины опорных векторов эффективны при классификации документов с использованием новостных статей агентства Reuters.
CS480/680 Лекция 13: Машины опорных векторов
CS480/680 Лекция 13: Машины опорных векторов
Эта лекция представляет собой введение в машины опорных векторов (SVM) как тип метода ядра, используемого для классификации. SVM по-прежнему популярны для решения проблем с небольшим количеством данных и считаются разреженными, поскольку они могут работать с подмножеством данных и игнорировать остальные. Докладчик объясняет концепцию опорных векторов, которые являются ближайшими точками данных к границе решения, и наглядный пример того, как SVM находит линейный разделитель для разделения классов при максимальном запасе. Обсуждаются различия между SVM и персептронами, причем SVM используют уникальный линейный разделитель с максимальным запасом и менее подвержены переобучению. Задача оптимизации для SVM может быть переписана с использованием лагранжиана, что приведет к эквивалентной задаче без ограничений. Решение, полученное из лагранжиана, можно заменить обратно, чтобы получить выражение, включающее функцию ядра, что приводит к оптимизации двойной задачи. Также объясняются преимущества работы в двойном пространстве с функцией ядра, которая вычисляет сходство между парами точек данных. SVM вычисляют степень сходства между точкой запроса и всеми векторами поддержки, чтобы определить наиболее похожие, и обсуждение также вращается вокруг количества векторов поддержки и того, как оно влияет на классификацию точек.
В этом видео обсуждается концепция машин опорных векторов (SVM) в категоризации текста, где документы представлены в виде векторов количества слов. SVM эффективны для минимизации потерь в наихудшем случае, что делает классификатор пригодным для любой возможной выборки, даже для разных наборов данных. Исследователи использовали SVM с двойным представлением и отображением ядра, чтобы отображать данные в пространстве еще большего размера, не теряя точности и не жертвуя масштабируемостью. В лекции также рассматривается использование SVM для извлечения соответствующих документов из набора данных и балансировки точности и полноты. Видео завершается обсуждением способности SVM предоставлять линейные или нелинейные разделители данных, а также проблем, связанных с многоклассовой классификацией и нелинейно разделяемыми данными.
CS480/680 Лекция 14: Методы опорных векторов (продолжение)
CS480/680 Лекция 14: Методы опорных векторов (продолжение)
Этот раздел лекции посвящен обработке нелинейно разделимых данных и перекрывающихся классов при использовании машин опорных векторов (SVM) путем введения резервных переменных и учета мягкого запаса. Докладчик объясняет, как переменные резерва позволяют классифицировать точки в пределах поля без внесения ошибки классификации. Штрафной член добавляется к задаче оптимизации, чтобы регулировать использование резервных переменных, контролируемых весом C, который регулирует компромисс между минимизацией ошибок и сложностью модели. Докладчик также обсуждает различные подходы к использованию SVM для задач классификации с несколькими классами, включая «один против всех», попарное сравнение и непрерывное ранжирование, причем последний фактически является подходом для SVM с несколькими классами. Кроме того, вводится понятие мультиклассовой маржи, которое включает буфер вокруг линейного разделителя, определяемый разностью весовых векторов для каждой пары классов.
CS480/680 Лекция 15: Глубокие нейронные сети
CS480/680 Лекция 15: Глубокие нейронные сети
В этом видео рассматриваются основы глубокого обучения, в том числе концепции глубоких нейронных сетей, проблема исчезающего градиента и эволюция глубоких нейронных сетей в задачах распознавания изображений. Лектор объясняет, как можно использовать глубокие нейронные сети для более краткого представления функций и как они вычисляют функции, которые становятся все более высокого уровня по мере того, как сеть становится глубже. Рассматриваются решения проблемы исчезающего градиента, в том числе использование выпрямленных линейных единиц (ReLU) и нормализация партии. В лекции также рассматриваются блоки max-out и их преимущества как обобщения ReLU, которое позволяет использовать несколько линейных частей.
В лекции о глубоких нейронных сетях обсуждаются две проблемы, требующие решения для эффективного глубокого обучения: проблема переобучения из-за многослойной выразительности сети и потребность в высокой вычислительной мощности для обучения сложных сетей. Лектор предлагает такие решения, как регуляризация и отсев во время обучения, а также параллельные вычисления во время вычислений. В лекции также подробно рассказывается, как отсев можно использовать во время тестирования путем масштабирования входных и скрытых величин единиц. Наконец, лекция завершается представлением некоторых прорывных приложений глубоких нейронных сетей в распознавании речи, распознавании изображений и машинном переводе.
CS480/680 Лекция 16: Сверточные нейронные сети
CS480/680 Лекция 16: Сверточные нейронные сети
В этом видео представлены сверточные нейронные сети (CNN) и объясняется их важность в обработке изображений как особого типа нейронной сети с ключевыми свойствами. Лектор обсуждает, как свертка может использоваться для обработки изображений, например, при обнаружении краев, и как CNN могут обнаруживать функции аналогичным образом. Объясняется концепция сверточных слоев и их параметров, а также процесс обучения CNN с использованием обратного распространения ошибки и градиентного спуска с общими весами. Лектор также предоставляет принципы проектирования для создания эффективных архитектур CNN, таких как использование меньших фильтров и нелинейная активация после каждой свертки.
В этой лекции о сверточных нейронных сетях (CNN) докладчик обсуждает концепцию остаточных соединений как решение проблемы исчезающего градиента, с которой сталкиваются глубокие нейронные сети. Эти пропущенные соединения позволяют сокращать сетевые пути и игнорировать бесполезные слои, но при этом иметь возможность использовать их, если это необходимо, чтобы избежать создания выходных данных, близких к нулю. Использование методов пакетной нормализации также введено для смягчения проблемы исчезающих градиентов. Кроме того, докладчик отмечает, что CNN можно применять к последовательным данным и тензорам с более чем двумя измерениями, например, в видеопоследовательностях, и что 3D CNN также возможны для определенных приложений. Платформа TensorFlow выделена как предназначенная для вычислений с многомерными массивами.