Машинное обучение и нейронные сети - страница 34

 

CS 198-126: Лекция 13 - Введение в моделирование последовательностей



CS 198-126: Лекция 13 - Введение в моделирование последовательностей

В этой лекции о моделировании последовательности докладчик рассказывает о важности представления данных последовательности и достижения разумного количества временных шагов без потери слишком большого количества информации. Рекуррентные нейронные сети (RNN) обсуждаются как первая попытка решения этих проблем, которые способны обрабатывать входные и выходные данные различной длины. Однако проблемы с RNN не позволяют им работать оптимально. Внедрение текста представлено как более эффективный способ представления текстовых данных, чем использование многомерного однократного вектора. Кроме того, концепция позиционного кодирования обсуждается как способ представления порядка элементов в последовательности с использованием непрерывных значений, а не двоичных.

  • 00:00:00 В этом разделе спикер представляет модели последовательности и объясняет, почему они важны. В частности, они упоминают различные типы данных последовательности, такие как данные временных рядов, аудио и текст, и то, как они обычно используются в моделях компьютерного зрения и обработки естественного языка. Докладчик также обсуждает важность представления данных последовательности и достижения разумного количества временных шагов без потери слишком большого количества информации. В конечном счете, цель состоит в том, чтобы создать языковые модели, которые можно обучать на огромных объемах текстовых данных, извлеченных из Интернета, которые представлены в виде токенизированной последовательности горячих векторов.

  • 00:05:00 В этом разделе инструктор обсуждает проблемы представления текстовых данных в виде однократных векторов и неэффективность использования одного вектора для каждого слова в словаре. Целью моделирования последовательности является обработка произвольно длинных данных и различной длины входных и выходных данных. Преподаватель приводит примеры различных парадигм, включая анализ тональности и перевод, которые должны обрабатывать выходные данные различной длины. Кроме того, при анализе текстовых данных необходимо учитывать дальние отношения между словами в предложении.

  • 00:10:00 В этом разделе видео обсуждаются проблемы моделирования последовательностей, которые требуют соединения идей из разных частей предложения и обработки отдаленных отношений между последовательностями. Рекуррентные нейронные сети (RNN) представлены как первая попытка решить эти проблемы, и они действительно работают, но не особенно хорошо из-за проблем, которые мешают им работать оптимально. В видео объясняется, что RNN используют значение ячейки, общее для каждого элемента последовательности, причем каждая ячейка имеет точно такие же веса, которые обрабатывают входную последовательность. Кроме того, вывод, генерируемый RNN, можно интерпретировать как что угодно, от вероятности до перевода.

  • 00:15:00 В этом разделе мы узнаем об основной форме рекуррентной нейронной сети (RNN), где мы берем элемент последовательности той же длины, делаем на нем линейный слой, берем выходные данные с предыдущего временного шага. и вход на этом временном шаге, чтобы сделать матричное умножение. Затем мы накладываем их друг на друга или складываем вместе, чтобы получить вывод. Функция tahn используется для того, чтобы убедиться, что выходные данные находятся в пределах допустимого диапазона, а также для предотвращения увеличения или уменьшения значений при прямом или обратном распространении. Накладывая несколько слоев друг на друга, мы можем начать изучение более сложных функций.

  • 00:20:00 В этом разделе лекции инструктор обсуждает проблемы и решения создания модели последовательности. Используя функцию тангенса на выходе каждой ячейки, значения сохраняются между -1 и 1, что позволяет избежать больших значений, которые могут вызвать проблемы при повторных матричных умножениях. Модель может обрабатывать произвольный размер входных данных, переменную длину выходных данных и отношения на большом расстоянии. Затем инструктор представляет встраивания как более эффективный способ представления текстовых данных, а не использование 100 000-мерного однократного вектора. В качестве возможного решения рассматриваются такие идеи, как двоичное и троичное кодирование.

  • 00:25:00 В этом разделе спикер представляет концепцию встраивания текста и то, как ее можно использовать в моделировании последовательности. Вместо того, чтобы использовать горячие векторы для каждого слова в словаре, меньший вектор, представляющий слово, изучается и вводится в модель. Это сжатие представления позволяет уменьшить размерность и создает встроенный вектор, напоминающий кодовую книгу. Есть надежда, что эти вложения позволяют разумно представить слова, при этом похожие слова, такие как «кошка» и «собака», относительно близки, а слова с небольшой корреляцией, такие как «кошка» и «трава», находятся дальше друг от друга. Хотя нет никакой гарантии, что это отношение близости существует, его можно использовать, чтобы упростить понимание того, как выбор определенных слов влияет на анализ настроений и другие модели.

  • 00:30:00 В этом разделе лектор обсуждает использование градиентного спуска в кодовой книге встроенных векторов для группировки семантически схожих слов. Он также упоминает концепцию позиционного кодирования, когда прошедшее время или положение в последовательности могут быть важны для определенных доменов, и обсуждает несколько методов представления одного горячего вектора для положения, прежде чем перейти к тому, что хорошо работает, известному как позиционное кодирование.

  • 00:35:00 В этом разделе лекции преподаватель обсуждает идею использования метки времени в моделировании последовательности, чтобы указать, как далеко мы продвинулись в последовательности. Однако использование двоичного кодирования в качестве метки времени может стать ограниченным для больших длин последовательностей, поскольку оно может представлять только ограниченное количество уникальных временных шагов. Для решения этой проблемы инструктор предлагает использовать непрерывный аналог, заменив двоичное кодирование синусоидальными и косинусоидальными волнами разной частоты. Таким образом, мы все еще можем использовать меньший вектор для представления большего количества уникальных временных шагов.

  • 00:40:00 В этом разделе обсуждается концепция позиционного кодирования, которая представляет собой способ представления порядка элементов в последовательности с использованием непрерывных значений, а не двоичных значений. Процесс включает оценку функций синуса и косинуса на разных частотах для каждого элемента последовательности, а затем их графическое отображение для создания непрерывного аналога двоичного позиционного кодирования. Результирующий график чередует высокие и низкие значения, как и в двоичной версии, и может быть добавлен к каждому элементу в последовательности. Позиционное кодирование может немного сбивать с толку, но в лекции предлагается просмотреть слайды и поэкспериментировать с концепцией для лучшего понимания.
CS 198-126: Lecture 13 - Intro to Sequence Modeling
CS 198-126: Lecture 13 - Intro to Sequence Modeling
  • 2022.12.03
  • www.youtube.com
Lecture 13 - Intro to Sequence ModelingCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley...
 

CS 198-126: Лекция 14 - Трансформеры и внимание



CS 198-126: Лекция 14 - Трансформеры и внимание

Эта видео-лекция о Трансформерах и Внимании охватывает концепцию и мотивацию внимания, его связь с Трансформерами и его применение в НЛП и видении. Лектор обсуждает мягкое и жесткое внимание, внимание к себе, локальное внимание и внимание с несколькими головами, а также то, как они используются в архитектуре Transformer. Они также объясняют систему запросов «ключ-значение», важность остаточных соединений и нормализации слоев, а также процесс применения линейного слоя для получения kqv из входных вложений. Наконец, в лекции рассматривается использование вложений позиций и токена CLS в примерах преобразования последовательности в вектор, при этом подчеркивается вычислительная эффективность и масштабируемость механизма внимания.

  • 00:00:00 В этом разделе видеолекции цель состоит в том, чтобы объяснить мотивацию внимания и то, как она связана с моделями Трансформеров. Внимание является краеугольным камнем современных трансформеров зрения и необходимо для того, чтобы сосредоточить усилия и внимание на определенном месте. Лектор объясняет, что внимание использует систему ключевых значений запроса, чтобы принимать более обоснованные решения о том, на что обращать внимание. Современная система внимания основана на том, как люди читают, когда они сосредотачиваются на определенных последовательных словах и размывают все остальное.

  • 00:05:00 В этом разделе лектор обсуждает концепцию внимания в моделях машинного обучения, особенно в контексте НЛП и РНС. Внимание позволяет моделям сосредоточиться на важных частях входных данных, делая выводы, используя конкретное подмножество данных, вместо того, чтобы рассматривать все в целом. Существует два типа внимания: жесткое внимание, которое предсказывает, какие индексы релевантны на определенном временном шаге, и мягкое внимание, которое создает набор мягких весов с функцией softmax для создания распределения вероятностей на основе входных токенов, которые указывают их значения. важность. Мягкое внимание обычно используется и сочетает в себе представления различных функций. В лекции также рассматривается процесс перевода с французского на английский как пример использования внимания.

  • 00:10:00 В этом разделе спикер объясняет процесс кодирования каждого слова и создания скрытого представления слов с использованием традиционной сети кодер-декодер, которая включает последовательную обработку входных данных и вектора контекста для декодирования. Затем они вводят концепцию мягкого внимания, в которой используется вектор контекста, который берет информацию из каждого скрытого представления для декодирования на основе ранее декодированной информации. Этот процесс включает в себя создание функции оценки для определения сходства между предыдущим декодированием и кодированием, а также использование различных метрик для определения относительной важности, обеспечивая вероятностное представление связи запроса с набором ключей.

  • 00:15:00 В этом разделе лектор объясняет концепцию локального внимания, которая позволяет модели внимания запрашивать только определенное окно входных токенов, а не все сразу, в целях экономии вычислительных ресурсов. В лекции также рассматривается использование внимания для зрения, в том числе использование сетей сжатия и возбуждения для канального внимания и пространственного внимания для изображений. Кроме того, лекция кратко касается использования внимания для создания предложений, описывающих изображения, таких как использование сверток для извлечения ключевых признаков и сетей долговременной кратковременной памяти для поддержания связей между словами.

  • 00:20:00 В этом разделе лектор обсуждает использование внимания в различных архитектурах, в том числе пространственное и само-внимание. Самостоятельное внимание включает в себя поиск токенов из одного и того же ввода, уделяя внимание отношениям между словами в предложении, что позволяет лучше предсказывать следующее слово на основе предыдущих слов. Лектор также знакомит с концепцией трансформеров, которые используют систему внимания «ключ-значение-запрос» для ожидания разной степени сходства при выборе функций ядра.

  • 00:25:00 В этом разделе видео лектор знакомит с понятиями само-внимания и мягкого внимания, которые используются в модели Трансформера. Идея состоит в том, чтобы создать распределение вероятностей, которое фокусируется на одних функциях, игнорируя другие, чтобы предсказать определенные отношения. Затем лектор объясняет, как используются матрицы вместо однозначного сравнения запросов и ключей в моделях Transformer. В лекции также обсуждаются ограничения RNN, такие как их неспособность распараллеливать и захватывать длинные последовательности, а также то, как внимание может помочь решить эти проблемы.

  • 00:30:00 В этом разделе лекции ведущий обсуждает архитектуру Transformer и то, как она использует самовнимание для моделирования последовательностей или групп токенов. Входные данные включают в себя последовательность вложений токенов и позиционных вложений, и цель состоит в том, чтобы создать представление, которое можно передать в модель Transformer. Внимание с несколькими головками используется для вычисления важности каждого токена на основе запроса и ключа, а шаг прямой связи выполняется параллельно, чтобы выявить достоинства преобразователя. Архитектура сочетает в себе остаточные соединения и нормы слоев, чтобы уменьшить исчезающие градиенты и обеспечить точное представление. Наконец, в конце добавляется линейный слой для расчета выходных данных на основе сигналов, ключей и значений различных представлений.

  • 00:35:00 В этом разделе спикер объясняет процесс применения линейного слоя для получения kqv из входных вложений для каждого слова в тексте. Это включает в себя использование разных весовых коэффициентов для ключей, запросов и значений, объединенных посредством умножения матриц. После этого между запросами и значениями находится скалярное произведение, и каждый токен напрямую связан с каждым другим токеном, что делает связи между входами бесконечно масштабируемыми. Распределение SoftMax применяется на основе значений точечного произведения, а затем значения повторно взвешиваются на основе этого распределения, чтобы получить окончательное значение для каждого токена. Масштабирование внимания путем деления на единицу квадратного корня из D используется для стандартизации вещей и обеспечения отсутствия небольших градиентов, а многоголовое внимание используется для проецирования каждого ключа, запроса и значения, соответствующего токену, H раз. Наконец, отсев используется для предотвращения переобучения, и преобразование применяется к результирующим векторам перед отправкой их в нейронную сеть с прямой связью.

  • 00:40:00 В этом разделе видео лектор объясняет механизм внимания в трансформаторах и важность добавления остаточных соединений для обработки исчезающих градиентов в глубоких сетях. Они также обсуждают различия между нормализацией пакетов и нормализацией слоев, при этом нормализация слоев используется в механизме внимания для нормализации каждого измерения признаков. Лектор также объясняет, как взвешенная сумма значений создает несколько векторов, которые затем передаются через взвешенную матрицу, чтобы получить единственное значение, передаваемое в сеть прямого распространения. В целом лекция дает подробное объяснение механизма внимания и его различных компонентов в трансформерах.

  • 00:45:00 В этом разделе лекции «Трансформеры и внимание» спикер объясняет реализацию архитектуры «Трансформер» нейронной сети, которая состоит из операций невязки и нормы слоя, а также пошаговой свертки. Каждый многослойный персептрон распараллелен, а вложения входных позиций используются для фокусировки на определенных окнах на основе информации о позиции. Фиктивный токен также используется в некоторых задачах НЛП для преобразования последовательности в векторное измерение.

  • 00:50:00 В этом разделе лекции обсуждаются примеры преобразования последовательности в вектор и использование токенов CLS. В лекции объясняется математика, стоящая за механизмом внимания, который включает матричное умножение входных данных запроса, ключа и значения. Результатом является взвешенная сумма, которая представляет собой внимание. Этот метод эффективен в вычислительном отношении, что делает его подходящим для распараллеливания на графических процессорах и масштабируемым даже для больших входных данных. Лекция завершается обсуждением архитектуры трансформатора, встраивания позиций и введением индуктивного смещения, которое отличается от последовательных моделей.
CS 198-126: Lecture 14 - Transformers and Attention
CS 198-126: Lecture 14 - Transformers and Attention
  • 2022.12.03
  • www.youtube.com
Lecture 14 - Transformers and AttentionCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley...
 

CS 198-126: Лекция 15 - Преобразователи зрения



CS 198-126: Лекция 15 - Преобразователи зрения

В этой лекции спикер обсуждает использование Vision Transformers (ViT) для задач обработки изображений. Архитектура ViT включает в себя субдискретизацию изображений в дискретные патчи, которые затем проецируются во входные вложения с использованием вывода линейного слоя перед прохождением через Transformer. Модель предварительно обучается на большом размеченном наборе данных перед точной настройкой фактического набора данных, что обеспечивает превосходную производительность при меньшем объеме вычислений, чем предыдущие современные методы. Обсуждаются различия между ViT и сверточной нейронной сетью (CNN), при этом ViT имеют глобальное рецептивное поле и большую гибкость, чем CNN. Также подчеркивается использование самоконтролируемого и неконтролируемого обучения с Transformers для задач зрения.

  • 00:00:00 В этом разделе спикер обсуждает использование Vision Transformers и то, как их можно применять к изображениям. Они объясняют концепцию токенов, вложений и преобразователей, предоставляя конкретный пример того, как их можно использовать для задач обработки естественного языка. Затем они объясняют, как ту же архитектуру можно применить к задачам компьютерного зрения, предварительно обработав изображение как строку токенов и используя масштабируемость Transformer, вычислительную эффективность и глобальные рецептивные поля для его эффективной обработки. Спикер также коснется предварительной обработки текста посредством токенизации и сопоставления каждого слова со словарем.

  • 00:05:00 В этом разделе лекции лектор обсуждает, как преобразовать методы токенизации и встраивания, используемые в обработке естественного языка (NLP), в обработку изображений. Токенизация включает в себя преобразование слов или фраз в числовой формат, который используется для создания векторов встраивания. Однако этот процесс не является простым для изображений, поскольку значения цвета непрерывны, что затрудняет создание таблицы для их поиска. Эту проблему можно решить, притворившись, что значения дискретны, поскольку это позволяет рассматривать каждый пиксель как токен. Кроме того, проблема временной сложности решается за счет использования изображений меньшего размера и их обучения аналогично языковым моделям.

  • 00:10:00 В этом разделе спикер обсуждает измерение успеха модели Vision Transformer с помощью полуконтролируемой классификации с использованием ограниченного набора помеченных образцов. Модель предварительно обучается на немаркированных образцах, а затем проходит через линейный классификатор с представлениями выходных изображений в качестве входных данных. Выходные вложения должны быть достаточно хорошими, чтобы классификатор работал хорошо. Этот метод привел к конкурентоспособной точности без использования меток, и он также использовался для создания изображений. Хотя модель успешна, она требует значительного объема вычислений и может работать только с изображениями с разрешением 64 на 64. Привлекательность модели Transformer заключается в ее масштабируемости по отношению к вычислительным ресурсам, но для последующих приложений потребуются более эффективные средства реализации.

  • 00:15:00 В этом разделе спикер обсуждает архитектуру Vision Transformers, которая представляет собой более эффективный и общий подход к классификации изображений. Вместо квантования пикселей изображения преобразуются в патчи, а затем проецируются во входные вложения напрямую с использованием вывода линейного слоя. Вложения позиций и токен CLS добавляются поверх Transformer. Предварительное обучение выполняется на большом помеченном наборе данных перед точной настройкой фактического набора данных, что приводит к превосходной производительности при гораздо меньшем объеме вычислений, чем в предыдущем уровне техники. Этот подход является более общим, поскольку он имеет меньше индуктивных смещений.

  • 00:20:00 В этом разделе обсуждаются различия между сверточными нейронными сетями (CNN) и преобразователями зрения (ViT). Двумя основными различиями между CNN и ViT являются локальность и двумерная структура соседства. CNN имеют тенденцию быть смещенными к функциям, которые расположены близко друг к другу из-за ограничений размера ядра, используемого для взаимодействия между пикселями. С другой стороны, ViTs проецируют каждый пиксель во встраивание и позволяют каждому токену обслуживать каждый другой токен, независимо от его положения на изображении, что делает их менее предвзятыми к локальным особенностям. ViT также имеют уникальные представления для каждого токена и позиционные вложения, которые влияют на результирующие представления, делая их более гибкими и способными к интерполяции во время тонкой настройки.

  • 00:25:00 В этом разделе мы узнаем о некоторых преимуществах Vision Transformers (ViT) по сравнению с традиционными сверточными нейронными сетями (CNN). ViT могут лучше изучать представления изображений с большими наборами данных, потому что у них нет предубеждений в отношении обработки изображений в начале, то есть они не предполагают режим данных, в отличие от инженерных предубеждений в CNN. Это также причина, по которой ViT приходится идти на компромисс с данными, работая хуже, когда данных меньше, и лучше, когда данных больше. Кроме того, у ViT есть глобальное рецептивное поле, позволяющее взаимодействовать по всему изображению, что невозможно с CNN. Некоторые функции ViT, такие как встраивание позиции и представление внимания, в некотором роде делают его более интерпретируемым.

  • 00:30:00 В этом разделе объясняются различия между сверточными нейронными сетями (CNN) и преобразователями зрения. CNN используют один или два сверточных слоя, что ограничивает их способность обрабатывать информацию за пределами небольшой области. Поэтому взаимодействия между токенами в CNN происходят только в конце. Преобразователи зрения, напротив, используют глобальное рецептивное поле, где каждый токен взаимодействует с каждым другим токеном с самого начала, что позволяет им обращать внимание на все. Однако у преобразователей зрения есть недостатки, например, их выходные данные менее детализированы из-за использования патчей, что приводит к проблемам с мелкозернистой классификацией и сегментацией изображений. Подчеркивается цель иметь более общие модели, в которых модели учатся на основе данных, а не разрабатываются вручную для конкретных областей, что позволяет упростить комбинацию областей.

  • 00:35:00 В этом разделе спикер обсуждает преимущества использования самоконтролируемого и неконтролируемого обучения с трансформерами, особенно в контексте задач на зрение. Имея доступ к большим объемам немаркированных данных из Интернета, задачи с самостоятельным и неконтролируемым контролем позволяют проводить эффективное обучение без необходимости аннотации. Полученная модель может создавать представления, которые сохраняют информацию о расположении сцены и границах объектов, и может использоваться для задач классификации изображений и сегментации видео. Докладчик также отмечает успешное использование Vision Transformers в различных задачах классификации изображений, демонстрируя их способность хорошо масштабироваться с большими объемами данных.

  • 00:40:00 В этом разделе лектор рассказывает, как из начальных архитектур моделей Трансформеров попасть в топовые в таблице лидеров. Они обнаружили, что лучшее представление масштабируется со временем вычислений, размером модели и размером набора данных, а большие модели более эффективны в отношении выборки, а это означает, что им требуется меньше обучающих выборок для достижения той же производительности. Лектор также рассказывает о Vision Transformers и CNN, которые представляют собой гибридную архитектуру между ними. Они добавляют индуктивные смещения в Visual Transformers, используя значения весов, зависящие от относительного положения, чтобы устранить недостающую трансляционную эквивалентность в Transformers, когда данных недостаточно.

  • 00:45:00 В этом разделе лектор обсуждает использование изученного вектора весов в моделях Transformer для изображений. Этот изученный вектор весов позволяет упростить кодирование функций, которые зависят только от относительного позиционирования, а не от абсолютного позиционирования. Кроме того, лектор представляет решения проблемы квадратичного времени по отношению к пространственному размеру в Transformers, такие как объединение и объединение сверточных блоков с блоками Transformer. Модель Vision Transformer с ее самоконтролируемыми схемами обучения рассматривается как следующий шаг в переходе от функций, разработанных вручную, к более общим моделям, и для нее требуется много данных, как это обычно делают Transformers. Модель BTS масштабируема и хорошо работает на вычислительном оборудовании. Лектор подтверждает, что это контролируемый алгоритм обучения.
CS 198-126: Lecture 15 - Vision Transformers
CS 198-126: Lecture 15 - Vision Transformers
  • 2022.12.03
  • www.youtube.com
Lecture 15 - Vision TransformersCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/de...
 

CS 198-126: Лекция 16 - Расширенное обнаружение объектов и семантическая сегментация



CS 198-126: Лекция 16 - Расширенное обнаружение объектов и семантическая сегментация

В этой лекции по расширенному обнаружению объектов и семантической сегментации лектор обсуждает преимущества и недостатки сверточных нейронных сетей (CNN) и преобразователей, особенно в обработке естественного языка (NLP) и компьютерном зрении. В то время как CNN преуспевают в текстурной предвзятости, Transformers эффективно справляются как с задачами NLP, так и с компьютерным зрением, используя слои внутреннего внимания, чтобы связать важные концепции вместе и сосредоточиться на конкретных входных данных. Затем лекция углубляется в Vision Transformers, которые отдают предпочтение форме, а не текстуре, что делает их устойчивыми к искажениям. Далее он объясняет преимущества и ограничения Swin Transformer, улучшенной версии Vision Transformer, которая превосходно подходит для классификации изображений, семантической сегментации и обнаружения объектов. В лекции подчеркивается важность обобщаемости моделей, которые могут обрабатывать любые данные, и потенциальных приложений в таких областях, как самоуправляемые автомобили.

  • 00:00:00 В этом разделе лектор излагает план лекции на день, который включает обзор CNN и Transformers, их преимуществ и недостатков. Лекция также будет охватывать контексты НЛП, такие как BERT, и то, как генерируются вложения, а затем перейти к преобразователям видения и сравнить их с CNN. Будет обсуждаться Swing Transformer, усовершенствование Vision Transformers для приложений компьютерного зрения, включая слияние патчей внимания окна и смещенное внимание окна с позиционными вложениями. Лекция может также охватывать продвинутые методы сегментации, если позволяет время.

  • 00:05:00 В этом разделе лекции спикер обсуждает концепцию CNN и их трансляционную эквивалентность, означающую, что они придерживаются двумерной структуры соседства и захватывают информацию в разных точках в зависимости от расстояния шага. Спикер также отмечает, что cnns продемонстрировали склонность к искажению текстуры в зависимости от формы и что увеличение текстуры может повлиять на их производительность. Затем говорящий переходит к контексту Трансформеров для задач НЛП и к тому, как внимание позволяет нам связать важные вещи в предложении вместе и сосредоточиться на определенных частях ввода. Самостоятельное внимание в «Трансформерах» позволяет нам делать это внутри предложения, подчеркивая важность предшествующих слов.

  • 00:10:00 В этом разделе в видео обсуждается, как уровни собственного внимания используют запросы, ключи и значения для расчета информации о внимании и весе на основе сходства или различия. В этом разделе также представлены Vision Transformers, которые используют модель Transformer для обработки задач как NLP, так и компьютерного зрения, сглаживая изображения в патчи 16x16 и пропуская их через линейный слой для создания вложений. Позиционная информация изучается моделью, и они используют многослойный персептрон для классификации выходных данных. В этом разделе Vision Transformers сравнивается с CNNS и указывается, что уровни самоконтроля являются глобальными, в то время как только MLP сравнивает соседние пиксели. Модель Transformer в Vision Transformer не делает различий между входными изображениями и словами и может быть обобщена для ряда задач.

  • 00:15:00 В этом разделе лекции обсуждается концепция индуктивного смещения в моделях машинного обучения. Индуктивное смещение относится к предположениям, которые модель делает в отношении данных, на которых она была обучена, и уменьшение этого смещения позволяет модели быть более обобщаемой. Важно иметь модели, которые можно применять к нескольким задачам без предварительных знаний. В то время как CNN превосходят Transformers на небольших наборах данных, модель Vision Transformer (ViT) лучше работает с большими и более сложными наборами данных, поскольку она лучше моделирует человеческое зрение, отдавая предпочтение форме, а не текстуре. Состязательная устойчивость также вводится как метрика, когда изображения искажаются за счет введения шума, так что определенные классификаторы больше не могут их классифицировать.

  • 00:20:00 В этом разделе обсуждаются ограничения Vision Transformers в восстановлении изображений и семантической сегментации. Когда патчи передаются и обрабатываются по одному, информация о границах может быть потеряна, а детальный анализ пикселей внутри патча неэффективен, поскольку информация, принадлежащая одному патчу, обрабатывается как одна и та же. Однако, в отличие от CNN, которые отдают приоритет текстуре, а не форме, Vision Transformers отдают приоритет форме, а не текстуре, что делает их естественно устойчивыми к визуальным искажениям, даже когда к изображению добавляется целенаправленный шум. Извлечение заплат является проблемой, уникальной для изображений, и для больших изображений количество сгенерированных токенов изображения будет быстро увеличиваться.

  • 00:25:00 В этом разделе лектор обсуждает проблемы с использованием типичных преобразователей зрения для обнаружения и сегментации объектов, особенно при обработке больших изображений, поскольку это требует большой вычислительной мощности. Однако решение было представлено с помощью Transformer со смещенным окном, которое использует неперекрывающиеся окна для выполнения внутреннего внимания в группах, а затем объединяет их вместе для выполнения перекрестного внимания. Это позволяет использовать межоконные подключения внимания, что приводит к линейной вычислительной сложности вместо N-квадратной, поскольку размер патчей остается неизменным при их объединении. Этот метод сегментации изображения обычно используется в беспилотных технологиях.

  • 00:30:00 В этом разделе представлена концепция Swin Transformer — модели, которая превосходно подходит для классификации изображений, обнаружения объектов и семантической сегментации. Модель большого патча Swin имеет размер патча 4, емкость 192, размер окна 7, она обучена на ImageNet 22k и точно настроена на ImageNet 1k. В модели используется слой с несколькими окнами и слой смещенного окна, а также MLP со скрытыми слоями, которые используют функцию активации GELU. Выходные данные оконного MSA проходят через норму уровня для нормализации распределений промежуточных уровней перед входом в MLP.

  • 00:35:00 В этом разделе спикер обсуждает преимущества использования Layer Norm в обучающих моделях для обнаружения объектов и семантической сегментации. Layer Norm применяет операцию сглаживания к поверхности градиента, что приводит к более быстрому обучению и повышению точности обобщения. Докладчик сравнивает Layer Norm с другими методами сглаживания, такими как Batch Norm, и объясняет, как он фокусируется на промежуточных слоях процесса. Затем обсуждение переходит к блокам Windowed Multi-Head Self-Attention (WMSA), которые выполняют автоматическое внимание в каждом окне изображения. Количество векторов патчей в каждом окне гарантировано, что приводит к линейной сложности в зависимости от размера изображения, в отличие от квадратичной сложности в Vit (конкурирующий метод). Второй этап WMSA включает в себя процесс объединения патчей, при котором соседние блоки пикселей объединяются в меньшее окно, создавая новые границы патчей и переделывая окна.

  • 00:40:00 В этом разделе лекции ведущий объясняет решение Swin Transformer для обработки увеличения количества окон, генерируемых после продвижения патчей. Swin Transformer ловко комбинирует эти окна, переставляя блоки так, чтобы было только четыре окна, уменьшая общее количество элементов с 64 до 16, сохраняя при этом общий объем информации. Метод оптимизации включает в себя циклический сдвиг, а линейный слой используется для увеличения глубины или размера «C» размера встраивания после уменьшения разбивки патчей. Этот метод обеспечивает экономию вычислительной мощности и позволяет избежать наивного решения заполнения нулями перед выполнением внимания.

  • 00:45:00 В этом разделе спикер обсуждает две оптимизации, предложенные авторами для повышения эффективности обработки изображений. Первая оптимизация включает в себя смещение изображения к определенной части перед расчетом внимания, а затем перемещение его назад с отметкой, что оно уже рассчитано. Это оптимизирует вычислительную мощность, избегая необходимости выполнять совершенно новую операцию для получения желаемых значений. Вторая оптимизация осуществляется за счет позиционных вложений, которые изучают информацию о положении патча вместо того, чтобы предоставлять ее явно, что ограничивает объем внимания, который необходимо вычислить. Эти оптимизации, наряду с использованием векторов смещения и манипуляций с размером канала, помогают выполнять вычисления собственного внимания при обработке изображений.

  • 00:50:00 В этом разделе лекции обсуждается процесс слияния патчей на этапах два, три и четыре модели трансформатора Swin. За счет уменьшения размерности патчей они уменьшаются на одну четверть до достижения 3136 патчей, а размер кодировки удваивается, чтобы получить 384 кодировки. Процесс повторяется на этапах три и четыре, и последним компонентом в этом процессе является слой объединения средних значений, за которым следует заголовок классификации. Лекция вызывает обеспокоенность по поводу повторного введения индуктивного смещения за счет использования аналогичных подходов к CNN, но исследования показали, что модели Swin хорошо работают с точки зрения устойчивости к коррупции и имеют более низкий уклон формы, чем Vision Transformers. Универсальность архитектуры Transformer позволяет точно фиксировать шаблоны независимо от типа данных или домена, а чем больше данных, тем выше производительность.

  • 00:55:00 В этом разделе лектор объясняет преимущества и недостатки наличия модели, которая может принимать любые данные, обрабатывать их и извлекать шаблоны, известные как обобщаемость. Обсуждается идея общей модели искусственного интеллекта, которая может обрабатывать любой ввод/вывод, и исследуются потенциальные приложения в таких областях, как самоуправляемые автомобили. Лектор также отмечает, что область защиты от состязательных действий все еще развивается и что необходимы дальнейшие испытания для определения эффективности таких моделей, как Swin, против более продвинутых состязательных атак.
CS 198-126: Lecture 16 - Advanced Object Detection and Semantic Segmentation
CS 198-126: Lecture 16 - Advanced Object Detection and Semantic Segmentation
  • 2022.12.03
  • www.youtube.com
Lecture 16 - Advanced Object Detection and Semantic SegmentationCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease ...
 

CS 198-126: Лекция 17 - Обзор трехмерного зрения, часть 1



CS 198-126: Лекция 17 - Обзор трехмерного зрения, часть 1

В видео обсуждаются различные трехмерные визуальные представления и их плюсы и минусы, включая облака точек, сетки, воксели и поля яркости. Лекция также охватывает raycasting, прямое и обратное, а также раскрашивание и рендеринг изображений для объектов, которые пересекаются друг с другом, с различными подходами для твердых тел и прозрачности. Лектор затрагивает ограничения дифференцируемого рендеринга и то, как Radiance Fields может создать функцию для каждой точки XYZ с плотностью и физическим цветом, что делает ее более обучаемой.

  • 00:00:00 В этом разделе лектор обсуждает необходимость расширения компьютерного зрения до 3D, так как реальный мир трехмерен. Существует безграничное количество приложений для 3D, таких как автономное вождение, оптимизация формы, виртуальные среды, создание аватаров и многое другое. Затем представлены различные методы трехмерного представления, включая 2.5D, облака точек, сетки, воксельные сетки и поля областей. Затем лекция углубляется в модель камеры-обскуры, которая важна для понимания того, как работает визуализация, а затем как визуализировать 3D-объекты в космосе для моделирования.

  • 00:05:00 В этом разделе лекции вводится концепция прямой и обратной трассировки как средства определения положения камеры в сцене. Лектор также обсуждает изображения RGB-D (2.5D) и то, как они содержат информацию о глубине, которую можно использовать для создания облаков точек, которые затем можно использовать для создания сетки поверхности. Также рассматриваются преимущества и ограничения использования облаков точек для создания сетки.

  • 00:10:00 В этом разделе лектор описывает различные представления для 3D-объектов. Они начинают с обсуждения сетчатых структур и того, как с ними сложно работать в настройках машинного обучения из-за отсутствия методов работы с графами. Затем лекция знакомит с вокселами как дискретной трехмерной пространственной структурой, состоящей из маленьких кубиков или «Лего», которые могут представлять объекты в бинарном или полупрозрачном виде. Однако использование вокселей с высоким разрешением может быть непомерно сложным из-за вычислительной сложности. Лекция завершается представлением полей яркости, функции, которая выводит цвета и плотность RGB в определенных координатах XYZ, в качестве решения для представления высокочастотных деталей в 3D-объектах.

  • 00:15:00 В этом разделе лектор обсуждает различные трехмерные представления, включая облака точек, сетки, воксели и поля яркости. У каждого типа есть свои плюсы и минусы, и очень важно выбрать правильное представление для конкретной задачи. После обсуждения 3D-представлений лекция переходит к raycasting и двум типам raycasting: прямому и обратному. Прямое raycasting полезно для рендеринга облаков точек, поскольку оно позволяет нам видеть каждую точку в сцене. И наоборот, обратное raycasting больше подходит для рендеринга мешей или воксельных сеток, поскольку позволяет нам сначала увидеть поверхность, которая пересекает луч.

  • 00:20:00 В этом разделе видео спикер обсуждает процесс раскрашивания и рендеринга изображений для разных пересекающихся друг с другом объектов. Это делается путем вычисления трех пересечений треугольников для каждого массива, что может быть эффективным. Если объекты полупрозрачны, процесс включает в себя рассмотрение не только цвета первой пересекаемой точки, но и плотности первой и второй точки. Для областей без поверхностей, таких как дым, выборка лучей используется для выборки различных точек на прямой и использования поля Radiance Field для создания функции, которая выводит RGB и D для каждой точки. Затем эти наборы цветов и плотностей объединяются с помощью объемного рендеринга для создания объема в один пиксель.

  • 00:25:00 В этом разделе лектор обсуждает дифференцируемый рендеринг и его ограничения. Хотя все, что обсуждается в рендеринге, дифференцируемо, оно дифференцируемо только для видимых поверхностей, которые мы видим на визуализируемом изображении. Поля Radiance решают эту проблему, поскольку каждая отдельная точка, которая сэмплируется, будет влиять на окончательный цвет и, таким образом, иметь некоторый выходной градиент. Лектор также упоминает, что поля сияния существуют уже некоторое время и функционируют как способ создания функции для каждой точки XYZ с плотностью и физическим цветом. Затем лектор обсудит моделирование f как нейронной сети, чтобы сделать Radiance Fields обучаемым.

  • 00:30:00 В этом разделе спикер кратко упоминает о задержке домашнего задания Трансформеров на одну неделю, но не дает никакого контекста или объяснения.
CS 198-126: Lecture 17 - 3-D Vision Survey, Part 1
CS 198-126: Lecture 17 - 3-D Vision Survey, Part 1
  • 2022.12.03
  • www.youtube.com
Lecture 17 - 3-D Vision Survey, Part 1CS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley....
 

CS 198-126: Лекция 18 - Обзор трехмерного зрения, часть 2



CS 198-126: Лекция 18 - Обзор трехмерного зрения, часть 2

В этой лекции о трехмерном зрении инструктор обсуждает поля излучения, в частности поля нейронного излучения (NeRF), которые занимают положение в пространстве и выдают цвет и плотность. Докладчик объясняет процесс рендеринга, который включает в себя запрос с точки зрения камеры и использование функции черного ящика, чтобы выяснить, как будет выглядеть изображение. В лекциях обсуждаются проблемы, связанные с представлением согласованных перспектив объектов в 3D-видении и использованием MLP для получения данных XYZ объекта и направления взгляда для вывода информации о плотности и RGB. В лекции также рассматриваются проблемы объемного рендеринга и использования производных Nerf для улучшения компьютерного зрения. Преподаватель заканчивает демонстрацией использования сжатия пространства для создания реалистичных 3D-изображений с помощью нейронной сети.

  • 00:00:00 В этом разделе лекции инструкторы обсуждают поля излучения, в частности NeRF (нейронные поля излучения), которые занимают положение в пространстве и выдают цвет и плотность. Процесс рендеринга включает в себя запрос с точки зрения камеры и использование функции черного ящика, чтобы выяснить, как будет выглядеть изображение. Цвет представляет собой средневзвешенное значение всех образцов, а видимость пропорциональна плотности и обратно пропорциональна количеству объектов перед камерой. Инструкторы приводят примеры, чтобы объяснить интуицию, стоящую за полями излучения, в том числе то, как ближайший к камере объект больше всего влияет на цвет и влияние плотности на вес.

  • 00:05:00 В этом разделе спикер объясняет, как создать нейронное поле Radiance для создания новых видов объекта на основе нескольких изображений этого объекта. Цель состоит в том, чтобы придумать нейронное поле Radiance, которое можно запрашивать в точках сцены для создания новых изображений. Однако получение необходимых для этого позиций и направлений сухопутных войск может быть трудной и трудоемкой задачей. Существуют доступные программы, которые могут помочь в этом процессе, но спикер отмечает, что полагаться исключительно на эти инструменты можно считать мошенничеством.

  • 00:10:00 В этом разделе лектор обсуждает использование трехмерного зрения для создания новых видов сцены. Они объясняют, что изучение нейронного поля Radiance обеспечивает согласованность форм в разных представлениях, что важно для визуализации новых представлений объекта с помощью глубокого обучения. Без этого узкого места трудно обеспечить согласованность, как показано в примере с StyleGAN, который создает несогласованные формы в разных представлениях. Лектор утверждает, что изучение трехмерного представления объекта необходимо для создания новых видов объекта с постоянной формой.

  • 00:15:00 В этом разделе спикер обсуждает проблемы с представлением согласованных перспектив объектов в трехмерном видении. Использование Radiance Fields объясняется как способ представления мелких деталей во внешнем виде объекта, таких как блики и отражения под разными углами, которые иначе было бы трудно уловить. Докладчик подробно рассказывает о том, как этот процесс включает в себя получение данных о местоположении и просмотре данных о направлении для создания более точного представления наблюдаемого объекта. Также объясняется концепция использования MLP плотности и цвета для представления различных аспектов объекта.

  • 00:20:00 В этом разделе спикер обсуждает использование MLP (плотных нейронных сетей) для получения данных XYZ объекта и направления его взгляда для вывода информации о плотности и RGB. Сеть использует позиционное кодирование для создания четких границ решений, что повышает четкость воссоздаваемого изображения. Использование бинарного представления и логических вентилей позволяет вносить резкие изменения и высокочастотные детали в воссозданное изображение. Докладчик отмечает, что при необходимости они могут предоставить более подробное объяснение позиционного кодирования.

  • 00:25:00 В этом разделе спикер более подробно рассказывает о различных аспектах реализации модели Nerf (нейронные поля излучения) для трехмерного зрения, включая использование позиционного кодирования для резких границ и зависимости вида для таких эффектов, как блики и отражения. Докладчик также обсуждает оптимизацию процесса выборки в два этапа и использование отдельного MLP для изучения более тонких деталей краев. Кроме того, спикер объясняет функцию потерь, используемую для обучения сети, которая включает сравнение значений RGB наземных изображений и рендеринг ограниченного количества лучей из-за ограничений графического процессора. Прямых потерь плотности нет, но сеть по-прежнему учится правильной плотности через косвенную связь между плотностью и правильностью цвета.

  • 00:30:00 В этом разделе лекции спикер рассказывает о процессе объемного рендеринга и о том, как он требует правильного цвета и плотности для получения точных прогнозов. Докладчик объясняет, что использование достаточного количества камер позволяет выполнять триангуляцию различных точек на объекте, а самый простой способ для сети обеспечить низкие потери — это вывод правильного цвета и высокой плотности для точки пересечения. Спикер также демонстрирует проект, над которым они работают, в котором используются сценарии предварительной обработки и библиотека под названием nerfacto для обучения рендерингу в реальном времени. Спикер отмечает, что предварительная обработка сложна и иногда может привести к неправильным направлениям.

  • 00:35:00 В этом разделе спикер обсуждает трехмерное зрение и проблемы, связанные с захватом изображений во всех направлениях. В видео основное внимание уделяется использованию производных Nerf для улучшения компьютерного зрения и тому, как этот метод можно использовать для сжатия пространства вокруг сцены, что упрощает для сети изучение хороших значений. Докладчик объясняет, что ограничивающая рамка вокруг изображения помогает ограничить пространство, поэтому сеть получает только значения от -1 до 1. Видео иллюстрирует, как сжатие пространства работает с формулой, которая берет точку в пространстве и отображает ее на единичный шар, что упрощает изучение точки и значений сцены для сети.

  • 00:40:00 В этом разделе видео спикер демонстрирует использование сжатия пространства для создания реалистичных 3D-изображений с помощью нейронной сети. Он демонстрирует изображение кампанильи и объясняет, что сеть становится все хуже, когда достигает края обучающих данных. Докладчик также упомянул о некоторых достижениях в создании 3D-изображений, которые занимают секунды, а не дни. Хотя у него не было достаточно времени, чтобы обсудить, почему функция плотности изучаема, он предлагает обсудить это с аудиторией после лекции.
CS 198-126: Lecture 18 - 3-D Vision Survey, Part 2
CS 198-126: Lecture 18 - 3-D Vision Survey, Part 2
  • 2022.12.03
  • www.youtube.com
Lecture 18 - 3-D Vision Survey, Part 2CS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley....
 

CS 198-126: Лекция 19 - Продвинутая предварительная тренировка зрения



CS 198-126: Лекция 19 - Продвинутая предварительная тренировка зрения

В этом видеоролике рассматриваются различные методы, используемые для самоконтролируемого предварительного обучения расширенному зрению, включая контрастное обучение, автокодировщики шумоподавления, контекстные кодировщики и сеть Мэй. Докладчик дает обзор каждого метода, обсуждая его сильные и слабые стороны, и подчеркивает преимущества объединения потерь контрастирования и реконструкции в методе BYOL, который превосходит оба метода по отдельности. Видео дает полезную информацию о последних тенденциях исследований в области самоконтролируемого обучения и их потенциале для повышения производительности моделей компьютерного зрения.

  • 00:00:00 В этом разделе инструктор знакомит с концепцией обучения с самостоятельным учителем (SSL), которая представляет собой ветвь обучения без учителя, которая создает метки из наборов данных без каких-либо связанных с ними меток. Этот подход полезен при работе с небольшими наборами данных или при предварительном обучении моделей на больших и разнообразных наборах данных для извлечения представлений, которые можно передать последующим задачам. Преподаватель также приводит аналогию Джона МакКьюна, чтобы объяснить, как SSL обеспечивает больше контроля, чем обучение без учителя, и меньше, чем обучение с учителем, что делает его ценным подходом для различных задач компьютерного зрения.

  • 00:05:00 В этом разделе концепция обучения без учителя как основы интеллекта была представлена в контексте компьютерного зрения. Обучение с самоконтролем обсуждалось как способ создания ярлыков с нуля в качестве основной формы обучения, в то время как обучение с учителем и обучение с подкреплением были лишь небольшими частями процесса. Концепция контрастного обучения была введена как популярный подход без учителя, который фокусируется на сходстве как цели оптимизации, а цель функции потерь объяснялась как приближение встраивания для положительного образца к встраиванию для входных данных, насколько это возможно, в то время как одновременно отодвигая вложение для отрицательного образца дальше от входного вложения.

  • 00:10:00 В этом разделе видео объясняется концепция потери триплетов, используемая для обучения сетей распознавания лиц, и то, как ее можно улучшить с помощью функции контрастной потери. Функция контрастных потерь решает проблему отталкивания входных данных от всех возможных отрицательных отсчетов, что невозможно из-за большого количества отрицательных отсчетов. Реализация этой функции потерь аналогична задаче классификации, где положительный образец служит правильной меткой, а все отрицательные образцы служат неправильными метками. Затем в видео представлен алгоритм MOCO, который определяет контрастное обучение как дифференцируемый доход от словаря, позволяющий собирать все периоды и запросы в одном месте.

  • 00:15:00 В этом разделе ведущий объясняет процесс контрастивного обучения и как определить сходство с помощью нейронных сетей. Автор определяет, что означает подобное, и подчеркивает, что оно проходит через один и тот же образец с использованием одной и той же сети, известной как дискриминация экземпляров. Чтобы создать хорошее представление для последующих задач, ключ и запрос исходят из одной и той же сети, поэтому использование нескольких сетей не очень полезно, и вместо этого необходим огромный пул негативов для поощрения лучшего представления. Однако выбор одного позитива из огромного количества негативов может быть сложным с вычислительной точки зрения и нецелесообразным, что ограничивает размер пакета. Затем докладчик обсуждает идею предварительного вычисления всех ключей и запросов из одной модели.

  • 00:20:00 В этом разделе лекции спикер обсуждает идею предварительного вычисления эмбеддингов и хранения их в очереди при обучении модели в одной сети, которая со временем обновляется. Такой подход помогает поддерживать постоянство во времени и предотвращает сохранение вложений из очень далекого прошлого в процессе обучения. Однако этот метод решает проблему вычисления вложений только на прямом, а не на обратном проходе. Докладчик предлагает обновить ключевой кодировщик с помощью скользящего среднего значения частоты запросов и ключевых кодировщиков, чтобы избежать слишком быстрого изменения весов ключевого кодировщика при сохранении согласованности.

  • 00:25:00 В этом разделе видео ведущий обсуждает модели Moco и SimCLR, которые представляют собой контрастные методы обучения для создания хороших представлений изображений без меток. Модель Moco включает в себя ключевые кодировщики, которые со временем обновляются по мере прохождения обучения для получения хороших представлений, которые можно использовать для последующих задач. Модель SimCLR упрощает этот процесс, используя один кодировщик и пропуская вложения через небольшой MLP, чтобы получить еще лучшие результаты. Этот метод устраняет необходимость поддерживать скользящие средние или различные сети и стал популярным методом контрастного обучения в исследованиях глубокого обучения.

  • 00:30:00 В этом разделе мы узнаем о модели SimCLR, самоконтролируемом методе обучения представлениям изображений. Модель использует контрастные потери и температурное масштабирование для вычисления вложений и вводит понятие сходства, согласно которому одно и то же изображение похоже, а разные — нет. Показаны методы увеличения данных, используемые в модели, и, как ни удивительно, дополнения на основе цвета дают наилучшие результаты. Более длительные тренировки и большие партии также показывают лучшие результаты. SimCLR был первым методом моделирования, который превзошел полностью контролируемый базовый уровень классификации изображений, и он достигает наилучших результатов при точной настройке всего с 1% и 10% меток ImageNet.

  • 00:35:00 В этом разделе рассматривается метод бель для предварительной тренировки расширенного зрения. Этот метод включает в себя применение различных расширений данных к входному изображению, создание различных представлений, передачу их через сети кодировщика и получение представлений из них, которые затем проецируются на небольшую сеть для получения проекций C и C Prime. Этот метод не является строго контрастным методом обучения, как simclr, а представляет собой комбинацию элементов из simclr и moco в единую целевую функцию. В этом подходе используется начальная загрузка, поддержка двух разных сетей и подгонка одной модели на основе метрик, оцененных по другой, вместо использования истинных метрик из набора данных.

  • 00:40:00 В этом разделе мы узнаем о глубоком ключевом обучении в тяжелом, что происходит так же, как и в глубоком свободном обучении. Этот подход послужил источником вдохновения для BYOL, где вторая сеть управляет первой сетью и наоборот. Используя этот процесс начальной загрузки, сеть изучает больше представлений для создания представлений, и, поскольку это не сопоставительное обучение, она устойчива к изменениям в размере пакета и типах организации. BYOL хорошо работает даже с меньшими размерами пакетов и превосходит MCLR по тем же тестам. Затем мы переходим ко второму классу методов, где ввод уничтожается, и нам нужно восстановить исходное изображение, и эти методы хорошо работают со структурой, основанной на автокодировщике. В презентации представлен кодировщик модели шумоподавления, в котором к изображению добавляется шум, и цель состоит в том, чтобы предсказать изображение с шумоподавлением. Кодировщик модели шумоподавления стека был очень популярен, потому что он работает очень хорошо, и сеть узнает что-то значимое даже с разрушенными изображениями.

  • 00:45:00 В этом разделе спикер обсуждает трудности обучения нейронных сетей в прошлом и то, как в качестве обходного пути использовались шумоподавляющие автоэнкодеры (DAE). Затем лекция переходит к концепции маскирования частей изображения для предсказания скрытой области, которая называется кодировщиком контекста. Метод, представленный в 2016 году в лаборатории Беркли, смог получить хорошие результаты в обнаружении и сегментации, но не в классификации. Докладчик рассматривает реализацию кодировщика контекста и то, как добавление дискриминатора к целевой функции привело к улучшению представления.

  • 00:50:00 В этом разделе обсуждается сеть Mae, в которой используется магистраль Transformer, в отличие от магистральных сетей CNN, используемых в других методах. Сеть заменяется vit и использует ту же цель, что и декодер контекста, маскируя участки изображения и передавая незамаскированную область кодировщику. Закодированные вложения затем передаются декодеру с целью восстановления исходного изображения. Этот процесс изучает значимые функции в этом формате, и сеть иллюстрируется несколькими примерами из статьи Мэй. Маркер класса, который фиксирует информацию обо всей последовательности, может использоваться для классификации.

  • 00:55:00 фокусируется на предварительном обучении с самоконтролем, используя смесь контрастного обучения и реконструкции на основе автоэнкодера, и он превосходит обе стратегии по отдельности. Они объединяют методы, используя новую функцию потерь, которая уравновешивает контрастные потери и потери реконструкции. Это многообещающий подход, который демонстрирует потенциал для улучшения производительности методов с самоконтролем, и в настоящее время проводится исследование, чтобы понять основные причины этих результатов.
  • 01:00:00 В этом разделе спикер обсуждает только что выпущенный MasS — модель, которая сочетает реконструкцию изображения и контрастное обучение одновременно через единую модель. MassS генерирует два вида одного и того же изображения, маскирует два разных вида и добавляет к ним шум, тем самым комбинируя цель шумоподавления. Функция потерь, которую использует MasS, представляет собой лучшую комбинацию конечных точек, потерь при реконструкции и потерь при шумоподавлении, что приводит к лучшей производительности, чем в предыдущих моделях. Докладчик отмечает, что в области репрезентативного обучения есть много других моделей, которые хорошо работают, и что эта область в настоящее время активно исследуется.
CS 198-126: Lecture 19 - Advanced Vision Pretraining
CS 198-126: Lecture 19 - Advanced Vision Pretraining
  • 2022.12.03
  • www.youtube.com
Lecture 19 - Advanced Vision PretrainingCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkele...
 

CS 198-126: Лекция 20 - Стилизация изображений



CS 198-126: Лекция 20 - Стилизация изображений

В видео обсуждаются различные методы стилизации изображений, в том числе передача нейронного стиля, GAN и Pix2Pix, для которых требуются парные данные, и CycleGAN, который использует непарные данные для преобразования изображения в изображение. Ограничения CycleGAN могут быть устранены с помощью StarGAN, который может получать информацию из нескольких доменов для обучения генераторов задачам перехода между изображениями в нескольких доменах. Докладчик также обсуждает мультимодальную неконтролируемую трансляцию изображения в изображение с использованием информации о предметной области и низкоразмерных скрытых кодов для получения разнообразных результатов на примере модели BicycleGAN. Наконец, упоминаются потенциальные преимущества использования Vision Transformers с GAN для задач перевода изображений, и лекция завершается забавными примерами изображений и возможностью для вопросов и обсуждения.

  • 00:00:00 В этом разделе спикер обсуждает преобразование изображения в изображение и, в частности, передачу нейронного стиля. Задача включает в себя преобразование изображений из исходного домена в соответствующее изображение в целевом домене с сохранением содержимого исходного изображения. Перенос нейронного стиля — это метод, используемый для объединения двух изображений путем оптимизации выходного изображения, чтобы оно соответствовало содержимому одного изображения и эталону стиля другого. Сверточные сети используются для извлечения соответствующей информации из обоих изображений и создания нового изображения с желаемым стилем. Докладчик подробно описывает необходимые входные данные и архитектуру, используемую для этой техники.

  • 00:05:00 В этом разделе лекции обсуждается концепция использования глубоких CNN для представления содержания и стиля изображений. Начиная с функций низкого уровня, таких как края и текстуры, CNN абстрагирует функции более высокого уровня, прежде чем создавать представления объектов. Затем в лекции рассматривается, как измерить сходство стиля на разных картах объектов с помощью расчета грамм-матрицы. В лекции объясняется, как получить контент и стиль от CNN, а также метод расчета потерь для каждой из них, который настраивает модель для получения желаемого результата.

  • 00:10:00 В этом разделе лекции спикер обсуждает несколько различных методов обработки изображений. Во-первых, они обсуждают процесс создания выходного изображения путем добавления потери контента и стиля в оптимизаторе. Они показывают пример объединения изображения содержимого и изображения стиля для создания окончательного изображения с функциями более низкого уровня из изображения содержимого и функциями более высокого уровня из изображения стиля. Затем они кратко рассматривают GAN, уделяя особое внимание частям дискриминатора и генератора. Они также упоминают StyleGAN и его способность разделять атрибуты более высокого и более низкого уровня в изображении. Наконец, они обсуждают модель под названием Pix2Pix, которая использует условную GAN для создания выходных изображений на основе дополнительной информации, предоставленной пользователем.

  • 00:15:00 В этом разделе видео обсуждаются различные методы стилизации изображений, в том числе GAN и pix2pix, для которых требуются парные данные, и CycleGAN, который использует непарные данные для преобразования изображения в изображение. Однако у CycleGAN есть ограничения, которые можно устранить с помощью StarGAN, модели, которая может получать информацию из нескольких доменов для обучения генераторов, что позволяет выполнять задачи перехода изображений в нескольких доменах. Основная идея StarGAN заключается в изучении гибкого метода перевода, который использует в качестве входных данных как изображение, так и информацию о домене.

  • 00:20:00 В этом разделе лекции спикер обсуждает концепцию мультимодального неконтролируемого преобразования изображения в изображение и то, как его можно использовать для получения нескольких реалистичных и разнообразных выходных данных из входного изображения. Обсуждаемый документ включает информацию о домене и низкоразмерные скрытые коды для получения более точных и достоверных результатов. Модель BicycleGAN была представлена как пример того, как этот подход может работать для минимизации коллапса мод и получения разнообразных результатов. Кроме того, в статье делается попытка научить кодировщик отображать вывод обратно в скрытое пространство и минимизировать вероятность того, что два разных кода будут генерировать один и тот же стиль или вывод.

  • 00:25:00 В этом разделе лекции спикер обсуждает проблемы использования Vision Transformers для таких задач, как преобразование изображения в изображение, и потенциальные преимущества их использования в сочетании с GAN. Они упоминают последние методы, которые используют преимущества Vision Transformers с GAN для решения задач перевода изображений, хотя это не так просто, как использование только GAN для этих задач. В заключение спикер поделился несколькими забавными изображениями, демонстрирующими возможности этих техник, и открыл поле для вопросов и дискуссий.
CS 198-126: Lecture 20 - Stylizing Images
CS 198-126: Lecture 20 - Stylizing Images
  • 2022.12.03
  • www.youtube.com
Lecture 20 - Stylizing ImagesCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal...
 

CS 198-126: Лекция 21 - Генеративнное аудио



CS 198-126: Лекция 21 - Генеративное аудио

В этой лекции о генеративном аудио докладчик затрагивает различные темы, такие как квантование, наложение псевдонимов, обработка сигналов, проекции, глубокое обучение и трансформеры. Лектор обсуждает, как сэмплировать и квантовать непрерывные сигналы, а также компромисс между точностью битовой глубины и вычислительной мощностью. Также объясняются теорема выборки Шеннона-Неквиста и ее влияние на восстановление сигналов, а также важность проекций и их использование для восстановления сигналов. Глубокое обучение исследуется для восстановления звука, а докладчик представляет генеративное аудио и то, как оно может восстановить музыку из потерянных или поврежденных записей. Обсуждается использование Transformers для генерации звука и объясняется процесс представления музыки в виде серии токенов. Докладчик также подчеркивает важность наличия большого и разнообразного набора данных и обсуждает работу модели трансформатора для прогнозирования музыки. Лекция завершается демонстрацией сгенерированной музыки, демонстрирующей способность модели точно предсказывать будущие ноты.

  • 00:00:00 В этом разделе лекции основное внимание уделяется генеративному звуку и тому, как дискретизировать непрерывные сигналы, что необходимо компьютерам для обработки звука. Процесс дискретизации и квантования непрерывного сигнала используется для генерации цифровых сигналов. В лекции объясняется, как аналого-цифровой преобразователь использует схему Sample and Hold и как дискретизируется выходной сигнал в зависимости от требуемого уровня точности. В лекции также обсуждается цифро-аналоговый преобразователь и то, как фильтр нижних частот используется для поддержания полосы пропускания сигнала с определенными частотами среза, определяющими наклон сигнала. Эти концепции важны для генеративного аудио и закладывают важную основу для понимания последующего материала лекции.

  • 00:05:00 В этом разделе лекции рассматриваются уровни квантования и их корреляция с динамическим диапазоном квантуемого сигнала. Более высокая битовая глубина приводит к более точной аппроксимации сигнала, значительно уменьшая количество ошибок, пока не будет достигнута почти идеальная аппроксимация при 16-битной глубине. Тем не менее, когда дело доходит до вычислительной мощности, существует компромисс, который может задаться вопросом, будет ли достаточно для уха слушателя высота звука без потерь или гораздо более быстрая высота звука с потерями. Теорема выборки Шеннона-Неквиста утверждает, что сигнал может быть восстановлен из его выборок без потери информации тогда и только тогда, когда частоты исходного сигнала лежат ниже половины частоты дискретизации. Несоблюдение этого критерия приведет к наложению спектров, что приведет к проблемной аппроксимации сигнала.

  • 00:10:00 В этом разделе мы узнаем о алиасинге и его влиянии на обработку сигнала, особенно с точки зрения плохой выборки, приводящей к измененному выходному сигналу по сравнению с исходным входным сигналом. Мы видим примеры этого через визуализацию сигналов и выборку изображений. Кроме того, мы слышим о геометрической теории сигналов, в частности об использовании проекций для реконструкции сигналов и использовании деконволюций при сегментации изображений. Наконец, докладчик поделится забавной демонстрацией создания 8-битной музыки с помощью одной строки кода на C.

  • 00:15:00 В этом разделе лектор обсуждает проекции и то, как их можно использовать для реконструкции. Формула проекции представляет собой скалярное произведение двух векторов, и эту меру подобия можно использовать для восстановления сигнала с помощью линейной комбинации проекций на другой набор векторов. Однако требуется основа, и набор используемых векторов должен быть ортогонален друг другу, чтобы обеспечить максимальное количество полученной информации. Выполняя проекцию на разные основания, ортогональные друг другу, мы можем получить информацию о проецируемом векторе и, в конечном итоге, реконструировать сигнал.

  • 00:20:00 В этом разделе лектор рассказывает об использовании глубокого обучения для реконструкции звука и о том, как оно может генерировать звук высокого разрешения путем реконструкции сигнала низкого качества. Архитектура модели похожа на архитектуру модуля, который использует одномерное представление свертки субпикселя для повышающей дискретизации. Сигнал с пониженной дискретизацией проходит через восемь блоков понижающей дискретизации с использованием сверточных слоев с шагом в два, а пакетная нормализация применяется с функцией активации ReLU. На уровне узкого места, который устроен так же, как блок понижающей дискретизации, форма сигнала соединяется с восемью блоками повышающей дискретизации. Эти блоки имеют остаточные соединения с блоками понижающей дискретизации и используют свертку субпикселей для переупорядочения информации по определенному измерению, чтобы увеличить прирост информации, увеличивая разрешение формы волны при сохранении особенностей формы волны с низким разрешением. Последний сверточный слой имеет операцию повторного суммирования, которая переупорядочивает информацию после субпиксельной деконволюции, а повышающая дискретизация выходного сигнала генерируется с использованием функции потери среднеквадратичной ошибки.

  • 00:25:00 В этом разделе лектор обсуждает использование генеративного аудио и то, как его можно использовать для восстановления музыки из групп, записанных в середине-конце 1900-х годов, чьи записи, возможно, не сохранились в полном качестве. Она рассказывает о спектре с субдискретизацией и о том, как его можно улучшить, чтобы он соответствовал истинной форме волны, добавив к нему четкости и цвета. Затем лектор переходит к Transformers для генерации звука и рассказывает, как можно использовать архитектуру Transformer для предсказания музыкальных нот в мелодии. Это требует преобразования данных, то есть музыкальных файлов, в последовательность токенов, что является уникальной проблемой, которую необходимо подробно рассмотреть из-за временных рядов, которые необходимо зафиксировать, таких как музыкальная подпись, тональность и доли.

  • 00:30:00 В этом разделе спикер обсуждает процесс представления музыки в виде набора токенов, которые можно передать в модель преобразования для генеративного звука. Они объясняют, как можно использовать высоту тона, продолжительность и другие атрибуты для сбора информации о музыкальных нотах, а также отмечают проблему токенизации 2D-данных рояля в одном измерении. Сравниваются различные подходы, такие как заметки «один ко многим» или сопоставление многих заметок с одним токеном, и вводится использование токенов-разделителей и уменьшенный размер словаря. В заключение докладчик коснулся увеличения данных как способа увеличения разнообразия обучающих данных для генеративных аудиомоделей.

  • 00:35:00 В этом разделе спикер обсуждает важность наличия большого и разнообразного набора данных при использовании генеративных аудиомоделей. Они объясняют, как одну песню можно преобразовать в 12 песен с разными тональностями и чем больше данных и возможностей обобщения у модели, тем лучше она будет работать. Докладчик также обсуждает использование позиционного кодирования битов как способ предоставления метаданных модели, чтобы дать ей лучшее ощущение музыкального тайминга. Они отмечают, что метод позиционной структуры, используемый при обработке естественного языка, можно применить и к музыке. Раздел завершается обсуждением принуждения учителя, способа применения маски внимания, чтобы предотвратить доступ модели ко всей информации сразу и утечку информации о токенах, которые она должна предсказать следующими.

  • 00:40:00 В этом разделе спикер обсуждает, как работает модель трансформатора, используемая в генеративном аудио. Преобразователь XL, используемый в реализации, имеет кодирование относительного положения и скрытую память состояний, что позволяет быстро и точно делать выводы для музыкальных предсказаний. Поскольку в музыке важна позиционность, в модели используется только относительное положение, а не только абсолютное. Модель также фиксирует два атрибута каждой ноты, а именно высоту тона и продолжительность, для сохранения в памяти и точного прогнозирования будущих нот. Затем спикер представляет демонстрацию канона Пахельбеля ре мажор, созданного с использованием модели, которая показывает, что, хотя сгенерированные ноты действительно отличаются от исходной композиции, они по-прежнему звучат хорошо.
CS 198-126: Lecture 21 - Generative Audio
CS 198-126: Lecture 21 - Generative Audio
  • 2022.12.03
  • www.youtube.com
Lecture 21 - Generative AudioCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal...
 

CS 198-126: Лекция 22 - Мультимодальное обучение



CS 198-126: Лекция 22 - Мультимодальное обучение

Мультимодальное обучение включает в себя представление объектов различными способами, например, с помощью текста, изображений, видео или аудио, при этом признавая, что они являются одним и тем же объектом. В лекциях объясняется важность мультимодального обучения для сбора разнообразных наборов данных и решения проблемы сдвига распределения. Видео посвящено CLIP, методу предварительного обучения изображений на контрастном языке, который использует кодировщики текста и изображений для создания вложений для похожих пар изображение-заголовок. Вложения можно использовать для классификации, робототехники, преобразования текста в изображение и трехмерного зрения. Спикер подчеркивает, что универсальность латентных данных CLIP показывает важность репрезентативного обучения и его полезность в машинном обучении. Метод CLIP привел к развитию области мультимодального обучения.

  • 00:00:00 В этом разделе видео лектор объясняет концепцию мультимодального обучения и его важность. Мультимодальное обучение включает в себя представление объектов разными способами, например, с помощью текста, изображений, видео или аудио, и улавливание их нюансов, при этом признавая, что это один и тот же объект. Мультимодальные наборы данных могут включать все эти типы данных, и цель состоит в том, чтобы сохранить всю информацию, чтобы предоставить больше контекста для обучения. Лектор утверждает, что мультимодальное обучение важно, потому что данные могут поступать из разных источников и наборов данных, и отбрасывание всей этой дополнительной информации может привести к уменьшению объема информации для обучения.

  • 00:05:00 В этом разделе основное внимание уделяется проблеме смещения распределения, которая возникает, когда модель компьютерного зрения обучается на фотореалистичных данных и тестируется на мультяшных данных. Проблема в том, что отдельные наборы данных имеют маленькое распределение по сравнению с возможным. Из-за разнообразия данных проблема смещения распределения становится серьезной проблемой, поскольку существуют разные наборы данных с разными объектами, форматами данных и отношениями. Мультимодальное обучение направлено на решение этой проблемы за счет использования всех доступных данных и взаимосвязей между данными для обучения лучших моделей более разнообразным данным. Цель состоит в том, чтобы изучить осмысленные сжатые представления для всего, от изображений до текста и аудио.

  • 00:10:00 В этом разделе видео обсуждает важность мультимодального обучения и проблемы, возникающие при обучении моделей на различных наборах данных. Исследуемый документ называется CLIP, что означает «Предварительное обучение изображениям контрастного языка» и направлено на изучение взаимосвязей между изображениями и соответствующим текстом. Идея модели CLIP заключается в том, что если изображение и подпись связаны, то представления, полученные как для изображения, так и для подписи, должны быть одинаковыми. Модель использует две разные модели: преобразователь зрения для обработки изображений и преобразователь для обработки естественного языка и обучает их с нуля. Процедура обучения включает предварительное обучение кодировщиков текста и изображений с использованием большого количества пар изображение-заголовок из различных источников с целью создания вложений для обоих, которые похожи для совпадающей пары изображение-заголовок и отличаются для другой пары. .

  • 00:15:00 В этом разделе спикер объясняет, как кодировщик изображения и кодировщик текста работают вместе для создания встроенных версий данных изображения и текста, которые очень похожи для совпадающих пар и очень отличаются для несовпадающих пар. Диагональные элементы результирующей матрицы представляют собой скалярное произведение между вложениями для совпадающих пар, которые в идеале очень велики, в то время как недиагональные элементы представляют сходство между вложениями, которые не совпадают и должны быть очень маленькими или отрицательными. Докладчик объясняет, что этот подход похож на задачу классификации, где функция потерь пытается сделать диагональные элементы как можно больше, минимизируя недиагональные элементы. Кодировщик текста и кодировщик изображений работают вместе для достижения этой цели и создают аналогичные вложения для совпадающих пар.

  • 00:20:00 В этом разделе мы узнаем о применении мультимодального обучения под названием CLIP, или Pre-training Contrastive Language-Image. CLIP использует кодировщик текста и кодировщик изображений для встраивания изображений и подписей. Затем он выполняет скалярное произведение вложений, чтобы увидеть, насколько хорошо изображение соответствует подписи. Делая это, CLIP может предсказать, что представляет собой изображение, без какой-либо тонкой настройки, что называется предсказанием нулевого выстрела. Этот метод показывает, что закодированные представления текста и изображений имеют смысл и могут хорошо обобщаться на новые данные.

  • 00:25:00 В этом разделе лекции спикер обсуждает применимость и важность обучения представлению через латентные CLIP. Латенты — это обобщаемые и значимые результаты кодирования изображений с помощью замороженной предварительно обученной модели. Эти латенты имеют несколько вариантов использования, включая классификацию объектов и робототехнику, где они могут помочь во встроенном представлении изображений. Докладчик подчеркивает, что обучение представлению применимо везде и может быть полезно при преобразовании текста в изображение и трехмерном видении. Поле Radiance можно оптимизировать с помощью функции потерь, когда визуализируемое изображение соответствует скрытому клипу, соответствующему входным титрам. Процесс оптимизации дифференцируем, что делает его эффективным инструментом для реконструкции изображений.

  • 00:30:00 В этом разделе спикер обсуждает концепцию использования встраивания изображений для создания полей яркости на основе данной подсказки. Хотя этот метод является дорогостоящим, он демонстрирует универсальность латентных значений клипа, которые основаны на предварительном обучении множества данных и использовании представлений или отношений для создания пригодных для использования латентных значений для любой области. Этот мультимодальный метод обучения оказался эффективным и считается важным направлением в области машинного обучения. Докладчик отмечает, что, хотя метод зажима — это только начало, он привел к дальнейшему развитию в этой области.
CS 198-126: Lecture 22 - Multimodal Learning
CS 198-126: Lecture 22 - Multimodal Learning
  • 2022.12.03
  • www.youtube.com
Lecture 22 - Multimodal LearningCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/de...