Машинное обучение и нейронные сети - страница 59

 

Лекция 14.4 — Моделирование реальных данных с помощью RBM



Лекция 14.4 — Моделирование реальных данных с помощью RBM [Нейронные сети для машинного обучения]

Я опишу, как использовать ограниченную машину Больцмана (RBM) для моделирования данных с действительными значениями. В этом подходе видимые единицы преобразуются из бинарных стохастических единиц в линейные единицы с гауссовским шумом. Для решения задач обучения скрытые единицы задаются как выпрямленные линейные единицы.

Изучение RBM для действительных данных относительно просто. Первоначально RBM использовались с изображениями рукописных цифр, где вероятности представляли собой промежуточные интенсивности, вызванные частично окрашенными пикселями. Эти вероятности в диапазоне от 0 до 1 моделировали вероятность активации логистической единицы. Это приближение хорошо работало для частично окрашенных пикселей, хотя технически неверно.

Однако при работе с реальными изображениями интенсивность пикселя обычно близка к средней интенсивности соседних пикселей. Логистическая единица не может точно отразить это поведение. Средние полевые логистические единицы изо всех сил пытаются уловить мелкие различия в интенсивности. Чтобы решить эту проблему, линейные единицы с гауссовским шумом используются для моделирования интенсивности пикселей как гауссовских переменных.

Альтернативная выборка Гиббса, используемая в обучении с контрастной дивергенцией, все еще может применяться для запуска цепи Маркова. Однако для предотвращения нестабильности требуется меньшая скорость обучения. Функция энергии, используемая в уравнении RBM, состоит из параболического сдерживающего члена, который предотвращает взрыв, и интерактивного члена между видимыми и скрытыми единицами.

Интерактивный термин представляет собой вклад скрытых единиц в функцию энергии. Дифференцируя член, получается постоянный градиент. Комбинированный эффект параболической функции сдерживания и нисходящего вклада скрытых единиц приводит к параболической функции со средним значением, смещенным от смещения видимой единицы.

Однако обучение с помощью гауссовых бинарных RBM сопряжено с трудностями. Трудно выучить малую дисперсию для видимых юнитов. Когда стандартное отклонение видимой единицы мало, восходящие эффекты преувеличиваются, а нисходящие эффекты ослабевают. Это приводит к тому, что скрытые единицы насыщаются и постоянно включаются или выключаются, нарушая процесс обучения.

Чтобы решить эту проблему, необходимо иметь большее количество скрытых единиц по сравнению с видимыми единицами. Это позволяет небольшим весам между видимыми и скрытыми единицами иметь значительный нисходящий эффект из-за обилия скрытых единиц. Кроме того, количество скрытых единиц должно меняться по мере уменьшения стандартного отклонения видимых единиц.

Для этого вводятся ступенчатые сигмовидные единицы. Эти единицы являются несколькими копиями каждой скрытой единицы стохастического двоичного кода, каждая с одинаковыми весами и смещением, но с фиксированным смещением по отношению к смещению. Это смещение варьируется между членами семейства сигмовидных единиц, в результате чего кривая отклика линейно увеличивается по мере увеличения общего входа. Этот подход обеспечивает больше нисходящих эффектов для управления видимыми единицами с небольшими стандартными отклонениями.

Хотя использование большой совокупности бинарных стохастических единиц со смещением смещения может быть дорогостоящим в вычислительном отношении, можно сделать быстрые приближения, дающие аналогичные результаты. Эти приближения включают аппроксимацию суммы действий сигмовидных единиц со смещениями как логарифм 1 плюс экспоненциальное значение общего входа. В качестве альтернативы можно использовать выпрямленные линейные единицы, которые быстрее вычисляются и демонстрируют масштабную эквивалентность, что делает их подходящими для представлений изображений.

Ректифицированные линейные единицы обладают свойством масштабной эквивариантности, что означает, что если интенсивность пикселей в изображении умножить на скаляр, действия скрытых единиц также будут масштабироваться с тем же коэффициентом. Это свойство похоже на трансляционную эквивалентность сверточных нейронных сетей (CNN). В CNN смещение изображения приводит к смещению представления на каждом уровне без существенного влияния на общее поведение сети.

Используя RBM с линейными единицами и выпрямленными линейными единицами, становится возможным эффективно моделировать данные с действительными значениями.

 

Лекция 14.5 — RBM — это бесконечные сигмовидные сети доверия



Лекция 14.5 — RBM — это бесконечные сигмовидные сети доверия [Нейронные сети для машинного обучения]

В этом видео мы обсуждаем расширенный материал, связанный с происхождением глубокого обучения и математическими аспектами глубоких нейронных сетей. Мы исследуем взаимосвязь между ограниченными машинами Больцмана (RBM) и бесконечно глубокими сигмовидными сетями доверия с общими весами.

RBM можно рассматривать как частный случай сигмовидных сетей доверия, где RBM соответствует бесконечно глубокой сети с общими весами. Понимая эквивалентность между RBM и бесконечно глубокими сетями, мы получаем представление об эффективности послойного обучения и контрастивной дивергенции.

Цепь Маркова, используемая для выборки из RBM, эквивалентна выборке из равновесного распределения бесконечно глубокой сети. Вывод в бесконечно глубокой сети упрощается за счет реализации комплементарного априора, который отменяет корреляции, вызванные объяснением. Это упрощает процесс вывода на каждом уровне сети.

Алгоритм обучения для сигмовидных сетей доверия можно использовать для получения алгоритма обучения для RBM. Связав веса сети и заморозив веса нижнего слоя, мы можем узнать остальные слои как RBM. Этот процесс, известный как обучение с контрастным расхождением, обеспечивает вариационную границу логарифмической вероятности данных.

При обучении с контрастной дивергенцией мы отсекаем высшие производные весов, поскольку смесь цепей Маркова работает быстро, а более высокие слои приближаются к равновесному распределению. По мере того, как веса становятся больше, становится необходимым выполнение большего количества итераций контрастного расхождения. Однако для изучения нескольких уровней признаков в стеке RBM достаточно одного CD (одноэтапное контрастивное расхождение), и он может быть даже лучше, чем обучение с максимальным правдоподобием.

Понимание взаимосвязи между RBM и бесконечно глубокими сигмовидными сетями убеждений дает ценную информацию о функционировании глубоких нейронных сетей и эффективности послойного обучения и контрастивной дивергенции.

 

Лекция 15.1 — От PCA к автоэнкодерам



Лекция 15.1 — От PCA к автоэнкодерам [Нейронные сети для машинного обучения]

Анализ основных компонентов (PCA) — это широко используемый метод обработки сигналов, целью которого является представление данных высокой размерности с использованием кода меньшей размерности. Ключевая идея PCA — найти линейное многообразие в многомерном пространстве, где лежат данные. Проецируя данные на это многообразие, мы можем представить его местоположение на многообразии, теряя минимальную информацию.

PCA можно эффективно реализовать стандартными методами или менее эффективно, используя нейронную сеть с линейными скрытыми и выходными блоками. Преимуществом использования нейронной сети является возможность обобщить метод на глубокие нейронные сети, где код и реконструкция данных становятся нелинейными функциями входных данных. Это позволяет нам обрабатывать криволинейные многообразия во входном пространстве, что приводит к более мощному представлению.

В PCA мы стремимся представлять n-мерные данные, используя менее n чисел. Идентифицируя m ортогональных направлений с наибольшей дисперсией, называемых главными направлениями, мы игнорируем направления с небольшими вариациями. Эти m основных направлений образуют подпространство более низкого измерения, и мы представляем n-мерную точку данных, проецируя ее на эти направления в пространстве более низкого измерения. Хотя информация о местоположении точки данных в ортогональных направлениях теряется, она не имеет существенного значения из-за их низкой дисперсии.

Чтобы восстановить точку данных из ее представления с использованием m чисел, мы используем среднее значение для непредставленных направлений (n - m). Ошибка реконструкции рассчитывается как квадрат разницы между значением точки данных в непредставленных направлениях и средним значением в этих направлениях.

Чтобы реализовать PCA с использованием обратного распространения, мы можем создать нейронную сеть со слоем узкого места, имеющим m скрытых элементов, представляющих основные компоненты. Цель сети состоит в том, чтобы минимизировать квадрат ошибки между входом и реконструированным выходом. Если скрытые и выходные единицы являются линейными, сеть выучит коды, которые минимизируют ошибку реконструкции, подобно PCA. Однако скрытые единицы могут не точно соответствовать главным компонентам, потенциально имея поворот и перекос осей. Тем не менее, пространство, занимаемое входящими весовыми векторами кодовой единицы, будет таким же, как пространство, занимаемое m главными компонентами.

Использование обратного распространения в нейронной сети позволяет обобщить PCA за счет включения нелинейных слоев до и после слоя кода. Это позволяет представлять данные, лежащие на искривленных многообразиях в многомерных пространствах, что делает подход более универсальным. Сеть состоит из входного вектора, нелинейных скрытых блоков, слоя кода (который может быть линейным), дополнительных нелинейных скрытых блоков и выходного вектора, обученного так, чтобы он напоминал входной вектор.

Анализ основных компонентов — это метод представления данных высокой размерности с использованием кода меньшей размерности путем определения основных направлений с высокой дисперсией. Его можно эффективно реализовать с помощью традиционных методов или менее эффективно с помощью нейронной сети. Версия нейронной сети допускает обобщение на глубокие нейронные сети и представление данных на криволинейных многообразиях.

 

Лекция 15.2 — Глубокие автоэнкодеры



Лекция 15.2 — Глубокие автоэнкодеры [Нейронные сети для машинного обучения]

Глубокие автоэнкодеры произвели революцию в уменьшении размерности, превзойдя возможности линейных методов, таких как анализ основных компонентов. Их способность фиксировать сложные, нелинейные отношения в данных сделала их бесценным инструментом в различных областях.

В случае глубокого автоэнкодера, реализованного Салахутдиновым и Хинтоном, реконструированные цифры демонстрируют превосходное качество по сравнению с их аналогами из линейных основных компонентов. Это улучшение связано со способностью глубокого автоэнкодера изучать иерархию все более абстрактных представлений через множество скрытых слоев. Каждый слой фиксирует признаки более высокого уровня, которые способствуют более точной реконструкции входных данных.

Сила глубинных автоэнкодеров заключается в их способности обучаться очень выразительным отображениям как в направлении кодирования, так и в направлении декодирования. Кодер преобразует многомерные входные данные в низкоразмерное кодовое представление, эффективно захватывая наиболее важные функции. С другой стороны, декодер восстанавливает исходный ввод из этого сжатого представления кода. Это двунаправленное отображение гарантирует сохранение ценной информации в процессе уменьшения размерности.

Обучение глубоких автоэнкодеров изначально было сложной задачей из-за проблемы исчезающего градиента. Однако с развитием методов оптимизации, таких как неконтролируемая предварительная тренировка и стратегии инициализации веса, тренировочный процесс стал намного более эффективным и действенным. Эти методы позволяют глубокому автоэнкодеру изучать осмысленные представления, не застревая в неоптимальных решениях.

Кроме того, глубинные автоэнкодеры проложили путь для разработки более продвинутых архитектур, таких как вариационные автоэнкодеры и генеративно-состязательные сети. Эти модели расширяют возможности глубинных автоэнкодеров за счет включения вероятностных и состязательных методов обучения, что позволяет выполнять такие задачи, как генерация данных, обнаружение аномалий и частично контролируемое обучение.

В заключение можно сказать, что глубинные автоэнкодеры произвели революцию в снижении размерности, предоставив гибкие и нелинейные отображения, которые превосходят традиционные линейные методы. Их способность изучать иерархические представления и реконструировать высококачественные данные выдвинула их на видное место в области глубокого обучения. Ожидается, что благодаря постоянным исследованиям и разработкам глубокие автоэнкодеры откроют дополнительные возможности для понимания и управления сложными структурами данных в различных областях.

 

Лекция 15.3 — Глубокие автоэнкодеры для поиска документов



Лекция 15.3 — Глубокие автоэнкодеры для поиска документов [Нейронные сети для машинного обучения]

В этом видео обсуждается применение глубинных автокодировщиков при поиске документов. Предыдущий метод, называемый латентным семантическим анализом, использовал анализ основных компонентов (PCA) векторов количества слов, извлеченных из документов, для определения сходства документов и облегчения поиска. Однако возможность того, что глубинные автоэнкодеры превзойдут PCA в этой задаче, потребовала дальнейшего изучения.

Исследование, проведенное Руссом Салахутдиновым, показало, что глубинные автокодировщики действительно превосходят латентный семантический анализ применительно к большой базе данных документов. Даже при уменьшении размерности данных всего до 10 компонентов глубокий автоэнкодер дал превосходные результаты по сравнению с 50 компонентами, полученными с помощью линейных методов, таких как латентный семантический анализ.

Процесс поиска документов включает в себя преобразование каждого документа в набор слов, по сути, вектор количества слов. Стоп-слова, такие как "the" или "over", которые дают мало информации о теме документа, игнорируются. Сравнение количества слов в документе запроса с количеством слов в миллионах других документов может потребовать значительных вычислительных ресурсов. Чтобы решить эту проблему, используется глубокий автоэнкодер для сжатия векторов количества слов с 2000 измерений до 10 действительных чисел, которые затем можно более эффективно использовать для сравнения документов.

Чтобы адаптировать автоэнкодер к подсчету слов, выполняется деление на общее количество непрерывных слов, преобразуя вектор подсчета в вектор вероятности, в котором сумма чисел равна единице. Выходной слой автоэнкодера использует функцию softmax с размерностью, соответствующей размеру вектора подсчета слов. Во время реконструкции вероятности количества слов рассматриваются как целевые значения. Однако при активации первого скрытого слоя все веса умножаются на «n», чтобы учесть несколько наблюдений из распределения вероятностей. Это гарантирует, что входные блоки обеспечивают достаточный ввод для первого скрытого слоя.

Эффективность этого подхода оценивалась с использованием набора данных из 4000 размеченных вручную деловых документов из набора данных Reuters. Сначала был обучен стек ограниченных машин Больцмана, после чего была проведена точная настройка с использованием обратного распространения ошибки с выходным слоем softmax с 2000 способами. Тестирование включало выбор документа в качестве запроса и ранжирование оставшихся документов на основе косинуса углов между их десятимерными векторами. Точность поиска измерялась путем сравнения количества найденных документов с долей документов в том же классе, помеченном вручную, что и запрашиваемый документ.

Результаты показали, что автоэнкодер, даже с десятью действительными числами в качестве кода, превзошел латентный семантический анализ с использованием 50 действительных чисел. Более того, сведение векторов документов к двум действительным числам и их визуализация на карте выявили гораздо более четкое разделение классов документов по сравнению с PCA. Такие визуальные отображения могут дать ценную информацию о структуре набора данных и помочь в процессах принятия решений.

В заключение следует отметить, что глубинные автоэнкодеры предлагают многообещающие улучшения по сравнению с традиционными линейными методами, такими как PCA, для задач поиска документов. Их способность эффективно сжимать и реконструировать представления документов при захвате важной информации может повысить точность и эффективность систем поиска документов.

 

Лекция 15.4 — Семантическое хеширование



Лекция 15.4 — Семантическое хэширование [Нейронные сети для машинного обучения]

В этом видео я расскажу о семантическом хэшировании, методе, который эффективно находит документы, похожие на документ запроса. Концепция включает в себя преобразование документа в адрес памяти и организацию памяти для группировки похожих документов. Это похоже на супермаркет, где похожие продукты находятся в одном и том же районе.

Двоичные дескрипторы изображений полезны для быстрого поиска изображений, но получение набора ортогональных двоичных дескрипторов является сложной задачей. Машинное обучение может помочь в решении этой проблемы. Мы рассмотрим применение этой техники к документам, а затем к изображениям.

Чтобы получить двоичные коды для документов, мы обучаем глубокий автоэнкодер с логистическими единицами в его кодовом слое. Однако, чтобы логистические единицы не использовали свои средние диапазоны для передачи информации о количестве слов, мы добавляем шум к входным данным на этапе тонкой настройки. Этот шум побуждает единицы кода быть включенными или выключенными, что приводит к двоичным значениям. Пороговое значение логистических единиц во время тестирования дает двоичные коды.

В качестве альтернативы мы можем использовать стохастические двоичные единицы вместо добавления шума. Во время прямого прохода двоичное значение выбирается стохастически на основе выходных данных логистической единицы. Во время обратного прохода действительная вероятность используется для плавного вычисления градиента во время обратного распространения.

По полученным коротким двоичным кодам мы можем осуществлять последовательный поиск, сравнивая код запрашиваемого документа с кодами сохраненных документов. Однако более эффективным подходом является обращение с кодом как с адресом памяти. Используя глубокий автоэнкодер в качестве хэш-функции, мы преобразуем документ в 30-битный адрес. Каждый адрес в памяти указывает на документы с таким же адресом, образуя список. Переворачивая биты в адресе, мы можем получить доступ к ближайшим адресам и найти семантически похожие документы. Это позволяет избежать необходимости поиска в длинном списке документов.

Такой поиск в памяти очень эффективен, особенно для больших баз данных. Это похоже на то, как вы бы искали в супермаркете, заходя в определенное место и просматривая близлежащие товары. Однако в 30-мерном пространстве памяти элементы могут располагаться рядом друг с другом по множеству причин, что делает поиск более эффективным.

Семантическое хеширование согласуется с методами быстрого поиска, которые пересекают сохраненные списки, связанные с терминами запроса. Компьютеры имеют специализированное оборудование, такое как шина памяти, которая может пересекать несколько списков в одной инструкции. Гарантируя, что 32 бита в двоичном коде соответствуют значимым свойствам документа, семантическое хеширование использует машинное обучение для сопоставления проблемы поиска с операциями пересечения списков, обеспечивая быстрый поиск сходства без традиционных методов поиска.

Семантическое хеширование — это мощный метод, использующий машинное обучение для преобразования проблемы поиска в задачу пересечения списков, с которой компьютеры превосходно справляются. Представляя документы или изображения в виде двоичных кодов, мы можем эффективно находить похожие элементы, не прибегая к традиционным методам поиска.

Для этого глубокий автоэнкодер обучается кодировать документы в двоичные коды. Первоначально автоэнкодер обучается как стек ограниченных машин Больцмана, которые затем разворачиваются и настраиваются с помощью обратного распространения ошибки. На этапе тонкой настройки к входным данным кодовых единиц добавляется шум, чтобы стимулировать изучение двоичных функций.

После обучения автоэнкодера двоичные коды можно использовать в качестве адресов памяти. Каждый адрес в памяти соответствует набору документов со сходными характеристиками. Перевернув несколько битов в адресе, мы можем получить доступ к соседним адресам, образуя шар Хэмминга. Внутри этого шара Хэмминга мы ожидаем найти семантически похожие документы.

Такой подход устраняет необходимость последовательного поиска в большой базе данных документов. Вместо этого мы просто вычисляем адрес памяти для запрашиваемого документа, изучаем близлежащие адреса, переворачивая биты, и извлекаем похожие документы. Эффективность этого метода становится особенно очевидной при работе с огромными базами данных, содержащими миллиарды документов, поскольку он позволяет избежать последовательного поиска по каждому элементу.

Аналогией, часто используемой для объяснения этого процесса, является концепция поиска в супермаркете. Так же, как в супермаркете, где вы спрашиваете у продавца местонахождение конкретного товара, здесь мы конвертируем документ запроса в адрес памяти и ищем поблизости похожие документы. 30-мерное пространство памяти допускает сложные отношения и предоставляет достаточно места для размещения рядом предметов с похожими характеристиками.

В то время как традиционные методы поиска основаны на пересекающихся списках, связанных с терминами запроса, семантическое хеширование использует машинное обучение для сопоставления проблемы поиска с возможностями компьютеров по пересечению списков. Убедившись, что 32 бита в двоичном коде соответствуют значимым свойствам документов или изображений, мы можем эффективно находить похожие элементы без необходимости явных операций поиска.

Семантическое хеширование — это высокоэффективный метод поиска похожих документов или изображений. Преобразовывая их в двоичные коды и рассматривая коды как адреса памяти, мы можем быстро извлекать семантически похожие элементы, исследуя близлежащие адреса. Этот подход основан на сильных сторонах машинного обучения и использует возможности компьютеров по пересечению списков, обеспечивая быстрый и точный поиск без необходимости использования традиционных методов поиска.

 

Лекция 15.3 — Глубокие автоэнкодеры для поиска документов



Лекция 15.3 — Глубокие автоэнкодеры для поиска документов [Нейронные сети для машинного обучения]

В этом видео обсуждается применение глубинных автокодировщиков при поиске документов. Предыдущий метод, называемый латентным семантическим анализом, использовал анализ основных компонентов (PCA) векторов количества слов, извлеченных из документов, для определения сходства документов и облегчения поиска. Однако возможность того, что глубинные автоэнкодеры превзойдут PCA в этой задаче, потребовала дальнейшего изучения.

Исследование, проведенное Руссом Салахутдиновым, показало, что глубинные автокодировщики действительно превосходят латентный семантический анализ применительно к большой базе данных документов. Даже при уменьшении размерности данных всего до 10 компонентов глубокий автоэнкодер дал превосходные результаты по сравнению с 50 компонентами, полученными с помощью линейных методов, таких как латентный семантический анализ.

Процесс поиска документов включает в себя преобразование каждого документа в набор слов, по сути, вектор количества слов. Стоп-слова, такие как "the" или "over", которые дают мало информации о теме документа, игнорируются. Сравнение количества слов в документе запроса с количеством слов в миллионах других документов может потребовать значительных вычислительных ресурсов. Чтобы решить эту проблему, используется глубокий автоэнкодер для сжатия векторов количества слов с 2000 измерений до 10 действительных чисел, которые затем можно более эффективно использовать для сравнения документов.

Чтобы адаптировать автоэнкодер к подсчету слов, выполняется деление на общее количество непрерывных слов, преобразуя вектор подсчета в вектор вероятности, в котором сумма чисел равна единице. Выходной слой автоэнкодера использует функцию softmax с размерностью, соответствующей размеру вектора подсчета слов. Во время реконструкции вероятности количества слов рассматриваются как целевые значения. Однако при активации первого скрытого слоя все веса умножаются на «n», чтобы учесть несколько наблюдений из распределения вероятностей. Это гарантирует, что входные блоки обеспечивают достаточный ввод для первого скрытого слоя.

Эффективность этого подхода оценивалась с использованием набора данных из 4000 размеченных вручную деловых документов из набора данных Reuters. Сначала был обучен стек ограниченных машин Больцмана, после чего была проведена точная настройка с использованием обратного распространения ошибки с выходным слоем softmax с 2000 способами. Тестирование включало выбор документа в качестве запроса и ранжирование оставшихся документов на основе косинуса углов между их десятимерными векторами. Точность поиска измерялась путем сравнения количества найденных документов с долей документов в том же классе, помеченном вручную, что и запрашиваемый документ.

Результаты показали, что автоэнкодер, даже с десятью действительными числами в качестве кода, превзошел латентный семантический анализ с использованием 50 действительных чисел. Более того, сведение векторов документов к двум действительным числам и их визуализация на карте выявили гораздо более четкое разделение классов документов по сравнению с PCA. Такие визуальные отображения могут дать ценную информацию о структуре набора данных и помочь в процессах принятия решений.

В заключение следует отметить, что глубинные автоэнкодеры предлагают многообещающие улучшения по сравнению с традиционными линейными методами, такими как PCA, для задач поиска документов. Их способность эффективно сжимать и реконструировать представления документов при захвате важной информации может повысить точность и эффективность систем поиска документов.

 

Лекция 15.5 — Изучение двоичных кодов для поиска изображений



Лекция 15.5 — Изучение двоичных кодов для поиска изображений [Нейронные сети для машинного обучения]

В видео обсуждается использование двоичных кодов для поиска изображений и сравнивается его с традиционными методами, основанными на подписях. Извлечение изображений на основе их содержимого является сложной задачей, поскольку отдельные пиксели не предоставляют много информации о содержимом изображения. Однако, извлекая короткий двоичный вектор, представляющий содержимое изображения, мы можем более эффективно хранить и сопоставлять изображения.

Видео предлагает двухэтапный метод поиска изображений. На первом этапе короткий двоичный код, обычно около 30 бит, извлекается с помощью семантического хеширования. Этот код используется для быстрого создания короткого списка потенциальных совпадений. На втором этапе используются более длинные двоичные коды, например 256 бит, для более детального и точного поиска среди изображений-кандидатов.

В видео представлен пример архитектуры автоэнкодера, который может восстанавливать изображения и извлекать информативные двоичные коды. Автоэнкодер состоит из нескольких слоев, постепенно уменьшая количество единиц до достижения 256-битного кода. С помощью этого автокодировщика видео демонстрирует, что полученные изображения похожи на изображение запроса и демонстрируют значимые отношения.

Кроме того, в видео исследуется использование предварительно обученной нейронной сети для распознавания изображений для извлечения векторов активности как представлений содержимого изображения. При использовании евклидова расстояния для сравнения этих векторов активности результаты поиска являются многообещающими, предполагая, что этот подход может быть распространен на двоичные коды для более эффективного сопоставления.

Видео завершается упоминанием о том, что объединение содержимого изображения с подписями может еще больше улучшить представление и повысить производительность поиска.

Видео подчеркивает преимущества использования двоичных кодов для поиска изображений, такие как эффективное хранение, быстрое сопоставление и возможность захвата значимого содержимого изображения. Он демонстрирует эффективность автоэнкодеров и предварительно обученных нейронных сетей в извлечении информативных двоичных кодов и предполагает, что объединение содержимого изображения и подписей может привести к еще лучшим результатам поиска.

 

Лекция 15.6 — Неглубокие автоэнкодеры для предобучения



Лекция 15.6 — Неглубокие автоэнкодеры для предварительного обучения [Нейронные сети для машинного обучения]

В этом видео спикер обсуждает альтернативные методы предобучения для обучения глубоких нейронных сетей. Первоначально они ввели предварительное обучение с использованием ограничительных машин Больцмана (RBM), обученных с контрастной дивергенцией. Однако позже было обнаружено, что существуют и другие способы предварительной подготовки слоев признаков. Если веса инициализированы правильно, предварительное обучение может не понадобиться, если имеется достаточно размеченных данных. Спикер упоминает о преимуществах глубинных автоэнкодеров и их кодов для различных приложений.

Затем они переключают внимание на неглубокие автоэнкодеры, особенно на RBM, обученные с максимальной вероятностью. RBM как автоэнкодеры имеют сильную регуляризацию из-за бинарных скрытых единиц, что ограничивает их возможности. Однако, если RBM обучены с максимальной вероятностью, они игнорируют зашумленные пиксели и моделируют их, используя входные смещения. Докладчик предлагает использовать стек автоэнкодеров вместо RBM для предварительного обучения, но этот подход не так эффективен, особенно с энкодерами для мелководья, которые штрафуют только квадраты веса.

Докладчик представляет шумоподавляющие автоэнкодеры, тщательно изученные Монреальской группой. Эти автоэнкодеры добавляют шум к входным векторам, устанавливая некоторые компоненты в ноль (напоминая выпадение). Они необходимы для восстановления входных данных с обнуленными компонентами, что не позволяет им просто копировать входные данные. В отличие от энкодеров мелководья, автоэнкодеры с шумоподавлением фиксируют корреляции между входными данными, используя некоторые входные значения, чтобы помочь восстановить обнуленные входные данные. Автоэнкодеры с шумоподавлением могут быть очень эффективными для предварительного обучения, в большинстве случаев превосходя RBM.

Докладчик упоминает, что оценка предварительной подготовки с использованием шумоподавляющих автоэнкодеров проще, поскольку целевая функция может быть легко вычислена. Напротив, оценка RBM с контрастным расхождением не дает реальной целевой функции. Однако автоэнкодерам с шумоподавлением не хватает вариационной границы, которой обладают RBM, хотя этот теоретический интерес ограничен RBM, обученными с максимальной вероятностью.

Другой обсуждаемый тип кодировщика — это контрактный автоэнкодер, также разработанный группой Montreal. Эти автоэнкодеры стремятся сделать скрытые действия нечувствительными к входным данным, штрафуя квадрат градиента каждой скрытой единицы по отношению к каждому входу. Сжатые автоэнкодеры хорошо работают для предварительного обучения и, как правило, имеют разреженные коды с небольшим подмножеством скрытых единиц, чувствительных к различным частям входного пространства.

В заключение спикер резюмирует свое нынешнее мнение о предварительной подготовке. Послойное предварительное обучение полезно, когда в наборе данных есть ограниченные помеченные данные, поскольку оно помогает обнаруживать хорошие функции, не полагаясь на метки. Однако для больших размеченных наборов данных предварительное обучение без учителя не требуется, если сеть достаточно велика. Тем не менее, для еще более крупных сетей предварительное обучение снова становится критически важным для предотвращения переобучения. Спикер утверждает, что методы регуляризации, такие как отсев и предварительное обучение, важны, особенно при работе с большими пространствами параметров по сравнению с доступными данными.

 

Лекция 16.1 — Изучение совместной модели изображений и подписей



Лекция 16.1 — Изучение совместной модели изображений и подписей [Нейронные сети для машинного обучения]

Я расскажу о недавней работе по изучению совместной модели подписей к изображениям и векторов признаков. В предыдущей лекции мы рассмотрели, как извлекать значимые функции из изображений без использования подписей. Однако подписи могут предоставить ценную информацию для извлечения соответствующих семантических категорий из изображений, и наоборот, изображения могут помочь устранить неоднозначность значения слов в подписях.

Предлагаемый подход включает в себя обучение большой сети, которая принимает в качестве входных данных стандартные векторы признаков компьютерного зрения, извлеченные из изображений и представлений подписей в виде набора слов. Сеть изучает взаимосвязь между двумя входными представлениями. Показан фильм финальной сети, который демонстрирует использование слов для создания векторов признаков для изображений и поиск ближайшего изображения в своей базе данных, а также использование изображений для создания наборов слов.

Нитиш Сривастава и Руслан Салахутдинов провели исследование, чтобы построить совместную модель плотности подписей и изображений. Однако вместо использования необработанных пикселей они представляли изображения с использованием стандартных функций компьютерного зрения. Это потребовало большего количества вычислений по сравнению с построением совместной модели плотности меток и цифровых изображений. Они обучили отдельные многослойные модели для изображений и векторов количества слов из подписей. Затем эти отдельные модели были подключены к новому верхнему слою, объединяющему обе модальности. Было проведено совместное обучение всей системы, чтобы позволить каждой модальности улучшить ранние уровни другой модальности.

Чтобы предварительно обучить скрытые слои глубокой машины Больцмана, они использовали подход, отличный от того, который рассматривался ранее в курсе. Вместо того, чтобы использовать стек ограниченных машин Больцмана (RBM) для формирования глубокой сети убеждений, они напрямую предварительно обучили стек RBM определенным образом. Веса верхнего и нижнего RBM в стеке были обучены со свойством масштабной симметрии, где веса снизу вверх были в два раза больше, чем веса сверху вниз. Промежуточные RBM тренировались с симметричными весами. Эта конфигурация веса позволила провести геометрическое усреднение двух разных моделей каждого слоя в окончательной глубокой машине Больцмана.

Обоснование этой весовой конфигурации заключается в том, как два способа вывода состояний единиц в каждом слое комбинируются в глубокой машине Больцмана. Веса гарантируют, что свидетельства не учитываются дважды при выводе о состоянии слоя. Промежуточные слои выполняют геометрическое усреднение свидетельств восходящей и нисходящей моделей, избегая дублирования свидетельств. Для более подробного объяснения обратитесь к оригинальной статье.

Подход, представленный в видео, фокусируется на изучении совместной модели подписей к изображениям и векторов признаков. Интегрируя информацию из обеих модальностей, модель стремится улучшить понимание изображений и подписей и обеспечить более точное семантическое представление.

Стоит отметить, что использование глубокой машины Больцмана вместо глубокой сети убеждений для совместного обучения имеет свои преимущества. В то время как глубокая сеть убеждений могла бы использоваться с генеративной точной настройкой с использованием контрастного бодрствования и сна, ожидается, что алгоритм точной настройки для глубоких машин Больцмана даст лучшие результаты. Поэтому решение использовать глубокую машину Больцмана позволяет улучшить обучение и улучшить детекторы признаков на ранних уровнях каждой модальности.

Видео также кратко затрагивает процесс обучения глубокой машине Больцмана. Веса RBM в стопке регулируются симметрично шкале, гарантируя, что доказательства должным образом объединены без двойного подсчета. Этот подход позволяет проводить геометрическое усреднение двух разных моделей каждого слоя, учитывая как восходящие, так и нисходящие входные данные. Конфигурация определенного веса гарантирует, что доказательства не будут дублироваться, принимая во внимание зависимости между слоями.

Хотя видео дает объяснение процесса на высоком уровне, лежащую в его основе математику и подробные рассуждения можно найти в сопроводительном документе. Подход, представленный в видео, и последующее исследование Нитиша Сриваставы и Руслана Салахутдинова способствуют развитию совместного моделирования надписей и векторов признаков, способствуя лучшему пониманию и представлению изображений и связанных с ними подписей.

В заключение, работа, обсуждаемая в видео, сосредоточена на изучении совместной модели подписей к изображениям и векторов признаков. Используя информацию, представленную в обоих модальностях, предлагаемый подход направлен на улучшение извлечения семантических категорий из изображений и устранения неоднозначности слов в подписях. Использование глубокой машины Больцмана и определенной конфигурации веса во время тренировки обеспечивает эффективную интеграцию и обучение между двумя модальностями.