![MQL5 - Язык торговых стратегий для клиентского терминала MetaTrader 5](https://c.mql5.com/i/registerlandings/logo-2.png)
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
CS 198-126: Лекция 13 - Введение в моделирование последовательностей
CS 198-126: Лекция 13 - Введение в моделирование последовательностей
В этой лекции о моделировании последовательности докладчик рассказывает о важности представления данных последовательности и достижения разумного количества временных шагов без потери слишком большого количества информации. Рекуррентные нейронные сети (RNN) обсуждаются как первая попытка решения этих проблем, которые способны обрабатывать входные и выходные данные различной длины. Однако проблемы с RNN не позволяют им работать оптимально. Внедрение текста представлено как более эффективный способ представления текстовых данных, чем использование многомерного однократного вектора. Кроме того, концепция позиционного кодирования обсуждается как способ представления порядка элементов в последовательности с использованием непрерывных значений, а не двоичных.
CS 198-126: Лекция 14 - Трансформеры и внимание
CS 198-126: Лекция 14 - Трансформеры и внимание
Эта видео-лекция о Трансформерах и Внимании охватывает концепцию и мотивацию внимания, его связь с Трансформерами и его применение в НЛП и видении. Лектор обсуждает мягкое и жесткое внимание, внимание к себе, локальное внимание и внимание с несколькими головами, а также то, как они используются в архитектуре Transformer. Они также объясняют систему запросов «ключ-значение», важность остаточных соединений и нормализации слоев, а также процесс применения линейного слоя для получения kqv из входных вложений. Наконец, в лекции рассматривается использование вложений позиций и токена CLS в примерах преобразования последовательности в вектор, при этом подчеркивается вычислительная эффективность и масштабируемость механизма внимания.
CS 198-126: Лекция 15 - Преобразователи зрения
CS 198-126: Лекция 15 - Преобразователи зрения
В этой лекции спикер обсуждает использование Vision Transformers (ViT) для задач обработки изображений. Архитектура ViT включает в себя субдискретизацию изображений в дискретные патчи, которые затем проецируются во входные вложения с использованием вывода линейного слоя перед прохождением через Transformer. Модель предварительно обучается на большом размеченном наборе данных перед точной настройкой фактического набора данных, что обеспечивает превосходную производительность при меньшем объеме вычислений, чем предыдущие современные методы. Обсуждаются различия между ViT и сверточной нейронной сетью (CNN), при этом ViT имеют глобальное рецептивное поле и большую гибкость, чем CNN. Также подчеркивается использование самоконтролируемого и неконтролируемого обучения с Transformers для задач зрения.
CS 198-126: Лекция 16 - Расширенное обнаружение объектов и семантическая сегментация
CS 198-126: Лекция 16 - Расширенное обнаружение объектов и семантическая сегментация
В этой лекции по расширенному обнаружению объектов и семантической сегментации лектор обсуждает преимущества и недостатки сверточных нейронных сетей (CNN) и преобразователей, особенно в обработке естественного языка (NLP) и компьютерном зрении. В то время как CNN преуспевают в текстурной предвзятости, Transformers эффективно справляются как с задачами NLP, так и с компьютерным зрением, используя слои внутреннего внимания, чтобы связать важные концепции вместе и сосредоточиться на конкретных входных данных. Затем лекция углубляется в Vision Transformers, которые отдают предпочтение форме, а не текстуре, что делает их устойчивыми к искажениям. Далее он объясняет преимущества и ограничения Swin Transformer, улучшенной версии Vision Transformer, которая превосходно подходит для классификации изображений, семантической сегментации и обнаружения объектов. В лекции подчеркивается важность обобщаемости моделей, которые могут обрабатывать любые данные, и потенциальных приложений в таких областях, как самоуправляемые автомобили.
CS 198-126: Лекция 17 - Обзор трехмерного зрения, часть 1
CS 198-126: Лекция 17 - Обзор трехмерного зрения, часть 1
В видео обсуждаются различные трехмерные визуальные представления и их плюсы и минусы, включая облака точек, сетки, воксели и поля яркости. Лекция также охватывает raycasting, прямое и обратное, а также раскрашивание и рендеринг изображений для объектов, которые пересекаются друг с другом, с различными подходами для твердых тел и прозрачности. Лектор затрагивает ограничения дифференцируемого рендеринга и то, как Radiance Fields может создать функцию для каждой точки XYZ с плотностью и физическим цветом, что делает ее более обучаемой.
CS 198-126: Лекция 18 - Обзор трехмерного зрения, часть 2
CS 198-126: Лекция 18 - Обзор трехмерного зрения, часть 2
В этой лекции о трехмерном зрении инструктор обсуждает поля излучения, в частности поля нейронного излучения (NeRF), которые занимают положение в пространстве и выдают цвет и плотность. Докладчик объясняет процесс рендеринга, который включает в себя запрос с точки зрения камеры и использование функции черного ящика, чтобы выяснить, как будет выглядеть изображение. В лекциях обсуждаются проблемы, связанные с представлением согласованных перспектив объектов в 3D-видении и использованием MLP для получения данных XYZ объекта и направления взгляда для вывода информации о плотности и RGB. В лекции также рассматриваются проблемы объемного рендеринга и использования производных Nerf для улучшения компьютерного зрения. Преподаватель заканчивает демонстрацией использования сжатия пространства для создания реалистичных 3D-изображений с помощью нейронной сети.
CS 198-126: Лекция 19 - Продвинутая предварительная тренировка зрения
CS 198-126: Лекция 19 - Продвинутая предварительная тренировка зрения
В этом видеоролике рассматриваются различные методы, используемые для самоконтролируемого предварительного обучения расширенному зрению, включая контрастное обучение, автокодировщики шумоподавления, контекстные кодировщики и сеть Мэй. Докладчик дает обзор каждого метода, обсуждая его сильные и слабые стороны, и подчеркивает преимущества объединения потерь контрастирования и реконструкции в методе BYOL, который превосходит оба метода по отдельности. Видео дает полезную информацию о последних тенденциях исследований в области самоконтролируемого обучения и их потенциале для повышения производительности моделей компьютерного зрения.
CS 198-126: Лекция 20 - Стилизация изображений
CS 198-126: Лекция 20 - Стилизация изображений
В видео обсуждаются различные методы стилизации изображений, в том числе передача нейронного стиля, GAN и Pix2Pix, для которых требуются парные данные, и CycleGAN, который использует непарные данные для преобразования изображения в изображение. Ограничения CycleGAN могут быть устранены с помощью StarGAN, который может получать информацию из нескольких доменов для обучения генераторов задачам перехода между изображениями в нескольких доменах. Докладчик также обсуждает мультимодальную неконтролируемую трансляцию изображения в изображение с использованием информации о предметной области и низкоразмерных скрытых кодов для получения разнообразных результатов на примере модели BicycleGAN. Наконец, упоминаются потенциальные преимущества использования Vision Transformers с GAN для задач перевода изображений, и лекция завершается забавными примерами изображений и возможностью для вопросов и обсуждения.
CS 198-126: Лекция 21 - Генеративнное аудио
CS 198-126: Лекция 21 - Генеративное аудио
В этой лекции о генеративном аудио докладчик затрагивает различные темы, такие как квантование, наложение псевдонимов, обработка сигналов, проекции, глубокое обучение и трансформеры. Лектор обсуждает, как сэмплировать и квантовать непрерывные сигналы, а также компромисс между точностью битовой глубины и вычислительной мощностью. Также объясняются теорема выборки Шеннона-Неквиста и ее влияние на восстановление сигналов, а также важность проекций и их использование для восстановления сигналов. Глубокое обучение исследуется для восстановления звука, а докладчик представляет генеративное аудио и то, как оно может восстановить музыку из потерянных или поврежденных записей. Обсуждается использование Transformers для генерации звука и объясняется процесс представления музыки в виде серии токенов. Докладчик также подчеркивает важность наличия большого и разнообразного набора данных и обсуждает работу модели трансформатора для прогнозирования музыки. Лекция завершается демонстрацией сгенерированной музыки, демонстрирующей способность модели точно предсказывать будущие ноты.
CS 198-126: Лекция 22 - Мультимодальное обучение
CS 198-126: Лекция 22 - Мультимодальное обучение
Мультимодальное обучение включает в себя представление объектов различными способами, например, с помощью текста, изображений, видео или аудио, при этом признавая, что они являются одним и тем же объектом. В лекциях объясняется важность мультимодального обучения для сбора разнообразных наборов данных и решения проблемы сдвига распределения. Видео посвящено CLIP, методу предварительного обучения изображений на контрастном языке, который использует кодировщики текста и изображений для создания вложений для похожих пар изображение-заголовок. Вложения можно использовать для классификации, робототехники, преобразования текста в изображение и трехмерного зрения. Спикер подчеркивает, что универсальность латентных данных CLIP показывает важность репрезентативного обучения и его полезность в машинном обучении. Метод CLIP привел к развитию области мультимодального обучения.