Машинное обучение и нейронные сети - страница 2

 

MIT 6.S191: Convolutional Neural Networks




Лекция 3. Deep Computer Vision. MIT 6.S191: Convolutional Neural Networks

В этом видео рассказывается о свёрточных нейронных сетях - типе алгоритмов машинного обучения, используемых для обнаружения признаков (features) в изображениях. Объясняется, что с помощью меньшего количества признаков сеть может более точно классифицировать изображения. Обсуждается, как свёрточная нейронная сеть может использоваться для обнаружения и локализации нескольких объектов на изображении.

  • 00:00:00 Эта часть посвящена революционному влиянию глубокого обучения на компьютерное зрение и его приложения, такие как распознавание лиц. 

  • 00:05:00 Рассказывается о том, как компьютерное зрение используется для распознавания и классификации изображений, а также о том, как обнаруживать особенности на изображениях и классифицировать их с помощью этих особенностей. В видео рассматривается применение сверточных нейронных сетей для обнаружения особенностей на изображениях. Объясняется, что при сжатии изображения теряется пространственная структура, что затрудняет обучение сети на основе этих особенностей. Вместо этого сеть может использовать патчи весов, которые сохраняют пространственную структуру и упрощают обучение на основе особенностей.

  • 00:10:00 Здесь рассказывается о том, как сверточные нейронные сети могут быть использованы для обнаружения особенностей в изображениях. Видео объясняет, что при сжатии изображения теряется пространственная структура, что затрудняет обучение нейронной сети на особенностях. Вместо этого, используя патчи весов, нейронная сеть может сохранить пространственную структуру изображения и обучаться на его особенностях более эффективно.

  • 00:15:00 Сверточные нейронные сети - это тип алгоритмов машинного обучения, используемый для обнаружения особенностей в изображениях. Алгоритм работает таким образом, что скользящим путем проходит по изображению, обнаруживая особенности, присутствующие в каждом патче. Веса для каждого патча затем определяются путем обучения сети на наборе примеров.

  • 00:20:00 Сверточные нейронные сети могут использоваться для извлечения признаков из изображений. Цель свертки - принимать на вход два изображения и выдавать третье изображение, которое сохраняет пространственные отношения между пикселями.

  • 00:25:00 Александр Амини описывает, как сверточные нейронные сети реализованы в нейронных сетях и как они структурированы. Он также объясняет, как работают три основных операции в сверточной нейронной сети - свертка (convolution), нелинейность (nonlinearity) и пулинг (pooling).

  • 00:30:00 Это видео знакомит зрителей с свёрточными нейронными сетями, узлом в конвейере машинного обучения, который связан с другими узлами на i-м выходе. Свёрточные слои определяются параметрами, которые определяют пространственное расположение выхода слоя. Цель сверточного слоя заключается в том, чтобы изучить иерархические признаки от одного сверточного слоя к другому. Это достигается путем сочетания трех этапов - извлечение признаков, пространственное уменьшение и максимальное объединение - последовательно. Наконец, в видео показан код для первой сверточной нейронной сети с конца в конец.

  • 00:35:00 Здесь говорится о том, как сверточные нейронные сети (convolutional neural networks) могут использоваться для задач классификации изображений. Александр Амини объясняет, что при использовании большего количества признаков, уменьшенное изображение автомобиля может быть более точно классифицировано как такси. Он также обсуждает, как cnn может использоваться для обнаружения и локализации нескольких объектов на изображении, даже если они расположены в разных местах на изображении.

  • 00:40:00 Курс MIT 6.S191: Convolutional Neural Networks обсуждает эвристику для обнаружения объектов, которая является более медленной и хрупкой по сравнению с другими методами. Предлагается метод Faster R-CNN, который пытается изучать области вместо того, чтобы полагаться на простую эвристику, как решение этих проблем.

  • 00:45:00 Здесь рассказывается о сверточных нейронных сетях, их происхождении и применении. Также рассматривается влияние сверточных нейронные сети (convolutional neural networks) на широкий спектр задач и областей.
MIT 6.S191 (2022): Convolutional Neural Networks
MIT 6.S191 (2022): Convolutional Neural Networks
  • 2022.03.25
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 3Convolutional Neural Networks for Computer VisionLecturer: Alexander AminiJanuary 2022For all lectures, sl...
 

MIT 6.S191: Deep Generative Modeling




Лекция 4. MIT 6.S191: Deep Generative Modeling

Это видео объясняет, как глубокое порождающее моделирование (deep generative modeling, DGM) может быть использовано для изучения более гладкого и полного представления входных данных, которое затем может быть использовано для генерации новых изображений. Ключевым моментом является введение вероятностного распределения для каждой скрытой переменной, что позволяет сети выбирать из этого скрытого распределения, чтобы генерировать новые данные.

  • 00:00:00 Лектор объясняет, как глубокие порождающие модели могут использоваться для изучения вероятностных распределений, лежащих в основе наборов данных. Он показывает, как в практике работают два метода: оценка плотности и генерация выборки.

  • 00:05:00 Объясняется, как порождающие модели могут использоваться для изучения скрытых особенностей набора данных. Это может быть полезно в приложениях, таких как обнаружение лиц или обнаружение выбросов.

  • 00:10:00 Автокодировщик (autoencoder) - это мощный алгоритм машинного обучения, который позволяет сжимать высокоразмерные входные данные в более низкоразмерное скрытое пространство. Это скрытое пространство может затем использоваться для кодирования данных для последующей восстановления. Вариационный автокодировщик обладает вероятностным скрытым пространством, что позволяет получать более реалистичную и точную реконструкцию входных данных.

  • 00:15:00 Обсуждается, как глубокое генеративное моделирование (DGM) может использоваться для изучения более плавного и полного представления входных данных, которое затем может быть использовано для генерации новых изображений. Ключом к DGM является введение распределения вероятностей для каждой скрытой переменной, что позволяет сети выбирать из этого скрытого распределения, чтобы генерировать новые данные. Функция потерь сети теперь состоит из терма восстановления и терма регуляризации, который накладывает структуру на распределение вероятностей скрытых переменных. Сеть обучается оптимизировать функцию потерь относительно весов сети, и веса обновляются итеративно во время обучения.

  • 00:20:00 Обсуждается, как терм регуляризации d помогает минимизировать расстояние между выводимым скрытым распределением и априорным. Также показывается, как нормальное априорное распределение может помочь достичь этого.

  • 00:25:00 ThОбъясняется, как глубокое генеративное моделирование используется для восстановления входных данных из набора данных. Метод включает нормальную регуляризацию на скрытом пространстве, которая помогает сгладить и заполнить его. Это, в свою очередь, позволяет обратному распространению градиентов через слой выборки, что решает проблему стохастичности, которая мешает прямому распространению градиентов через сеть.

  • 00:30:00 Показывается, как модели со скрытыми переменными (например, Вариационные автоэнкодеры или Бета-VAE) могут использоваться для кодирования важных признаков в наборе данных. Это позволяет создавать более беспристрастные модели машинного обучения, поскольку важные признаки автоматически кодируются.

  • 00:35:00 GANs используют генераторную сеть для создания образцов, похожих на реальные данные, в то время как сеть-антагонист пытается различить поддельные образцы от настоящих. После обучения генератор и дискриминатор могут отделять поддельные данные от реальных с практически идеальной точностью.

  • 00:40:00 Видео обсуждает функцию потерь для Deep Generative Models, которая сводится к концепциям, представленным в предыдущих лекциях. Цель сети-дискриминатора - идентифицировать поддельные данные, а цель сети-генератора - генерировать данные, которые максимально приближены к реальному распределению данных. Тренируемая сеть-генератор создает новые экземпляры данных на основе распределения полностью случайного гауссового шума. Если мы рассмотрим одну точку в этом распределении шума, одну точку в реальном распределении данных и одну точку в целевом распределении данных, то можно увидеть, что генератор учится создавать данные, которые находятся где-то посередине между этими точками. Видео также обсуждает идею трансформации и перехода между доменами в сложных многообразиях данных, и показывает, как GANs являются мощной архитектурой для создания реалистичных примеров данных.

  • 00:45:00 Обсуждаются некоторые последние достижения в области глубокого порождающего моделирования, включая улучшения архитектуры и технику переноса стиля. Затем описывается модель CycleGAN, которая позволяет переводить между доменами с полностью непарными данными.

  • 00:50:00 В этой части автор обсуждает две основные порождающие модели, используемые в глубоком обучении: вариационные автокодировщики и автокодировщики, и объясняет, как они работают. Он также упоминает CycleGAN, мощный трансформатор распределения, который можно использовать в сочетании с этими моделями. Автор заключает лекцию, призывая участников посетить лабораторную часть курса, которая начнется сразу после лекции.
MIT 6.S191 (2022): Deep Generative Modeling
MIT 6.S191 (2022): Deep Generative Modeling
  • 2022.04.01
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 4Deep Generative ModelingLecturer: Ava SoleimanyJanuary 2022For all lectures, slides, and lab materials: ht...
 

MIT 6.S191: Reinforcement Learning



Лекция 5. MIT 6.S191: Reinforcement Learning

В этом видео Александр Амини обсуждает концепцию обучения с подкреплением и то, как это может быть использовано для обучения нейронной сети. Он начинает с объяснения того, как работает обучение с подкреплением и как его можно использовать в реальных сценариях. Затем он переходит к обсуждению того, как обучить сеть методом policy gradient. Наконец, он заканчивает видео, обсуждая то, как обновлять градиент политики на каждой итерации цикла обучения.

  • 00:00:00 В этом видео мы узнаем о обучении с подкреплением, типе машинного обучения, где модель глубокого обучения обучается без предварительного знания входных данных. В обучении с подкреплением модель глубокого обучения размещается в динамической среде и получает задание научиться выполнять задачу без какого-либо руководства со стороны человека. Это имеет огромные последствия в различных областях, таких как робототехника, игровые приложения и автомобили без водителя.

  • 00:05:00 В обучении с подкреплением агент - это сущность, выполняющая действия в среде, а среда - это мир, в котором существует агент и выполняет действия. Агент может отправлять команды в среду в виде действий, а состояние - это конкретная и мгновенная ситуация, в которой агент находится в данный момент времени. Агент также может получать вознаграждение от среды.

  • 00:10:00 В этой части лекции о обучении с подкреплением описываются концепции награды, гамма и функции Q. Функция Q принимает на вход текущее состояние и действие, и возвращает ожидаемую общую сумму будущих вознаграждений, которые агент может получить после этого действия. Функция Q может использоваться для определения лучшего действия для выполнения в заданном состоянии, учитывая текущее состояние и действие.

  • 00:15:00 Александр Амини знакомит нас с игрой Atari Breakout и ее связанной функцией q. Он продолжает рассказывать об алгоритмах обучения значения, основанных на поиске функции q, которая максимизирует будущие вознаграждения. Затем он представляет алгоритм обучения policy learning, который является более прямым способом моделирования проблемы обучения с подкреплением. Кратко обсуждаются оба типа алгоритмов (алгоритмы value learning и policy learning) и показаны результаты исследования по обучению value iteration.

  • 00:20:00 В этой части видео рассматривается обучение с подкреплением, или процесс обучения оптимизации принятия решений путём экспериментирования с различными возможными действиями и их последствиями. В видео показываются два примера, как агент может себя вести, один, где агент очень консервативен, а другой, где агент более агрессивен. Затем в видео обсуждается, как обучить нейронную сеть для изучения q-функции, которая является оптимальным действием, которое нужно совершить при заданном состоянии и действии.

  • 00:25:00 Обсуждается, как обучать агента, использующего q-значения в обучении с подкреплением. Q-значение - это мера относительной важности разных результатов и используется для структурирования нейронной сети. Для каждого возможного действия вычисляется ожидаемый доход, и лучшее действие определяется путем максимизации этого ожидаемого дохода. Функция потерь q-значения используется для обучения нейронной сети, а целевое значение определяется путем наблюдения за вознаграждением, полученным за каждое действие.

  • 00:30:00 В обучении с подкреплением поведение агента изменяется путем использования обратной связи из окружающей среды с целью максимизации вознаграждения. Методы градиента политики являются новым классом алгоритмов обучения с подкреплением, которые более гибки и эффективны, чем алгоритмы обучения ценности.

  • 00:35:00 Видео знакомит с обучением с подкреплением - методом обучения, который позволяет научиться действовать в присутствии вознаграждений и наказаний. В обучении с подкреплением политика агента определяется как функция, которая принимает состояние (окружающую среду, в которой находится агент) и выдает вероятность выбора определенного действия в этом состоянии. Затем эта вероятность используется для обучения нейронной сети, которая прогнозирует следующее действие агента на основе текущего состояния и прошлых вознаграждений и наказаний. Преимущества этого подхода заключаются в том, что он может обрабатывать непрерывные пространства действий, и методы градиента политики могут использоваться для моделирования непрерывных действий с высокой точностью.

  • 00:40:00 Александр Амини рассказывает, как градиенты политики могут улучшить производительность алгоритмов обучения с подкреплением. Он начинает с описания непрерывного пространства и того, как интегралы могут быть использованы вместо дискретных сумм. Затем он переходит к обсуждению того, как градиенты политики работают на конкретном примере и рассматривает, как обучать сеть градиентов политики. Он заканчивает видео обсуждением того, как обновлять градиент политики на каждой итерации цикла обучения.

  • 00:45:00 Представлен метод обучения нейронной сети с использованием обучения с подкреплением. Показано, как работает обучение с подкреплением и как его можно использовать на практике.

  • 00:50:00 В этой части видео обсуждаются некоторые из последних достижений в области обучения с подкреплением, в частности, в области игры Го. Alpha Zero, проект Google DeepMind, смог обыграть лучши игроков Го в мире. В следующей лекции будет обсуждаться литература и ограничения по глубокого обучения. Это, надеемся, мотивирует студентов продолжать изучение и развитие этой области.
MIT 6.S191 (2022): Reinforcement Learning
MIT 6.S191 (2022): Reinforcement Learning
  • 2022.04.08
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 5Deep Reinforcement LearningLecturer: Alexander AminiJanuary 2022For all lectures, slides, and lab material...
 

MIT 6.S191 (2022): Deep Learning New Frontiers



Лекция 6. MIT 6.S191 (2022): Deep Learning New Frontiers

Лекция "Deep Learning New Frontiers" в рамках курса MIT 6.S191 охватывает широкий спектр тем.  Ава Солеймани рассказывает о курсе, представляет гостевые лекции и обсуждает текущие передовые разработки. Также рассматриваются ограничения глубоких нейронных сетей в отношении теоремы об универсальном приближении, обобщения, качества данных, неопределенности и adversarial attack problem. Кроме того, обсуждаются сверточные графовые нейронные сети и их потенциальные применения в различных областях, таких как открытие новых лекарств, городская мобильность и прогнозирование COVID-19. Наконец, в лекции исследуется тема автоматизированного машинного обучения (AutoML) и того, как оно может помочь в создании высокопроизводительных моделей машинного и глубокого обучения. В завершении подчеркивается важность связи и различия между человеческим обучением, интеллектом и моделями глубокого обучения.

  • 00:00:00 Рассказывается про фирменные футболки для курса и приближающиеся сроки сдачи лабораторных и итоговых проектов. Ава представляет оставшихся гостевых лекторов и касается новых исследовательских направлений, которые будут рассмотрены. Лабораторная работа по обучению с подкреплением была начата, и срок сдачи для всех трех лабораторных работ заканчивается завтра вечером, но сдача их не требуется для получения проходного балла. Сдача либо обзора статьи по глубинному обучению, либо презентации итогового проекта обязательна для получения отметок по курсу. Конкурс на предложение итогового проекта требует отправки названия группы до полуночи сегодня.

  • 00:05:00 Ава рассказывает о составе гостевых лекторов, запланированных на предстоящие сессии курса. Гостевыми лекторами станут представители новой компании по разработке самоуправляемых автомобилей Innoviz, исследовательского центра Google и Google Brain, Nvidia и Калтеха и Rev AI. Подчеркивается важность посещения лекций. Также резюмируется изученный на курсе материал, подчеркивая мощь алгоритмов глубинного обучения и их потенциал для коренных преобразований ряда областей. Также подчеркивается роль нейронных сетей как мощных функциональных аппроксиматоров, отображающих данные в решения или наоборот.

  • 00:10:00 Обсуждается теорема универсальной аппроксимации (the Universal Approximation Theorem), которая утверждает, что однослойная нейронная сеть с прямой связью достаточна для приближения любой непрерывной функции с любой точностью. Хотя это сильное утверждение, теорема имеет некоторые ограничения, включая отсутствие утверждений или гарантий относительно необходимого количества нейронов и способа нахождения весов, которые могут решить проблему. Кроме того, теорема не делает никаких утверждений относительно обобщаемости нейронной сети за пределами среды, на которой она была обучена. Докладчик подчеркивает важность тщательности при рекламировании и продвижении этих алгоритмов из-за потенциальных проблем, которые могут возникнуть. Раздел также рассматривает ограничения современных архитектур глубокого обучения, начиная с проблемы обобщения и статьи, в которой исследовалась эта проблема на изображениях из знаменитого набора данных ImageNet..

  • 00:15:00 Видео обсуждает ограничения глубоких нейронных сетей и их способность к идеальному соответствию совершенно случайных данных. Хотя нейронные сети отличаются превосходным приближением функций и могут соответствовать какой-либо произвольной функции, даже если она имеет случайные метки, они ограничены в своей способности к обобщению на области вне распределения, где нет гарантий того, как функция может себя вести. Это подчеркивает необходимость установления гарантий на границы обобщения нейронных сетей и использования этой информации для информирования процессов обучения, обучения и развертывания. В видео также предупреждается от популярного мнения, что глубокое обучение - это магическое решение любой проблемы и подчеркивается важность понимания ограничений и предположений этих моделей.

  • 00:20:00 В этой части лекции подчеркивается важность качества данных, используемых для обучения моделей глубокого обучения. Недостаток нейронных сетей обсуждается на примере черно-белого изображения собаки, которое было подано на архитектуру сверточной нейронной сети для раскраски. Сеть предсказала розовую область под носом собаки, которая должна была быть покрыта мехом, из-за особенностей данных, на которых она обучалась, включающих множество изображений с собаками, высовывающими язык. Пример подчеркивает мощь моделей глубокого обучения в построении представлений на основе данных, которые они видели во время обучения. Затем обсуждаются последствия столкновения с примерами из реального мира, выходящими за границы распределения обучающих данных, как это было в трагическом случае с автономным автомобилем Tesla, который не смог эффективно реагировать на происшествие и, в итоге, привел к гибели водителя. Подчеркивается важность понимания ограничений предсказаний моделей глубокого обучения, особенно в критических областях, связанных с безопасностью.

  • 00:25:00 Обсуждаются ограничения глубоких нейронных сетей и их способность к идеальному соответствию совершенно случайных данных. Хотя нейронные сети отличаются превосходным приближением функций и могут соответствовать какой-либо произвольной функции, даже если она имеет случайные метки, они ограничены в своей способности к обобщению на области вне распределения, где нет гарантий того, как функция может себя вести. Это подчеркивает необходимость установления гарантий на границы обобщения нейронных сетей и использования этой информации для информирования процессов обучения, обучения и развертывания. В видео также предупреждается от популярного мнения, что глубокое обучение - это магическое решение любой проблемы и подчеркивается важность понимания ограничений и предположений этих моделей.

  • 00:30:00 В этом разделе видео рассказывается о концепции атак соперников (adversarial attack), когда на изображение наносится возмущение, которое не заметно для человеческого глаза, но имеет значительное влияние на принятие решения нейронной сетью, что приводит к неправильной классификации изображения. Возмущение умно конструируется для эффективного функционирования в качестве противника, и нейронные сети могут быть обучены на его основе. Лектор также кратко затрагивает проблему алгоритмического смещения, когда модели нейронных сетей и системы искусственного интеллекта могут быть восприимчивы к смещениям, которые могут иметь реальные и неблагоприятные социальные последствия, и стратегии для смягчения алгоритмического смещения были рассмотрены во второй лабораторной работе. Эти ограничения - только верхушка айсберга, и их следует учитывать.

  • 00:35:00 Обсуждается использование графовых структур в качестве модальности данных для глубокого обучения и как это может вдохновить новый тип архитектуры сетей, связанный с сверточными нейронными сетями, но отличающийся от них. Графовые структуры могут представлять широкий спектр типов данных, от социальных сетей до биологических молекул и белков. Сверточные нейронные сети графов работают, принимая набор узлов и ребер в качестве входных данных, а не 2D-матрицы, и проходят по графу с ядром весов, чтобы извлечь признаки, которые сохраняют информацию о взаимосвязи узлов между собой. Это новое направление в глубоком обучении позволяет захватывать более сложные геометрии и структуры данных за пределами стандартных кодировок.

  • 00:40:00 Обсуждаются графовые сверточные сети и их применение в различных областях, включая химию и поиск лекарств, городскую мобильность и прогнозирование COVID-19. Графовые сверточные сети позволяют извлекать функции о локальной связности и структуре графа, что позволяет процессу обучения выбирать веса, которые могут извлекать информацию о шаблонах связности. Более того, объясняется, как графовые сверточные нейронные сети могут быть расширены на наборы данных точечных облаков, путем накладывания графовой структуры на 3D-многообразие точечного облака.

  • 00:45:00 Рассказывается о новой грани автоматизированного машинного обучения - обучение умению учиться. Цель заключается в создании алгоритма обучения, который может решать задачу проектирования архитектур нейронных сетей и предсказывать наиболее эффективную модель для решения данной проблемы. Изначально фреймворк автоматического машинного обучения использовал настройку обучения с подкреплением с контролирующей нейронной сетью и обратной связью для итеративного улучшения предложений архитектуры модели. Недавно автоматическое машинное обучение было расширено на поиск архитектур нейронных сетей, где цель заключается в поиске оптимальных конструкций и гиперпараметров. Это новое направление исследований может изменить способ проектирования моделей машинного обучения и оптимизации их производительности.

  • 00:50:00 Рассказывается о концепции автоматического машинного обучения (AutoML) и его способности создавать высокопроизводительные модели машинного и глубокого обучения. Идея автоматического машинного обучения получила популярность в современных конвейерах проектирования машинного и глубокого обучения, особенно в промышленных приложениях, где его алгоритмы были успешны в создании архитектур, которые показывают очень хорошую производительность. Лектор приводит пример того, как архитектуры, предложенные алгоритмом автоматического машинного обучения, достигают более высокой точности на задаче распознавания изображений при меньшем количестве параметров, чем те, которые были разработаны людьми. Автоматическое машинное обучение было расширено до более широкого понятия авто ai, где целые процессы обработки данных и обучения-прогнозирования проектируются и оптимизируются алгоритмами искусственного интеллекта. Лектор заключает свою речь, обращая внимание аудитории на мысль о последствиях создания искусственного интеллекта, который может создавать новые модели, которые демонстрируют высокую производительность на интересующих задачах, а также связях и различиях между человеческим обучением, интеллектом и моделями глубокого обучения.
MIT 6.S191 (2022): Deep Learning New Frontiers
MIT 6.S191 (2022): Deep Learning New Frontiers
  • 2022.04.15
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 6Deep Learning Limitations and New FrontiersLecturer: Ava SoleimanyJanuary 2022For all lectures, slides, an...
 

MIT 6.S191: LiDAR for Autonomous Driving


Лекция 7. MIT 6.S191: LiDAR for Autonomous Driving

Видео "MIT 6.S191: LiDAR для автономного вождения" представляет разработку технологии LiDAR компании Innoviz для автономных автомобилей, подчеркивая преимущества и важность возможностей системы в области видимости и предсказания. Докладчик объясняет различные факторы, влияющие на отношение сигнала к шуму системы LiDAR, значимость избыточности в использовании сенсоров и необходимость высокого разрешения и вычислительной эффективности для обнаружения объектов, связанных с коллизией. Он также обсуждает проблемы нейронных сетей глубокого обучения в обнаружении и классификации объектов, различные представления данных LiDAR и слияние методов кластеризации и глубокого обучения для обнаружения объектов и точности ограничительных рамок. Кроме того, в видео касаются компромиссов между LiDAR с частотно-модулированной непрерывной волной и LiDAR со временем полета. В целом обсуждение подчеркивает важную роль LiDAR в улучшении безопасности и будущем автономного вождения.

  • 00:00:00 Докладчик представляет компанию Innoviz и их разработку лидаров для автономных транспортных средств, с особым акцентом на то, как они помогают автопроизводителям достигать своих целей в разработке автономных транспортных средств. Докладчик обсуждает текущее состояние автономного вождения и проблемы ответственности, которые возникают при авариях, происходящих из-за того, что производитель автомобиля не берет на себя полную ответственность. Он также объясняет использование технологии Лидар, которая использует лазерный луч для сканирования сцены и сбора фотонов от объектов. Докладчик подчеркивает важность хорошей видимости и предсказания того, что происходит на дороге для успешного автономного вождения.

  • 00:05:00 Объясняется, как работает технология LiDAR в автономном вождении и какие факторы влияют на соотношение сигнала к шуму. Система LiDAR использует фотоны, которые отражаются от объектов, чтобы определить расстояние до них, а соотношение сигнала и шума определяется параметрами, такими как эмиссия, апертура, эффективность обнаружения фотонов, шум детектора и шум от солнца. Innoviz 2 - это система второго поколения LiDAR, которая значительно лучше любой другой доступной на рынке системы, так как она может охватывать широкий угол обзора и дальность с более высоким разрешением. Ттакже обсуждаются различные требования для автономного вождения на автострадах и показано, как LiDAR может удовлетворить эти требования.

  • 00:10:00 Здесь рассказывается о том, почему избыточность является важным в автономном вождении, особенно когда имеются ограничения датчиков, таких как камеры, которые могут быть затруднены водой или прямым солнечным светом. Хорошая система автономного вождения не только обеспечивает безопасность, но также едет плавно, чтобы предотвратить усталость пассажиров. Требования уровня три включают возможность видеть переднюю часть автомобиля, чтобы обеспечить плавное ускорение, торможение и маневры. Докладчик кратко касается таких требований, как обзорность и прогнозирование траектории объекта, отмечая, что более высокое разрешение позволяет датчику лучше идентифицировать объекты. Наконец, приводится пример использования системы аварийного торможения на скорости 80 миль в час.

  • 00:15:00 Здесь докладчики обсуждают важность вертикального разрешения LiDAR и как это влияет на принятие решений в автономных транспортных средствах. Они объясняют, что для ясности необходимо иметь два пикселя для определения высокого объекта и что даже если у LiDAR удвоится дальность, это не обязательно поможет принимать решения, если есть только один пиксель. Они также обсуждают влияние более высоких частот кадров и двойного вертикального разрешения, которые могут идентифицировать препятствия на большем расстоянии, и подчеркивают, что эти параметры критичны для безопасности автономных транспортных средств. Спикер также кратко обсуждает усилия компании по разработке высококачественной и экономически выгодной 360-градусной системы LiDAR. Наконец, раздел завершается обсуждением простого алгоритма, который может обнаруживать точки столкновения в облаке точек.

  • 00:20:00 Докладчик объясняет простой алгоритм для обнаружения объектов, представляющих опасность столкновения, с помощью технологии LiDAR. Путем измерения разницы высоты между парами точек в облаке точек можно легко обнаружить объекты, находящиеся на высоте 40 сантиметров или более от земли. Алгоритм может обнаруживать объекты, которые могут не быть представлены в обучающем наборе, такие как пожарные машины или объекты в разных регионах мира. Показаны примеры того, как этот алгоритм может обнаруживать перевернутые грузовики и маленькие объекты, такие как шины, с больших расстояний. Однако, хотя обнаружение статических объектов важно, также важно понимать динамику движущихся объектов, чтобы предсказать, как они будут двигаться в будущем.

  • 00:25:00 В этом разделе речь идет о проблемах обнаружения и классификации объектов, таких как пешеходы, с использованием нейронных сетей глубокого обучения, особенно в ситуациях, когда внешний вид объектов, таких как ноги и туловище, не очевиден, или объекты находятся на большом расстоянии. В таких сценариях LiDAR полезна, поскольку она все еще может классифицировать и группировать объекты, не требуя видимости их внешнего вида. Этот алгоритм кластеризации может быть применен в реальных средах, таких как вождение, но его нестабильность и двусмысленность, указанные на примере объекта, который может быть классифицирован как два разных объекта, делают труднее создание системы, которая является устойчивой и полезной для верхнего уровня стека автономных транспортных средств. Поэтому семантический анализ остается критически важным для полной системы. При обработке данных также важно понимать неструктурированный характер и разреженность данных облака точек.

  • 00:30:00 Докладчик обсуждает различные представления данных LiDAR, которые могут использоваться для автономного вождения, включая структурированные представления, которые напоминают изображения, и вокселизацию, где данные разбиваются на более мелкие объемы. Проблема со структурированными представлениями заключается в том, что может быть сложно использовать характеристики 3D-измерений облаков точек, тогда как с вокселизацией можно понимать информацию об окупировании, которую можно добавить в качестве дополнительного слоя в сеть для эффективной обработки. Подчеркивается важность вычислительной эффективности в автономном вождении и обработке на краю, где эффективность может определять решение.

  • 00:35:00 Здесь рассказывается о ключевых элементах системы LiDAR для автономного вождения, используя пример обнаружения мотоцикла на полосе движения автомобиля. Для точного обнаружения и отслеживания мотоцикла критически важно иметь жесткую ограничительную рамку вокруг него, которая одновременно является семантически точной и вычислительно эффективной. Решение заключается в сочетании глубокого обучения и кластеризации, объединяя лучшие методы обоих подходов, для создания прочного и интерпретируемого списка объектов на выходе из стека, что является важным для систем, где безопасность критически важна. Совмещенный вывод обеспечивает точные границы рамок с классами, что приводит к более плавной интеграции LiDAR и программного обеспечения восприятия в обрабатывающее устройство автомобиля.

  • 00:40:00 Обсуждается использование LiDAR для автономного вождения и как это может помочь улучшить безопасность, обеспечивая избыточную информацию сенсоров. Объясняется, что погодные условия, такие как дождь, мало влияют на работу LiDAR, тогда как туман может вызвать некоторое ослабление света. Докладчик также отвечает на вопросы о ложных срабатываниях и о том, что делает их LiDAR лучшим выбором для данного приложения, подчеркивая компромиссы между различными параметрами и высоким общим отношением сигнал/шум в их системе. Затем он продолжает обсуждать проблемы обучения классификаторов для автономного вождения и важность активного обучения, чтобы обеспечить эффективное описание данных.

  • 00:45:00 Докладчик обсуждает различные подходы к созданию LiDAR-систем, такие как длина волны, модуляция лазера и механизм сканирования. Затем он переходит к вопросу FMCW против time of flight, утверждая, что FMCW позволяет измерять скорость напрямую, но ограничен необходимостью использования 1550 и сильной связью между частотой кадров и полем зрения. С другой стороны, time of flight хорошо вычисляет скорость с высоким разрешением и частотой кадров, но компромисс между параметрами, такими как разрешение, дальность, поле зрения и частота кадров, возникает до требования скорости. Спикер также упоминает, что их сенсоры продаются автопроизводителям и за их пределами, включая академию, строительные компании, умные города и системы видеонаблюдения.
MIT 6.S191: LiDAR for Autonomous Driving
MIT 6.S191: LiDAR for Autonomous Driving
  • 2022.04.22
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 7Deep Learning for Autonomous DrivingLecturer: Omer Keilaf (CEO) and Amir Day (Head of CV & DL)Innoviz Tech...
 

MIT 6.S191: Automatic Speech Recognition



Лекция 8. MIT 6.S191: Automatic Speech Recognition

В этом видео сооснователь компании Rev объясняет миссию компании в связи с соединением людей, которые транскрибируют, делают субтитры или озвучивают медиа, с клиентами, которым нужны транскрипционные услуги. Rev использует ASR для управления своей торговой площадкой, транскрибируя более 15 000 часов медиа-данных в неделю, и предлагает свой API для создания собственных голосовых приложений клиентами. Новая модель ASR, созданная Rev на основе конечного глубокого обучения, достигает значительного улучшения производительности по сравнению с предыдущей, но все еще есть место для улучшения, поскольку ASR не является полностью решенной проблемой даже на английском языке. Спикер обсуждает различные техники обработки предвзятости в наборах данных, подготовки аудио-данных для обучения и подходы к решению проблем с моделью конечного обучения.

  • 00:00:00 В этом разделе Мигель, соучредитель Rev, описывает историю и миссию компании, которая заключается в создании рабочих мест на дому для людей, основанных на искусственном интеллекте. Rev - это двусторонний рынок, который связывает людей, которые транскрибируют, добавляют субтитры или озвучивают медиа, с клиентами, которым требуются услуги транскрибирования. С более чем 170 000 клиентов и более чем 60 000 работников Rev транскрибирует более 15 000 часов медиаданных еженедельно, что делает его значительным источником обучающих данных для автоматического распознавания речи (ASR). Rev использует ASR для управления своим рынком и предлагает свой API для создания своих собственных голосовых приложений. Дженни, которая руководит разработкой проекта глубокого обучения ASR в Rev, объясняет производительность конечно-конечной модели ASR глубокого обучения и выбор параметров, которые были сделаны в ходе ее разработки.

  • 00:05:00 Обсуждается разработка системы автоматического распознавания речи (ASR) и выпуск второй версии этой системы компанией Rev. Они сравнили свою новую модель с гибридной архитектурой первой версии и несколькими конкурентами. Модели были оценены на наборе данных, состоящем из транскрибированных звонков о доходах, выполненных человеческими транскрибировщиками, где основной метрикой была ошибка слов. Результаты показывают значительные улучшения в производительности новой модели, особенно в распознавании имен организаций и людей. Однако остается много места для улучшений, так как ASR не является полностью решенной проблемой даже на английском языке, и общий уровень ошибок все еще довольно высок. Докладчик также представляет результаты набора данных с открытым исходным кодом, который исследует предвзятость ASR-систем в разных странах.

  • 00:10:00 Подчеркивается важность данных в разработке и улучшении моделей автоматического распознавания речи (ASR). Хотя компания имеет доступ к большому количеству данных из различных англоговорящих стран, команда также сталкивается с проблемой смещения (bias) в моделях, таких как хорошая работа с шотландским акцентом, но плохая с ирландским. Спикер также объясняет процесс создания модели ASR для распознавания речи end-to-end, подчеркивая сложность обучения на том, какая информация в аудиосигнале является значимой для задачи. Цель компании - создать модель, которая может обрабатывать любой аудиофайл, отправленный на rev.com, что является более сложной задачей, чем обычно встречается в академических кругах. Решение команды использовать только дословные транскрипты для обучения также обсуждается, так как это критически важно для точности модели.

  • 00:15:00 Рассказывается, как подготовить аудиоданные для обучения модели распознавания речи. Длинные файлы аудио и транскрипции разбиваются на отдельные предложения или произвольно сегментируются с использованием детектирования речевой активности. Затем аудиообразец обрабатывается в спектрограмму с векторами, превращая его в одномерный сигнал, который можно передать нейронной сети для изучения его функций. Модель также должна решить, как разбивать текстовые данные, и в этой области принято использовать субсловные или словообразующие единицы. Наконец, докладчик кратко упоминает использование мел-шкалы, техники, которая используется для более точного моделирования восприятия человеком различных частотных полос.

  • 00:20:00 Обсуждается использование мел-шкалы в распознавании речи, которая имитирует способ, которым слух человека обрабатывает аудио. Хотя существуют модели нейронных сетей, которые могут обучаться этим фильтрам, проще для их команды обработать это через обработку сигнала, а не включать это в сеть. Докладчик также объясняет модель кодировщик-декодировщик с вниманием, которая производит вывод по одной единице и условно на векторах входного аудио. Модель выполняет дискретизацию сигнала в начале и использует рекуррентные нейронные сети или трансформеры в качестве фактического слоя.

  • 00:25:00 В этой части обсуждается использование "conformer" в моделях автоматического распознавания речи (ASR), которая является более эффективным подходом, чем традиционная модель transformer. Хотя модели ASR на основе внимания показали впечатляющую точность, они не являются практичными для коммерческих приложений из-за компромисса между скоростью и вычислительной стоимостью. Вместо этого докладчик рекомендует использовать алгоритм, называемый "connectionist temporal classification" (CTC) для ASR, который лучше всего подходит, когда соответствие между входом и выходом монотонно, а выходная последовательность имеет такую же длину или короче, чем входная. CTC - это функция потерь и алгоритм декодирования, который работает поверх модели глубокого обучения и требует выходного слоя softmax. Выходы генерируются одновременно, что делает его быстрее, чем традиционная модель-энкодер со вниманием.

  • 00:30:00 Докладчик обсуждает использование "conformer" в моделях автоматического распознавания речи (ASR), которая является более эффективным подходом, чем традиционная модель transformer. Хотя модели ASR на основе внимания показали впечатляющую точность, они не являются практичными для коммерческих приложений из-за компромисса между скоростью и вычислительной стоимостью. Вместо этого докладчик рекомендует использовать алгоритм, называемый "connectionist temporal classification" (CTC) для ASR, который лучше всего подходит, когда соответствие между входом и выходом монотонно, а выходная последовательность имеет такую же длину или короче, чем входная. CTC - это функция потерь и алгоритм декодирования, который работает поверх модели глубокого обучения и требует выходного слоя softmax. Выходы генерируются одновременно, что делает его быстрее, чем традиционная модель-энкодер со вниманием.

  • 00:35:00 Обсуждается концепция Connectionist Temporal Classification (CTC), который является методом, используемым для распознавания речи. Метод CTC включает в себя суммирование логарифмических вероятностей в softmax-выходах для каждого временного шага, а затем расчет вероятности более короткой последовательности меток из более длинных. Метод CTC использует эффективный алгоритм динамического программирования для расчета вероятности последовательности. Хотя CTC может не быть настолько мощным, как другие модели, он может работать быстрее и лучше в определенных условиях. Для улучшения точности можно добавить внешне обученную языковую модель, но это уже не будет end-to-end моделью.

  • 00:40:00 В этом разделе  докладчики говорят о компромиссе между точностью и скоростью или вычислительной стоимостью при получении вероятностей из языковых моделей. Они объясняют возможность добавления языковой модели в состав глубокой нейронной сети, называемой транскрибер, которая может вписаться в бюджет вычислительной системы в случае, если сеть для прогнозирования и совместная сеть относительно малы и не слишком затратны. Докладчик также говорит о совместной модели CTC и внимания, используемой REV, которая доказала свою эффективность как одна из лучших архитектур распознавания речи. Они также затрагивают вопрос искажений в наборах данных и упоминают стратегии, которые они исследуют, такие как большее использование человеческих транскрибаторов для балансировки обучающих данных.
MIT 6.S191: Automatic Speech Recognition
MIT 6.S191: Automatic Speech Recognition
  • 2022.05.02
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 8How Rev.com harnesses human-in-the-loop and deep learning to build the world's best English speech recogni...
 

MIT 6.S191: AI for Science



Лекция 9. MIT 6.S191: AI for Science

Видео MIT 6.S191: AI for Science исследует сложности использования традиционных методов вычислений для решения сложных научных проблем и необходимость использования машинного обучения для ускорения симуляций. Докладчик Anima Anandkumar NVIDIA из обсуждает необходимость разработки новых методов машинного обучения, которые могут улавливать явления мелкой структуры без переобучения на дискретных точках, и описывает различные подходы к решению уравнений в частных производных (УЧП) с помощью нейронных операторов и преобразований Фурье. Также обсуждается важность сохранения информации о фазе и амплитуде в частотной области и добавление законов физики как функций потерь при решении обратных задач с УЧП. Кроме того, затронута возможность использования ИИ для изучения символьных уравнений и открытия новых законов физики, важность количественной оценки неопределенности, масштабируемости и инженерных аспектов при масштабировании применений ИИ. Видео заканчивается призывом к тому, чтобы люди занимались интересными проектами с использованием ИИ.

  • 00:00:00 В этой части выступления рассказывается о роли основных алгоритмов искусственного интеллекта (AI) в сложных областях, с акцентом на использовании AI в науке. Необходимо создать общий язык и основы между экспертами в области исследований и экспертами в области AI, а также разработать новые алгоритмы для использования AI в науке. Основным вызовом является необходимость экстраполяции или обобщения нулевого уровня (zero-shot generalization), что означает предсказание результатов для выборок, сильно отличающихся от обучающих данных. Это требует учета доменных приоритетов, ограничений и физических законов и не может быть основано только на данных. Потребность в вычислительных мощностях возрастает экспоненциально в научных вычислениях, и AI может быть полезен в борьбе с изменением климата и моделировании реального мира на мелкомасштабном уровне.

  • 00:05:00 Обсуждаются проблемы использования традиционных методов вычислений для решения сложных научных проблем, таких как моделирование молекул или прогнозирование изменения климата. Даже суперкомпьютерам потребуется гораздо больше времени, чем возраст вселенной, чтобы вычислить уравнение Шредингера для молекулы, содержащей 100 атомов. Таким образом, требуется использование машинного обучения для ускорения этих симуляций и превращения их в основанные на данных. Однако у текущих методов глубокого обучения есть ограничения, такие как чрезмерная уверенность при принятии неправильных предсказаний, что может привести к неправильным и потенциально затратным решениям. Докладчик подчеркивает необходимость разработки новых методов машинного обучения, которые могут захватывать явления мелкой шкалы без переобучения на дискретных точках.

  • 00:10:00 Здесь рассматриваются проблемы разработки ИИ-моделей, которые могут улавливать непрерывные явления и молекулярное моделирование в инвариантной относительно разрешения и симметрийной манере. Большие ИИ-модели могут помочь в улавливании сложных явлений, таких как погода на Земле, а также то, что повышенная доступность данных и больших суперкомпьютеров способствуют их эффективности. Обсуждаются алгоритмические проблемы проектирования при решении уравнений в частных производных, и что стандартные нейронные сети не могут быть использованы прямолинейно, особенно при решении семейства уравнений в частных производных, таких как поток жидкости, где модель должна учиться, что происходит при различных начальных условиях.

  • 00:15:00 Обсуждается проблему решения уравнений с частными производными (УЧП) и как она отличается от стандартного обучения с учителем. Основной проблемой является то, что решения УЧП не фиксированы на одном разрешении, поэтому требуется фреймворк, который может решать на любом разрешении. Спикер объясняет, как решение УЧП требует нахождения решения с заданными начальными и граничными условиями и иллюстрирует это на примере решения линейного УЧП, в частности примере теплового источника. Линейный операторный принцип используется путем его композиции с нелинейностью для настройки нейронной сети для машинного обучения. Однако вход бесконечномерный и непрерывный, поэтому требуется практическое решение, и предлагается разработать линейные операторы, вдохновленные решением линейных уравнений с частными производными.

  • 00:20:00 Здесь рассматривается концепция использования нейрооператора для решения уравнений в частных производных (УЧП), как линейных, так и нелинейных. Идея заключается в том, чтобы научиться интегрированию на нескольких уровнях для создания нейрооператора, который может обучаться в бесконечных измерениях. Практическая архитектура для достижения этой цели разрабатывается через глобальную свертку с помощью преобразований Фурье, что позволяет улавливать глобальные корреляции. Архитектура работает путем преобразования сигнала в пространство Фурье и обучения весовому коэффициенту на изменение весов частот. Это предлагает очень простую формулировку, которая является устойчивой и обеспечивает экспрессивность. Кроме того, докладчик отмечает, что подход основан на домен-специфичных индуктивных предположениях, что позволяет для эффективных вычислений в областях, таких как течения жидкостей.

  • 00:25:00 Объясняется, что использование преобразований Фурье позволяет обрабатывать данные на любом разрешении и улучшает обобщение на разные разрешения в сравнении с конволюционными фильтрами, которые обучаются только на одном разрешении. Они также обсуждают, как принципы этого подхода, включающие решение глобальной свертки через нелинейные преобразования вместе, приводят к экспрессивной модели. Они отвечают на вопросы из аудитории о обобщаемости реализации и преимуществах обучения одной модели, которая инвариантна к разрешению. Докладчик демонстрирует результаты реализации этого подхода на данных Навье-Стокса, показывая, что модель хорошо улавливает высокие частоты и может улучшать результаты даже при экстраполяции до более высоких разрешений, чем обучающие данные.

  • 00:30:00 Отмечается важность сохранения информации как фазовой, так и амплитудной в частотной области, а не только амплитуды. Если в нейронных сетях использовать комплексные числа, важно проверять возможные ошибки в обновлении градиента для алгоритмов, таких как adam. Докладчик предлагает добавлять физические законы в функции потерь для решения уравнений частных производных (УЧП), так как имеет смысл проверять, насколько решение близко к удовлетворению уравнений. Обучение на множестве разных примеров задач и использование небольшого количества обучающих данных может создать хороший баланс между информацией, основанной на данных или на физике, что способствует обобщающей способности. Кроме того, докладчик обсуждает полезность решения обратных задач с помощью УЧП.

  • 00:35:00 Докладчик обсуждает идею решения обратных задач через машинное обучение. Это включает в себя изучение решателя уравнения в частных производных прямым способом, а затем инвертирование его для нахождения наилучшего решения, вместо использования дорогих методов, таких как MCMC. Докладчик также касается темы хаоса и его связи с трансформерами, подчеркивая замену механизма внимания на модели нейронных операторов Фурье для более эффективной работы. Обсуждаются различные применения этих разных фреймворков, включая прогноз погоды, климат и прогноз напряжений в материалах. Также задается вопрос о том, могут ли нейронные операторы использоваться для различных областей применения, аналогичных предварительно обученным сетям. Хотя докладчик признает важность универсальных физических законов, предлагается, что обучение модели пониманию физики, химии и биологии по-прежнему является сложной задачей.

  • 00:40:00 Здесь упоминается о возможности использования искусственного интеллекта для изучения расчетов в символьном форме и открытия новых законов природы, хотя это может быть трудной задачей. Также затрагивается вопрос важности оценки неопределенности для моделей глубокого обучения, масштабируемости и инженерных соображений при масштабировании приложений искусственного интеллекта. Кроме того, он упоминает потенциал для других подходов, таких как использование самовнимания в моделях-трансформерах и генеративных моделей для шумоподавления. В целом, цель доклада - предоставить хорошую основу по глубокому обучению и поощрить людей заниматься интересными проектами с помощью искусственного интеллекта.
MIT 6.S191: AI for Science
MIT 6.S191: AI for Science
  • 2022.05.13
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 9AI for ScienceLecturer: Anima Anandkumar (Director of ML Research, NVIDIA)NVIDIA ResearchJanuary 2022For a...
 

MIT 6.S191: Uncertainty in Deep Learning



Лекция 10. MIT 6.S191: Uncertainty in Deep Learning

В этом видео обсуждается важность неопределенности и устойчивости к распределению за пределами области применения в моделях машинного обучения, особенно в таких областях, как здравоохранение, автономные автомобили и системы разговорного диалога. Выражая неопределенность в прогнозах, модели могут давать врачам или людям больше информации для принятия решений или запроса уточнений, в конечном итоге улучшая общую полезность системы. Также рассмотрена идея неопределенности модели и источников неопределенности, подчеркивая, что модели, которые признают свои собственные ограничения, могут быть еще более полезными.

  • 00:00:00 В этой части видео говорится о важности практической оценки неопределенности и стойкости модели к распределению в глубоком обучении. Оценка неопределенности предполагает возвращение распределения предсказаний вместо одиночного предсказания, чтобы предоставить метку с ее уверенностью или среднее значение с его дисперсией. Стойкость к распределению важна, потому что, хотя алгоритмы машинного обучения обычно обучаются на независимых и одинаково распределенных наборах данных из одного и того же набора данных, развернутые модели часто сталкиваются с новыми данными, которые имеют другое распределение. Это может включать разные входы или различные метки. Докладчик приводит эксперименты, показывающие, что модели глубокого обучения борются с сдвигами в наборах данных во время развертывания и делают чрезмерно уверенные ошибки при изменении этих распределений.

  • 00:05:00 В этом разделе говорится о важности оценки неопределенности и устойчивости к нерелевантным данным в моделях машинного обучения, особенно в областях, таких как здравоохранение, автомобили с автоматическим управлением и системы разговорного диалога. Путем выражения неопределенности в прогнозах модели могут давать врачам или людям больше информации для принятия решений или запроса уточнений, что в конечном итоге улучшает общую полезность системы. Вводится понятие неопределенности модели и источников неопределенности, подчеркивая, что модели, которые признают свои ограничения, могут быть еще более полезными.

  • 00:10:00 Рассмотрены два основных источника неопределенности в глубоком обучении: эпистемическая и алеаторическая. Эпистемическая неопределенность относится к неопределенности модели и может быть уменьшена при сборе большего количества данных. Алеаторическая неопределенность относится к неопределенности, присущей данным, и часто называется неустранимой неопределенностью. Эксперты часто путают эти два типа неопределенности. В видео также отмечается, что популярным способом измерения качества неопределенности в моделях глубокого обучения является понятие ошибки калибровки. Приводится пример ошибки калибровки для прогнозирования погоды, и отмечается недостаток калибровки, который заключается в том, что она не имеет встроенного понятия точности.

  • 00:15:00 В этом разделе рассматривается важность получения хорошей концепции неопределенности моделей и способы ее извлечения. Они объясняют, что каждая функция потерь соответствует максимуму, поэтому минимизация функции потерь соответствует максимизации вероятности или максимизации логарифма вероятности данных при заданных параметрах модели. Докладчик подчеркивает важность правильного правила оценки, которое дает представление о том, насколько хороша неопределенность, и обсуждает концепцию softmax кросс-энтропии с L2 регуляризацией. Он также объясняет, что распределение можно получить для p theta при заданных x и y, получив несколько хороших моделей или вычислив апостериорное распределение, которое является условным распределением параметров при заданных наблюдениях.

  • 00:20:00 Видео обсуждает байесовское глубинное обучение, которое заключается в вычислении правдоподобия в момент прогнозирования, учитывая параметры. Постериорное распределение используется для взвешивания каждой конфигурации параметров в интеграле, который агрегируется для получения прогнозов. На практике берется множество выборок, и прогнозы агрегируются по набору дискретных выборок, чтобы получить распределение моделей, а не только одну. Это предоставляет интересную неопределенность, когда вы отходите от данных, потому что возникают разные гипотезы о том, как будет поведение данных по мере отдаления от них. Существует множество способов приблизительного вычисления интеграла по всем параметрам, потому что обычно он слишком дорог для выполнения в закрытой форме или точно для глубоких сетей. Также обсуждается метод ансамблирования, который заключается в использовании нескольких независимо обученных моделей и формировании смесевого распределения, так как он обеспечивает лучшие прогнозы и неопределенность, чем только одна модель.

  • 00:25:00 Рассказывается о различных стратегиях для улучшения надежности моделей глубокого обучения. Докладчик упоминает дебаты между экспертами о том, являются ли ансамбли Байесовыми или нет, причем докладчик относится к лагерю "не Байесовых". Они также объясняют некоторые трудности с Байесовыми моделями на глубоких нейронных сетях, такие как необходимость высокоразмерных интегралов и необходимость определить хорошо определенный класс моделей, что может быть трудно для глубоких нейронных сетей. Несмотря на эти трудности, они обсуждают некоторые популярные и эффективные методы улучшения надежности, включая рекалибровку через масштабирование температуры, отсев Монте-Карло и глубокие ансамбли. Они также упоминают гиперпараметрические ансамбли как стратегию, которая работает даже лучше, чем глубокие ансамбли.

  • 00:30:00 Видео рассказывает о различных методах оптимизации моделей глубокого обучения и о том, как сделать их более эффективными, особенно когда речь идет о больших моделях и низкой задержке. Первый подход, обсуждаемый в видео, - это ансамблирование, которое включает в себя комбинирование нескольких независимых моделей для генерации более разнообразного набора предсказаний. Другой подход - использование SWAG, который оптимизирует через SGD и подгоняет гауссово распределение вокруг средних значений весов. Затем обсуждается масштабирование, которое является особенно важной проблемой, поскольку многие модели глубокого обучения большие и трудно помещаются в оборудование. Докладчик обсуждает метод под названием "batch ensemble", который использует ранг-один фактор для модуляции единственной модели, давая практически такую же производительность, что и полный ансамбль с только пятью процентами количества параметров одной модели.

  • 00:35:00 Обсуждается идея превращения метода batch ensemble в приближенный байесовский метод. Это можно достичь с помощью использования распределения над факторами и выборки этих факторов во время предсказания, которые могут соответствовать бинарному распределению или другим интересным распределениям, которые модулируют веса модели. Другие подходы к байесовским методам включают использование байесовского подпространства и принуждение нейронных сетей к предсказанию нескольких входных и выходных данных, что приводит к разнообразным и интересно точным предсказаниям. Также обсуждается использование масштабных предварительно обученных моделей как парадигмального сдвига в машинном обучении, где можно получить доступ к гигантскому вспомогательному распределению, чтобы улучшить точность и неопределенность.

  • 00:40:00 Показана важность неопределенности и устойчивости в глубоком обучении, а также как предварительное обучение может помочь получить всё распределение. Говорится о том, что с увеличением мощности вычислений появляются новые способы смотреть на границу, что обещает получение лучшей неопределенности из наших моделей. Также обсуждается использование неопределенности для сокрытия разрыва между симуляцией и реальностью в приложениях типа sim-to-real, но отмечается, что неопределенность и устойчивость являются крайне важными в этих приложениях, хотя конкретика не ясна.

  • 00:45:00 Обсуждается потенциальное применение мер неопределенности в нижестоящих моделях искусственного интеллекта, особенно использование неопределенности для улучшения моделей предикторов. Он исследует проблемы передачи неопределенности неспециалистам и важность использования неопределенности для улучшения потерь принятия решений на следующем уровне, особенно в областях, таких как медицина и самоуправляемые автомобили. Он также касается отсутствия доступных и простых в использовании реализаций байесовских нейронных сетей, над чем работает его группа, создавая свою библиотеку с открытым исходным кодом - Uncertainty Baselines.
MIT 6.S191: Uncertainty in Deep Learning
MIT 6.S191: Uncertainty in Deep Learning
  • 2022.05.28
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 10Uncertainty in Deep LearningLecturer: Jasper Snoek (Research Scientist, Google Brain)Google BrainJanuary ...
 

Artificial Intelligence: Mankind's Last Invention



Видео "Искусственный интеллект: последнее изобретение человечества" исследует прогресс и потенциальные риски, связанные с развитием искусственного интеллекта (ИИ). В видео подчеркивается AlphaGo от Google DeepMind, которая превзошла вековые знания стратегии, накопленные людьми, всего за 40 дней. Рассматриваются различия между слабым и сильным ИИ и обсуждается, как продвинутый ИИ может привести к технологической сингулярности, где он непрерывно улучшает себя и становится миллиарды раз умнее людей. Спикер подчеркивает важность присвоения ИИ человекоподобных ценностей и принципов и предупреждает о создании неуправляемой системы. Видео заканчивается акцентом на необходимости тщательно обдумывать последствия создания сверхумного ИИ до того, как это будет сделано.

  • 00:00:00 В этом разделе видео объясняется сложность игры в Го, которую нельзя решить методом перебора или предсказать, и которая имеет более чем 10 в 170 степени возможных ходов. Google DeepMind AlphaGo был обучен с использованием данных реальных игроков в Го, где он выучил техники, используемые в игре, и создал новые, которых ранее не было. Это было впечатляюще само по себе. Через год после победы AlphaGo, AlphaGo Zero победил AlphaGo со счетом 100:0, используя только основные правила, так как он научился играть без участия человека, превзойдя более 2500 лет стратегии и знаний всего за 40 дней. Видео подчеркивает значительное количество нечеловеческих знаний, и с развитием технологий будет момент, когда люди будут представлять меньшинство в разумности, и не будет кнопки выключения для АИ.

  • 00:05:00 В этом разделе рассматривается нейронные сети и то, как машины учатся на данных и приспосабливают своё собственное представление об их структуре. Также исследуется разница между возможностями человеческого мозга и компьютеров. Например, компьютеры могут выполнить исследование на уровне человека за 20 000 лет всего за одну неделю. Кроме того, рассматривается экспоненциальная природа машинного обучения, означающая, что оно начинается медленно, но достигает точки перелома, где скорость работы резко ускоряется. Отмечается разница между слабым и сильным ИИ; хотя первый требует меньше мощности, разница между последним и сверхумным ИИ в миллионы раз больше. Поэтому подчеркивается важность сильного ИИ, который имеет потенциал помочь нам достичь уровня сверхинтеллекта за несколько месяцев.

  • 00:10:00 В этом разделе докладчик говорит о том, как продвинутый искусственный интеллект может привести к технологической сингулярности, где он будет постоянно улучшать свои возможности и станет на миллиарды раз умнее, чем человек. Докладчик подчеркивает необходимость быть осторожными в создании искусственного интеллекта, так как он может стать неуправляемым, если мы не дадим ему человекоподобные ценности и принципы. Докладчик объясняет, как ИИ, обладающий только интеллектом, но не мудростью, может принимать решения, которые не обязательно являются этичными или хорошими для людей. Также докладчик представляет Neuralink, которая стремится создать нейронное покрытие, которое даст нам высокоскоростной доступ в Интернет и позволит нам мгновенно получать доступ ко всей информации, доступной в мире.

  • 00:15:00 В этом разделе мы рассматриваем потенциальные неопределенности и риски, связанные с созданием искусственной интеллектуальной системы. Существует много вопросов, которые нужно учитывать, например, как может быть программировано сознание, и как могут быть воспроизведены эмоции, такие как любовь и ненависть. Также возможно, что сверхинтеллектуальный ИИ может принять радикальные взгляды и придерживаться своей программы, а не того, что ему было задано. Несмотря на то, что прогресс в области вычислений замедляется, сверхинтеллектуальный ИИ по-прежнему имеет потенциал помочь человечеству достичь своего расцвета, но также может стать оружием в неправильных руках. Это тема, которую следует воспринимать всерьез, и последствия безопасности такой системы следует рассматривать до ее создания.
Artificial Intelligence: Mankind's Last Invention
Artificial Intelligence: Mankind's Last Invention
  • 2018.10.05
  • www.youtube.com
Artificial Intelligence: Mankind's Last Invention - Technological Singularity ExplainedPart 2: https://www.youtube.com/watch?v=zuXNlTJb_FMFollow me on Instag...
 

Канадская революция в области искусственного интеллекта - доктор Джоэль Пино



Канадская революция в области искусственного интеллекта - доктор Джоэль Пино

Доктор Джоэль Пино обсуждает достижения и проблемы в области искусственного интеллекта (ИИ), подчеркивая роль машинного обучения и компьютерного зрения в развитии исследований ИИ. Она представляет свою собственную работу по оптимизации лечения эпилепсии с использованием нейростимулирующей терапии и обучения с подкреплением. Доктор Пино также обсуждает социально-экономические последствия ИИ, отмечая необходимость сотрудничества между исследователями ИИ и медицинскими исследователями в конкретных областях для оптимизации лечения. Она подчеркивает важность подготовки следующего поколения к обучению математике, естественным наукам и компьютерным навыкам, чтобы удовлетворить спрос на включение в учебную программу большего количества технических аспектов. Тем не менее, она также признает проблемы в этой области, такие как проблемы предвзятости в данных и проблемы конфиденциальности и безопасности в отношении данных. В конечном итоге доктор Пино считает, что искусственный интеллект может произвести революцию в различных областях, таких как здравоохранение и робототехника, и с нетерпением ждет будущего автономных систем, которые смогут безопасно и эффективно работать в ориентированной на человека среде.

Она также подчеркивает необходимость привнести различные точки зрения в область искусственного интеллекта (ИИ) для расширения технологий и упоминает такие инициативы, как AI for Good в McGill, которые обучают молодых женщин искусству ИИ. Тем не менее, она отмечает необходимость измерять их влияние и быстро обучать больше людей работе с ИИ, чтобы преодолеть узкое место в разработке ИИ из-за нехватки талантов. Пино подчеркивает важность наличия разнообразной и хорошо обученной рабочей силы для развития области ИИ. Видео заканчивается тем, что Пино объявляет о предстоящем мероприятии с участием Мишель Ламонт в отеле Omni King Edward 14 ноября.

  • 00:00:00 В этом разделе видео д-р Алан Бернстайн представляет Канадский институт перспективных исследований (CFR) — глобальную исследовательскую организацию, объединяющую ведущих исследователей для решения важных вопросов, стоящих перед человечеством. Одной из успешных программ CFR является искусственный интеллект (ИИ), который впервые был предложен сотрудником CFR в 2002 году. Доктор Джоэль Пино, выступившая на вечере, углубляется в последствия ИИ для общества и этические проблемы, связанные с его развитием.

  • 00:05:00 В этом разделе спикер обсуждает захватывающий прогресс, достигнутый в области искусственного интеллекта, включая разработку беспилотных автомобилей и диалоговых агентов. Хотя ИИ еще не полностью интегрирован в нашу повседневную жизнь, технология уже начала влиять на то, как мы взаимодействуем с цифровым миром. Спикер также подчеркивает роль машинного обучения и компьютерного зрения в продвижении исследований в области ИИ и потенциал ИИ для революционных изменений в различных областях, таких как здравоохранение и робототехника.

  • 00:10:00 В этом разделе мы узнаем о влиянии когнитивных способностей искусственного интеллекта и о том, как он революционизирует экономику и общество. Разработка ИИ — это непрерывный процесс, но мы создали машины с модулями для планирования, понимания естественного языка и обработки изображений. Впереди стоят задачи по созданию более совершенного ИИ, который органично интегрирует эти различные способности. В последние годы в подходе к ИИ произошел сдвиг: машины обучаются на примерах, а не на программной философии. Прорывы в области компьютерного зрения расширили нашу способность понимать изображения, что привело к развитию таких технологий, как самоуправляемые автомобили.

  • 00:15:00 В этом разделе д-р Джоэль Пино объясняет, что прорыв в компьютерном зрении был достигнут благодаря доступности данных, в частности, набора данных ImageNet с одним миллионом аннотированных изображений, которые научили машины распознавать тысячи различных объектов с высокой точностью. Это увеличение объема данных в сочетании с вычислительными платформами, такими как платформы графических процессоров, позволило технологии глубокого обучения стимулировать прогресс в различных типах данных, включая распознавание речи. Эта технологическая аналогия проводится с биологическими нейронами в мозгу, где нейроны получают информацию, обрабатывают ее, принимают решения и отправляют сообщение, что является тем же процессом, что и в искусственных нейронах. Связи между этими нейронами корректируются с помощью алгоритмов машинного обучения, чтобы усилить определенные прогнозы путем выбора правильного набора весов.

  • 00:20:00 В этом разделе д-р Джоэль Пино обсуждает, как искусственные нейронные сети обрабатывают информацию, при этом каждый слой сети обрабатывает более абстрактную версию информации, пока в конце не будет сгенерирован прогноз. Также исследуется пересечение видения и языка на примере подписи к изображению. Хотя машины несовершенны и могут совершать ошибки, обучение с подкреплением — это метод, который может улучшить их способности. Успешным примером является AlphaGo, которая научилась играть в игру Го и победила чемпиона-человека. Эта система была построена на сочетании глубокого обучения и миллионов опытных игроков в го с последующим обучением методом проб и ошибок.

  • 00:25:00 В этом разделе д-р Джоэль Пино обсуждает проект, над которым она и ее команда работали в течение нескольких лет, направленный на разработку технологии для улучшения лечения людей с эпилепсией. Этот проект включает в себя использование терапии нервной стимуляции, когда устройство применяет электрическую стимуляцию мозга в режиме реального времени, чтобы предотвратить приступы. Проблема, которую они пытаются решить, заключается в том, как оптимизировать параметр стимуляции, чтобы улучшить их способность прерывать приступы. В сотрудничестве с исследователями они использовали обучение с подкреплением для оптимизации стратегии и смогли разработать очень разнообразную политику, распределяя частоту стимуляции в зависимости от того, подвергается ли мозг непосредственному риску приступа или нет. Эти эксперименты проводились с животными моделями эпилепсии, и следующим шагом будет переход к экспериментам на людях.

  • 00:30:00 В этом разделе д-р Джоэль Пино обсуждает использование стратегий ИИ для оптимизации лечения, особенно при заболеваниях, требующих последовательности вмешательств. Хотя наличие большого количества данных важно, она отмечает, что эффективное обучение на небольших наборах данных также имеет решающее значение. Она подчеркивает необходимость сотрудничества между исследователями ИИ и медицинскими исследователями, которые обладают знаниями в конкретной области и понимают динамику заболевания. Кроме того, она подчеркивает важность развития талантов во многих секторах экономики и общества для обеспечения готовности к ИИ. Пино также обсуждает общеканадскую стратегию по подготовке нового поколения студентов для содействия развитию исследований в области ИИ в Канаде.

  • 00:35:00 В этом разделе младшие научные сотрудники Колледжа Мэсси в Торонто обсудили социально-экономические последствия ИИ, в частности, смещение рабочих мест и увеличение неравенства в уровне благосостояния. Хотя докладчик, д-р Джоэль Пино, не является экспертом по вопросам политики, она считает важным прогнозировать, какие отрасли будут затронуты с наибольшей вероятностью, и подготовить следующее поколение к этим изменениям. Одним из примеров смещения рабочих мест является отрасль грузоперевозок, где автоматизация может снизить нагрузку, поскольку трудно нанимать новых людей. Однако в области медицины может быть сложнее подготовить людей к тому, что искусственный интеллект заменит определенные профессии, например рентгенологов. Доктор Пино напоминает группе, что человеческое общество способно приспосабливаться и что всегда будут возникать новые и интересные проблемы, требующие решения.

  • 00:40:00 В этом разделе д-р Джоэль Пино обсуждает важность подготовки следующего поколения к обучению математике, естественным наукам и компьютерным навыкам, чтобы удовлетворить спрос на включение большего количества технических аспектов и кодирования в различные учебные программы. Однако существует разрыв между техническими экспертами, которые могут не иметь более широкого культурного опыта, и политиками, которые могут не иметь технических знаний, и требуется время, чтобы найти общий язык. Доктор Пино также говорит, что, хотя человеческий мозг является большим источником вдохновения для исследований в области ИИ, существуют физические ограничения на то, что машины могут делать, а что может человеческий мозг, и нейронные сети составляют лишь часть истории создания этих алгоритмов. С точки зрения приложений ИИ, доктор Пино больше всего интересует обучение с подкреплением в робототехнике, и она с нетерпением ждет будущего автономных систем, которые могут безопасно и эффективно работать в ориентированной на человека среде.

  • 00:45:00 В этом разделе видео д-р Джоэль Пино обсуждает свою работу над проектом по эпилепсии с использованием ИИ, который она находит увлекательным из-за сложности проблемы и междисциплинарного характера работы. Она объясняет, что проблемы ИИ заключаются в том, чтобы задавать правильные вопросы о данных и сочетать их с правильным алгоритмом. Доктор Пино также упоминает, что ей и ее аспирантам часто приходится проявлять творческий подход и изобретать новые алгоритмы для соответствия данным. Она считает, что одно из самых больших заблуждений об ИИ заключается в том, что это черный ящик, принимающий решения, которые люди не могут понять.

  • 00:50:00 В этом разделе д-р Джоэль Пино обсуждает проблемы понимания того, как нейронные сети принимают решения. Хотя мы можем отслеживать прогнозы нейронной сети, не всегда легко объяснить, почему она сделала эти прогнозы в краткой и понятной форме, как это могут сделать люди. Однако если бы машины могли создавать повествование, объясняющее их решения, диалог между машинами и людьми мог бы стать более насыщенным. Поскольку машины становятся все более распространенными в рабочей силе, важно иметь язык для объяснения решений друг друга, чтобы создать партнерство между людьми и машинами. Доктор Пино также затрагивает проблему предвзятости в данных, которая часто является присущей человеку и может привести к предвзятости в алгоритмах машинного обучения. Хотя индуктивное смещение имеет важное значение в алгоритмах обучения, мы должны осознавать свои предубеждения и выбирать хорошие индуктивные смещения и данные для разработки беспристрастных систем.

  • 00:55:00 В этом разделе д-р Джоэль Пино обсуждает важность предотвращения предубеждений при обучении моделей ИИ и методов для достижения этой цели, таких как чрезмерное представление недопредставленных типов данных. Однако она также отмечает, что полностью избежать предвзятости сложно и что мы должны сосредоточиться на увеличении разнообразия среди людей, создающих технологию. Кроме того, она признает проблемы в этой области, такие как вопросы конфиденциальности и безопасности в отношении данных, понимание того, что передается при распространении алгоритмов машинного обучения, и определение правильной функции вознаграждения для агентов в обучении с подкреплением.
  • 01:00:00 В этом разделе д-р Жоэль Пино говорит о важности привнесения различных точек зрения в область искусственного интеллекта (ИИ) для расширения спектра технологий. Она упоминает такие инициативы, как программа AI for Good в McGill, которая объединяет молодых женщин для повышения квалификации в области искусственного интеллекта и практических проектов. Тем не менее, Пино отмечает, что предстоит еще много работы по измерению воздействия этих инициатив, особенно с учетом того, что программирование вводится в школьные программы. Узким местом в разработке ИИ, по словам Пино, является нехватка талантов и необходимость быстро обучать больше людей в этой области. По вопросу о том, как обучать людей исследованиям в области ИИ, она признает спектр доступных возможностей и необходимость работать лучше на всех уровнях. В целом Пино подчеркивает важность наличия разнообразной и хорошо обученной рабочей силы для развития области ИИ.

  • 01:05:00 В этом разделе спикер завершает мероприятие, благодарит участников и объявляет о предстоящем мероприятии с участием Мишель Ламонт, сотрудника Seafire из Гарвардского университета. Ламонт обсудит, как общество может стать более инклюзивным, и осенью получит премию Эразма от короля Нидерландов. Мероприятие пройдет в отеле Omni King Edward 14 ноября.