Машинное обучение и нейронные сети - страница 23

 

ИИ для разработки лекарств — Лекция 16


ИИ для разработки лекарств — Лекция 16 — Глубокое обучение в науках о жизни (весна 2021 г.)

В этой лекции обсуждается использование глубокого обучения для разработки лекарств. Это объясняет, как можно использовать глубокое обучение для поиска новых соединений с устойчивостью к антибиотикам. В нем также обсуждается, как можно улучшить модели глубокого обучения за счет включения биологических знаний.

Во второй части лекции представлен обзор того, как глубокое обучение можно использовать при разработке лекарств, особенно для прогнозирования противовирусной активности комбинаций лекарств. Модель была протестирована in vivo с использованием клеточных анализов, и были идентифицированы две новые синергетические комбинации лекарств.

  • 00:00:00 Спикер расскажет о глубоком обучении для разработки лекарств и его проблемах. Он расскажет о функциональном пространстве и химическом пространстве и объяснит, как можно использовать глубокое обучение для автоматического поиска лекарств.

  • 00:05:00 Три подхода к разработке лекарств основаны на первых принципах, моделировании и виртуальном скрининге. Первые два хороши для поиска соединений с определенными свойствами, но последний более амбициозен и пытается найти правильное соединение, рассматривая свойства, которые не зависят друг от друга. Симуляция часто слишком медленная, а виртуальный скрининг стоит дорого. Дизайн лекарств Денобля является наиболее амбициозным подходом и пытается решить обратную задачу поиска соединения, рассматривая набор критериев.

  • 00:10:00 В этой лекции спикер обсуждает два метода открытия лекарств, виртуальный скрининг и благородный дизайн лекарств. Оба метода имеют свои преимущества и недостатки: виртуальный скрининг быстрее и дешевле, но имеет меньший охват, чем традиционные методы, в то время как разработка благородных лекарств медленнее, но может найти больше новых соединений. Генетические алгоритмы — эффективный способ исследовать химическое пространство, но алгоритмы для этой задачи еще можно улучшить.

  • 00:15:00 В этой лекции профессор объясняет, как глубокое обучение используется при разработке лекарств и как оно может быть более эффективным, чем традиционные методы. Он также упоминает статью под названием «Долли», в которой показано, как можно использовать глубокое обучение для создания реалистичных изображений объектов.

  • 00:20:00 В этой лекции профессор обсуждает методы глубокого обучения, используемые при открытии лекарств, и приводит примеры того, как эти методы помогли исследователям найти новые антибиотики.

  • 00:25:00 Графические нейронные сети — это тип искусственного интеллекта, который используется для поиска новых соединений, способных убивать бактерии. Целью использования этого типа ИИ является поиск соединений, которые не обнаруживаются традиционными методами, поскольку эти методы могут упускать неизвестные антибактериальные закономерности.

  • 00:30:00 В этой лекции обсуждается, как можно использовать глубокое обучение для выявления закономерностей в данных, связанных с устойчивостью к антибиотикам. Модель способна предсказать, будет ли молекула эффективна против бактерий, с точностью около 9,0 а.е.

  • 00:35:00 В видео обсуждается, как существующие антибиотики больше не эффективны против некоторых штаммов бактерий, и как новое соединение под названием «галлюцин» одновременно является новым и эффективным против этих штаммов. Также обсуждается, насколько соединение эффективно против инфекций у мышей.

  • 00:40:00 В видео обсуждается успех моделей глубокого обучения по сравнению с традиционными методами в обнаружении новых соединений с устойчивостью к антибиотикам. Видео также показывает, как традиционный метод ручного дизайна не может обнаружить определенные соединения с устойчивостью к антибиотикам. Модели глубокого обучения способны захватывать разные части пространства и высоко оцениваются моделями.

  • 00:45:00 Спикер описывает модели глубокого обучения, используемые для разработки лекарств, и объясняет, как эти модели можно улучшить, включив в них биологические знания. Он представляет тематическое исследование комбинации препаратов, которая оказалась более эффективной, чем один препарат.

  • 00:50:00 В видео обсуждается ИИ для разработки лекарств с особым акцентом на использование глубокого обучения для выявления синергетических соединений. Цель состоит в том, чтобы найти препараты, обладающие синергизмом и менее токсичные, а также включить в модель знания о цикле репликации вируса.

  • 00:55:00 В лекции обсуждаются методы глубокого обучения для разработки лекарств с акцентом на то, как их можно использовать для прогнозирования противовирусной активности лекарства в отношении различных целей. Первый шаг — предсказать взаимодействие лекарственного средства с мишенью, используя набор данных Кэмпбелла и Национального института здравоохранения. Затем нейронная сеть используется для изучения представления структуры молекулы, что необходимо для второго этапа процесса разработки лекарства: предсказания противовирусной активности лекарства против различных мишеней. Используя комбинацию глубокого обучения и заполнения матрицы, подчеркивается потенциал для улучшения дизайна лекарств.

  • 01:00:00 В этой лекции обсуждается, как глубокое обучение можно использовать при разработке лекарств, особенно для прогнозирования противовирусной активности комбинаций лекарств. Модель была протестирована in vivo с использованием клеточных анализов, и были идентифицированы две новые синергетические комбинации лекарств.

  • 01:05:00 Эта лекция посвящена глубокому обучению в науках о жизни и его важности для разработки лекарств. Лекция охватывает два предыдущих подхода к дизайну лекарств, один из которых использует последовательности, а другой — рекуррентные нейронные сети. В лекции отмечается, что представление молекул потоком улыбки довольно хрупкое, а методы плохо работают при открытии лекарств. В лекции отмечается, что лучший способ представления молекул — это графы, которые можно эффективно генерировать с помощью рекуррентных нейронных сетей.

  • 01:10:00 В лекции обсуждается глубокое обучение в науках о жизни, особенно в том, что касается разработки лекарств. В лекции отмечается, что глубокое обучение можно использовать для создания молекул, но у него есть проблемы с разреженными молекулами и низкими мотивами древесных волн. В качестве решения была предложена рекуррентная нейронная сеть, и было обнаружено, что она более эффективна с молекулами, имеющими низкие мотивы древесной волны.

  • 01:15:00 В этой лекции обсуждается глубокое обучение в науках о жизни с акцентом на автокодировщик глубокого обучения, который может кодировать молекулы в низкоразмерный вектор. Это уменьшает количество мотивов, которые могут быть созданы, а также временную сложность процесса.

  • 01:20:00 В этой лекции профессор объясняет, как можно использовать глубокое обучение для повышения точности реконструкции мотивов при разработке лекарств. Многогранные модели генерации мотивов выгодны, потому что они позволяют улавливать большие циклы в молекулах. Вероятность успеха генерации мотива с использованием подхода «узел за узлом» низка из-за неправильного представления пространства последовательности. Однако использование подхода «мотив за мотивом» значительно повышает вероятность успеха. Это связано с тем, что модель может научиться модифицировать существующие молекулы, чтобы улучшить их сходство с лекарством.

  • 01:25:00 Спикер представляет краткий обзор глубокого обучения в науках о жизни, выделяя проблемы и возможности каждой области. Она заканчивает обсуждением химии и дизайна лекарств.

  • 01:30:00 В этой лекции приглашенный лектор дает советы студентам, заинтересованным в реализации проектов в области искусственного интеллекта для разработки лекарств. Они заявляют, что при желании студенты могут получить от них наставничество.
AI for Drug Design - Lecture 16 - Deep Learning in the Life Sciences (Spring 2021)
AI for Drug Design - Lecture 16 - Deep Learning in the Life Sciences (Spring 2021)
  • 2021.04.21
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecture: Wengong JinDeep Learning in the Life Sciences / Computational Systems Bi...
 

Глубокое обучение сворачиванию белков — Лекция 17



Глубокое обучение для фолдинга белков — Лекция 17 — Глубокое обучение в науках о жизни Массачусетского технологического института (весна 2021 г.)

В этом видео обсуждается использование глубокого обучения в области фолдинга белков и, в частности, то, как можно использовать геометрическое глубокое обучение для изучения белковых структур и прогнозирования таких вещей, как сайты связывания лигандов и белок-белковые взаимодействия. В видео также рассматриваются методы моделирования на основе шаблонов и без шаблонов, различные подходы к прогнозированию контактов при сворачивании белка и использование остаточных нейронных сетей для моделирования изображений при прогнозировании структуры белка. В целом докладчик подчеркивает перспективность глубокого обучения в улучшении нашего понимания белковых структур и их функций и приводит подробные примеры и результаты, подтверждающие это утверждение.

В видео обсуждаются различные подходы к глубокому обучению сворачиванию белков, в том числе использование предсказаний коэволюции и шаблонов для точного моделирования, важность поиска лучших гомологов и потенциал глубокого обучения для достижения сопоставимых результатов, не полагаясь на традиционную физику. методы. Докладчики также подробно расскажут об использовании дифференцируемых выходных данных и важности глобальной точности, а также об эволюции пространства алгоритмов и потенциале глубокого обучения для прогнозирования подтверждений белка на основе таких факторов, как генетическая изменчивость или малые молекулы. В целом, видео подчеркивает захватывающий потенциал глубокого обучения, который революционизирует предсказание структуры белка и его многочисленные приложения.

  • 00:00:00 В этом разделе видео Бруно Корреа представляет концепцию геометрического глубокого обучения и то, как она применяется к изучению белковых структур. Он объясняет, как глубокое обучение оказалось успешным в классификации изображений, но что наборы данных в биологии, как правило, намного богаче и многомерны, с различными временными и другими измерениями, что делает геометрическое глубокое обучение ценным подходом. Корреа обсуждает важность белковых структур в их функциях, от механических и химических функций до связывания и распознавания, и представляет такие примеры, как антитела, ионные насосы, коммуникационные и ригидные белки. Он также обращается к вопросу о том, занималась ли AlphaFold работой по изучению белковых поверхностей, объясняя это тем, что AlphaFold решила белковые структуры, но конкретно не изучала белковые поверхности.

  • 00:05:00 В этом разделе спикер обсуждает проблемы прогнозирования функции белка по его структуре, что важно для понимания того, как белки взаимодействуют друг с другом и другими метаболитами в клетках. Докладчик представляет различные способы представления белковых структур, уделяя особое внимание поверхностным представлениям, которые могут иметь схожие функции, несмотря на разные последовательности и архитектуры. По аналогии с изучением лиц людей докладчик утверждает, что изучение узоров на поверхности белков может дать важную информацию об их функциях. Затем докладчик представляет подход глубокого обучения для прогнозирования сайтов связывания белковых лигандов с использованием трехмерных представлений молекулярной поверхности.

  • 00:10:00 В этом разделе видео спикер обсуждает использование геометрического глубокого обучения для решения проблемы сворачивания белков. Они объясняют, что прототипами объектов для геометрического глубокого обучения являются графики или поверхности, и их команда использовала сетчатые представления белков для их изучения. Затем они объясняют использование «патчей», которые представляют собой подмножества сетки с несколькими векторными объектами в каждом узле, и то, как им назначаются локальные веса. Докладчик описывает различные типы функций, которые были закодированы в каждом узле, включая индекс формы, кривизну, зависящую от расстояния, гидрофобность и электростатические характеристики. Затем эта информация была преобразована в вектор для дальнейшего анализа.

  • 00:15:00 В этом разделе спикер обсуждает, как геометрический подход к глубокому обучению может кодировать поверхность молекулы независимо от ее последовательности, позволяя изучать структуры атомов и химические свойства. Докладчик отмечает потенциальные применения этого подхода, такие как классификация белковых карманов на основе особенностей конкретных лигандов и прогнозирование стыковочных конфигураций двух белков с использованием поверхностных отпечатков пальцев. Были проведены исследования абляции, чтобы понять, какие факторы в большей степени способствуют прогнозированию специфичности, при этом химия и геометрия оказались важными. В целом, подход обещает улучшить понимание белковых структур и их функций.

  • 00:20:00 В этом разделе спикер описывает сеть, называемую массивным сайтом, которая может предсказать, какие сайты на поверхности данного белка с большей вероятностью будут взаимодействовать с другими белками. Они также обсуждают метод сканирования отпечатков пальцев, используемый для стыковки, и показатели успеха этого подхода по сравнению с другими программами стыковки. Докладчик представляет массив следующего поколения под названием D-массив, в котором используется полностью дифференцируемая сеть для создания облака точек, описывающего поверхность белка и вычисляющего геометрические и химические характеристики, включая электростатические свойства. Наконец, спикер кратко упоминает захватывающий аспект дизайна проекта и обсуждает важную цель для контроля активности Т-клеток при лечении рака.

  • 00:25:00 В этом разделе спикер обсуждает, как они использовали глубокое обучение для разработки молекул, нацеленных на белки. Они использовали массив, чтобы предсказать сайт, который будет более склонен к нацеливанию молекул дизайна, и извлекли отпечаток целевой поверхности. Затем они пристыковали мотивы к этому сайту и предсказали взаимодействие с интересующим белком. Результатом стал новый мотив, который ранее не был известен в природе и успешно соответствовал экспериментальным структурам со среднеквадратичным отклонением около одного ангстрема, что указывает на связывание с высоким сродством, которое связывается с белком. Спикер предлагает потенциально консультировать студентов, заинтересованных в изучении этой области исследований.

  • 00:30:00 В этом разделе лекции спикер обсуждает две основные категории методов предсказания структуры белков: моделирование на основе шаблонов и моделирование без шаблонов. В то время как моделирование на основе шаблонов основано на использовании существующих белковых структур в базе данных PDB в качестве шаблонов для прогнозирования новых структур, моделирование без шаблонов является более новым методом, который включает поиск гомологии и машинное обучение для прогнозирования структур без использования шаблонов. Докладчик фокусируется на последнем методе и описывает более новый подход, использующий поиск гомологии последовательностей, профилирование сигналов и машинное обучение для прогнозирования белковых структур без опоры на шаблоны, который показал более высокую точность для многих белков, чем методы на основе шаблонов. Докладчик также обсуждает метод сборки фрагментов, популярный в прошлом подход к моделированию на основе шаблонов.

  • 00:35:00 В этом разделе лекции спикер обсуждает пайплайн, используемый для бесшаблонного моделирования фолдинга белков. Прогнозная информация о расстоянии между любыми двумя атомами или остатками в белке подается в механизм оптимизации для построения структуры. Докладчик также обсуждает различные стратегии для множественного выравнивания последовательностей, в том числе использование порогового значения для необходимого количества покрытия или углеродных остатков. Важнейшим компонентом этого моделирования является прогнозирование матрицы индукции, моделирование мер междометия с использованием мер содержания или метрик расстояния. Докладчик представляет несколько эффективных идей для прогнозирования положения контакта, которые в последние годы значительно упростили прогнозирование и сделали сотрудничество более эффективным.

  • 00:40:00 В этом разделе спикер обсуждает три различных подхода к прогнозированию контактов при сворачивании белков. Первый подход представляет собой глобальный статистический метод анализа коалиций, но для его эффективности требуется большое количество гомологов последовательностей. Второй подход заключается в использовании глубоких сверточных остаточных нейронных сетей для прогнозирования контактного расстояния, а третий — преобразующая сеть для прогнозирования контактов, которая учитывает как последовательность, так и структурную информацию из банка данных белков. Докладчик также объясняет проблемы, с которыми сталкивались предыдущие методы обучения с учителем для прогнозирования контактов, и то, как их можно улучшить с помощью более продвинутых моделей машинного обучения.

  • 00:45:00 В этом разделе спикер обсуждает ограничения предыдущих методов предсказания контактов для укладки белка, которые учитывали только два остатка за раз и, следовательно, игнорировали более крупные взаимосвязи внутри всего белка. Чтобы решить эти проблемы, спикер предлагает новый метод, который использует глубокое обучение для одновременного предсказания всех контактов в белке. Этот метод основан на рассмотрении каждой пары атомов как пикселя изображения, что можно использовать для формулировки задачи как задачи сегментации изображения. Используя полностью свернутую остаточную нейронную сеть, спикер показывает, что их метод может значительно повысить точность прогнозирования контактов и обеспечить свертывание более крупных и твердых белков. Кроме того, метод хорошо работает как для одноцепочечных, так и для мембранных белков и может использоваться для прогнозирования сложных контактов без изменения модели.

  • 00:50:00 В этом разделе спикер обсуждает использование остаточных нейронных сетей для предсказания структуры белка посредством моделирования изображений с использованием сверточных нейронных сетей. Они объясняют, что использование остаточных соединений позволяет использовать гораздо более глубокие сети, что приводит к большей точности без переобучения. Спикер показывает некоторые результаты эффективности своего метода в ранжировании и точности по сравнению с другими методами, демонстрируя успех подхода глубокого обучения. Точность улучшилась за последние восемь лет, и теперь точность может достигать 80 процентов.

  • 00:55:00 В этом разделе спикер обсуждает прогресс в области контактной позиции и проектной позиции с использованием моделей глубокого обучения для сворачивания белков. Точность контакта значительно улучшилась: текущая точность составляет 80 %, что намного полезнее, чем в предыдущем экзамене. Докладчик объясняет процесс использования цифровой сети для проектной позиции и то, как это может значительно улучшить временное моделирование. Докладчик также обсуждает важность кодовой информации и показывает, что даже для некоторых ферментированных белков можно сделать хорошее предсказание без ее использования. Результаты показывают, что глубокое обучение может генерировать новые структуры и что для точных прогнозов требуется небольшое количество гормонов последовательности.

  • 01:00:00 В этом разделе докладчики обсуждают использование информации о последовательности и структуре для улучшения моделирования белков. Они исследуют идею использования существующих прогнозов в качестве обратной связи в обучающем наборе, чтобы улучшить прогнозы совместной эволюции и привести к более совершенным предсказателям на основе последовательностей. Они также обсуждают использование информации о шаблонах и важность поиска хороших шаблонов для точного моделирования. Кроме того, они ставят под сомнение роль физики в моделировании белков и предполагают, что, хотя физические методы могут помочь уточнить модели, глубокое обучение также может дать сопоставимые результаты без использования физики.

  • 01:05:00 В этом разделе видео обсуждается, как моделировать действительно большие белки без использования шаблонов. Пример белка содержит более 13 000 остатков, что затрудняет точное моделирование с помощью традиционных средств. Однако, комбинируя различные методы сборки и используя рабочий процесс iPhone2, белок моделируется с высокой точностью. В видео также отмечается, что использование трансформатора требует большой мощности графического процессора и памяти, что затрудняет его использование для большинства людей. Однако модель машинного обучения по-прежнему возможна с меньшим набором обучающих данных. Кроме того, поиск лучших гомологов для построения модели является потенциальным узким местом, которое можно устранить путем дальнейших исследований. Наконец, показана диаграмма прогресса для сложных целей 3D-моделирования, где более высокие баллы указывают на лучшее качество прогнозируемых моделей.

  • 01:10:00 В этом разделе Мухаммад Аль-Карагули рассказывает об эволюции пространства алгоритмов для предсказания структуры белка за последние два десятилетия. Он обсуждает, как более ранние методы были сосредоточены на использовании модели, основанной на физике, и функции энергии, чтобы получить самое низкое энергетическое состояние белка, в то время как в более поздних методах использовалась коэволюция для извлечения информации с использованием различных методов вероятностного вывода. Аль-Карагули отмечает, что точность этих методов остается ограниченной без дополнительной информации о последовательности, и обсуждает, как глубокое обучение изменило правила игры для предсказания структуры белков, особенно для мембранных и трансмембранных белков.

  • 01:15:00 В этом разделе спикер обсуждает эволюцию подходов глубокого обучения к фолдингу белков, начиная с использования неконтролируемых методов в начале 2010-х годов и внедрения глубокого обучения с помощью уникальных сетевых подходов, таких как работа Джима Вазу. с RaptorX в 2016 году и использование остаточной сетевой архитектуры Capital X 18. Докладчик описывает разработку первого набора сквозных дифференцируемых подходов в 2018 году, которые не обязательно были конкурентоспособными с существующими методами, но могли генерировать предсказания гораздо быстрее. Последняя разработка, AlphaFold 2, рассматривает объекты множественного выравнивания последовательностей (MSA) как объекты закона, чтобы потенциально фиксировать корреляции более высокого порядка и глобальные аспекты последовательности и филогенеза. Наконец, спикер описывает святой Грааль фолдинга белков — способность работать так же, как AlphaFold 2, из отдельных последовательностей белков — на достижение чего и направлена их последняя работа.

  • 01:20:00 В этом разделе спикеры обсуждают способность белков сворачиваться in vitro и степень, в которой шапероны внутри клетки управляют этим процессом. Они также изучают количество информации, которая присутствует в первичной последовательности белков, и достаточно ли ее, чтобы предсказать влияние мутации, изменяющей белок. Они обсуждают предсказания белка A2, которые показывают, что все еще можно предсказывать по отдельным последовательностям, не требуя присутствия всех физических аспектов. Наконец, вводится алгоритм пространства, который включает в себя ввод, туловище нейронной сети и вывод, который обычно представляет собой прокси-объект, связанный со структурой, а затем отправляется через конвейер постобработки для создания окончательного трехмерного изображения. состав.

  • 01:25:00 В этом разделе спикер обсуждает важность дифференцируемости выходных данных, полученных из модели глубокого обучения. Если результат удален от фактической цели, потенциальная оптимизация теряется. Докладчик также обсуждает использование постобработки, которая может привести к самопротиворечивым прогнозам, и то, как их реализация модели глубокого обучения предсказывает окончательную частотную структуру без необходимости использования прокси-количеств. В своем подходе они параметризуют локальную геометрию, используя дискретный алфавит углов кручения, и предсказывают распределение вероятностей по этому алфавиту. Таким образом, они могут поддерживать дифференцируемость двигателя, что позволяет эффективно оптимизировать окончательную структуру.

  • 01:30:00 В этом разделе спикер объясняет свой подход к построению структуры белка с использованием свободных торсионных углов для каждого остатка и итеративного процесса. Функция потерь определяется с точки зрения глобальной точности, а не только локальной точности, для учета взаимодействий между остатками при формировании исходной структуры. Спикер признает, что, хотя их подход ограничен, они считают, что внутри нейронной сети происходит неявная гомогенизация структуры, что со временем приводит к лучшим прогнозам. Спикер также обсуждает, как они параметризуют выходные данные, используя матрицы оценки для конкретных позиций (PSSM) и рекуррентную архитектуру. Наконец, спикер представляет некоторые из своих предсказаний, сделанных с использованием этого подхода, и отмечает, что, хотя некоторые аспекты структуры были хорошо предсказаны, другие нет.

  • 01:35:00 В этом разделе спикер обсуждает, как они развили идею параметризации кручения, используя конструкцию френезии, которая упрощает математику и упрощает процесс формулирования. Теперь они фокусируются только на C-альфа и параметризуются с помощью матриц вращения, что решает проблему патологических вторичных структур. Ключевое изменение заключается в том, что они вернулись к идее единой последовательности, которую они передают через языковую модель. Они используют преобразователи для встраивания каждого остатка в скрытое пространство и используют его в качестве входных данных для прогнозирования, с дополнительной задачей адаптации фрагментов и сплайсинга двух разных белков для повышения эффективности обучения. Докладчик показывает результаты сравнения RGN1 и RGN2 при прогнозировании целевой последовательности приведения, при этом RGN2 достигает значительно лучших результатов благодаря этапу уточнения постобработки. Важно отметить, что это основано на вводе одной последовательности, прошедшей через языковую модель.

  • 01:40:00 В этом разделе видео спикер обсуждает точность своего метода предсказания белковых структур. Они показывают примеры, выровненные относительно альфа-2, и, хотя точность не так хороша, как на современном уровне техники, они используют гораздо меньше информации для прогнозирования. Они также показывают примеры одноэлементных белков, которые по существу находятся в сумеречной зоне пространства последовательностей и не имеют гомологов последовательностей, где их подход имеет существенное значение по сравнению с современной общедоступной системой. Кроме того, спикер обсуждает белки de novo и разработанные белки, с которыми они систематически хорошо справляются, что имеет смысл, поскольку эти типы подходов на основе последовательностей могут быть полезны при дизайне белков. Наконец, спикер объясняет, что значительное ускорение их метода может быть полезно для различных приложений.

  • 01:45:00 В этом разделе докладчики обсуждают потенциал использования глубокого обучения для прогнозирования различных подтверждений белка на основе различных факторов, таких как генетическая изменчивость или небольшие молекулы. Хотя теоретически метод с одним пространством сигналов может работать лучше, нет никакого способа узнать, пока они не смогут фактически сравнить разные версии лицом к лицу, например, когда будет выпущена альфа 2. Также упоминаются проблемы уточнения, такие как прогнозирование общей неисправности с помощью MSA, а затем уточнение ее до фактической структуры с использованием другого этапа. Быстро развивающиеся вирусы упоминаются как еще одна область, в которой может быть полезно глубокое обучение. В конечном итоге спикеры выражают свое восхищение потенциальными возможностями сотрудничества в будущем и привилегией общаться с людьми из разных уголков мира.
 

Машинное обучение для патологии - Лекция 19



Машинное обучение для патологии — Лекция 19 — Глубокое обучение Массачусетского технологического института в науках о жизни (весна 2021 г.)

Лекция охватывает различные аспекты применения глубокого обучения в вычислительной патологии, включая проблемы и ограничения технологии. Докладчик обсуждает необходимость осторожности при слепом доверии алгоритмам и подчеркивает важность понимания того, что изучает сеть. В лекции рассматривается несколько примеров того, как глубокое обучение используется в диагностике рака, прогнозировании и оценке эффективности лечения для разработки прогностических и прогностических инструментов для точной медицины. Спикер также обсуждает проблемы разработки мультимедикаментозных препаратов для лечения туберкулеза и предлагает различные лабораторные проекты для решения этой проблемы. В целом, лекция подчеркивает потенциал глубокого обучения в патологии, а также признает его ограничения и необходимость междисциплинарного подхода для обеспечения его эффективного применения в клинических условиях.

В этом видео на YouTube под названием «Машинное обучение для патологии — лекция 19 — Глубокое обучение MIT в науках о жизни (весна 2021 г.)» спикер обсуждает попытки своей команды решить проблему неоднородности от партии к партии и от клетки к клетке в машинном обучении для патологии с использованием типичных вариационная нормализация (TVN) и метод k-ближайших соседей. Они также описывают использование морфологического профилирования для классификации лекарств на основе их воздействия на бактерии и разработку основанного на данных подхода к разработке и определению приоритетов комбинаций лекарств с использованием как контролируемого, так и неконтролируемого обучения. Кроме того, спикер благодарит сотрудников своей лаборатории за их вклад в исследования синергии лекарств и антагонизма, подчеркивая важность рассмотрения более широкого контекста для понимания и продвижения исследований в этой области.

  • 00:00:00 В этом разделе Ананд Мадабхуши обсуждает влияние глубокого обучения в области вычислительной патологии, особенно в отношении анализа медицинских изображений. В то время как оцифровка патологии сделала ее очагом для применения глубокого обучения из-за огромного количества доступных данных, Мадабхуши предупреждает, что специализированные методологии, которые включают в себя функции ручной работы на протяжении десятилетий опыта, возможно, не были превзойдены методами глубокого обучения. . Он также предоставляет некоторые статистические данные о диагностике рака и уровне смертности, чтобы подчеркнуть важность точной диагностики рака на ранней стадии с помощью визуализации. Мадабхуши надеется поделиться своими извлеченными уроками и мыслями о том, где и как глубокое обучение может быть наиболее полезным в этой области.

  • 00:05:00 В этом разделе спикер обсуждает проблему гипердиагностики и чрезмерного лечения онкологических заболеваний, особенно вялотекущих, таких как рак простаты. Несмотря на достижения в области биомаркеров и терапии, гипердиагностика и избыточное лечение остаются проблематичными и способствуют финансовой токсичности для пациентов. Затем докладчик исследует потенциал машинного обучения в контексте диагностики рака, прогнозирования и оценки эффективности лечения, чтобы помочь в разработке прогностических и прогностических инструментов для точной медицины. Хотя уже существуют такие инструменты, как анализы на основе экспрессии генов, они имеют ограничения и не учитывают гетерогенность внутри опухоли. Машинное обучение дает возможность улучшить эти ограничения и лучше контролировать и лечить рак.

  • 00:10:00 В этом разделе лектор обсуждает использование оцифрованных слайдов патологии и расширенный анализ изображений с помощью машинного обучения для выявления особенностей и закономерностей, которые не могут быть визуально различимы патологоанатомами. Идентифицируя отдельные клетки, лимфоциты и раковые клетки, специалисты по данным могут использовать теорию сетей для изучения пространственной архитектуры отдельных клеток и анализа различных количественных показателей пространственного расположения отдельных клеток, чтобы лучше понять диагноз, прогноз и реакцию пациентов на лечение. . Этот процесс позволяет использовать неинвазивный и облачный подход к анализу патологии.

  • 00:15:00 В этом разделе спикер обсуждает влияние глубокого обучения в области компьютерной патологии, где объем данных на слайдах патологии вытеснил любые другие области медицинской визуализации. Шесть лет назад была опубликована нейронная сеть, которая использовала аннотации отдельных ячеек для сложенного разреженного автоэнкодера, где она обучалась на основе аннотаций ячеек, позволяя нейронной сети улавливать более мелкие детали, такие как градиенты и грубые эллиптические формы. клетки. Сеть обучалась на участках с ячейками и без ячеек, которые были помечены студентами вручную, разбивая изображение на ряд ограничивающих прямоугольников. Хотя некоторые ячейки были упущены, сеть смогла уловить нюансы различных типов ячеек.

  • 00:20:00 В этом разделе спикер обсуждает ограничения глубокого обучения в патологии, особенно в отношении окрашивания и аннотаций. Окрашивание может оказать значительное влияние на точность сегментации, и сеть не была обучена самым надежным способом из-за несоответствия между маленькими и большими ячейками. Спикер также обсуждает свою работу по обучению алгоритма CNN, основанного на неконтролируемой генерации признаков, чтобы различать нормальные сердца и сердца с риском сердечной недостаточности. Алгоритм CNN превзошел патологов, достигнув AUC 0,97 по сравнению с AUC патологов всего 0,74.

  • 00:25:00 В этом разделе спикер обсуждает удивительное открытие, которое они сделали, запустив один и тот же алгоритм на двух группах пациентов из одного учреждения и одного сканера. Несмотря на отсутствие различий в патологии изображений, AUC второго набора резко снизилась из-за небольшого обновления программного обеспечения, которое незначительно изменило характеристики изображения. Это подчеркнуло необходимость осторожности при слепом доверии алгоритмам даже в, казалось бы, контролируемых условиях. Панель f также показала, что, хотя неконтролируемая генерация признаков с помощью CNN в основном изучала свертки, которые были чувствительны к преаналитическим источникам вариаций, она также подчеркивала важность определенных типов ячеек и их пространственного расположения. Это привело к последующему подходу, который генерировал AUC, сравнимый с первоначальным высоким показателем, но с большей устойчивостью к изменениям на разных сайтах и холстах.

  • 00:30:00 В этом разделе спикер обсуждает важность понимания того, что изучает сеть, и осторожность в отношении доверия алгоритмам грубой силы в медицинской диагностике. Он приводит пример сети, которая научилась различать хаски и волков исключительно по наличию снега на заднем плане, что подчеркивает необходимость осторожности при интерпретации результатов сети. Несмотря на эти ограничения, спикер указывает на полезность глубокого обучения в задачах обнаружения и сегментации в патологии и делится интерактивным инструментом под названием Quick Annotator, который позволяет пользователям сегментировать несколько репрезентативных примеров, обучать сеть в фоновом режиме и выполнять точную настройку. результаты в интерактивном режиме обучения.

  • 00:35:00 В этом разделе спикер обсуждает проблемы, связанные с процессом аннотирования изображений патологии, в частности нехватку времени у патологоанатомов. Чтобы решить эту проблему, спикер объясняет, как созданные вручную функции могут помочь повысить эффективность процесса аннотирования. Они приводят примеры использования глубокого обучения для идентификации различных тканевых компартментов и типов клеток, а затем использования графовых сетей для просмотра пространственной статистики и взаимодействия различных типов клеток внутри тканевых компартментов. Докладчик также описывает, как глубокое обучение использовалось для сегментации волокон коллагена и присвоения вектора их ориентации, который затем использовался для определения энтропии и прогностического значения для пациентов с раком молочной железы. Наконец, спикер представляет новое исследование рака предстательной железы, в котором используется глубокое обучение для сегментации желез, а затем рассматривается пространственное расположение и архитектура желез, чтобы предсказать, у каких пациентов будет рецидив после операции.

  • 00:40:00 В этом разделе спикер обсуждает непосредственное сравнение коммерческого молекулярного анализа для прогнозирования исходов рака предстательной железы и подхода на основе изображений с использованием алгоритмов глубокого обучения. Результаты показали, что подход на основе изображений в сочетании с двумя простыми клиническими факторами работает почти в два раза лучше, чем дорогостоящий молекулярный анализ. Более того, подход на основе изображений с использованием алгоритмов глубокого обучения дал интерпретируемые и проверенные признаки, которые можно было проанализировать с гораздо меньшими затратами по сравнению с молекулярным анализом. Докладчик также подчеркнул необходимость интерпретируемости в клинических приложениях глубокого обучения и подчеркнул важность ручной разработки признаков в сочетании с подходами глубокого обучения.

  • 00:45:00 В этом разделе основное внимание уделяется проблемам интерпретируемости машинного обучения для патологии, особенно в контексте разработки многокомпонентной терапии туберкулеза (ТБ). Отсутствие интерпретируемости представляет серьезную проблему для клиницистов, которым необходимо понимать представления, лежащие в основе моделей, чтобы доверять своим решениям. Спикер подчеркивает необходимость постоянно подвергать сеть сомнению и ничего не принимать на веру. Они также обсуждают важность того, чтобы сначала начать с самой простой методологии и решить, когда использовать глубокое обучение. Лаборатория работает над туберкулезом, подчеркивая сложность лечения этого заболевания, необходимость применения нескольких лекарственных препаратов и существенную гетерогенность.

  • 00:50:00 В этом разделе спикер обсуждает проблемы разработки мультимедикаментозного лечения туберкулеза из-за разнообразной микросреды бактерий в легких, для обеспечения восприимчивости к которым требуются разные препараты. Докладчик отмечает, что, несмотря на то, что в настоящее время существует множество препаратов для лечения туберкулеза, огромное количество неисследованных комбинаций затрудняет тестирование каждой потенциальной комбинации. Спикер предлагает два лабораторных проекта для решения этой проблемы: во-первых, сужение пространства отдельных лекарств с помощью визуализации для определения пути действия новых лекарств, а во-вторых, использование машинного обучения для систематических измерений комбинаций и разработки классификаторов для прогнозирования наиболее эффективных. новые комбинации. Лаборатория использует покадровую визуализацию, чтобы зафиксировать изменения в морфологии клеток бактерий, чтобы оценить различные результаты лечения.

  • 00:55:00 В этом разделе спикер описывает проект, в котором использовалось неконтролируемое обучение и кластеризация для связывания схожих профилей лекарств в E.coli. Они предположили, что когда профили выглядят одинаково, эти препараты имеют схожий механизм действия. Они применили эту идею к туберкулезу, но клетки не поглощали краску, как ожидалось, и морфологические особенности не выглядели очень отличными друг от друга. Тем не менее, они все же обнаружили статистически значимые отличия от необработанных клеток в некоторых группах лечения. Был установлен типичный конвейер для цитологического профилирования, и они надеялись провести классификационное испытание, чтобы попытаться выяснить, какие группы лечения были наиболее похожи друг на друга. Они обнаружили, что патогены реагировали на лекарства, но были различны по механизму реакции и имели чрезвычайно толстые клеточные стенки, что затрудняло проникновение лекарств.

  • 01:00:00 В этом разделе лекции спикер обсуждает попытки своей команды решить проблему неоднородности от партии к партии и от клетки к клетке в своих экспериментах по машинному обучению для патологии. Они пытались использовать нейронную сеть, которая не работала из-за переменных данных. Затем они использовали метод, называемый нормализацией типичной вариации (TVN), разработанный их сотрудником Майком Андо из Google, для выравнивания ковариационных матриц, полученных в результате анализа основных компонентов (PCA) необработанных контролей из каждого эксперимента, чтобы уменьшить небиологические вариации. Они также включили метрики гетерогенности от клетки к клетке и перешли от использования PCA к методу k-ближайших соседей для фиксации тонких морфологических изменений. Они использовали стохастический подход, чтобы избежать нестабильности, и выбирали новый набор необработанных контролей для каждого классификационного испытания.

  • 01:05:00 В этом разделе спикер описывает процесс использования морфологического профилирования для классификации лекарств на основе их воздействия на бактерии. Процесс включает в себя обработку бактерий низкой и высокой дозой лекарства, фиксацию и окрашивание бактерий, выделение признаков, нормализацию данных и выполнение стохастического моделирования. Полученная согласованная классификация имеет точность около 75%, а сетевая диаграмма используется для визуализации связей между лекарствами. Однако спикер отмечает, что один препарат, бедаквилин, был ошибочно классифицирован как агент, действующий на клеточную стенку, что привело к гипотезе о том, что он вызывает энергетический кризис у бактерий. Эта гипотеза была подтверждена выращиванием бактерий на жирных кислотах, что привело к другой классификации.

  • 01:10:00 В этом разделе лекции спикер обсуждает механизм действия препарата Бедаквилин на туберкулез и его зависимость от метаболического состояния бактерий. Докладчик также описывает использование морфологического профилирования для определения проксимальных повреждений и вторичных эффектов антибактериальных препаратов на туберкулез. Они объясняют, что этот метод обеспечивает целенаправленный подход, помогающий направить исследователей к пространству пути, на котором они должны сосредоточиться для вторичных исследований. Докладчик также коснется измерения комбинаций препаратов с помощью метода шахматной доски, который традиционно неэффективен для комбинаций высокого порядка при лечении туберкулеза.

  • 01:15:00 В этом разделе спикер обсуждает проблемы, связанные с измерением комбинаций лекарств высокого порядка при туберкулезе, и представляет решение под названием Diamond (диагональные измерения n-сторонних взаимодействий лекарств). Алмаз представляет собой геометрическую оптимизацию анализа шахматной доски, которая сохраняет единицу кривой доза-реакция и измеряет наиболее информативные части шахматной доски. Проецируя линию, говорящий объясняет, как можно количественно определить степень взаимодействия лекарственного средства с помощью дробной ингибирующей концентрации. Алмаз использовался для эффективного измерения до 10 комбинаций лекарств. Докладчик обсуждает большой набор данных, который использовался для решения двух основных проблем при разработке комбинаций нескольких препаратов с использованием исследований туберкулеза in vitro. В исследовании измерялись все одиночные, парные и трехкомпонентные комбинации препаратов in vitro в восьми различных средах роста, чтобы с помощью вычислений объединить их вместе, моделируя то, что происходит на разных моделях животных. Спикер приходит к выводу, что профили взаимодействия лекарственных средств сильно зависят от среды роста, и не существует единой комбинации, обеспечивающей синергизм во всех условиях.

  • 01:20:00 В этом разделе спикер обсудил свой основанный на данных подход к разработке и определению приоритетов комбинаций лекарств с использованием машинного обучения. Они использовали как контролируемое, так и неконтролируемое обучение, чтобы собрать свои данные в куб данных, и обнаружили сильный сигнал, который определяет комбинации в зависимости от того, будут ли они лучше стандартного лечения или нет. Они также нашли способ ограничить количество условий роста, которые они измеряют, используя различные методы обучения с учителем, такие как модели случайного леса. Докладчик подчеркнул, что более простой подход лучше работал для них, чтобы проложить путь к тому, как лучше всего систематически и эффективно исследовать пространство комбинаций с использованием проверенных моделей in vitro. В целом, их подход может помочь сократить количество экспериментов in vitro и привести к лучшим комбинациям лекарств.

  • 01:25:00 В этом разделе спикер благодарит людей в своей лаборатории, которые работали над различными сложными и грязными проектами, включая исследования синергии лекарств против антагонизма. Эти исследования в конечном итоге помогают обеспечить более широкий контекст для машинного обучения и глубокого обучения в науках о жизни, подчеркивая, что они являются небольшой частью гораздо большего уравнения. Подчеркивается важность рассмотрения этого более широкого контекста, поскольку это не всегда правильный подход, но он необходим для понимания и продвижения исследований в этой области. В целом выступление спикера было очень информативным и дало ценную информацию о пересечении машинного обучения и патологии.
 

Глубокое обучение для сегментации изображений клеток - Лекция 20



Глубокое обучение для сегментации изображений клеток — Лекция 20 — Массачусетский технологический институт курс машинного обучения в науках о жизни (весна 2021 г.)

В этом видео спикеры обсуждают использование глубокого обучения для отслеживания клеток, которое включает в себя определение движения клеток в покадровой визуализации. Они объясняют, что традиционные методы ручного отслеживания являются дорогостоящими и трудоемкими, а методы глубокого обучения могут значительно ускорить процесс, а также обеспечить более высокую точность. Спикеры обсуждают различные архитектуры глубокого обучения для отслеживания ячеек, включая U-Net, StarDist и DeepCell. Они также отмечают, что одной из проблем при отслеживании ячеек является различение ячеек, которые расположены близко друг к другу или перекрываются, и что такие методы, как отслеживание нескольких объектов или подходы на основе графов, могут помочь решить эту проблему. Выступающие подчеркивают важность сравнительного анализа различных методов глубокого обучения для отслеживания клеток и предоставления наборов данных с открытым доступом для воспроизводимости и сравнения. Они также подчеркивают потенциальные применения отслеживания клеток в различных областях, таких как исследования рака и разработка лекарств.

  • 00:00:00 В этом разделе Хуан Касадо обсуждает концепцию фенотипирования на основе изображений, которая представляет собой метод понимания биологических систем с помощью микроскопии и других методов визуализации. Он объясняет, как изображения биологических структур, таких как клетки, могут быть количественно оценены для различных фенотипов, включая размер клеток и содержание ДНК, и использоваться для принятия решений о лечении и открытии лекарств. Касадо приводит пример успешного препарата-кандидата для лечения лейкемии, который был обнаружен путем точного измерения размера клеток с использованием микроскопических изображений, что в конечном итоге привело к его одобрению FDA. Он подчеркивает потенциальное влияние профилирования на основе изображений в области биологии и разработки лекарств.

  • 00:05:00 В этом разделе основное внимание уделяется проблеме сравнения популяций клеток с разными характеристиками и определения эффективных методов лечения. Для этого требуется больше информации и стратегий для извлечения информации из изображений клеток, и именно здесь вступает в действие профилирование на основе изображений. Это включает в себя расширение морфологии клеток или состояния клеток с использованием изображений для извлечения количественной информации для открытия лекарств и функциональной геномики. Две вычислительные проблемы, связанные с этим подходом, — это сегментация ячеек и обучение представлению отдельных ячеек, где цель состоит в том, чтобы определить, где находятся отдельные ячейки на изображениях, не тратя время и энергию на настройку алгоритмов сегментации для разных типов изображений. В конечном счете, цель состоит в том, чтобы создать алгоритмы сегментации клеток, которые работают так же, как фазовые детекторы на естественных изображениях.

  • 00:10:00 В этом разделе спикер рассказывает о конкурсе BioImage Challenge 2018, целью которого было заставить технологии компьютерного зрения работать для сегментации в биологии. Задача заключалась в создании аннотированного набора данных, разделении его на разделы для обучения и тестирования, определении метрики успеха и обеспечении обратной связи с участниками через систему подсчета очков, основанную на пересечении, а не на объединении. Ожидалось, что участники будут использовать контролируемую модель машинного обучения, чтобы изучить отношения между входными и выходными данными и создать карту сегментации изображения, которое они предоставили в качестве входных данных. Победителями стали те, кто смог более точно сегментировать окончательный набор тестов в соответствии с используемой метрикой.

  • 00:15:00 В этом разделе спикер обсуждает трех главных участников соревнования по сегментации изображений клеток и использование ими различных архитектур для своих моделей машинного обучения. Команда, занявшая третье место, использовала архитектуру Mask RCNN, которая разбивает изображение на области и генерирует кандидатов, которые проверяются сетью, чтобы определить, являются ли они реальными объектами, прежде чем определить точную ограничивающую рамку и маску, чтобы отделить объект от объекта. фон. Команда, занявшая второе место, использовала пирамидальную сеть изображений, которая вычисляет несколько карт объектов для получения промежуточных результатов и агрегирует информацию из всех различных разрешений для получения окончательного результата. Докладчик отмечает, что, хотя архитектура играет роль в достижении высокой точности сегментации клеток, решающее значение также имеет способ проведения регулярных экспериментов по калибровке и перекрестной проверке.

  • 00:20:00 В этом разделе спикер обсуждает новый подход к сегментации изображений. Вместо использования бинарных масок для определения местоположения объектов на изображении решение включает прогнозирование карт расстояний или карт углов, которые измеряют расстояния в разных направлениях от центра ячейки. Выходные данные были спроектированы вручную для обеспечения более точных измерений местоположения объекта, что привело к второму месту в конкурсе. Хотя эта идея была новой в то время, последующие работы оценили ее ценность и сочли ее надежной, особенно для многолюдных изображений с множеством объектов. Используемая архитектура кодера-декодера не была инновационной, но новизна заключалась в воспроизведении точной архитектуры в 32 различных моделях, образующих ансамбль, который помог им выиграть соревнование.

  • 00:25:00 В этом разделе докладчики обсуждают эффективность ансамблевого подхода по сравнению с более простыми моделями для сегментации изображений клеток. Они объясняют, что, хотя ансамблевый подход может требовать значительных вычислительных ресурсов, более простые модели могут оказаться эффективными на практике. Они также обсуждают ограничения соревнований и отмечают, что было бы полезно проанализировать отдельные модели в ансамбле, чтобы сократить их до наиболее точных. Затем выступающие переходят к оценке улучшений, которые можно внести в облегчение биологических исследований с помощью сегментации, показывая, что оптимизация алгоритмов для определенных типов изображений может занимать много времени, а точность может варьироваться в зависимости от типа изображения. Они также отмечают, что дисбаланс в аннотациях и сложность сегментации определенных типов изображений могут создавать проблемы в реальных ситуациях.

  • 00:30:00 В этом разделе спикер обсуждает проблемы анализа различных типов методов визуализации, от небольших флуоресцентных до розовых и пурпурных изображений, которые сложнее сегментировать. Существуют разные подходы к сегментации изображений, такие как обучение одной модели для каждого типа изображения или использование классических алгоритмов с настроенными параметрами. Кроме того, теперь доступны предварительно обученные модели для сегментации клеток, такие как Nucleizer, CellPose и Mesmer. Тем не менее, в сегментации все еще есть открытые проблемы, такие как сбор больших наборов данных и оптимизация времени, затрачиваемого экспертами на идентификацию объектов. Докладчик также вкратце коснется важности измерения фенотипа клеток с помощью методов машинного обучения, которые могут изучать особенности, выходящие за рамки классических измерений морфологии.

  • 00:35:00 В этом разделе спикер обсуждает использование методов машинного обучения в сегментации изображений клеток для открытия лекарств. Эксперименты с возмущением используются, когда клетки обрабатывают соединениями, но периодические эффекты могут вызывать шум и мешать пониманию фенотипа. Поскольку достоверной информации нет, используется метод обучения со слабым наблюдением, при котором нейронная сеть используется для классификации применяемого соединения. Цель состоит в том, чтобы получить признаки для осмысленной организации клеток, которые могут сообщить, похожи ли соединения или нет. Оценка включает в себя наблюдение за кластерами соединений, которые обладают схожими биологическими эффектами, с целью сокращения области поиска полезных соединений. Сравнение функций глубокого обучения с классическими функциями показывает значительную разницу.

  • 00:40:00 В этом разделе спикер обсуждает использование глубокого обучения для сегментации изображений клеток, в частности, для определения биологически значимых связей между соединениями и выявления влияния мутаций на рак. Сравнивая исходный тип гена с мутантным, исследователи могут измерить фенотипическое сходство между ними, чтобы определить, вызывает ли мутант рак или нет. Тем не менее, пакетная коррекция остается проблемой в глубоком обучении, поскольку она может влиять на особенности, извлеченные из изображений. Спикер предлагает использовать доменную адаптацию, где используется нейронная сеть с двумя головками для классификации соединений и определения партии. Отрицательный градиент затем используется для уничтожения потенциальной информации, связанной с партией, что приводит к более четкому определению фенотипа. В целом спикер приходит к выводу, что изображения являются отличным источником информации для биологических открытий, но также признает открытые проблемы в обучении репрезентации и объяснимых моделях.
Deep Learning for Cell Imaging Segmentation - Lecture 20 - MIT ML in Life Sciences (Spring 2021)
Deep Learning for Cell Imaging Segmentation - Lecture 20 - MIT ML in Life Sciences (Spring 2021)
  • 2021.05.12
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyGuest lecture: Juan C...
 

Регистрация и анализ изображений для глубокого обучения - Лекция 21



Регистрация и анализ изображений для глубокого обучения — Лекция 21 — MIT ML в науках о жизни (весна 2021 г.)

В этой лекции Адриан Далок углубляется в тему совмещения медицинских изображений и стоящую за этим проблему оптимизации. Он предлагает новый метод под названием «морфинг вокселей», который включает использование немаркированных наборов данных для обучения нейронных сетей регистрации изображений. Спикер также обсуждает проблему устойчивости к новым данным и последовательностям, которых нейронные сети раньше не видели, и предлагает моделировать разнообразные и экстремальные условия для обучения надежных моделей. Докладчик сравнивает классические модели регистрации с моделями морфинга вокселей и синтоморфов, причем последние отличаются удивительной надежностью. Наконец, докладчик обсуждает разработку функции, которая генерирует шаблоны на основе желаемых свойств, а не изучает шаблон напрямую, и потенциальное использование капсульной видеоэндоскопии для обнаружения аномалий толстой кишки.

Докладчик в этой лекции обсуждает различные подходы машинного обучения для преодоления нехватки медицинских данных, особенно в контексте видео колоноскопии для обнаружения полипов. Они представляют архитектуру регистрации и анализа изображений с глубоким обучением, в которой используются предварительно обученные веса и случайная инициализация для устранения смещения домена и повышения производительности. Лекция также охватывает обучение со слабым наблюдением, обучение с самостоятельным наблюдением и сегментацию видео со слабым наблюдением. Докладчик признает проблемы, возникающие при использовании подходов машинного обучения в анализе медицинских данных, и призывает тестировать эти подходы в реальных медицинских процедурах, чтобы снизить рабочую нагрузку.

  • 00:00:00 В этом разделе лекции Адриан Далок обсуждает важность совмещения медицинских изображений и стоящую за этим проблему оптимизации. Он объясняет, что сопоставление изображений с общей системой отсчета имеет центральное значение для анализа медицинских изображений, поскольку позволяет идентифицировать структуры и заболевания, а также сравнивать объекты. Однако традиционный этап выравнивания занимал очень много времени, занимая до двух часов на мозг, что мешало разработке сложных моделей. Dalock представляет значительно более быстрый метод, который занимает менее минуты на ЦП и меньше секунды на ГП, и позволяет проводить более быстрые и эффективные исследования в этой области. Он определяет выравнивание или регистрацию как нахождение поля деформации, которое соответствует изображениям, и было широко исследовано в различных областях, включая компьютерное зрение и вычислительную биологию.

  • 00:05:00 В этом разделе спикер обсуждает эволюцию методов регистрации изображений, начиная с классических моделей и заканчивая методами обучения, появившимися три года назад. Тем не менее, последние методы, хотя и эффективны, сдерживаются отсутствием достоверного поля деформации, которое можно было бы использовать для контролируемых данных. Докладчик предлагает новый метод, который включает использование немаркированных наборов данных для обучения нейронных сетей, что приводит к более элегантным и эффективным сквозным решениям для регистрации изображений. Эта структура включает использование функций потерь из классических моделей для оптимизации всей новой нейронной сети, что приводит к более высокой точности и более высоким скоростям.

  • 00:10:00 В этом разделе спикер описывает метод регистрации изображений с использованием методов глубокого обучения, который заимствует классические методы, но оптимизирует нейронную сеть для вывода полей деформации, а не для оптимизации полей напрямую. Поле деформации применяется ко всем изображениям в наборе данных, а методы стохастического градиента используются для оптимизации сети. Докладчик объясняет, как используются дифференцируемые потери для обеспечения сглаженности поля деформации, а результаты оцениваются путем сравнения анатомических структур до и после процесса деформации, а также измерения объемных перекрытий. Предлагаемый метод, называемый воксельным преобразованием, способен оценить результат процедуры оптимизации и обеспечивает аппроксимацию вероятностных моделей, предлагая элегантные связи между изображениями, полями деформации и оценками неопределенности.

  • 00:15:00 В этом разделе спикер обсуждает свой анализ обучения нейронной сети морфинга вокселей всего с несколькими изображениями, показывая, что даже при наличии всего 10 изображений поле деформации, выводимое из сети, близко к современному уровню техники. . Кроме того, спикер затрагивает вопрос о выделении конкретных областей интереса, таких как гиппокамп в мозге, и о том, как они смогли научить сеть идентифицировать эту область, фактически не маркируя ее, заставляя ее выполнять «мягкую сегментацию» во время обучение. Наконец, спикер обсуждает проблему разнообразных медицинских изображений и то, как обучающие сети только на одной модальности могут ограничивать их способность работать с другими модальностями, представляя проект, решающий эту проблему.

  • 00:20:00 В этом разделе спикер обсуждает проблему создания нейронных сетей, устойчивых к новым данным и последовательностям, которых они раньше не видели. Они предлагают моделировать разнообразные и экстремальные условия, чтобы подвергнуть сеть значительной изменчивости, чтобы она решила игнорировать некоторые выбросы, что позволяет лучше обобщать данные реального мира. Чтобы добиться этого, они случайным образом деформируют изображения, добавляют различные модели шума, случайным образом заполняют значения и интенсивность и имитируют различные эффекты для генерации данных. Они экспериментировали с моделированием различных данных для регистрационных и сегментационных документов, а также с моделированием случайных форм, что дало им поле деформации, которое можно было использовать для проверки качества информации.

  • 00:25:00 В этом разделе спикер обсуждает результаты обучения различных моделей регистрации и анализа изображений. Они обучили модели морфинга вокселей и две версии модели синтморфа, используя разные метрики для обучения. Классические модели работают хорошо, но модели морфинга вокселей с вариативностью и надежностью работают еще лучше. Модели, которые были обучены с изображениями смоделированного мозга или капель, работают примерно так же, как модели морфинга вокселей, и лучше, чем классические модели. Однако, когда дело доходит до регистрации между модальностями, модели, которые были обучены с метриками одинакового контраста, терпят крах. Между тем, модели synthmorph удивительно надежны даже с реальными изображениями. Однако емкость модели может привести к тому, что особенности реальных изображений могут быть не захвачены.

  • 00:30:00 В этом разделе лекции спикер обсуждает возможности моделей машинного обучения и то, как область движется к использованию большего количества параметров. Они имитируют сканирование мозга с различными модальностями и сравнивают производительность классических моделей, морфинга вокселей и их метода, синтморфа. Они обнаружили, что их метод надежен, поскольку он способен полностью игнорировать контраст и извлекать только необходимую анатомию, что достигается путем обучения игнорировать реакцию на изменение контраста в характеристиках сети. Они также представили свой новый метод hypermorph, который изучает влияние гиперпараметров на регистрационные поля. Потенциал этого метода заключается в том, что он требует обучения только одной модели и последующей ее настройки, что устраняет необходимость обучения нескольких моделей.

  • 00:35:00 В этом разделе спикер обсуждает метод, называемый гиперсетями, который включает в себя обучение небольшой сети, которая принимает значение гиперпараметра в качестве входных данных и выводит веса более крупной сети, которая генерирует поля деформации для регистрации изображений. Настраивая значение гиперпараметра, можно регулировать поле деформации, не требуя повторного обучения, а одна модель гиперморфа может охватывать широкий диапазон изменений поля деформации. Этот метод может применяться к различным настройкам машинного обучения, помимо регистрации изображений, и может быть полезен для интерактивной настройки модели или ее корректировки на основе данных проверки. Оптимальное значение гиперпараметра варьируется в зависимости от набора данных, возраста пациентов, задачи регистрации и других факторов.

  • 00:40:00 В этом разделе лекции спикер обсуждает важность выбора разных значений гиперпараметров для разных областей мозга при регистрации изображений. Они также сравнивают модель, обученную на реальных данных, с моделью, обученной на случайных данных, объясняя, почему первая более восприимчива к шуму в разных регионах. Затем они представляют проект, сосредоточенный на идее согласования данных с общей системой отсчета без построения центроидального мозга или использования шаблона. Вместо этого они предлагают оценивать атлас одновременно с регистрацией изображений, и полученный в результате инструмент оказывается гибким и способным решать многие проблемы, которые раньше было трудно решить, например, создание отдельных шаблонов для разных групп населения.

  • 00:45:00 В этом разделе спикер обсуждает концепцию «условных шаблонов» в регистрации и анализе изображений с помощью глубокого обучения, которая включает в себя изучение функции, которая генерирует шаблон на основе желаемого свойства (например, возраста, пола или генетического информацию), а не изучать шаблон напрямую. Вводя данные о пациентах и информацию о возрасте, сеть может изучить гладкий атлас, зависящий от возраста, который фиксирует определенные эффекты между разными мозгами, такие как изменения размера желудочка. Спикер также обсуждает возможности анализа, связанного с генетикой, с использованием аналогичных методов, а также использование вариационных кодировщиков и других концепций машинного обучения в этой области.

  • 00:50:00 В этом разделе лекции спикер обсуждает мотивацию своей работы по автоматическому обнаружению патологии для капсульной видеоэндоскопии, которая является результатом сотрудничества между Норвежским университетом науки и технологий и больницей в Норвегии. Толстая кишка человека восприимчива к таким заболеваниям, как колоректальный рак и язвенный колит, которые разрушают гладкость стенок толстой кишки и могут привести к кровотечению или другим осложнениям. Колоноскопия рекомендуется врачами лицам старше 50 лет, но может быть неприемлема для пациентов. Капсульные видеоэндоскопии предлагают альтернативный способ визуализации стенок толстой кишки и выявления аномалий с помощью небольшой камеры размером с таблетку, которая передает почти 50 000 кадров для получения большого объема данных.

  • 00:55:00 В этом разделе докладчики обсуждают проблемы визуализации с помощью капсульной видеоэндоскопии, при которой проглатываемая капсула захватывает изображения по мере прохождения через пищеварительный тракт. Капсулу необходимо принимать натощак и можно пропустить особенности в складках толстой кишки. Кроме того, капсула может застрять или столкнуться с геометрическими препятствиями при прохождении через тонкую кишку, что может привести к хирургическому вмешательству. Результирующее качество видео не так хорошо, как качество изображения HD, с ограниченным цветом и плавностью перехода. Несмотря на эти ограничения, капсульная видеоэндоскопия может помочь в диагностике таких состояний, как дивертикулит, и врачи ищут аномалии на видео, чтобы направлять лечение.

  • 01:00:00 В этом разделе лекции спикер обсуждает проблемы использования подходов машинного обучения в анализе медицинских данных, в частности, в контексте видео колоноскопии для обнаружения полипов. Основная проблема заключается в нехватке данных из-за дороговизны и медленности сбора медицинских данных, а также сложности получения маркировки различными патологами. Докладчик описывает несколько подходов к машинному обучению для преодоления нехватки данных, таких как трансферное обучение и обучение с учителем, а также объясняет современные подходы к глубокому обучению с использованием изображений RGB, геометрических объектов и трехмерных сверток. Наконец, спикер представляет подход к обнаружению полипов, который включает использование регистрации для выравнивания изображений колоноскопии и повышения эффективности обнаружения полипов.

  • 01:05:00 В этом разделе лекции докладчик обсуждает архитектуру регистрации и анализа изображений с помощью глубокого обучения, в которой используются предварительно обученные веса и случайная инициализация для решения проблемы сдвига домена и повышения производительности при обнаружении объектов и сегментации изображений. Архитектура состоит из двух кодировщиков, один из которых предварительно обучен с помощью ImageNet, а другой — со случайными весами, а также с дополнением к входным изображениям. Скорость обучения для каждого кодировщика зависит от уровня, на котором они обучаются, и используются двоичная кросс-энтропия и функция потери кубиков. Архитектура протестирована на наборе данных видео, содержащих полипы, и получила оценку F1 85,9 с использованием нескольких вариантов одного и того же ввода. Наконец, спикер представляет видеоролики, демонстрирующие эффективность архитектуры.

  • 01:10:00 В этом разделе лектор обсуждает проблему сбора помеченных данных для задачи регистрации изображений и вводит концепцию обучения с несколькими экземплярами со слабым контролем. Предполагается, что существует положительная сумка по крайней мере с одним экземпляром интересующей патологии, в то время как отрицательная сумка всегда содержит отрицательные экземпляры. Задача формулируется как определение того, какие кадры содержат патологию и могут быть оптимизированы путем прогнозирования индивидуального вклада каждого кадра и оптимизации потерь на конечной видеометке агрегации. Отмечается, что эта проблема является сложной из-за ограниченности размеченных данных и отсутствия данных по отдельным компонентам, что требует слабо контролируемого подхода.

  • 01:15:00 В этом разделе спикер обсуждает, как они извлекли резонансные 50 признаков из видео с патологиями и нормальных видео и пропустили их через остаточные блоки LSTM, которые содержат двунаправленный LSTM с пропускным соединением. Они объясняют, что цель состоит в том, чтобы найти альфы, которые являются вкладом каждого кадра в окончательную проблему классификации видео. Они также обсуждают использование фреймов высокой ценности внимания для выявления патологий и отделения их от негативных классов. Окончательная функция потерь представляет собой кросс-энтропию классификации видео и разделения пакетов между положительными и отрицательными банками. Затем спикер рассказывает, как они провели исследование апелласьона, чтобы определить, где учиться вниманию, причем наилучшие результаты были достигнуты при посещении окончательного скрытого представления и применении его к конечному результату. Подход был протестирован против других методов, использующих метрическое обучение.

  • 01:20:00 В этом разделе спикер обсуждает использование самоконтролируемого обучения в медицинской визуализации и связанные с этим проблемы. Они упоминают, что один подход, доказавший некоторый успех, заключается в использовании задачи-головоломки, в которой изображения разбиваются на фрагменты и реконструируются. Однако проблема с медицинской визуализацией заключается в отсутствии инварианта вращения, что затрудняет поиск значимых кластеров. Докладчик предполагает, что улучшение локализации видеокадра за счет знаний предметной области, таких как понимание того, как проявляются различные заболевания, может быть полезным подходом к улучшению классификации патологий.

  • 01:25:00 В этом разделе спикер обсуждает слабо контролируемую сегментацию видео и необходимость определения локализации кадров для лучшего объяснения в медицинских условиях. Они также упоминают разработку предварительных тестовых заданий с самостоятельным наблюдением и контрастное обучение в качестве новых и интересных подходов в этой области, причем новые работы публикуются каждый день. Докладчик признателен за проект icomet и призывает протестировать эти подходы в реальных медицинских процедурах, чтобы снизить нагрузку. Ведущий выражает признательность настоящим практикам, решающим медицинские проблемы, и благодарит спикера за содержательную лекцию.
 

Электронные медицинские карты - Лекция 22



Электронные медицинские карты — Лекция 22 — Глубокое обучение в науках о жизни (весна 2021 г.)

Появление машинного обучения в здравоохранении связано с внедрением электронных медицинских карт в больницах и огромным объемом данных о пациентах, которые можно использовать для получения значимой информации о здравоохранении. Обсуждается моделирование прогрессирования заболевания с использованием лонгитюдных данных, найденных в реестрах заболеваний, что может создавать проблемы из-за многомерных лонгитюдных данных, отсутствия и цензуры слева и справа. В лекции рассматривается использование нелинейных моделей, таких как глубокие марковские модели, для решения этих задач и эффективного моделирования нелинейной плотности продольных биомаркеров. Кроме того, докладчик обсуждает использование знаний предметной области для разработки новых нейронных архитектур для функции перехода и важность включения знаний предметной области в дизайн модели для лучшего обобщения. Также проводятся эксперименты со сложностью модели в отношении функций эффекта лечения, и докладчик планирует вернуться к этому вопросу на большей группе, чтобы определить дальнейшие результаты.

  • 00:00:00 В этом разделе Рахул Кришнан, старший научный сотрудник Microsoft Research, объясняет появление машинного обучения в здравоохранении благодаря оцифровке данных электронных медицинских карт. Внедрение систем электронных медицинских карт в больницах привело к огромному количеству данных о пациентах, которые можно было использовать для получения значимой информации о здравоохранении. Кришнан подчеркивает использование реестров заболеваний, которые представляют собой более сфокусированные наборы данных по одному заболеванию, выпускаемые некоммерческими организациями для исследователей для изучения и ответа на вопросы. Методы машинного обучения, такие как неконтролируемое обучение, используются для исследования подструктуры этих наборов данных и создания инструментов для помощи клиницистам. Презентация посвящена моделированию прогрессирования заболевания и некоторым работам, проводимым исследователями в этой области.

  • 00:05:00 В этом разделе спикер обсуждает моделирование прогрессирования заболевания с использованием лонгитюдных данных, найденных в реестрах заболеваний. Моделирование прогрессирования заболевания существует уже несколько десятилетий и пытается построить статистические модели, которые могут фиксировать сложные и беспорядочные данные, содержащиеся в реестрах заболеваний, включая исходные ковариаты, продольные биомаркеры и информацию о лечении. Эта проблема часто представляется как неконтролируемое обучение, когда модели стремятся максимизировать логарифмическую вероятность наблюдения продольной последовательности биомаркеров пациента в зависимости от их исходной информации и последовательности вмешательств. Докладчик представляет новый подход к моделированию прогрессирования заболевания, который будет опубликован на ICML в этом году.

  • 00:10:00 В этом разделе спикер обсуждает проблемы использования электронных медицинских карт для моделирования прогрессирования заболевания в контексте множественной миеломы, редкого рака костного мозга. Поскольку это заболевание настолько редкое, часто есть только небольшое количество пациентов, у которых можно учиться, что затрудняет хорошее моделирование и оценку плотности. Кроме того, медицинские данные представляют собой проблемы, такие как многомерные продольные данные с нелинейной вариацией, пропусками и цензурой слева и справа. Спикер предлагает использовать нелинейные модели, такие как глубокие марковские модели, для решения этих проблем и эффективного моделирования нелинейной плотности продольных биомаркеров.

  • 00:15:00 В этом разделе лекции описывается модель латентных переменных для электронных медицинских карт, где данные генерируются латентными переменными и наблюдениями, полученными с течением времени. В модели предполагается, что выбор лекарств, назначаемых врачом, зависит от значений клинических биомаркеров, полученных в результате предыдущих наблюдений. Докладчик также затрагивает проблему отсутствующих данных, которую можно решить, маргинализируя отсутствующие переменные во время оценки максимального правдоподобия. Однако для вариационного вывода с использованием сети вывода модели требуются приближения для оценки отсутствующих данных, и необходимы дальнейшие исследования, чтобы понять, как отсутствующие данные влияют на смещение приблизительного апостериорного распределения.

  • 00:20:00 В этом разделе спикер объясняет, как можно использовать модель для прогнозирования истории болезни пациента путем моделирования их взаимодействия с врачом во времени. В модели используется скрытое представление, которое меняется со временем, для прогнозирования состояния здоровья пациента. Спикер выделяет проблемы моделирования медицинских данных из-за нелинейности и редкости некоторых заболеваний. Они исследуют использование знаний предметной области для разработки новой нейронной архитектуры для функции перехода. Докладчик также обсуждает использование глобальных и локальных часов для отслеживания продолжительности лечения и времени, прошедшего до серьезного прогрессирования, соответственно. Они объясняют, как приблизить механистическое действие наркотиков, и включают эти знания в модель.

  • 00:25:00 В этом разделе спикер обсуждает использование фармакокинетики и фармакодинамики для аппроксимации влияния лекарств, назначаемых для лечения рака, на опухоль пациента. Они предлагают три новые нейронные архитектуры для моделирования эффекта от совместного приема нескольких лекарств пациентами, объединяя их с использованием механизма внимания для создания единой функции. Цель состоит в том, чтобы выполнить оценку условной плотности, используя знания предметной области для борьбы с переоснащением. Модель, называемая SSNPK, применяется к когорте пациентов с множественной миеломой, получающих лечение в соответствии с текущими стандартами лечения, с 16 клиническими биомаркерами с течением времени, девятью показаниями к лечению и 16 исходными характеристиками.

  • 00:30:00 В этом разделе спикер обсуждает результаты использования различных моделей для анализа клинических данных, уделяя особое внимание использованию моделей глубокого обучения и пространства состояний. Они сравнивают эффективность различных моделей при обобщении новых данных и обнаруживают, что использование ssnpkpd неизменно приводит к повышению производительности как линейных, так и нелинейных базовых уровней. Они также проводят анализ абляции, чтобы определить, какие биомаркеры вносят наибольший вклад в улучшение, наблюдаемое в моделях, и обнаруживают, что использование локальных и глобальных часов помогает в моделировании динамики данных. Кроме того, они используют скрытое пространство обученной модели для дальнейшего изучения и понимания поведения данных во времени.

  • 00:35:00 В этом разделе лекции спикер обсуждает результаты использования модели SSNPKPD для прогнозирования будущих клинических биомаркеров пациента на основе их исходных биомаркеров. Модель показывает большее соответствие данным по сравнению с линейной базовой линией, указывая на то, что скрытые представления, полученные с помощью SSNPKPD, сохраняют соответствующую историю болезни для прогнозирования будущих клинических биомаркеров. Докладчик резюмирует основной вывод из выступления, который заключается в важности включения знаний предметной области в дизайн модели для лучшего обобщения, и подчеркивает возможности для будущих исследований по объединению различных модальностей данных в здравоохранении. Спикер также отмечает текущую проверку результатов на более крупной когорте и возможность включения модели в инструменты поддержки принятия клинических решений и основанные на моделях системы обучения с подкреплением.

  • 00:40:00 В этом разделе спикер обсуждает свои эксперименты со сложностью модели в отношении функций лечебного эффекта. Они попробовали варианты модели, создав копии функций лечебного эффекта, от трех до двенадцати, и обнаружили, что есть момент, когда дополнительная сложность не значительно улучшает производительность, а даже снижает ее. Однако, когда они удалили некоторые функции лечебного эффекта, они обнаружили некоторое снижение производительности, но все же превзошли линейную модель. Спикер планирует вернуться к этому вопросу об обобщении на большей когорте с VA, чтобы определить степень этих результатов.
Electronic health records - Lecture 22 - Deep Learning in Life Sciences (Spring 2021)
Electronic health records - Lecture 22 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.05.16
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyGuest lecture: Rahul ...
 

Глубокое обучение и нейронауки — Лекция 23



Глубокое обучение и неврология — Лекция 23 — Глубокое обучение в науках о жизни (весна 2021 г.)

В лекции обсуждается взаимодействие между глубоким обучением и нейронаукой, особенно в области визуальной науки. Цель состоит в том, чтобы реконструировать человеческий зрительный интеллект, который относится к поведенческим способностям, которые люди проявляют в ответ на попадание фотонов в глаза. Докладчик подчеркивает важность объяснения этих возможностей на языке механизмов, таких как сети смоделированных нейронов, для создания прогностических построенных систем, которые могут принести пользу как наукам о мозге, так и искусственному интеллекту. В лекции исследуется, как модели глубокого обучения являются гипотезами того, как мозг выполняет процессы сенсорной системы, и потенциальные приложения, выходящие за рамки простой имитации эволюции мозга. Кроме того, в лекции показаны практические примеры того, как нейронные сети могут манипулировать воспоминаниями и изменять смысл чего-либо.

В этом видео обсуждается потенциал глубокого обучения для понимания когнитивных функций мозга и использования этого понимания в инженерных целях. Спикер подчеркивает актуальность рекуррентных нейронных сетей с их возможностями памяти и внутренней динамики в этой области. В лекции исследуется способность нейронных систем учиться посредством подражания и то, как это можно использовать для изучения представлений, вычислений и манипуляций с рабочей памятью. В видео также рассказывается о сложности поиска доказательств обучения с обратной связью как условия обучения и потенциале механизмов исправления ошибок для настройки системы. Лекция завершается размышлениями о разнообразии тем, затронутых в курсе, и о том, как глубокое обучение может помочь в интерпретации когнитивных систем в будущем.

  • 00:00:00 В этом разделе спикер обсуждает взаимодействие между глубоким обучением и неврологией, особенно в области визуальной науки. Он объясняет, как модели глубокого обучения можно рассматривать как научные гипотезы о том, как могут работать аспекты функции мозга, и как нейробиологи и ученые-когнитивисты оценивают качество этих гипотез по отношению к данным. Выступление Карло сосредоточено на задаче обратной инженерии человеческого зрительного интеллекта, которая относится к поведенческим способностям, которые люди проявляют в ответ на попадание фотонов в глаза. Он подчеркивает важность объяснения этих возможностей на языке механизмов, таких как сети смоделированных нейронов, для создания прогностических построенных систем, которые могут принести пользу как наукам о мозге, так и искусственному интеллекту.

  • 00:05:00 В этом разделе лектор обсуждает визуальный интеллект и то, как мозг оценивает то, что находится в сцене, например, идентифицирует автомобили или людей; однако предсказание того, что произойдет дальше, и другие проблемы, связанные с физикой, по-прежнему представляют собой сложную задачу для ученых. Несмотря на это, ученые добились значительного прогресса в моделировании фундаментальных визуальных образов, которые мы обрабатываем в каждом 200-миллисекундном проблеске сцены, что также известно как распознавание основных объектов. Лектор приводит примеры тестов, которые измеряют нашу способность распознавать объекты и сравнивают их с другими видами, такими как системы компьютерного зрения и нечеловеческие приматы, такие как макаки-резусы.

  • 00:10:00 В этом разделе спикер обсуждает способность человека и приматов различать объекты. Он отмечает, что люди и приматы одинаково справляются с задачами визуального распознавания, а люди лишь немного лучше. Кроме того, спикер обсуждает системы глубокого обучения и их сравнение со способностями визуального распознавания людей и приматов. Затем докладчик переключается на обсуждение областей мозга макак-резусов, участвующих в задачах визуального распознавания, и выделяет подвисочную кору как область самого высокого уровня. Наконец, оратор отмечает типичные временные масштабы появления паттернов нейронной активности в подвисочной коре и то, как они совпадают со временем, необходимым для явных навыков поведенческой выборки.

  • 00:15:00 В этом разделе видеолекции спикер обсуждает, как исследователи изучают реакцию отдельных нейронов в зрительной коре животных, таких как обезьяны, на изображения с помощью инвазивных записывающих электродов. Измеряя паттерны электрической активности нейронов в ответ на различные изображения, исследователи могут количественно оценить реакцию, используя среднюю частоту всплесков. Эти паттерны активности можно сгруппировать по сходству в их избирательности, и в зрительной коре были идентифицированы особые области кластеризации для определенных типов объектов, таких как лица. Использование массивов хронической записи позволяет исследователям записывать данные с одних и тех же нейронных участков в течение недель или месяцев и измерять реакцию на тысячи изображений.

  • 00:20:00 В этом разделе спикер объясняет эксперимент, в котором нейронные данные записывались, когда животное фиксировало или выполняло задание или наблюдало за изображениями. При обучении линейных декодеров на небольших выборках данных выявлялись закономерности, неотличимые от наблюдаемых у людей и обезьян. Это позволило разработать мощный набор функциональных пространств, которые можно было использовать в приложениях интерфейса «мозг-машина» для визуализации определенных восприятий. Затем спикер обсуждает нелинейные преобразования, которые происходят между нейронной активностью и изображением, предполагая, что именно в этой области объединяются глубокое обучение и наука о зрении.

  • 00:25:00 В этом разделе спикер обсуждает, как глубокие сверточные сети изначально строились на основе принципов, известных в нейробиологии, таких как концепция обнаружения границ, фильтрации, выходных нелинейностей и управления усилением. Однако, поскольку эти модели были проверены на нейронных данных в зрительных областях мозга, они потерпели неудачу и не смогли предсказать паттерны ответов отдельных нейронов в V4. Хотя эти модели представляли собой гипотезы для нейробиологов, они не могли объяснить, как работает зрительная система. Несмотря на провал этих ранних моделей, они послужили источником вдохновения для продолжающейся работы по отделению изученных фильтров в глубоких сетях от тех, которые наблюдаются в V1.

  • 00:30:00 В этом разделе спикер обсуждает, как сотрудничество между нейронаукой и глубоким обучением позволило оптимизировать неизвестные параметры в искусственных нейронных сетях, что привело к созданию моделей, которые точно имитируют паттерны нейронных реакций мозга приматов. Спикер отмечает, что прорыв произошел в реализации цикла, позволившего инженерам оптимизировать микропараметры фильтров в глубоких сверточных нейронных сетях. При этом созданные модели рассматривались как новые гипотезы о том, что может происходить в зрительной системе, что позволяло сравнивать их с биологическими нейронными сетями в мозгу. Оратор продолжает показывать примеры того, как эти сравнения были сделаны, что привело к ранним механистическим гипотезам о функциях мозга. В целом, это сотрудничество позволило разработать in silico нейроны вентрального потока, которые точно имитируют нейроны биологического вентрального потока, что привело к лучшему пониманию того, как мозг обрабатывает визуальную информацию.

  • 00:35:00 В этом разделе спикер объясняет, что разработанные ими модели глубокого обучения представляют собой гипотезы о том, как мозг выполняет процессы сенсорной системы, особенно в области распознавания визуальных объектов. Они отмечают, что эти модели не идеальны и имеют некоторые несоответствия, которые они стремятся оптимизировать и улучшить в будущем. Докладчик также обсуждает более широкие применения глубокого обучения в инженерии и искусственном интеллекте, подчеркивая, что эти модели можно использовать в качестве инструмента для дальнейшего научного понимания и оптимизации. В заключение они заявляют о необходимости большего количества данных и моделей для более точного представления процессов мозга.

  • 00:40:00 В этом разделе спикер обсуждает потенциал инноваций в области глубокого обучения и искусственного интеллекта, помимо простого имитации эволюции мозга. Они предполагают, что большая часть инноваций будет исходить от выбора архитектуры, и инструменты оптимизации будут доступны для такой оптимизации. Повторяющиеся вопросы могут дать представление о подсознательных элементах познания, а анатомия мозга связывает идеи о повторении, что может привести к последующим областям, которые больше вовлечены в познание. Докладчик также коснулся пропусков соединений, серых зон и того, как работа, которая ведется сейчас, пытается решить эту проблему.

  • 00:45:00 В этом разделе видео спикер обсуждает концепцию неотении и то, как она влияет на долю жестко закодированных функций и фильтров в зрительной коре у разных видов. По мере продвижения вверх по системе мозг становится более пластичным, и у обезьян есть области до определенного уровня, в то время как у людей больше мозговой ткани, что обеспечивает большую гибкость. Спикер считает, что в мозге достаточно места для гибкости, и хотя он является частью системы наших приматов, часть мозга находится за ее пределами, и это нормально. Затем следующий спикер обсуждает свою работу по размышлению о мозге как о рекуррентных нейронных сетях и о том, как изучение пересечения между искусственными и реальными нейронными системами может помочь нам понять, как они работают.

  • 00:50:00 В этом разделе основное внимание уделяется тому, как можно использовать эффективное и разреженное кодирование для изучения эффективной репрезентативной основы в искусственных и реальных нейронных системах. Изучая мозгоподобное поведение в рекуррентных сетях, можно найти принципы, расширяющие возможности искусственных рекуррентных сетей и помогающие понять, как работают настоящие. Рекуррентные нейронные сети учатся хранить и модифицировать внутренние представления и воспоминания, что позволяет им разделять перекрывающиеся сигналы способом, аналогичным эффекту коктейльной вечеринки. Настоящие нейронные системы отлично умеют хранить представления и манипулировать ими, что можно увидеть в области мозга, называемой рабочей памятью в рекуррентных сетях. Цель — найти принципы, расширяющие возможности искусственных рекуррентных сетей и помогающие понять, как работают настоящие.

  • 00:55:00 В этом разделе лекции положение крысы расшифровывается с помощью нейронов, называемых клетками места, которые отслеживают движение крысы, когда она перемещается в пространстве. Крыса также может манипулировать своим нейронным представлением, чтобы планировать будущие траектории еще до того, как она начнет двигаться. Затем в лекции исследуется, как нейронные сети могут манипулировать воспоминаниями, например, способность певчих птиц учиться петь, подражая взрослым. В лекции обсуждается, как нейронные сети могут изучать сложные процессы манипулирования информацией, наблюдая за примерами, и вводится понятие хаотического аттрактора в качестве модели памяти и простой нелинейной динамической системы, называемой резервуаром, в качестве модели нейронной сети. Управляющий параметр резервуара используется для изменения представления сетью той памяти, которую она изучила, и в лекции приводятся практические примеры того, как этот элемент управления может изменить значение чего-либо.

  • 01:00:00 В этом разделе спикер обсуждает, как способность контекстной модуляции влияет на обучение и возможности нейронной сети. Они объясняют, что смещение сети с помощью переменных контекста означает, что для обучения необходимо больше данных для изучения общих параметров. Спикер также рассказывает об использовании метода резервуарных вычислений для хранения воспоминаний в нейронных сетях и о том, что для хранения воспоминаний достаточно простых схем обучения имитации наблюдаемых входных данных. Затем они обсуждают изменение воспоминаний внутри нейронных сетей, рассматривая перемещение аттракторов в направлении x1 и изменяя значение контекстного параметра c для каждого перемещения.

  • 01:05:00 В этом разделе спикер обсуждает способность резервуаров учиться интерполировать и экстраполировать операции преобразования на его внутреннее представление аттракторных многообразий. Команда предоставила четыре обучающих примера аттрактора Лоренца, сжатого в направлении x1, и провела обучение и обратную связь. Установлено, что коллекторы научились интерполировать и экстраполировать операции преобразования, которые могут быть произвольными, включая растяжение или многовариантность. Команда также обнаружила, что резервуары могут предсказать глобальную бифуркационную структуру аттрактора Лоренца и предсказать бифуркационные диаграммы нескольких других динамических нормальных форм, таких как седловидная мода и сверхкритические бифуркации вил. Нейронные сети могут даже научиться предсказывать нединамические кинематические траектории, например, в примере с модифицированной связью Янсена.

  • 01:10:00 В этом разделе лекции спикер обсуждает метод, называемый обратимой обобщенной синхронизацией, который представляет собой способ формализовать идею сопоставления стимулов с нейродинамикой в нервной системе. Спикер объясняет, что для формирования представления нейроны должны формировать распределенное представление, а не индивидуально кодировать определенные части входных стимулов. Они также должны иметь возможность управлять собой с помощью собственного представления, которое является ключевым механизмом хранения входных данных в виде воспоминаний. Наконец, спикер демонстрирует, что рекуррентные нейронные сети могут поддерживать хаотические воспоминания, позволяя им переводить и преобразовывать воспоминания.

  • 01:15:00 В этом разделе спикер обсуждает способность нейронных систем учиться, имитируя увиденные примеры, и как это можно использовать для изучения представлений, вычислений и манипуляций с рабочей памятью. Затем разговор переходит к вопросу об обучении с обратной связью и о том, как оно применимо к представленным моделям. Хотя есть свидетельства линейной разделимости и реконструируемости терминов в определенных частях зрительной коры, докладчик отмечает сложность поиска доказательств обучения с обратной связью, поскольку это довольно экстремальное условие обучения. Существует предложение использовать механизмы исправления ошибок для настройки системы, но также обсуждается идея фиксированного набора параметров, при котором результат оценивается по сравнению с ожиданиями внешнего мира и формированием заметных воспоминаний, когда ожидания сильно отклоняются.

  • 01:20:00 В этом разделе лектор подчеркивает потенциал глубокого обучения в понимании когнитивных функций мозга и их разработке. Рекуррентные нейронные сети с их способностью к памяти и внутренней динамике особенно актуальны в этой области. Лектор призывает думать об этих системах как о живых и дышащих сущностях, а не просто как о функциях-аппроксиматорах. Ядро этих когнитивных систем лежит в RNN, хотя они могут быть дополнены сверточными нейронными сетями для ввода и вывода. Гиппокамп и связи, которые он устанавливает с различными аспектами нервной системы, приводятся в качестве увлекательного примера того, как воспоминания кодируются во взаимодействующей системе совместно активирующихся нейронов. Лекция завершается размышлениями о разнообразии тем, затронутых в курсе, и о том, как глубокое обучение может помочь в интерпретации когнитивных систем в будущем.
 

MIT 6.S192 - Лекция 1: Вычислительная эстетика, дизайн, искусство | Обучение путем создания



MIT 6.S192 - Лекция 1: Вычислительная эстетика, дизайн, искусство | Обучение путем создания

Эта лекция охватывает множество тем, связанных с вычислительной эстетикой, дизайном и искусством. Обсуждается роль ИИ в демократизации доступа к созданию произведений искусства, автоматизации дизайна и расширении границ искусства, а также проблемы количественной оценки эстетики и достижения визуального баланса в дизайне с использованием представлений высокого и низкого уровня. Лектор также подчеркивает потенциал вычислительного дизайна для выявления шаблонов и эффективной передачи сообщений, приводя примеры, связанные с цветовой семантикой и дизайном обложки журнала. Краудсорсинговые эксперименты используются для определения цветовых ассоциаций с различными темами, и исследуются потенциальные применения этого метода в различных областях. В целом, лекция знакомит с ролью ИИ в творческих приложениях и потенциалом революционного изменения того, как мы создаем искусство, дизайн и другие формы творческого самовыражения.

В видео обсуждается использование вычислительной эстетики, дизайна и искусства для создания творческих работ с использованием генеративных моделей, таких как StyleGAN и DALL-E. Лектор также подчеркивает важность обучения, создавая и побуждая зрителей разбивать проблемы и использовать данные для поиска инновационных и творческих решений. Однако спикер также обращается к ограничениям генеративных моделей, таким как предвзятые данные и способность обобщать и мыслить нестандартно. Тем не менее, лектор поручает студентам просмотреть предоставленный код и поэкспериментировать с различными методами создания эстетически привлекательных изображений, поощряя участие в сократических дебатах между Беркли и Массачусетским технологическим институтом по вычислительной эстетике и дизайну.

  • 00:00:00 В этом разделе лекции спикер обсуждает мотивы внедрения ИИ в искусство, эстетику и творчество. Они объясняют, что искусство является ключевым аспектом человеческой эволюции и коммуникации, и ИИ может демократизировать доступ к художественному творчеству, способствовать творчеству и расширять границы искусства. С миллионами фотографий, загружаемыми каждый день, и 650 рекламными объявлениями, демонстрируемыми в день, ИИ может помочь автоматически разработать хороший дизайн и понять, что делает дизайн хорошим или плохим. Наконец, спикер утверждает, что ИИ будет играть решающую роль в будущем, где ИИ будет создавать фильмы, пьесы и многое другое каждую секунду, что приводит к вопросу о том, хотим ли мы формировать это будущее.

  • 00:05:00 В этом разделе спикер обсуждает роль ИИ в искусстве, эстетике и творчестве. Он объясняет, что сверточные нейронные сети (CNN) могут быть смещены в сторону текстур, но это можно исправить, создав разные стили и включив их в данные. Кроме того, он упоминает, что в 2018 году картина, созданная с использованием генеративной модели, была продана за полмиллиона долларов. Он также обращается к вопросу о том, можно ли количественно оценить эстетику, заявляя, что философы и художники обсуждали эту тему на протяжении поколений. Наконец, он касается целей курса, которые включают в себя изучение того, как применять алгоритмы ИИ в творческих приложениях и решать интересные задачи.

  • 00:10:00 В этом разделе видео преподаватель отвечает на вопрос о том, необходимы ли для курса предварительные знания в области глубокого обучения. Он объясняет, что, хотя курс будет касаться глубокого обучения, он не является основным направлением и что есть и другие ресурсы для изучения этой темы. Затем он продолжает обсуждение своей предыдущей работы по количественной оценке эстетики, отмечая, что измерение эстетики не является новой концепцией и что уже существуют установленные модели, такие как модель Биркгофа начала 20-го века, которые можно использовать для количественной оценки эстетики в различных контекстах, таких как как визуальный дизайн, поэзия и даже интерфейсы.

  • 00:15:00 В этом разделе спикер обсуждает количественную оценку эстетики и проблемы, связанные с ее достижением, на примере визуального баланса. Нужны хорошие представления, как высокого уровня, так и низкого уровня. Представления высокого уровня могут включать в себя визуальный баланс и ритм, в то время как представления низкого уровня полагаются на функции, извлеченные с помощью нейронных сетей. Данные также необходимы для количественной оценки эстетики, включая то, какие данные используются и откуда они берутся. Спикер объясняет, как дизайнеры часто научаются балансу интуитивно, но инженеры хотят измерить его и определить его значение в дизайне.

  • 00:20:00 В этом разделе спикер обсуждает понятие визуальной правильности и баланса в дизайне, также известного как гармония. Он рассказывает о работе Арнхейма, который предположил, что размещение элементов дизайна в определенных горячих точках может создать визуальный баланс. Спикер исследует, может ли эта гипотеза быть подтверждена с помощью анализа, управляемого данными, и изучает основные части изображения с использованием алгоритма значимости, накладывая его результаты на структурную сеть. Он использует поисковый робот, чтобы собрать более 120 000 изображений с веб-сайта фотографии, чтобы изучить закономерности значимости этих изображений.

  • 00:25:00 В этом разделе набор данных с алгоритмом значимости использовался для сопоставления смеси гауссианов, чтобы найти закономерности в агрегированных изображениях различных категорий, таких как портреты, архитектура и мода. Были проанализированы горячие точки заметности, по аналогии с теорией Арнхейма о центре масс и правиле третей. Однако на результаты может повлиять то, как фотографы обрезают изображения, как показано в исследованиях действительности правила третей.

  • 00:30:00 В этом разделе лектор обсуждает тему вычислительной эстетики и дизайна. Они упоминают о наличии набора данных AVA, который содержит аннотации по эстетике, семантике и стилю фотографии. Затем лектор демонстрирует, как алгоритмы глубокого обучения могут изучать и прогнозировать рейтинги эстетики, и предлагает использовать это для улучшения и настройки изображений. Затем лекция переходит к обсуждению потенциала вычислительного дизайна и его важности для выявления шаблонов в дизайне и лучшего самовыражения.

  • 00:35:00 В этом разделе лекции спикер вводит понятие вычислительного дизайна и обсуждает разницу между дизайном и искусством. Проблема в дизайне задана, и работа дизайнера состоит в том, чтобы передать сообщение для решения этой проблемы, в то время как художники сами определяют проблему и используют художественные приемы для ее решения. Принципы дизайна, такие как коммуникация, а не оформление, может быть сложно передать машине, но различные теории, показатели и правила, включая гештальт и цветовую гармонию, можно использовать для автоматического создания и рекомендации контента. Докладчик также приводит пример программного обеспечения для автоматизированного проектирования, которое может размещать текст и элементы дизайна поверх заданного фонового изображения.

  • 00:40:00 В этом разделе видео спикер рассказывает, как он создавал автоматический дизайн обложек журналов, выбирая дополнительные цвета и изучая работы, проделанные Иттеном и Мацудой, а также Кобиаши, которые 30 лет изучали сочетания цветов, и как цвета могут ассоциироваться с такими словами, как романтический, мягкий и аккуратный. На основе этой работы спикер создал систему автоматического дизайна, которая может давать рекомендации пользователям на основе выбранных ими цветов и создавать стили для обложек журналов. Кроме того, докладчик исследовал, могут ли данные профессиональных дизайнеров извлекать шаблоны в цветовых палитрах для обложек журналов.

  • 00:45:00 В этом разделе видео спикер обсуждает свой проект, в ходе которого был собран набор данных об обложках журналов 12 разных жанров, чтобы одновременно найти текст, жанр и цветовые сочетания, использованные на обложках. Докладчик использовал тематическое моделирование для выделения различных тем, представляющих собой комбинацию слов и цветов, и показал, как можно использовать облака слов и цветовые палитры для визуализации этих тем. Спикер также обсудил использование краудсорсинга, чтобы определить, являются ли результаты проекта универсальными или нет.

  • 00:50:00 В этом разделе спикер обсуждает краудсорсинговый эксперимент, который они провели, чтобы понять, согласуются ли разные культуры и демографические группы в цветовых ассоциациях с различными темами. Эксперимент включал показ цветовой палитры, случайно выбранной из темы, а затем демонстрацию различных облаков слов и просьбу испытуемых сопоставить их. В нем приняли участие более 1000 участников из разных стран, и полученная матрица корреляции или релевантности выявила некоторые интересные закономерности. Эксперимент показал, что в большинстве случаев участники сошлись в цветовых ассоциациях с различными темами, хотя были и исключения. Спикер также отметил потенциальные возможности применения этого метода при разработке цветовых палитр для различных видов продукции.

  • 00:55:00 В этом разделе лекции спикер обсуждает различные применения цветовой семантики в таких задачах, как рекомендации по цветовой палитре, поиск изображений, перекрашивание и даже веб-дизайн. Она демонстрирует, как можно использовать алгоритмы для рекомендации цветов и обложек журналов на основе конкретных концепций или тем, а также для анализа и визуализации закономерностей в веб-дизайне с течением времени. Использование сверточных нейронных сетей также демонстрируется при определении цветовых палитр и тенденций дизайна веб-сайтов в определенные эпохи.
  • 01:00:00 В этом разделе спикер обсуждает использование вычислительного дизайна и эстетики в прогнозировании года дизайна. Они объясняют, что в модели учитываются не только цвета, но и функции высокого уровня, такие как типографика. Точность классификации не упоминалась, но отмечалось, что она выше случайности. Вычислительный дизайн также использовался для анализа рекламы, создания логотипов и значков, а также для разработки модных цветовых палитр.

  • 01:05:00 В этом разделе спикер обсуждает использование генеративных моделей в моде, продуктовом дизайне и искусстве. Он показывает примеры наборов данных, которые используются для понимания элементов моды, таких как цвета и теги, и упоминает коллег, которые используют аналогичные наборы данных, чтобы рекомендовать дизайн продукта. Спикер также рассказывает о генеративных моделях, которые могут взять исходный эскиз и вывести дизайн продукта или изменить изображение, чтобы оно выглядело как другой модный предмет. Кроме того, он затрагивает темы, связанные с вычислительным искусством и творчеством, включая инструменты передачи стиля и создания контента.

  • 01:10:00 В этом разделе видео профессор обсуждает использование вычислительного искусства и искусственного интеллекта в создании творческих работ, включая передачу изображений и стилей, создание контента и генеративные модели для видео. Обсуждение включает несколько примеров недавних работ в этих областях, в том числе StyleGAN, DALL-E от OpenAI и генеративные модели для модификации поз видео. Несмотря на эти достижения, остается вопрос, действительно ли машины могут быть художниками или творчество и искусство принадлежат только людям.

  • 01:15:00 В этом разделе спикер обсуждает свое волнение в направлении обучения путем создания и делится некоторыми результатами. Они объясняют, что обучение путем генерации интересно, потому что это способ научить ИИ разрабатывать алгоритмы, основанные на том, как люди учатся решать проблемы. Спикер также затронул вопрос о количественной оценке эстетики и отметил, что один из способов преодолеть разрыв между терминами высокого уровня в человеческом языке и вычислительными терминами — это использовать данные и модели, включающие культурные концепции и даже спрашивать мнение людей с помощью краудсорсинга.

  • 01:20:00 В этом разделе видео спикер обсуждает важность использования данных в машинном обучении, чтобы избежать предвзятости и получить интересные результаты. Он призывает слушателей подумать о том, как разрабатывать алгоритмы или представления, которые могут привести к инновационным и творческим решениям. Спикер считает, что творчество и инновации являются важными компонентами искусственного интеллекта, и приводит примеры того, как они использовались при разработке объектов и концепций. Он подчеркивает, что обучение путем создания является эффективным способом развития навыков решения проблем, и побуждает слушателей разбивать большие проблемы на более мелкие подмножества и решать их по одной за раз.

  • 01:25:00 В этом разделе видео спикер обсуждает концепцию обобщения и нестандартного мышления в творчестве и ИИ. Докладчик представляет вопрос о том, способны ли генеративные модели к обобщению и внедистрибутивному мышлению. Чтобы изучить эту тему, спикер вводит концепцию управляемости генеративно-состязательных сетей (GAN) и демонстрирует способность манипулировать изображениями, находя обход в скрытом пространстве генератора. Они показывают, что текущие модели GAN могут демонстрировать такие преобразования, как увеличение и уменьшение масштаба, смещение и вращение. Спикер объясняет процесс поиска скрытого вектора для манипулирования изображением и использует его, чтобы показать потенциал генеративных моделей в творчестве и инновациях.

  • 01:30:00 В этом разделе видео спикер обсуждает ограничения генеративных моделей, таких как BigGAN, и почему они у них есть. Он объясняет, что в модель могут быть внесены смещения, которые также присутствуют в семантике классов. Это означает, что модель может обобщать, но не так хорошо, как человек. Далее докладчик показывает, что модель может выйти за пределы распределения набора данных и в некоторой степени изменить внешний вид изображений, но только в том случае, если базовый набор данных разнообразен. В документе предлагается, чтобы один из способов преодолеть ограничения необъективных данных — это увеличить их, например, увеличив или повернув изображения.

  • 01:35:00 В этом разделе видео лектор обсуждает использование скрытого пространства для создания эстетически приятных изображений посредством трансформаций. Преобразования могут быть достигнуты путем перемещения или управления в скрытом пространстве, чтобы изменить цвет изображения, масштабирование, вращение, изменения, подобные камере, и многое другое. Лектор также обсуждает использование нейронной сети для определения эстетики изображения, обеспечивая обратную связь о том, создает ли направление ходьбы или преобразование более эстетически приятные изображения. Лекция призывает студентов принять участие в предстоящих сократических дебатах между Беркли и Массачусетским технологическим институтом по вычислительной эстетике и дизайну. Кроме того, лектор поручает студентам просмотреть предоставленный код и поэкспериментировать с различными методами создания эстетически привлекательных изображений.

  • 01:40:00 В этом разделе видео спикер обсуждает репозиторий своей работы и призывает зрителей использовать PyTorch, а не TensorFlow для запуска предоставленных блокнотов. Они также объясняют систему Colab, используемую для визуализации результатов кода, и подчеркивают важность создания изображений и отчетов о результатах. Спикер также напоминает зрителям, что с любыми вопросами они могут обращаться по электронной почте, и благодарит их за участие в курсе.
MIT 6.S192 - Lecture 1: Computational Aesthetics, Design, Art | Learning by Generating
MIT 6.S192 - Lecture 1: Computational Aesthetics, Design, Art | Learning by Generating
  • 2021.01.21
  • www.youtube.com
First lecture of MIT 6.S192: Deep Learning for Art, Aesthetics, and Creativity, by Ali Jahanian.In this lecture, I start introducing the course and discuss C...
 

MIT 6.S192 - Лекция 2: Сократовские дебаты, Алеша Эфрос и Филипп Изола



MIT 6.S192 - Лекция 2: Сократовские дебаты, Алеша Эфрос и Филипп Изола

В этом видео Алеша Эфрос и Филипп Изола обсуждают идею использования изображений для создания общего опыта. Они утверждают, что это может помочь вернуть воспоминания и вызвать чувство ностальгии.

Это видео представляет собой дискуссию между двумя профессорами Массачусетского технологического института о роли данных в искусственном интеллекте. Эфрос утверждает, что данные необходимы для ИИ, в то время как Изола возражает, что данные могут быть препятствием для развития ИИ.

  • 00:00:00 В этой лекции Алеша Эфрос и Филипп Изола обсуждают взгляд на генеративные модели как на новый тип данных. Эфрос утверждает, что нынешняя эра генеративных моделей похожа на данные, но лучше. Изола описывает, как работают генеративные модели и как их можно использовать для создания интересного контента.

  • 00:05:00 В этой лекции Алеша Эфрос и Филипп Изола обсуждают силу генеративных моделей. Генеративные модели позволяют нам создавать точки данных с дополнительными функциями, такими как скрытая переменная, которую можно использовать для изменения изображения. Это открывает массу возможностей для творчества и научной визуализации.

  • 00:10:00 В видео обсуждается идея управления изображениями через скрытое пространство. Они объясняют, как это можно сделать, ища направление, которое будет соответствовать значимому преобразованию в пространстве изображения. Они приводят пример того, как сделать изображение более запоминающимся, увеличив его. Наконец, они обсуждают, как можно использовать эту технику.
    чтобы визуализировать концепцию того, что значит что-то быть запоминающимся.

  • 00:15:00 В этом видео обсуждается концепция генеративных моделей, которые представляют собой тип данных, которыми можно манипулировать для создания новых изображений. Видео демонстрирует способность этих моделей композиционно создавать новые изображения, добавляя вместе разные части разных изображений. В видео также обсуждаются ограничения генеративных моделей, такие как их предвзятость к определенным объектам или их неспособность точно отобразить определенные сцены.

  • 00:20:00 Алеша Эфрос и Филипп Изола обсуждают концепцию данных плюс плюс, которая представляет собой способ мышления о данных, включающий как сами данные, так и методы, используемые для их создания. Эфрос утверждает, что эта перспектива полезна, потому что она позволяет проводить более содержательную интерполяцию между точками данных. Изола спрашивает, как выбрать путь между двумя точками данных, и Эфрос объясняет, что модель выбирает кратчайший путь, который часто выглядит наиболее естественным.

  • 00:25:00 В этом видео Филипп Изола и Алеша Эфрос обсуждают достоинства алгоритма «Далл-Э». Эфрос утверждает, что алгоритм впечатляет тем, что он способен понимать язык. Изола возражает, что алгоритм на самом деле не понимает язык, а вместо этого понимает слова и граммы.

  • 00:30:00 Спикер утверждает, что GAN не очень креативны, потому что они обучаются только на тщательно отобранных данных. Он предполагает, что двунаправленное картографирование — лучший способ, если вы можете себе это позволить.

  • 00:35:00 В этой лекции Алеша Эфрос и Филипп Изола обсуждают преимущества подходов, основанных на данных, и подходов, основанных на моделях, к исследованиям искусственного интеллекта. Эфрос утверждает, что модели все чаще становятся основным интерфейсом к данным, и что специалистам по данным необходимо научиться работать с моделями, а не с наборами данных. Изола соглашается и добавляет, что наборы данных, используемые для обучения этих моделей, становятся все более большими и сложными.

  • 00:40:00 Это видео — лекция Алеши Эфроса и Филиппа Изола на тему контекста в искусстве. Эфрос рассказывает о том, как на него произвела глубокое впечатление фотография с произведения Майкла Галински «Торговые центры по всей Америке» и как контекст, в котором рассматривается фотография, может повлиять на ее значение. Изола рассказывает о том, как фотография девушки, смотрящей на море, может вызвать воспоминания и ощущения у тех, кто жил в то время, когда она была сделана.

  • 00:45:00 Это видео представляет собой дискуссию между двумя профессорами о концепции ностальгии и о том, как ее можно использовать для оценки искусства. Они используют в качестве примера фотографию двух друзей перед дверью, которая имеет значение только для них двоих из-за их общих воспоминаний. Они утверждают, что этот тип ностальгии может проявляться во многих различных формах и что это может быть приятным опытом для тех, кто способен вспоминать.

  • 00:50:00 В этом видео Алеша Эфрос и Филипп Изола обсуждают идею использования изображений для пробуждения общих переживаний у людей из данного города. Они утверждают, что это может помочь вернуть воспоминания и вызвать чувство ностальгии.

  • 00:55:00 Картина «Олимпия» Эдуара Моне вызвала огромный скандал, когда вышла в 1865 году из-за наготы и приплюснутого тона кожи. Некоторые считают, что расположение рук на картине сводило людей с ума.

  • 01:00:00 Эта лекция о том, как искусство можно интерпретировать по-разному, в зависимости от контекста, в котором оно рассматривается. В качестве примера используется картина «Лежащая Венера» Амедео Модильяни, которая вызвала возмущение, когда она впервые была показана, потому что она была воспринята как пародия на известную картину с изображением обнаженной женщины. Однако, если рассматривать его в контексте других картин с обнаженными женщинами, его можно рассматривать как настоящее произведение искусства.

  • 01:05:00 В видео на YouTube «MIT 6.S192 - Лекция 2: дебаты о Сократе, Алеша Эфрос и Филипп Изола» они обсуждают смысл картин русского художника Злотникова и американского художника Херста. Эфрос утверждает, что направление картин определяется чувством свободы и тесноты, которые они вызывают. Изола возражает, что направление определяется картиной Малевича с черным квадратом, которую он видит как окончательное решение определенного направления.

  • 01:10:00 Филипп Изола и Алеша Эфрос спорят о значении искусства, в частности, о картине Малевича «черный квадрат». Изола утверждает, что картина ни на что не указывает, а Эфрос утверждает, что это естественный прогресс для Малевича.

  • 01:15:00 Смысл этого видео в том, что мы, возможно, переоцениваем сложность машин, и то, что нам кажется магией, может быть просто результатом простых процессов. Книга Брайтерберга «Транспортные средства» используется как пример того, как сложное поведение может возникнуть из простых взаимодействий.

  • 01:20:00 В этой лекции Эфрос и Изола обсуждают природу творчества и новизны. Эфрос утверждает, что и то и другое является результатом постепенных изменений и что творческий процесс обычно проходит очень гладко. Изола возражает, что новизна часто является результатом случайности и удачи.

  • 01:25:00 Это дискуссия между двумя людьми о роли контекста в искусстве и науке. Один человек утверждает, что контекст необходим для того, чтобы искусство имело смысл, в то время как другой утверждает, что контекст не нужен и что искусство может быть новым и без него.

  • 01:30:00 В этой лекции Эфрос и Изола обсуждают роль удачи в научном успехе. Эфрос утверждает, что удача играет важную роль, а Изола утверждает, что есть способы спланировать величие.

  • 01:35:00 В этой лекции Алеша Эфрос и Филипп Изола обсуждают роль удачи в творчестве, а Эфрос утверждает, что в ней должно быть нечто большее, чем просто удача. Изола утверждает, что данные плюс плюс (сочетание данных и операций) — это ключ к творчеству, и что если у вас есть правильные данные, возможности безграничны.

  • 01:40:00 Это видео на YouTube представляет собой дискуссию между Алешей Эфросом и Филиппом Изола о различиях между работой с данными и моделями, а также о том, устареют ли данные. Эфрос утверждает, что данные уже становятся менее важными по мере того, как модели становятся более совершенными, и что в конечном итоге модели превзойдут людей по интеллекту. Изола утверждает, что данные по-прежнему являются золотым стандартом и что модели никогда не могут делать больше, чем данные, на которых они основаны.

  • 01:45:00 В этой дискуссии профессора Массачусетского технологического института Алеша Эфрос и Филипп Изола обсуждают отношения между искусством и ИИ. Эфрос утверждает, что вычисление — лучший способ понять взаимосвязь и что между искусством и эволюцией существует тесная связь. Изола соглашается с тем, что между ними существует связь, но утверждает, что современные модели не способны экстраполировать новую информацию из данных, и что это ключ к действительно творческому ИИ.

  • 01:50:00 Было здорово поболтать с Филиппом и Алешей об искусстве и вычислениях. Они оба считают, что искусство находится в авангарде новой парадигмы мышления и что вычисления можно использовать для изучения новых идей.

  • 01:55:00 В этой лекции Алеша Эфрос и Филипп Изола ведут сократовскую дискуссию о роли данных в искусственном интеллекте. Эфрос утверждает, что данные необходимы для ИИ, в то время как Изола возражает, что данные могут быть препятствием для развития ИИ.
MIT 6.S192 - Lecture 2: A Socratic debate, Alyosha Efros and Phillip Isola
MIT 6.S192 - Lecture 2: A Socratic debate, Alyosha Efros and Phillip Isola
  • 2021.01.21
  • www.youtube.com
First, Phillip Isola: "Generative Models as Data++" Then, Alyosha Efros: "Nostalgia to Art to Creativity to Evolution as Data + Direction" 39:14The debase go...
 

MIT 6.S192 — Лекция 3: «Эффективные GAN» Джун-Ян Чжу



MIT 6.S192 — Лекция 3: «Эффективные GAN» Джун-Ян Чжу

В лекции рассматриваются проблемы обучения моделей GAN, в том числе необходимость больших вычислений, больших объемов данных и сложных алгоритмов, требующих длительных тренировок. Тем не менее, лектор представляет новые методы, которые заставляют GAN учиться быстрее и тренироваться на меньшем количестве наборов данных, например, сжатие моделей учителей с использованием универсальной структуры сжатия GAN, дифференцируемого дополнения и увеличения данных. В лекции также демонстрируется интерактивное редактирование изображений с помощью GAN и подчеркивается важность больших и разнообразных наборов данных для успешного обучения GAN. Коды для запуска модели доступны на GitHub с пошаговыми инструкциями по запуску модели на различных типах данных. Лекция завершается обсуждением важности сжатия модели для практических целей.

  • 00:00:00 В этом разделе спикер представляет концепцию эффективных сетей GAN и их дороговизну. В то время как GAN использовались для различных задач по созданию контента и творчеству, для разработки новых алгоритмов или обеспечения производительности в реальном времени требуются высокопроизводительные графические процессоры. Для разработки проекта GauGAN исследователю потребовались сотни высокопроизводительных графических процессоров для обучения, и даже после года разработки команде пришлось купить дорогой ноутбук, чтобы выполнять проект. Стоимость обучения GAN и разработки алгоритмов высока, и в настоящее время университетам сложно конкурировать с крупными компаниями, такими как NVIDIA или DeepMind.

  • 00:05:00 В этом разделе спикер объясняет три основных препятствия на пути большего числа пользователей к эффективному использованию GAN, а именно необходимость больших вычислений, больших объемов данных и сложный алгоритм, требующий большого количества учебных занятий. Он объясняет, что GAN требует больших вычислительных ресурсов из-за высококачественных изображений и этапов предварительной обработки, необходимых для обучения модели. Кроме того, большие наборы данных и потребность в метках еще больше усложняют обучение GAN. Тем не менее, он представляет новые методы, которые могут заставить GAN учиться быстрее и тренироваться на меньшем количестве наборов данных, что может помочь создателям контента и художникам с ограниченным доступом к ресурсам обучать и тестировать свои собственные модели.

  • 00:10:00 В этом разделе лекции Джун-Ян Чжу представляет метод сжатия моделей учителей с использованием универсальной структуры сжатия GAN. Цель состоит в том, чтобы найти модель ученика с меньшим количеством фильтров, которая может давать такие же выходные данные, что и модель учителя. Этот метод включает в себя создание функции потерь, чтобы гарантировать, что распределение выходных данных ученика в виде зебры очень похоже на выходные данные учителя, представление промежуточных признаков ученика очень похоже на представление учителя, а выходные данные ученика выглядят как зебра в соответствии с враждебной потерей. . Процесс также включает в себя поиск оптимального количества каналов, которые могут дать те же результаты при уменьшении размера модели и времени обучения. Процесс распределения весов между различными конфигурациями позволяет тренировать несколько конфигураций, не обучая их по отдельности, тем самым сокращая время обучения.

  • 00:15:00 В этом разделе Джун-Ян Чжу обсуждает процесс обучения и оценки моделей GAN с помощью различных конфигураций, а также использование различных функций потерь для имитации моделей учителей и распределения весов в разных конфигурациях. Были представлены результаты для моделей разных размеров и вычислительных затрат, а также идея сжатия моделей для достижения производительности в реальном времени на мобильных устройствах. Также было представлено применение этой идеи к StyleGAN2, показывающее, как можно использовать недорогие модели для редактирования изображений перед применением окончательного вывода из исходной модели.

  • 00:20:00 В этом разделе спикер демонстрирует демонстрацию интерактивного редактирования изображений с помощью GAN. Цель демонстрации — дать пользователям возможность редактировать изображение с различными атрибутами, такими как добавление улыбки или изменение цвета волос, и получать немедленную обратную связь на основе своих изменений. В системе используется меньшая модель, которая производит согласованный вывод с большой моделью, чтобы предварительный просмотр оставался информативным. После завершения редактирования можно запустить исходную модель для получения высококачественного результата. Интерактивное редактирование выполняется быстрее и обеспечивает более качественные результаты по сравнению с существующим программным обеспечением для создания контента без глубокого обучения.

  • 00:25:00 В этом разделе лекции профессор Джун-Ян Чжу обсуждает проблемы обучения моделей GAN, ссылаясь на необходимость больших объемов высококачественных данных для эффективной работы. Хотя можно использовать программное обеспечение для рендеринга или другие инструменты для ускорения процесса и создания предварительных просмотров, обучение пользовательских моделей требует сбора значительных объемов аннотированных данных. Чжу приводит пример обучения модели stylegan2 на наборе данных всего из 50 или 100 лиц, что привело к искажению изображений. В лекции подчеркивается важность больших и разнообразных наборов данных для успешного обучения GAN.

  • 00:30:00 В этом разделе спикер обсуждает важность наличия достаточного количества обучающих данных в моделях GAN. Они демонстрируют, что при обучении на небольших наборах данных дискриминатор может легко переопределить и правильно классифицировать все изображения, но у него возникнут проблемы с обобщением реальных изображений. Это приводит к тому, что генератор создает много изображений мусора или разрушается. Спикер подчеркивает, что если использовать GAN в своих целях или на небольших наборах данных, переобучение становится гораздо более серьезным, и получение достаточного количества данных имеет решающее значение для создания эффективных GAN.

  • 00:35:00 В этом разделе профессор обсуждает идею увеличения данных для борьбы с переоснащением в машинном обучении, которое включает создание нескольких версий одного изображения для увеличения набора данных без сбора новых образцов. Однако применение этого метода для обучения GAN более сложно, потому что сгенерированные изображения также имеют эффект того же преобразования или дополнения, примененного к реальным изображениям, что может привести к воспроизведенным артефактам. Чтобы избежать этой проблемы, профессор предлагает дополнять как настоящие, так и поддельные изображения и делать это только для обучения дискриминатора, чтобы сбалансировать различия в дополненных данных между генератором и дискриминатором.

  • 00:40:00 В этом разделе спикер обсуждает концепцию дифференцируемого расширения как подход к преодолению разрыва между целями генератора и дискриминатора в GAN. Основная идея состоит в том, чтобы дополнить как поддельные, так и настоящие изображения дифференцируемым образом, чтобы градиенты от дискриминатора можно было передать обратно в генератор. Докладчик демонстрирует на примерах, что дифференцируемое увеличение позволяет получить лучшие результаты с минимальными данными для обучения, тем самым уменьшая потребность в крупномасштабных наборах данных. Докладчик заключает, что дифференцируемое увеличение является важным методом, который следует помнить при обучении GAN.

  • 00:45:00 В этом разделе лектор объясняет, что все коды для запуска модели доступны на GitHub с пошаговыми инструкциями по запуску модели на разных типах данных, даже на личных изображениях лица. Они также обсуждают конкретные инструменты, доступные для дизайнеров и художников, и лектор упоминает, что Дэвид Бау расскажет об онлайн-инструментах для визуализации и мониторинга внутренних блоков. Также обсуждается процесс сжатия модели с целью разработки возможности сжатия модели один раз и развертывания ее на нескольких устройствах, что важно для практических целей, поскольку экономит время разработчиков и сокращает время, необходимое пользователям для доступа к модели. .