Машинное обучение и нейронные сети - страница 22

 

Генеративные модели, состязательные сети GAN, вариационные автоэнкодеры VAE, обучение представлению - лекция 06 (весна 2021 г.)



Генеративные модели, состязательные сети GAN, вариационные автоэнкодеры VAE, обучение представлению - лекция 06 (весна 2021 г.)

В этом видео обсуждается концепция репрезентативного обучения в машинном обучении, подчеркивается его важность в задачах классификации и потенциал для инноваций при разработке новых архитектур. Задачи с самостоятельным наблюдением и предлоговые задачи вводятся как способы изучения представлений, не требующие помеченных данных, с помощью таких методов, как автоэнкодеры и вариационные автоэнкодеры (VAE). Докладчик также обсуждает генеративные модели, такие как VAE и генеративно-состязательные сети (GAN), которые могут генерировать новые данные, манипулируя представлением скрытого пространства. Обсуждаются плюсы и минусы каждого метода, подчеркивая их эффективность, но также и ограничения. В целом, видео предоставляет всесторонний обзор различных подходов к репрезентативному обучению и генеративным моделям в машинном обучении.

В видео рассматриваются концепции генеративно-состязательных сетей (GAN), вариационных автоэнкодеров (VAE) и обучения представлению в генеративных моделях. GAN включают в себя генератор и дискриминатор, имеющие противоположные цели, и процесс обучения для поддельных образцов медленный, но улучшение разрешения и целевой функции может привести к реалистично выглядящим изображениям. Докладчик демонстрирует, как GAN могут генерировать архитектурно правдоподобные комнаты и переносить одну комнату в другую. VAE явно моделируют функции плотности и фиксируют разнообразие изображений реального мира через значимые параметры скрытого пространства. Спикер поощряет творчество и эксперименты с открытыми архитектурами и моделями, а применение генеративных моделей и обучение представлению в различных областях — это быстрорастущая область с безграничными возможностями.

  • 00:00:00 В этом разделе спикер обсуждает концепцию репрезентативного обучения в машинном обучении и то, как оно используется в сверточных нейронных сетях (CNN) для изучения мира. Они подчеркивают, что настоящий прогресс глубокого обучения произошел благодаря способности CNN изучать нелинейности и представления о мире посредством извлечения признаков. Спикер утверждает, что задачи классификации являются движущей силой извлечения признаков и что именно отсюда берутся все представления знаний о мире. Они также предполагают, что существует потенциал для инноваций в разработке новых архитектур для обучения представлению в различных областях, выходящих за рамки существующих архитектур. Наконец, они утверждают, что самая захватывающая часть генеративных моделей — это представление скрытого пространства, а не ярлыки, и что такие модели можно использовать для изучения модели мира, не полагаясь на ярлыки.

  • 00:05:00 В этом разделе спикер обсуждает репрезентативное обучение и использование обучения с самоконтролем для этой цели. Обучение с самоконтролем включает в себя использование части данных для обучения другой части данных и превращение данных в своего собственного супервизора. Это позволяет изучать классные представления, которые можно использовать для создания представлений о мире. Генеративные модели работают, запуская модель в обратном направлении и переходя от сжатого представления мира к большему количеству его примеров. Другой подход к обучению репрезентациям - это предварительные текстовые задачи, где поставленная задача является просто предлогом для изучения репрезентаций. Приведенный пример — это предсказание себя, для чего и предназначены автокодировщики. Концепция прохождения сжатого представления и его повторного расширения в само изображение с помощью зажима достаточно значима, чтобы можно было изучить представление, лежащее в основе мира. Вариационные автокодировщики явно моделируют дисперсию и распределения.

  • 00:10:00 В этом разделе спикер обсуждает концепцию предтекстовых задач, которая относится к обработке входных сигналов через сеть для изучения представлений сети и использованию входного сигнала для создания обучающего сигнала, который является задачей, которую никто не делает. мне все равно. Примеры предварительных задач включают прогнозирование изображений до и после, прогнозирование оставшихся пикселей изображения после удаления патча и раскрашивание черно-белых изображений. Цель предлоговых заданий — заставить себя выучить представления о мире, что приводит к эффективным обучающим заданиям под наблюдением. Важность понимания этой концепции имеет решающее значение, поскольку она приводит к последующим темам обсуждения, таким как автокодировщики, вариационные автокодировщики и генеративно-состязательные сети.

  • 00:15:00 В этом разделе представлена концепция самоконтролируемого обучения как способа выучить хорошие репрезентации путем построения предтекстовых задач, которые позволяют учиться, не требуя размеченных данных. Предтекстовые задачи включают в себя, среди прочего, определение структуры изображения, преобразование изображений или использование нескольких изображений. Одним из примеров предтекстовой задачи является определение относительной ориентации фрагментов изображения, а другим примером является задача-головоломка, в которой необходимо восстановить исходное изображение. Обсуждаются плюсы и минусы каждого метода самоконтроля, подчеркивая их эффективность, но также и их ограничения, такие как принятие фотографических канонических ориентаций на тренировочных изображениях или ограниченное внешнее пространство.

  • 00:20:00 В этом разделе спикер объясняет концепцию предтекстовых задач, строя однотипные концепции предтекстовых задач и применяя их к разным примерам, чтобы выучить представление о мире, которое заставит нас решать кажущиеся сложными задачи на самом деле узнать что-то интересное о мире. Один из примеров включает в себя создание представления кодировщика и декодера для изучения представлений признаков более низкой размерности из немаркированных данных, которые обучают задачу обучения без учителя в задачу обучения с учителем. Цель состоит в том, чтобы заставить осмысленные представления вариантов данных и использовать функции для создания декодированной версии вашего закодированного исходного изображения, а функция потерь — это разница между оригиналом и предсказанным.

  • 00:25:00 В этом разделе спикер объясняет, как можно использовать автоэнкодеры для создания представлений о мире и генерации изображений с помощью функции генератора. Вектор z в автоэнкодерах может предоставить содержательную информацию об относительных характеристиках и наличии различных характеристик в мире, которую можно использовать для создания дополнительных изображений. Кодер и декодер можно использовать отдельно для разных задач, например, использовать декодер в качестве генеративной модели и кодер в качестве вектора пространства признаков для обучения представлению. Затем спикер представляет концепцию вариационных автоэнкодеров (VAE), которая представляет собой вероятностную версию автоэнкодеров, которая позволяет нам выбирать из модели для генерации дополнительных данных. VAE учатся на многомерном представлении набора скаляров и связанных с ними отклонений для каждого скаляра. Выбирая из истинного априора вектора скрытого пространства, мы можем генерировать изображения на основе различных атрибутов изображения.

  • 00:30:00 В этом разделе спикер обсуждает генеративные модели и их цель захвата мира через настройку различных векторов в автоэнкодере. Эти векторы в конечном итоге являются осмысленными представлениями мира, что позволяет производить выборку различных изображений путем изменения параметров. Стратегия обучения генеративных моделей заключается в максимизации вероятности обучающих данных путем изучения параметров модели. Затем докладчик представляет вариационные автоэнкодеры, которые вероятностно генерируют модели, явно моделируя среднее значение и дисперсию данных. Имея кодировщик, предоставляющий как одиночное значение z, так и дисперсию z, динамик может производить выборку из обоих нормальных распределений и распознавать различные варианты объектов, таких как лодки.

  • 00:35:00 В этом разделе спикер объясняет концепцию вариационных автоэнкодеров (ВАЭ) и принципы их работы. VAE состоят из сети кодера, которая отображает входные данные в скрытое пространство, сети декодера, которая генерирует выходные данные из скрытого пространства, и сети генерации, которая генерирует изображения из представления, полученного сетью кодера. Докладчик объясняет, что функция потерь VAE представляет собой вариационную нижнюю границу, которая максимизирует восстановление входных данных и аппроксимацию априорного распределения изображений с помощью сети декодера. Докладчик также упоминает, что термин дивергенции KL неразрешим, но его можно рассматривать как нижнюю границу для оптимизации с помощью градиентного спуска.

  • 00:40:00 В этом разделе спикер объясняет, как можно использовать генеративные модели, такие как вариационные автоэнкодеры (VAE), для построения представления мира со значимыми функциями. Кодируя изображения с использованием только двух измерений, VAE может захватывать пространство всех возможных символов и генерировать любой тип символов, которые могут быть представлены с использованием только двухмерных координат. Путем диагонализации априора по z сеть изучает независимые скрытые переменные, а различные измерения z кодируют интерпретируемые факторы вариации в хорошем представлении признаков. Эта сеть кодировщиков позволяет пользователям генерировать данные и декодировать скрытое пространство посредством предварительного распределения z, что делает VAE полезным инструментом для изучения представлений.

  • 00:45:00 В этом разделе видео обсуждается использование вариационных автоэнкодеров (VAE) в качестве принципиального подхода к генеративным моделям, который позволяет делать выводы о скрытом пространстве при заданном x, что может быть полезным представлением для других задач. Однако у VAE есть некоторые недостатки, такие как максимизация нижней границы вероятности, что не так хорошо, как явная оценка вероятности. Сгенерированные выборки из VAE также более размыты и имеют более низкое качество по сравнению с образцами из генеративно-состязательных сетей (GAN). Продолжаются исследования по улучшению качества выборок из VAE, такие как использование более гибких приближений для более богатых апостериорных распределений и включение структуры в скрытые переменные. Видео также обобщает основные выводы из предыдущих разделов о генерации, неконтролируемом обучении и параметрах скрытого пространства.

  • 00:50:00 В этом разделе обсуждается концепция генеративно-состязательных сетей (GAN). GAN предназначены для создания сложных многомерных изображений путем выборки из простого распределения, такого как случайный шум, и преобразований обучения для создания изображений из обучающего набора. Система состоит из сети генератора для создания поддельных изображений и сети дискриминатора для различения реальных и поддельных изображений. Цель состоит в том, чтобы научить генератор создавать более реалистичные изображения, обманывая дискриминатор, который в процессе становится противником. Система является самоконтролируемой, что означает отсутствие необходимости в ручной маркировке и заменяет потребность в людях-оценщиках.

  • 00:55:00 В этом разделе спикер объясняет концепцию генеративно-состязательных сетей (GAN), которые используют подход мини-макс игры для обучения генератора и сети дискриминатора. Дискриминатор обучен определять, являются ли сгенерированные изображения реальными или фальшивыми, в то время как генератор обучен создавать изображения, которые могут обмануть дискриминатор, заставив его поверить в то, что они реальны. С помощью этой совместной функции правдоподобия веса и параметры обеих сетей обучаются одновременно, чтобы дискриминатор выдавал оценку 1 для реальных изображений и 0 для поддельных изображений. Генератор, с другой стороны, стремится минимизировать этот показатель, создавая изображения, неотличимые от реальных.
  • 01:00:00 В этом разделе объясняется концепция генеративно-состязательных сетей (GAN), где генератор и дискриминатор имеют противоположные цели в игровом сценарии. Генератор пытается создать поддельные данные, которые обманут дискриминатор, который научился правильно классифицировать настоящие данные. Однако обучение идет медленно, когда выборка фальшивая, поэтому используется трюк, когда цель генератора изменяется, чтобы максимизировать вероятность того, что дискриминатор ошибется для фальшивых данных. Совместное обучение двух сетей может быть сложной задачей, но постепенное увеличение разрешения изображений может улучшить стабильность. Алгоритм обучения GAN включает в себя чередование обновления дискриминатора путем восхождения по стохастическому градиенту и обновления генератора с использованием улучшенной целевой функции.

  • 01:05:00 В этом разделе видео обсуждается концепция генеративно-состязательных сетей (GAN) и процесс обучения, связанный с построением генераторной сети для создания реалистичных изображений. Видео объясняет, как сеть дискриминатора обучается различать сгенерированные изображения и реальные изображения, и как сеть генератора обучается улучшать качество сгенерированных изображений до такой степени, что они превосходят возможности человека. Далее в видео объясняется, как создавать глубокие сверточные архитектуры с дробно-полосатыми свертками и использовать функции активации ReLU и ReLU с утечкой для получения реалистично выглядящих изображений. Видео демонстрирует потенциал использования GAN для создания архитектурно правдоподобных комнат и показывает, как перенести одну комнату в другую путем интерполяции между скрытыми координатами пространства.

  • 01:10:00 В этом разделе докладчик обсуждает генеративные модели, такие как GAN, вариационные автоэнкодеры (VAE) и обучение представлению. Целью этих моделей является создание разнообразных и реалистичных образцов путем изучения основных моделей и стилей реального мира. Докладчик представляет примеры того, как эти модели способны выполнять различные задачи манипулирования изображениями, такие как масштабирование, передача знаний в предметной области и синтез текстур. Докладчик также рассказывает об улучшениях, достигнутых в этих моделях, таких как Progressive GAN, которая позволяет создавать изображения с высоким разрешением, и веб-сайт Nvidia «Этот человек не существует», который использует большое количество пространств параметров для изучения ортогональных параметров, которые позволяют декомпозиция различных составляющих изображения.

  • 01:15:00 В этом разделе спикер объясняет таксономию генеративных моделей, которая может включать моделирование явных или неявных функций плотности. Генеративно-состязательные сети (GAN) моделируют функции плотности неявно через связанные сети генератора и дискриминатора, в то время как вариационные автоэнкодеры (VAE) моделируют функции плотности явно. Сила глубокого обучения заключается в изучении представлений, и спикер поощряет творчество и эксперименты со многими открытыми архитектурами и моделями молодых специалистов. Использование предтекстовых задач, таких как предсказание себя или заполнение недостающих участков, может помочь изучить осмысленные латентные представления о мире и перейти к действительно генеративным моделям, которые могут выбирать из истинного распределения параметров скрытого пространства.

  • 01:20:00 В этом разделе спикер обсуждает концепцию захвата разнообразия изображений реального мира с помощью значимых параметров скрытого пространства в вариационных автоэнкодерах (ВАЭ). При ограничении параметров скрытого пространства ортогональностью и отличием друг от друга полученные изображения могут быть неотличимы от реальных людей. Кроме того, спикер отмечает, что применение генеративных моделей и репрезентативного обучения является быстрорастущей областью с безграничными возможностями в различных областях.
Generative Models, Adversarial Networks GANs, Variational Autoencoders VAEs, Representation Learning
Generative Models, Adversarial Networks GANs, Variational Autoencoders VAEs, Representation Learning
  • 2021.03.04
  • www.youtube.com
Deep Learning in Life Sciences - Lecture 06 - Generative Models, GANs VAEs, Representation Learning6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manol...
 

Регуляторная геномика - Глубокое обучение в науках о жизни - Лекция 07 (весна 2021 г.)



Регуляторная геномика - Глубокое обучение в науках о жизни - Лекция 07 (весна 2021 г.)

Лекция охватывает область регуляторной геномики, включая биологические основы регуляции генов, классические методы регуляторной геномики, обнаружение мотивов с помощью сверточных нейронных сетей и использование моделей машинного обучения для понимания того, как последовательность кодирует свойства регуляции генов. Докладчик объясняет важность регуляторных мотивов в регуляции генов и то, как нарушение этих мотивов может привести к заболеванию. Они представили новую модель с использованием сверточной нейронной сети, которая сопоставляет считывания последовательности с геномом и подсчитывает, сколько концов с пятью простыми числами имеет каждая пара оснований на двух цепях. Модель может быть использована для многократного считывания различных белков и может быть установлена отдельно или одновременно с использованием многозадачной модели. Спикер также показывает, как модель может анализировать любой вид анализа, включая геномные данные, используя рамки интерпретации, которые раскрывают биологические истории о том, как синтаксис влияет на кооперативность TF. Модели могут делать прогнозы, которые подтверждаются экспериментами CRISPR с высоким разрешением.

В видео обсуждается, как глубокое обучение может улучшить качество данных ATAC-seq с низким охватом за счет усиления и шумоподавления пиков сигнала. AttackWorks — это модель глубокого обучения, которая принимает данные о покрытии и использует архитектуру остаточной нейронной сети для повышения точности сигнала и определения доступных участков хроматина. Докладчик демонстрирует, как можно использовать AttackWorks для обработки данных низкого качества и увеличения разрешения при изучении доступности хроматина отдельных клеток. Они также описывают специфический эксперимент на гемопоэтических стволовых клетках, в котором использовали ATAC-seq для идентификации специфических регуляторных элементов, участвующих в праймировании клонов. Спикер приглашает студентов на стажировку или сотрудничество.

  • 00:00:00 В этом разделе лектор знакомит с областью регуляторной геномики и приглашает приглашенных докладчиков для обсуждения влиятельных документов и предоставления студентам возможностей для сотрудничества и стажировок. Лекция является началом Модуля 2 по регуляции генов и охватывает биологические основы регуляции генов, классические методы регуляторной геномики и обнаружение мотивов с использованием сверточных нейронных сетей. В лекции подчеркивается сложность генетического кода, позволяющего создавать и развивать самовосстанавливающийся организм со сложными взаимосвязями во всех частях тела, от головы до пяток.

  • 00:05:00 В этом разделе обсуждается сложность клеток и то, как они запоминают свою идентичность, несмотря на отсутствие контекстной информации. Также выделяются регуляторные схемы клеток, основанные на наборе примитивов и конструкций, которые позволяют клеткам запоминать состояние каждой части генома. Упаковка ДНК как в структурные, так и в функциональные конструкции является неотъемлемой частью этого процесса, что позволяет клеткам уплотнять внутри себя такое количество ДНК. Эта упаковка осуществляется с помощью нуклеосом, маленьких шариков в виде цепочки ДНК, состоящей из четырех гистоновых белков, каждый из которых имеет длинный аминокислотный хвост, который может быть посттрансляционно модифицирован различными гистоновыми модификациями. Эти модификации работают с дополнительными эпигеномными метками, такими как динуклеотиды CPG, непосредственно на ДНК, чтобы позволить клеткам помнить свою идентичность.

  • 00:10:00 В этом разделе спикер обсуждает три типа модификаций в эпигеномике: доступность ДНК, модификации гистонов и метилирование ДНК. Он объясняет, как эти модификации могут влиять на регуляцию генов и связывание факторов транскрипции. Используя язык эпигеномики, можно запрограммировать каждый тип клеток в организме, настроив уплотнение ДНК на определенные сигнатуры промоторных областей. Промоторы, транскрибируемые области, репрессированные области и энхансерные области маркируются различными наборами меток, которые можно идентифицировать и изучать. Энхансеры, в частности, чрезвычайно динамичны и отмечены монометилированием H3K4, ацетилированием H3K27 и доступностью ДНК.

  • 00:15:00 В этом разделе спикер объясняет концепцию «состояний хроматина», которые представляют собой различные состояния хроматина, соответствующие, среди прочего, энхансерам, промоторам, транскрибируемым и репрессированным областям. Для обнаружения этих состояний хроматина используется многомерная скрытая марковская модель, которая используется для определения местоположения энхансерных, промоторных и транскрибируемых областей в различных типах клеток организма. Также объясняется, как белки распознают ДНК: факторы транскрипции используют ДНК-связывающие домены для распознавания определенных последовательностей ДНК в геноме. Докладчик также рассказывает о ДНК-мотивах и матрицах позиционных весов, которые позволяют распознавать специфичность последовательности ДНК, а также о методах теории информации, позволяющих различать сайты связывания регуляторов.

  • 00:20:00 В этом разделе лекции спикер обсуждает важность регуляторных мотивов в регуляции генов и то, как нарушение этих мотивов может привести к заболеванию. Затем докладчик объясняет три технологии исследования регуляции генов: иммунопреципитация хроматина, доступность ДНК и ATAC-seq. Эти технологии можно использовать для картирования расположения энхансеров и открытия языка ДНК с помощью мотивов и построения моделей глубокого обучения.

  • 00:25:00 В этом разделе видео спикер обсуждает использование моделей машинного обучения, чтобы понять, как последовательность кодирует свойства регуляции генов. Она представляет различные эксперименты, которые определяют профиль регуляторной ДНК, и подчеркивает необходимость понимания сложного синтаксиса регуляторных элементов для управления определенными реакциями. Проблема моделируется как задача машинного обучения, в которой каждый геном разбит на небольшие фрагменты по тысяче пар оснований, и каждая из этих пар оснований связана с некоторым сигналом из эксперимента.

  • 00:30:00 В этом разделе спикер обсуждает традиционный подход к обобщению генетической информации путем сопоставления последовательностей со скалярами с использованием различных моделей машинного обучения. Однако этот подход приводит к потере информации, поскольку профили покрытия считывания с разрешением в один нуклеотид содержат геометрию, отражающую взаимодействие белка с ДНК, что приводит к появлению следов с высоким разрешением. Эти сложные детали теряются при суммировании информации в скаляр. Чтобы решить эту проблему, спикер подчеркивает необходимость создания новой модели, которая может моделировать данные в самом базовом разрешении, что достигается с помощью сверточной нейронной сети, которая сопоставляет считывания секвенирования с геномом и подсчитывает, сколько пяти простых чисел заканчивается в каждом из них. пара оснований на двух нитях имеет. Затем они используют нейронную сеть, которая выполняет этот перевод, начиная с последовательности, в показания с действительным знаком, которые перемещаются к профилю, что приводит к прямой последовательности к модели профиля.

  • 00:35:00 В этом разделе спикер объясняет использование функций потерь для моделирования количества считываний, попадающих в последовательность, и то, как эти считывания распределяются по парам оснований. Они используют комбинацию среднеквадратичной ошибки для общего подсчета и полиномиального отрицательного логарифмического правдоподобия для точного распределения прочтений в каждой паре оснований. Модель может быть использована для многократного считывания различных белков и может быть установлена отдельно или одновременно с использованием многозадачной модели. Докладчик применяет эту модель к четырем известным транскрипционным факторам плюрипотентности в эмбриональных стволовых клетках мыши, используя эксперименты с нексусными чипами и следами высокого разрешения.

  • 00:40:00 В этом разделе спикер акцентирует внимание на точности моделей при прогнозировании энхансеров в геноме, которые очень точны, несмотря на некоторый шум или отличия от наблюдаемых данных из-за шумоподавления, импутации и других факторов. Чтобы оценить производительность моделей в масштабе всего генома, они используют две метрики: расхождение Дженсена-Шеннона и сходство между повторными экспериментами, причем первые показывают лучшую производительность, чем вторые, которые вычисляются для получения верхней и нижней границ. Затем спикер объясняет свой подход к интерпретации, используя алгоритм DeepLift для рекурсивного разложения вкладов нейронов по слоям и нуклеотидам, обеспечивая интерпретацию с высоким разрешением того, какие части последовательности управляют связыванием каждым из четырех факторов транскрипции, раскрывая комбинаторный синтаксис.

  • 00:45:00 В этом разделе спикер обсуждает два метода, используемых для обобщения закономерностей, изученных моделью по всему геному. Первый метод, Modisco, берет все последовательности, связанные интересующим белком, и выводит оценки глубокого подъема для каждого нуклеотида в каждой последовательности. Затем последовательности группируются на основе сходства и объединяются в не повторяющиеся мотивы. Второй метод фокусируется на синтаксисе или расположении мотивов более высокого порядка, которые управляют совместным связыванием. Используя пример нано-мотива, нейронная сеть способна обнаруживать важные нуклеотиды, граничащие с основным участком, и идентифицировать периодические паттерны точно в десять с половиной пар оснований, что указывает на то, что нано связывает ДНК таким образом, что что-то происходит на той же стороне. спирали ДНК.

  • 00:50:00 В этом разделе спикер обсуждает предпочтение мягкого синтаксиса в ДНК, которое демонстрируется через предпочтительное расстояние, кратное десяти с половиной парам оснований. Докладчик показывает, как модель может изучать этот синтаксис благодаря наличию тонких всплесков сигнала, наблюдаемых в геноме, что позволяет ей совместно локализоваться с определенными сайтами и изучать синтаксис, управляющий связыванием. Докладчик также описывает эксперименты, проведенные in silico, чтобы понять, как синтаксис управляет связыванием различных белков, в том числе синтетический эксперимент, в котором два мотива встроены в случайную последовательность, а расстояние между ними изменено, чтобы предсказать связывание белков, а также эксперимент in silico CRISPR, в котором фактические энхансеры мутированы, а эффекты связывания четырех белков предсказываются моделью. Докладчик отмечает, что синтаксис изучается на более высоких уровнях модели, и показывает, что его удаление приводит к полному исчезновению синтаксиса.

  • 00:55:00 В этом разделе спикер объясняет синтетический эксперимент с использованием энхансера, связанного с OP4 и нано, чтобы показать эффекты удаления определенных мотивов. Модель предсказывает эффекты удаления мотивов, и эксперименты показывают тот же эффект, тем самым подтверждая предсказания модели. Докладчик представляет BPNet, модель, которая может анализировать любой тип анализа, включая геномные данные, используя рамки интерпретации, которые раскрывают биологические истории о том, как синтаксис влияет на кооперативность TF. Модели могут делать прогнозы, которые подтверждаются экспериментами CRISPR с высоким разрешением. Доклад заканчивается обсуждением недавней статьи об улучшении эпигеномных данных на основе глубокого обучения с помощью ATAC-seq, которая является результатом сотрудничества команды докладчика и лаборатории Bowing Rosenthal.

  • 01:00:00 В этом разделе объясняется концепция доступности хроматина посредством секвенирования. Пики на дорожке охвата представляют собой активные регуляторные области генома, что позволяет идентифицировать активные регуляторные элементы в различных типах клеток или тканей. Атакси также может выполняться на уровне отдельных клеток, обеспечивая более высокое разрешение в биологии. Однако качество данных может быть проблемой, так как глубина секвенирования, подготовка образцов и количество клеток в эксперименте с одной клеткой Ataxi могут влиять на результаты. Атака работает как модель глубокого обучения, разработанная для решения некоторых из этих проблем.

  • 01:05:00 В этом разделе спикер обсуждает инструмент AttackWorks, который берет трек покрытия из зашумленного эксперимента и использует архитектуру остаточной нейронной сети для шумоподавления и усиления атаксического сигнала, а также определения местоположения пиков или доступных участки хроматина. В модели используются одномерные сверточные слои и расширенные свертки, а также функция потерь, состоящая из нескольких частей, которая измеряет точность дорожки покрытия с шумоподавлением и точность классификации местоположений пиков. В отличие от других моделей, AttackWorks использует только данные о покрытии, а не последовательность генома, чтобы обеспечить более высокую переносимость между различными типами клеток. Докладчик объясняет простую стратегию обучения, используемую для обучения модели, и показывает примеры результатов ее использования на разных типах клеток человека.

  • 01:10:00 В этом разделе спикер объясняет, как можно использовать глубокое обучение для улучшения качества данных ATAC-seq с низким охватом за счет шумоподавления сигнала и усиления пиков, которые ранее было трудно идентифицировать. Они показывают примеры того, как работает атака, модель глубокого обучения, способная отличать пики от соседнего шума и точно определять местоположение доступного хроматина в разных типах клеток даже в новых данных, которых не было в обучающих данных. Они также обсуждают, как атаки могут снизить стоимость экспериментов за счет получения результатов того же качества при меньшем количестве последовательностей. Кроме того, они демонстрируют, как атаки могут работать с данными ATAC-seq низкого качества, очищая фоновый шум и идентифицируя пики, которые близко совпадают с данными высокого качества. Наконец, они измеряют производительность атак, рассматривая расширение охвата вокруг сайтов начала транскрипции.

  • 01:15:00 В этом разделе спикер обсуждает, как можно применить глубокое обучение для решения проблемы ограниченной способности изучать небольшие популяции клеток в одноклеточных атаксических данных. Они могут случайным образом выбирать подмножество ячеек из множества типов клеток и использовать их для получения зашумленного сигнала. Затем они могут обучить модель атаки, чтобы она брала сигнал от нескольких ячеек и удаляла из него шум, чтобы предсказать, каким будет сигнал от многих ячеек.
    выглядит как. Получив эту обученную модель, они могут применить ее к небольшим популяциям из очень небольшого числа клеток, чтобы предсказать, как выглядели бы данные, если бы у них было больше клеток для секвенирования. Этот подход значительно увеличивает разрешение, с которым они могут изучать доступность хроматина одиночных клеток, и они показывают, что модели могут переноситься между экспериментами, типами клеток и даже видами.

  • 01:20:00 В этом разделе спикер обсуждает эксперимент по секвенированию одной клетки гемопоэтических стволовых клеток, которые могут дифференцироваться в лимфоидные или эритроидные клетки. Эксперимент выявил неоднородность популяции отдельных клеток и идентифицировал субпопуляции клеток, которые праймированы для дифференцировки в одну из двух линий. Команда использовала ATAC-seq для шумоподавления сигнала и определения конкретных регуляторных элементов, которые контролируют процесс запуска линии. Они признают команду, участвующую в проекте, и приглашают студентов пройти стажировку или сотрудничество.
Regulatory Genomics - Deep Learning in Life Sciences - Lecture 07 (Spring 2021)
Regulatory Genomics - Deep Learning in Life Sciences - Lecture 07 (Spring 2021)
  • 2021.03.16
  • www.youtube.com
Deep Learning in Life Sciences - Lecture 07 - Regulatory Genomics (Spring 2021)6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learnin...
 

Глубокое обучение для регуляторной геномики — связывание регуляторов, транскрипционные факторы — лекция 08 (весна 2021 г.)



Глубокое обучение для регуляторной геномики — связывание регуляторов, транскрипционные факторы — лекция 08 (весна 2021 г.)

В видео обсуждается использование глубокого обучения для регуляторной геномики и основное внимание уделяется тому, как последовательность ДНК может выявить различные мотивы, присутствующие в энхансерных и промоторных областях, а также их трехмерные петли. В видео объясняется, как технология захвата подтверждения хромосомы (3C) может исследовать хромосомную организацию, а технология Hi-C может идентифицировать топологически связанные домены (TAD), которые взаимодействуют друг с другом, и структуру компартментов в геноме. Сверточные фильтры применяются в каждом положении последовательности ДНК для обнаружения различных признаков или мотивов, а структура глубокого обучения может изучать общие свойства, фильтры и мотивы последовательности ДНК, что позволяет выполнять различные задачи прогнозирования. В видео также упоминается, насколько полезно многозадачное обучение, и использование дополнительных слоев в сети глубокого обучения для распознавания и объединения нескольких представлений строительных блоков мотивов факторов транскрипции может обеспечить более эффективное распознавание сложных мотивов.

Спикер в этом видео обсуждает использование глубокого обучения для регуляторной геномики с акцентом на связывание факторов транскрипции и прогнозирование экспрессии генов. Они исследуют использование сверточных структур и расширенных извилин для получения больших участков ДНК и делают прогнозы в многозадачной структуре для данных о хроматине и экспрессии генов. Докладчик также рассказывает об использовании остаточных соединений для обучения глубоких нейронных сетей и объясняет, как модель может прогнозировать трехмерные контакты с использованием данных и моделей IC. В целом, глубокое обучение может быть мощным инструментом для анализа геномных данных и создания прогнозов на основе последовательности ДНК с достаточным количеством данных и правильными преобразованиями.

  • 00:00:00 В этом разделе спикер обсуждает использование последовательности ДНК и глубокого обучения для прогнозирования особенностей регуляторного генома гена, уделяя особое внимание различению различных мотивов, составляющих энхансерные и промоторные области, и их трехмерному петлеобразованию. Докладчик описывает использование весовых матриц положения (PWM) для определения специфичности связывания каждого фактора транскрипции, которые затем используются для прогнозирования регуляторной функции генов. Иммунопреципитация хроматина также упоминается как технология, используемая для профилирования регуляторных областей в геноме.

  • 00:05:00 В этом разделе спикер объясняет, как понимание трехмерной структуры хроматина может выявить, где связаны различные факторы транскрипции. Ядро содержит всю ДНК клетки и пространственно организовано с активными областями, отодвинутыми от ядерной пластинки и ближе к центру ядра. Захват подтверждения хромосомы (3C) — это метод, используемый для исследования хромосомной организации путем случайного разрезания нитей ДНК и последующего склеивания их вместе, чтобы увидеть, где разные участки ДНК могут контактировать друг с другом. Этот метод может показать, как хромосомы на самом деле зацикливаются друг на друге.

  • 00:10:00 В этом разделе спикер объясняет, как разрезание и лигирование различных фрагментов ДНК можно использовать для создания химерных молекул, которые показывают, где участки ДНК связываются и картируются в геноме. Секвенируя и анализируя эти химерные области, исследователи могут получить представление о трехмерной упаковке генома и о том, как различные области взаимодействуют друг с другом. Докладчик обсуждает различные методы, такие как 3C, 4C, 5C и ChIA-PET, которые позволяют анализировать взаимодействия между геномными областями и использовать методы на основе антител для выборочного изучения областей, связанных со специфическими регуляторами.

  • 00:15:00 В этом разделе спикер объясняет, как работает технология Hi-C и как она позволяет понять, как устроен геном. Технология Hi-C включает в себя добавление меток биотинилирования к областям генома, а затем удаление этих меток для их секвенирования, что позволяет ученым определить, как две области генома взаимодействуют друг с другом. Полученные изображения показывают информацию о зацикливании и показывают, что области, близкие к диагонали, взаимодействуют больше всего. Технология Hi-C также идентифицирует топологически связанные домены (TAD), которые больше взаимодействуют друг с другом, чем с внешней частью домена, и иерархические модели взаимодействия внутри них. Кроме того, технология показывает шахматную доску, где области имеют тенденцию больше взаимодействовать с областями того же типа, что позволяет ученым визуализировать уплотнение и организацию генома.

  • 00:20:00 В этом разделе спикер обсуждает территориальность разных хромосом внутри ядра и паттерн компартментов a и b в геноме, который предполагает, что одна часть генома неактивна и находится ближе к периферии, а активная часть находится ближе к центру. Докладчик также упоминает топологически связанные домены, которые представляют собой группы областей, которые сильно взаимодействуют внутри них, но не между ними. Преобладающая модель угловых пиков в этих доменах заключается в том, что они создаются в процессе экструзии петель, который включает сайты связывания регулятора CTFC и когезина, проталкивающие петлю ДНК.

  • 00:25:00 В этом разделе видео объясняется модель экструзии петли для интерпретации высокоуровневого хроматина и трехмерная укладка хроматина, которая включает в себя сближение сайтов связывания и проталкивание ДНК через эффективный рост петли. Затем в видео обсуждается вычислительный анализ регуляторных мотивов с использованием традиционных подходов до глубокого обучения, а также то, как одну и ту же методологию глубокого обучения можно использовать для анализа изображений и регуляторной геномики с одним горячим кодированием ДНК. Эта методология включает в себя уточнение логотипа мотива путем итерации между распознаванием общего шаблона последовательности и обнаружением экземпляров этого мотива.

  • 00:30:00 В этом разделе спикер объясняет, как сверточные фильтры используются в репрезентативном обучении в архитектуре глубокого обучения. Последовательность ДНК преобразуется в однократное кодирование с четырьмя различными входными каналами для каждой буквы. Сверточные фильтры применяются в каждом положении последовательности ДНК для обнаружения различных признаков или мотивов. Затем эти мотивы изучаются и могут применяться для выполнения конкретной задачи, например, для определения того, является ли фактор транскрипции бинарным или нет. Спикер подчеркивает, что фреймворк глубокого обучения может изучать все эти сверточные фильтры и варьировать количество слоев, задачи прогнозирования, отношения ввода-вывода и многое другое. В конечном счете, архитектура может извлекать общие свойства, фильтры и мотивы последовательности ДНК и использовать их для изучения представления последовательности, что позволяет выполнять различные задачи прогнозирования.

  • 00:35:00 В этом разделе спикер представляет введение в использование машинного обучения последовательностей нуклеиновых кислот в биологии. Он обсуждает недостатки более ранних успешных применений машинного обучения, таких как ядра строк, и то, как они не могли учитывать пространственное позиционирование k-меров или любые отношения между ними. Затем спикер предполагает, что методы глубокого обучения потенциально могут преодолеть эти ограничения и обеспечить лучшее представление последовательностей ДНК для машинного обучения.

  • 00:40:00 В этом разделе видео спикер объясняет процесс использования сверточных фильтров в глубоком обучении для регуляторной геномики, который аналогичен процессу, используемому при анализе изображений. Первый слой фильтров свертки распознает матрицы весов позиций, которые сканируются по всей последовательности, создавая числовое представление, а затем применяется операция пакетной нормализации, за которой следует нелинейная функция, которая устанавливает отрицательные значения в ноль. Затем используется операция максимального объединения, чтобы получить максимальное значение соседних позиций для каждого канала фильтра. Затем к модели несколько раз применяются сверточные слои с промежуточными операциями объединения, чтобы изучить отношения между факторами транскрипции и сайтами связывания.

  • 00:45:00 В этом разделе спикер обсуждает создание прогнозов в глубоком обучении для регуляторной геномики. Они сворачивают объект по оси длины и запускают полносвязный слой, чтобы делать прогнозы. Затем спикер приводит пример гиперчувствительности ДНК и то, как существует множество участков, доступных для разных типов клеток, но также и множество пиков, специфичных для типов клеток, которые необходимо изучить. Наборы для обучения, проверки и тестирования состоят из двух миллионов сайтов, которые разбиты на 164 бинарных вызова, чтобы выяснить, есть ли значительный сигнал от этого анализа гиперчувствительности ДНК. Докладчик обсуждает преимущества многозадачного обучения, когда все свертки и полносвязные слои являются общими для всех задач, кроме конечного линейного преобразования. Они объясняют, что такое совместное представление дает лучшие результаты, чем обучение отдельных моделей для каждой задачи.

  • 00:50:00 В этом разделе докладчики обсуждают задачи, связанные с их моделью глубокого обучения для регуляторной геномики, которая включает в себя различные типы клеток и анализы, такие как чип-секвенирование факторов транскрипции и чип-секвенирование модификаций гистонов. Они объясняют, что в модели используются сверточные нейронные сети, которые более гибкие, чем SVM k-mer, и могут представлять больше вещей. Чтобы понять, что делает модель, они анализируют матрицы весов позиций, полученные из сверточных фильтров, и сравнивают их с базой данных cisBP сайтов связывания факторов транскрипции. Они обнаружили, что фильтры в значительной степени распознают последовательности, похожие на мотивы базы данных, и отмечают, что использование нескольких фильтров для важных факторов транскрипции, таких как CTCF, имеет решающее значение для прогнозирования доступности.

  • 00:55:00 В этом разделе спикер обсуждает потенциал использования дополнительных слоев в сети глубокого обучения для распознавания и объединения нескольких представлений строительных блоков мотивов факторов транскрипции, таких как CTCF. Это может обеспечить более эффективное распознавание сложных мотивов, хотя также может затруднить точное определение точного местоположения и вклада каждого отдельного фильтра. Докладчик также упомянул несколько анализов, которые они провели, чтобы получить представление об информационном содержании и влиянии различных фильтров в модели, что могло бы помочь лучше интерпретировать результаты подхода глубокого обучения к регуляторной геномике.

  • 01:00:00 В этом разделе видео спикер обсуждает использование известного мотива для предсказаний и изучение сайтов связывания факторов транскрипции путем мутации каждого отдельного нуклеотида в последовательности. Затем докладчик переходит к обсуждению новой проблемы предсказания транскрипции и экспрессии генов путем вычисления функции всех элементов в длинном участке ДНК. Решение включает в себя использование структур свертки и введение большой области последовательности, около 100 000 нуклеотидов для модели, а затем максимальное объединение, чтобы получить последовательность с разрешением около 128 пар оснований. Задача состоит в том, как обмениваться информацией по всему геному, и для этого можно использовать разные модули. Было высказано предположение, что рекуррентные нейронные сети являются лучшим инструментом для этой работы.

  • 01:05:00 В этом разделе спикер рассказывает об инструменте под названием расширенная свертка, который они использовали вместо рекуррентной нейронной сети, чтобы избежать проблемы медленного обучения на длинных последовательностях. Расширенная свертка включает в себя вставку промежутков в свертку и ее расширение, что позволяет рецептивному полю расти экспоненциально, что приводит к очень эффективному методу покрытия изображения. Затем спикер обсуждает, как они использовали расширенные свертки, чтобы делать прогнозы в многозадачной структуре для данных о хроматине и экспрессии генов. Они также упоминают дополнительную технику, называемую остаточными соединениями или пропусками соединений, которая может быть полезна для обучения глубоких нейронных сетей.

  • 01:10:00 В этом разделе спикер обсуждает использование остаточных сетей, чтобы облегчить каждому слою изучение новой информации без необходимости заново изучать все до этого. Это особенно полезно для расширенных извилин, которые смотрят на разные позиции дальше. Непосредственно передавая то, что уже было изучено с остаточным соединением, они могут добавить новую информацию к вектору каждой позиции и нормализовать его или выполнить свертку поверх него. Количество остаточных соединений зависит от длины обрабатываемой последовательности, так как они должны иметь возможность заглянуть достаточно далеко, не выходя за пределы последовательности.

  • 01:15:00 В этом разделе видео спикер обсуждает использование от 5 до 10 расширенных слоев свертки для входной последовательности из 100 000, но отмечает, что это может меняться в зависимости от масштаба последовательности или размера ячейки. Входными данными в данном случае является непрерывный сигнал из различных наборов данных, и докладчик отмечает, что его нельзя легко преобразовать в бинарную форму, как экспрессию генов. Докладчик указывает, что для данных лучше работает функция плюс-потери, и отмечает, что на качество модели влияет качество данных, которое может значительно различаться. Докладчик кратко упоминает об использовании модели для прогнозирования мутаций в SNP, связанных с заболеванием, и о важности соединения исследований вычислительной биологии с ассоциациями заболеваний. Наконец, спикер кратко описывает прогнозирование 3D-контактов с использованием данных и моделей IC.

  • 01:20:00 В этом разделе спикер объясняет, как они используют данные с высоким значением c для прогнозирования. Данные двумерные, с нуклеотидами по осям x и y, представляющим частоту контактов между этой частью генома и другой ячейкой в геноме. Используя среднеквадратичную ошибку и многозадачное обучение, модель может прогнозировать данные. Однако с приходом миллиона нуклеотидов ограничения памяти графического процессора становятся проблемой. Решение состоит в том, чтобы использовать усреднение позиции i и позиции j, в результате чего получается двумерная матрица, которую могут анализировать инструменты глубокого обучения. Используя двумерные свертки, расширенные свертки и повторную симметризацию матрицы после каждого слоя, модель может делать прогнозы, при этом ctcf является основным фактором обучения.

  • 01:25:00 В этом разделе Дэвид Келли обсуждает, как глубокое обучение можно использовать в регуляторной геномике для анализа основных входных данных, таких как последовательность ДНК, и предсказания связывания фактора транскрипции, используя в качестве примера CTCF. При наличии достаточного количества данных и правильных преобразований архитектуры нейронных сетей могут успешно обучаться и делать прогнозы на основе данных геномики. Хотя в настоящее время основное внимание уделяется синтетическим данным, эта презентация предлагает обзор способов применения глубокого обучения в биологии и геномике.
Deep Learning for Regulatory Genomics - Regulator binding, Transcription Factors TFs
Deep Learning for Regulatory Genomics - Regulator binding, Transcription Factors TFs
  • 2021.03.16
  • www.youtube.com
Deep Learning in Life Sciences - Lecture 08 - TF binding (Spring 2021)MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021Prof. Manolis Kellis with Guest lectur...
 

Прогноз экспрессии генов — Лекция 09 — Глубокое обучение в науках о жизни (весна 2021 г.)



Прогноз экспрессии генов — Лекция 09 — Глубокое обучение в науках о жизни (весна 2021 г.)

В видео обсуждается использование глубокого обучения для прогнозирования экспрессии генов и проблемы, связанные с анализом наборов биологических данных, включая высокую размерность и шум. Лекция охватывает такие методологии, как кластерный анализ, низкоранговые аппроксимации матриц и компрессионное зондирование. Спикер также рассказывает об использовании глубокого обучения для предсказания экспрессии генов и хроматина, а также слабо контролируемого обучения для предсказания участков активности энхансеров. В лекции обсуждаются несколько инструментов, разработанных с использованием преимущественно методологии глубокого обучения, включая danq, djgx, factory mat и sc fin. Докладчик также рассказывает об использовании генеративных моделей для изучения наборов данных геномики и вводит идею методологии приближенного вывода, особенно популярную, называемую вариационным выводом.

Во второй части лекции спикер обсуждает применение глубокого обучения в науках о жизни, в частности, в предсказании экспрессии генов и интерпретации генома. Первая тема посвящена применению моделей автокодировщика вариаций к анализу экспрессии РНК для наборов данных по астме. Спикер предлагает структуру для удаления экспериментальных артефактов с использованием условной генеративной модели. Во второй теме обсуждаются инвестиции Illumina в сети глубокого обучения для определения моделей преобразования последовательности в функцию для геномной интерпретации, особенно для сплайсинга. Компания разработала SpliceAI, глубокую сверточную нейронную сеть, которая предсказывает, является ли нуклеотид донором сплайсинга, акцептором или ни тем, ни другим. Третья тема посвящена исследованиям спикера по предсказанию того, будут ли определенные мутации иметь загадочную функцию сплайсинга, которая может привести к сдвигу рамки считывания и заболеванию. Спикер также приглашает вопросы и заявки на исследовательские позиции, стажировки и постдоки.

  • 00:00:00 В этом разделе лекции докладчики знакомят с анализом экспрессии генов и двумя методами, используемыми для измерения экспрессии РНК: гибридизацией и секвенированием генома. Последний стал более популярным из-за резкого снижения стоимости секвенирования генома за последние 20 лет. В результате получается матрица, показывающая, какой ген экспрессируется на каком уровне в сотнях состояний. Эту матрицу можно рассматривать вертикально или горизонтально, что дает вектор длиной 20 000 для каждого гена в геноме в интересующих экспериментальных условиях или для определенного типа клеток, которые были отсортированы.

  • 00:05:00 В этом разделе инструктор обсуждает, как можно использовать глубокое обучение для прогнозирования экспрессии генов. Базовые входные матрицы включают профилирование каждой клетки для сравнения по нескольким измерениям, таким как сходство векторов экспрессии для данного гена в разных условиях, тканях, типах клеток, экспериментах, возрасте и поле. Кластерный анализ можно использовать для поиска похожих друг на друга условий или генов, которые похожи друг на друга в столбцах или строках. Подход вины по ассоциации также можно использовать для завершения аннотации неаннотированных генов на основе сходства экспрессии. Кроме того, инструктор предлагает использовать подходы к глубокому обучению, такие как обучение с самоконтролем, прогнозирование с использованием нелинейностей и функций более высокого порядка, а также многозадачное обучение для совместного прогнозирования различных классов интересов, и, наконец, инструктор подчеркивает, что глубокое обучение не единственный подход, и существует набор инструментов, которые можно использовать для постановки биологических вопросов и изучения представлений этих систем.

  • 00:10:00 В этом разделе лектор обсуждает методы уменьшения размерности, которые можно использовать для анализа паттернов экспрессии генов. Одним из таких методов является анализ основных компонентов (PCA), который можно использовать для определения основных параметров изменчивости паттернов генетического давления. Аппроксимации матриц низкого ранга также можно использовать для эффективного получения оптимальной аппроксимации данных более низкого ранга. Также могут применяться другие методы, такие как t-SNE и автокодировщики. Кроме того, лектор упоминает использование компрессионного зондирования для создания составных измерений с использованием комбинаций зондов, которые фиксируют линейные комбинации экспрессии генов. Наконец, лектор обсуждает потенциал использования информации о хроматине для прогнозирования уровней экспрессии генов, что будет обсуждаться в первой гостевой лекции.

  • 00:15:00 В этом разделе спикер обсуждает использование глубокого обучения для прогнозирования экспрессии генов и хроматина по различным признакам, систематически комбинируя их с помощью механизмов внимания, подобно тому, что ранее обсуждалось для модели преобразователя и рекуррентных нейронных сетей. Объясняется использование репортерных конструкций и высокопроизводительного тестирования, а также возможность предсказать, будут ли определенные фрагменты управлять выражением, используя подход машинного обучения или глубокого обучения. Докладчик также представляет концепцию прогнозирования сплайсинга непосредственно из последовательности с использованием нейронной сети и конкретных функций в последовательности, а также рассказывает о работе, проделанной его командой по использованию глубокого обучения для прогнозирования энхансеров в геноме человека с использованием еженедельной контролируемой структуры.

  • 00:20:00 В этом разделе видео спикер обсуждает метод предсказания экспрессии генов с помощью репортерного эксперимента и набора признаков хроматина. Входная матрица, которая состоит из различных меток в тысячах мест в геноме, создается для каждого гена, и близлежащие особенности хроматина проверяются на соответствие результатам звездного поиска, чтобы предсказать экспрессию. Выходной уровень представляет собой двоичный классификатор, а промежуточные представления модели используются для предсказания конкретного положения в последовательности генома. Это более высокое разрешение позволяет более эффективно использовать анализ данных, что достигается путем подгонки определенных кривых в непрерывном сигнале для получения более совершенного представления.

  • 00:25:00 В этом разделе спикер объясняет идею слабо контролируемого обучения для прогнозирования участков активности энхансера с использованием метода, аналогичного обнаружению объектов. При передаче исходного изображения в сверточный фильтр генерируются карты активации, которые используются для создания тепловой карты. Модель требовала только грубой аннотации существования энхансера и предсказывала точное местоположение, используя тот же метод тепловой карты. Результаты кросс-клеточной линии и кросс-хромосомной проверки показали, что модель может точно предсказывать энхансеры звездного поиска. Уточненный набор, полученный путем сбривания нерелевантных областей при построении прогнозов, имеет более высокую долю сайтов начала транскрипции и более консервативен у сотен различных видов. Докладчик сравнил модель с предыдущей современной моделью и провел тематическое исследование в клетках-предшественниках нейронов, обнаружив нейроспецифические энхансеры.

  • 00:30:00 В этом разделе видео на YouTube «Предсказание экспрессии генов» спикер обсуждает проблемы интерпретации наборов биологических данных и важность разработки методологии, учитывающей множество факторов, таких как высокая размерность и шум. Исследования спикера в его лаборатории сосредоточены на объединении различных типов геномных методов, включая геномику отдельных клеток, для разработки методов изучения геномики. Спикер также обсуждает свой интерес к применению глубокого обучения для анализа экспрессии генов и его использованию для извлечения сигналов из зашумленных наборов данных.

  • 00:35:00 В этом разделе спикер обсуждает разработку методологии, которая объединяет мультимодальные наборы данных для изучения лежащей в основе биологии. Они освещают последние предложения в области машинного обучения, которые объединяют визуальные сигналы с обработкой естественного языка для лучшего понимания систем. Затем спикер перечисляет несколько инструментов, разработанных их лабораторией с использованием в основном методологии глубокого обучения, в том числе danq, который количественно определяет функцию последовательностей ДНК, и djgx, который предсказывает экспрессию генов. Докладчик также кратко обсуждает два других инструмента, factory mat и sc fin, которые предсказывают связывание фактора транскрипции, при этом sc fin является расширением factory mat для прогнозирования одиночных клеток.

  • 00:40:00 В этом разделе видео ведущий обсуждает несколько методологий, связанных с использованием моделей глубокого обучения в науках о жизни. В частности, обсуждение охватывает методологию НЛО для прогнозирования вторичной структуры структуры РНК, модель DGX, которая использует глубокие нейронные сети для прогнозирования выражений, и методологию SAILOR для использования глубоких генеративных моделей для изучения атаксических наборов данных отдельных клеток, уделяя особое внимание идее инвариантного представления. обучение. Обсуждение также охватывает использование моделей VAE для изучения геномики и данных об экспрессии РНК, расширение глубоких генеративных моделей для анализа такси и сочетание мультимодальных наборов данных с моделью для изучения общих представлений. Ведущий отмечает, что все разработанные инструменты имеют открытый исходный код и доступны на Github.

  • 00:45:00 В этом разделе лектор обсуждает метод прогнозирования экспрессии генов с использованием подмножества генов. Создавая профили небольшого числа генов (1000) с помощью технологической платформы Luminex, исследователи могут создавать профили с миллионами образцов, что приводит к экономически эффективному методу понимания биологических процессов и открытия лекарств. Остальные 20 000 генов можно вывести с помощью вычислительных методов, таких как глубокие нейронные сети. Вводя 978 пространственных векторов в многоуровневую нейронную сеть с прямой связью восприятия, исследователи могут совместно прогнозировать 20 000 целей в многозадачном режиме и обучать модель с помощью обратного распространения, достигая большей точности, чем линейная регрессия. Набор геоданных, содержащий профили экспрессии со всей коллекцией генов, используется для обучения модели.

  • 00:50:00 В этом разделе лекции преподаватель обсуждает использование генеративных моделей для изучения наборов данных геномики. Поскольку в большинстве наборов геномных данных отсутствуют метки, обучение без учителя часто более актуально. Цель состоит в том, чтобы сопоставить многомерные наборы данных с низкоразмерным встраиванием, что может быть более полезным при выявлении базовых шаблонов. Традиционным методом для этой цели является автоэнкодер, который можно обучить путем сопоставления входных данных с выходными, но у него есть такие проблемы, как склонность к переобучению и невозможность генерировать выборки. В качестве решения инструктор предлагает глубокие генеративные модели, которые моделируют данные с помощью вероятностной структуры со скрытыми переменными. Присваивая априорные значения распределению скрытых переменных, модель может маргинализировать их, чтобы получить маргинальные распределения входных данных.

  • 00:55:00 В этом разделе профессор обсуждает проблемы с данными обучения на основе общей структуры и вводит идею методологии приближенного вывода, в частности популярную, называемую вариационным выводом, которая предлагает вспомогательное распределение распределения z заданного Икс. Затем нижняя граница логарифмического правдоподобия, связанная со вспомогательным распределением, минимизируется за счет баланса между данными и расстоянием ko между распределениями, тем самым гарантируя, что апостериорное распределение достаточно близко к априорному распределению, но при этом имеет достаточную мощность для моделирования наблюдаемых наборов данных. . Это привело к разработке вариационного автоэнкодера, который может моделировать как p(theta)x при заданном z, так и вспомогательное распределение через нейронные сети, обучая их минимизировать вариацию отрицательной логарифмической вероятности. Однако существуют проблемы с вычислением этих ожиданий, которые можно решить с помощью приема репараметризации, особенно при применении гауссовского произведения.

  • 01:00:00 В этом разделе докладчик обсуждает применение моделей автокодировщика вариаций к анализу экспрессии РНК, особенно для наборов данных по астме. Из-за дискретного и количественного характера наборов данных RNA-seq исследователи используют отрицательное биномиальное распределение с нулевым завышением для моделирования количества прочтений. Это приводит к идее использования автоэнкодера в сочетании с этой моделью для создания модели глубокого генерирования. Однако изученные скрытые представления могут отражать экспериментальные артефакты, такие как пакетные эффекты и охват чтения. Чтобы устранить эти эффекты, спикер предлагает структуру, использующую условную генеративную модель, которая минимизирует взаимную информацию между изученными представлениями и лежащими в их основе искажающими факторами.

  • 01:05:00 В этом разделе главный исследователь лаборатории искусственного интеллекта Illumina рассказывает о цели компании — понять все возможные варианты генома человека и сделать секвенирование генома полезным для всех. Основное внимание уделяется интерпретации некодирующих генетических вариаций, которые в настоящее время пропускает большинство клинических секвенирования. Вот почему Illumina вкладывает значительные средства в сети глубокого обучения, чтобы определить модели преобразования последовательности в функцию для интерпретации генома, особенно для сплайсинга. Они разработали SpliceAI, глубокую сверточную нейронную сеть, которая предсказывает, является ли нуклеотид донором сплайсинга, акцептором или ни тем, ни другим, исключительно по последовательности, и может реконструировать структуру интрон-экзон гена по последовательности последовательностей.

  • 01:10:00 В этом разделе ведущий обсуждает трудности прогнозирования соединений сплайсинга экзонов и то, как их глубоко обученная сеть смогла предсказать все 30 экзонов большого гена CFTR с точностью до нуклеотида. Они обнаружили, что детерминанты последовательности дальнего действия являются ключевыми для регуляции сплайсинга, и сеть смогла автоматически получить эти детерминанты из данных о последовательности, включая позиционирование нуклеосом и кластеризацию экзонов. Сеть использовала множество признаков, включая точку ветвления, polyper moon tract, ag и gt, а также интронные и экзонные энхансеры сплайсинга, и компенсировала избыточность локальных мотивов контекстом дальнего действия. Докладчик также показал, как точность сети повышается с увеличением размера контекста и что она работает и с последовательностями, не кодирующими белки.

  • 01:15:00 В этом разделе видео спикер обсуждает применение сплайс-ИИ у пациентов с редкими заболеваниями, в частности у пациента с ранней сердечной недостаточностью, вызванной мутацией одного нуклеотида, которая удлиняет экзон и сдвигает рамку белка. Модель также была проверена на RNA-seq от GTEx, и скорость проверки зависела от оценки сплайсинга AI. Докладчик подчеркивает сложность интерпретации вариантов сплайсинга с более низкой оценкой, поскольку они могут сохранять нормальный сплайсинг, и существует градуированная интерпретация человеческих вариаций, которую необходимо решить. Также было исследовано влияние естественного отбора на варианты с криптической функцией сплайсинга, и было обнаружено, что естественный отбор показывает, что криптические мутации сплайсинга, предсказанные spicy i, по существу эквивалентны мутации со сдвигом рамки считывания или нонсенс-кодирующей мутацией белка. Наконец, модель была применена к большим наборам клинических данных о пациентах с расстройствами аутистического спектра и умственной отсталостью.

  • 01:20:00 В этом разделе лекции спикер рассказывает о своем исследовании по предсказанию того, будут ли определенные мутации иметь скрытую функцию сплайсинга. Они использовали секвенирование РНК для подтверждения предсказанного аберрантного соединения сплайсинга и продемонстрировали примеры того, как эти варианты вызывают сплайсинг в неправильном месте, что приводит к сдвигу рамки считывания и заболеванию. Спикер делает свои инструменты с открытым исходным кодом и приглашает вопросы, а также заявки на исследовательские должности, стажировки и постдоки. Лекция завершается благодарностью спикеру и напоминанием о том, что нужно следить за финальным проектом.
Gene Expression Prediction - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)
Gene Expression Prediction - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.03.20
  • www.youtube.com
6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://youtube...
 

Геномика одиночных клеток - Лекция 10



Одноклеточная геномика - Лекция 10 - Глубокое обучение в науках о жизни (весна 2021 г.)

В этой лекции по геномике одиночных клеток докладчик обсуждает различные методы и технологии, используемые для профилирования отдельных клеток, включая клеточную сортировку и микрофлюидику. Основное внимание уделяется трем конкретным технологиям секвенирования отдельных клеток — Smart-seq, drop-seq и объединенным подходам. Докладчик также описывает процесс анализа транскриптомов отдельных клеток, включая предварительную обработку, визуализацию, кластеризацию и аннотацию, а также использование архитектуры автокодировщика в кластеризации сообщества. Методы глубокого обучения применяются для адаптации домена и стимулированной реконструкции типов клеток. В лекции также обсуждаются проблемы, связанные с анализом данных геномики отдельных клеток, и предлагается использование генеративной модели для масштабируемого и согласованного решения этих проблем.

Вторая часть видео охватывает различные темы, связанные с одноклеточной геномикой и глубоким обучением. Обсуждаемые темы включают вариационный вывод, генеративный процесс для данных секвенирования РНК одной клетки, модель SCVI для смешивания наборов данных типов клеток, CanVAE для распространения меток и реализацию различных алгоритмов глубокого обучения на единой кодовой базе, называемой инструментами CVI. Выступающие также обращаются к проблемам использования апостериорных вероятностей для расчета показателей экспрессии генов и представляют методы точного расчета апостериорных ожиданий и контроля полных показателей обнаружения.

  • 00:00:00 В этом разделе стенограммы «Геномика одиночных клеток — Лекция 10 — Глубокое обучение в науках о жизни (весна 2021 г.)» спикер объясняет, почему необходимо профилирование отдельных клеток. Отдельные клетки в организме сильно отличаются друг от друга и могут варьироваться из-за экологических стимулов, взаимодействий, фазы клеточного цикла и всплесков транскрипции. Профилирование отдельных клеток также фиксирует индивидуальные различия в типах клеток, передаче сигналов и генотипе, которые часто не фиксируются в объемных данных. Докладчик описывает несколько технологий, которые предшествовали текущему взрыву в анализе данных отдельных клеток, но подчеркивает основополагающую технологию амплификации отдельных РНК для захвата транскрипционного разнообразия.

  • 00:05:00 В этом разделе спикер обсуждает различные технологии и методы, используемые для профилирования отдельных клеток, включая сортировку клеток, микрофлюидику и пипетирование. Рассматривая отдельные клетки в разные моменты времени и гены в разных клетках, исследователи могут увидеть, как включаются и выключаются отдельные гены, и как проявляется неоднородность даже в определенные моменты времени. Анализ одиночных клеток представляет собой проблему в различении технических и биологических нулевых значений, но данные, полученные с помощью этих методов, могут резюмировать то, что наблюдается в биологии. В докладе также рассматривается smartseek, в котором используется технология на основе ячеек, dropseek и 10x, которые используют капли, и split-seek, который представляет собой метод штрих-кодирования отдельных ячеек без их разделения.

  • 00:10:00 В этом разделе спикер обсуждает различные методы, используемые в геномике отдельных клеток, включая микрофлюидику и сбор крови, и описывает основной конвейер, используемый в этом процессе. Основное внимание уделяется трем конкретным технологиям — Smart-seq, drop-seq и объединенным подходам. Smart-seq использует сортировку клеток и захватывает до 10 000 генов на клетку, но требует отдельной реакции секвенирования для каждой лунки, что делает ее дорогостоящей. Drop-seq заменяет лунки каплями, захватывая отдельные клетки со штрих-кодами в шариках, и является более экономичным. Наконец, объединенный подход включает в себя захват всех отдельных молекул РНК в одной пробирке, помеченной соответствующей клеточной идентичностью.

  • 00:15:00 В этом разделе спикер объясняет три различных типа технологий секвенирования одноклеточной РНК. Первый — это секвенирование лунок, где каждая отдельная ячейка сортируется в лунку или каплю, и каждая лунка помечается уникальным штрих-кодом, чтобы отличать клетки друг от друга. Второй — 10X Genomics, который включает в себя объединение всех меченых РНК из разных клеток в одну реакцию секвенирования. Третья технология — Split-Seq, при которой клетки перемешиваются между разными лунками с добавлением разных штрих-кодов на каждой итерации, что приводит к уникальной комбинации штрих-кодов для РНК каждой клетки. Это позволяет иметь миллион уникальных адресов для каждой молекулы РНК, указывающих, из какой клетки она произошла.

  • 00:20:00 В этом разделе лектор обсуждает технологии одноклеточного секвенирования, включая клетки в лунках, капли и комбинаторное индексирование. Можно использовать различные типы анализов, такие как профилирование метилирования ДНК одной клетки, секвенирование генома одной клетки и доступность ДНК одной клетки. Другим широко используемым анализом является одноклеточный ATAC-seq, который проверяет доступность хроматина в отдельных клетках. Однако данные из отдельных клеток могут быть скудными, и для того, чтобы говорить о факторах транскрипции, необходимо агрегировать данные из нескольких мест. Лектор также упоминает растущее появление методов мультиомики с одной ячейкой, но предупреждает о вычислительных проблемах при работе с шумом и артефактами. Раздел заканчивается введением к двум гостевым лекциям из Европы и Западного побережья, соответственно, которые обсудят глубокое репрезентативное обучение в геномике одноклеточных.

  • 00:25:00 В этом разделе лекции по геномике одиночных клеток спикер обсудил процесс анализа транскриптомов одиночных клеток, который включает в себя различные этапы предварительной обработки, визуализации, кластеризации и аннотирования. Процесс не контролируется, так как информация доступна только для ансамблей ячеек, а не для отдельных ячеек. Лаборатория докладчика предоставила инструменты и фреймворки, помогающие в этом процессе, в том числе успешный анализ отдельных ячеек в Python, который предоставляет библиотеку инструментов и модулей для выполнения этих шагов. Визуализация и последующий анализ включают изучение скрытого пространства, причем наиболее часто используемым методом является akn graph. Лаборатория спикера также вложила средства в изучение информации о временных рядах в транскриптомах отдельных клеток, чтобы понять процессы клеточной дифференцировки.

  • 00:30:00 В этом разделе спикер обсуждает использование архитектуры автоэнкодера в кластеризации сообщества с использованием глубоких нейронных сетей. Этот подход используется для решения проблемы увеличения размера наборов данных и шума в матрицах клеток, умноженных на гены. Слой узкого места архитектуры автоэнкодера оказался значительным и может изучать биологические процессы. Команда спикера использовала эту информацию для разработки автокодировщика глубокого подсчета, который адаптируется к функции шума, заменяя среднеквадратичную ошибку отрицательным биномиальным распределением. Двумерный график этого подхода в наборе данных PBMC показывает, что слой узкого места распознает группы типов клеток без каких-либо предварительных знаний, что может помочь в использовании биологических знаний. Масштабирование этого метода нейронной сети также определяется как значительное преимущество по сравнению с алгоритмом Kn.

  • 00:35:00 В этом разделе спикер обсуждает потенциал глубокого обучения в геномике и данных отдельных клеток для разработки сверточных фильтров следующего поколения. Он упоминает проект, ориентированный на адаптацию домена, целью которого является перенос определенных параметров в новый, таких как возмущения и лекарственные стимулы в клетках. Они называют этот проект «scgen», который моделирует возмущающие эффекты клеток и пытается предсказать, как будет вести себя новый тип клеток. Кодируя все наборы данных, они надеются получить линеаризованное скрытое пространство, где они могут выполнять арифметические операции и прогнозирование вне выборки. Они также расширили эту модель для более сложной декомпозиции.

  • 00:40:00 В этом разделе спикер обсуждает возможность реконструировать тип клеток с помощью глубокого обучения в геномике одиночных клеток. Цель состоит в том, чтобы реконструировать тип клеток, таких как CD4-положительные Т-клетки, стимулированным способом, исключая их, по сути делая прогноз вне выборки. Прогноз основывается не только на среднем значении, но и на распределении дисперсии. Эта реконструкция выполняется не только для CD4-позитивных Т-клеток, но и для всех различных типов клеток, и изучается клеточно-специфический ответ, что делает его мощным инструментом для геномики. Спикер также рассказывает о SCGen, простой генеративной модели, которая была дополнена скрытым пространственным обучением. Его можно использовать для переноса стиля, упаковав всю информацию о большом образце в модель. Наконец, спикер обсуждает трансферное обучение, которое необходимо при работе с распределенными данными и упрощении доступа к этим картам.

  • 00:45:00 В этом разделе спикер обсуждает применение байесовского моделирования и вариационных автоэнкодеров (VAE) к данным об отдельных клетках, целью которого является понимание различных функций клеток в ткани. Процесс включает диссоциацию ткани на отдельные клетки и запуск единого конвейера секвенирования РНК, в результате чего получается матрица, показывающая, сколько раз транскрипт выравнивается с геном для каждой клетки. Докладчик подчеркивает важность сотрудничества в своей работе с аспирантами, магистрантами и профессорами и представляет несколько тем, которые они затронут на протяжении всей презентации, от важности применения VAE к данным одной ячейки до обсуждения расширений и режимов отказа VAE. .

  • 00:50:00 В этом разделе спикер обсуждает различные задачи и проблемы, связанные с одноклеточной геномикой, включая анализ запросов на уровне клеток и генов. Некоторые из задач включают стратификацию клеток, анализ траекторий, гармонизацию набора данных, перенос аннотаций, нормализацию и тестирование дифференциальной экспрессии. Анализ может быть сложным из-за технического шума, такого как переменная глубина секвенирования и пакетные эффекты, а также из-за многомерного негауссовского характера данных. Для решения этих проблем спикер предлагает использовать модели скрытых переменных и масштабируемые методы для анализа миллионов задействованных выборок.

  • 00:55:00 В этом разделе спикер обсуждает ограничения применения алгоритмов к геномным данным отдельных клеток и необходимость унифицированного предположения о моделировании для всего процесса. Они представляют идею генеративной модели, основанной на методах байесовского моделирования, которую можно использовать для масштабируемого и последовательного анализа данных одной ячейки. Докладчик объясняет, как читать графическую модель и как можно использовать различные узлы и ребра для кодирования вероятностных свойств, таких как независимая репликация и обусловленность. Цель состоит в том, чтобы вычислить апостериорное распределение, которое может быть достигнуто с помощью правила Байеса, но предельное правдоподобие часто трудно поддается обработке, за исключением случаев использования вероятностного PCA.
  • 01:00:00 В этом разделе докладчик обсуждает концепцию вариационного вывода, которая используется в scVI для аппроксимации апостериорного распределения вероятностей наблюдений. Метод включает в себя размещение семейства распределений и нахождение точки q, которая минимизирует K-расхождение в апостериорную сторону, что по сути является задачей оптимизации. Используя определение условной плотности, проблема оптимизации становится решаемой, а вариационный вывод становится привлекательным методом. Докладчик также представляет расширение вероятностного PCA, в котором нейронная сеть может использоваться для определения среднего значения и дисперсии распределения Гаусса. Однако использование вариационного вывода в VAE требует изучения параметров модели путем максимизации доказательств, что может быть достигнуто путем связывания всех параметров вариационного апостериорного анализа с использованием двух нейронных сетей. Наконец, спикер обсуждает scVI, который включает технические эффекты в графическую модель для подсчета экспрессии генов для данной клетки и гена.

  • 01:05:00 В этом разделе спикер дает подробное объяснение процесса генерации данных секвенирования РНК одиночных клеток с использованием условного вариационного автоэнкодера (CVA), а также объясняет, как эту модель можно использовать для различных задач, таких как стратификация, гармонизация, нормализация, вменение и дифференциальное выражение. Докладчик подчеркивает, как этот подход может обрабатывать пакетные эффекты и улучшает масштабируемость. Докладчик также демонстрирует полезность модели, показывая, что она может восстанавливать иерархические кластеры и градиенты развития во вложениях и может обрабатывать пакетные эффекты в случаях с серьезными пакетными эффектами и большим количеством пакетов.

  • 01:10:00 В этом разделе докладчик обсуждает проблему смешивания наборов данных о типах ячеек, при этом сохраняя способность различать типы ячеек. Они представляют модель SCVI, которая может смешивать наборы данных, не теряя возможности видеть типы ячеек. Докладчик также рассказывает об интересном использовании латентной переменной Рао для анализа дифференциальных выражений. Команда сравнила ранжирование генов с помощью SCVI и других методов технологии микрочипов и обнаружила, что SCVI работает так же или даже немного лучше. Наконец, докладчик представляет модель SCVI++, которая представляет собой расширение SCVI, используемое для целей аннотирования и позволяющее переносить метки из одного набора данных в другой. Модель SCVI++ основана на смешанной модели, изменяет априорное значение z и использует нейронную сеть для назначения типа ячейки.

  • 01:15:00 В этом разделе спикер обсуждает использование структуры под названием CanVAE в случае использования, когда имеется подмножество Т-клеток, но их типы субклеток не могут быть идентифицированы на основе некоторых маркерных генов с низкой экспрессией. . Используя CanVAE для распространения меток, он становится полуконтролируемым методом обучения, который работает лучше, чем просто кластеризация или классификация, поскольку использует знания обо всех ячейках. Кроме того, спикер представляет проблему выделения непрерывной информации или ковариатов из скрытого пространства, с которой трудно справиться с помощью нейронных сетей, используемых для параметризации вариационного распределения. Они вводят ограничение HC VAES, метод, который обеспечивает соблюдение заявлений о независимости в агрегированном апостериорном анализе, что приводит к более слабым нижним границам с более подходящими свойствами. Наконец, они обсуждают дифференциальное выражение и то, как его можно рассматривать как проблему выбора байесовской модели, где отношения правдоподобия можно использовать в качестве порога для определения дифференциального выражения с использованием структуры CanVAE.

  • 01:20:00 В этом разделе спикер обсуждает проблемы и ограничения, связанные с использованием апостериорных вероятностей для расчета показателей экспрессии генов. Подход может быть предвзятым, если апостериорное значение неверно, и многие люди предпочитают контролировать показатель частоты ложных открытий, а не базовые факторы. Чтобы решить эту проблему, спикер предлагает метод точного расчета апостериорных ожиданий с использованием выборок из вариационного распределения. Они вводят разные верхние границы, которые завышают дисперсию, что более полезно для важных выборок, чем ее недооценка. Кроме того, спикер представляет процедуру объединения нескольких предложений вместе, чтобы контролировать полную скорость обнаружения с помощью CVI. Документ, связанный с этой работой, также включает теоретический анализ, который количественно определяет ошибку для важного отбора проб с использованием границ концентрации.

  • 01:25:00 В этом разделе спикер обсуждает реализацию различных алгоритмов глубокого обучения на единой кодовой базе, называемой инструментами CVI, которая содержит инструменты для анализа данных омики отдельных ячеек и интерфейс к вероятностным языкам программирования. База кода содержит реализацию от 10 до 13 генеративных моделей, и пользователи могут легко изменить условный вариационный автоэнкодер в одной строке кода или создать новый. Спикер также упоминает обзорную статью, в которой обсуждается влияние вариационных автокодировщиков и генеративно-состязательных сетей на молекулярную биологию.
Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Spring 2021)
Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.03.28
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecturers: Fabian Theis, Romain LopezDeep Learning in the Life Sciences / Computa...
 

Уменьшение размерности - Лекция 11



Уменьшение размерности — Лекция 11 — Глубокое обучение в науках о жизни (весна 2021 г.)

В видеолекциях по глубокому обучению в науках о жизни исследуются методы уменьшения размерности для кластеризации и классификации при анализе данных отдельных ячеек. В лекциях проводится различие между контролируемым и неконтролируемым обучением и исследуется использование статистических схем проверки гипотез для оценки дифференциальной экспрессии генов. В лекции представлена концепция многообразного обучения с использованием анализа главных компонентов, разложения по собственным и разложения по сингулярным значениям для уменьшения линейной размерности, а также обсуждаются методы t-распределенного стохастического вложения соседей и распределенного стохастического встраивания соседей для сохранения данных кластеризации. Спикер также обсуждает применение неотрицательной матричной факторизации к геномным данным и интеграцию одноклеточных и мультиомных наборов данных. Конечной целью этих методов является переопределение типов и идентичности клеток беспристрастным и количественным способом.

Во второй части обсуждается несколько тем, связанных с уменьшением размерности, в частности, его применением в науках о жизни. Интегративная неотрицательная матричная факторизация (iNMF) используется для связывания транскриптомных и эпигеномных профилей, чтобы лучше понять клеточную идентичность в различных контекстах. В лекции также обсуждаются преимущества использования мини-пакетного подхода в глубоком обучении, особенно для больших наборов данных, и то, как можно использовать онлайн-алгоритмы для улучшения методов уменьшения размерности для анализа больших наборов данных. Кроме того, алгоритм введен для интеграции различных типов данных, таких как данные RNA-seq и ATAC-seq. Наконец, спикер выражает готовность служить наставником для студентов, заинтересованных в этой области. В целом, лекция была информативной и хорошо принята.

  • 00:00:00 В этом разделе видеолекции продолжают обсуждение анализа данных с одной ячейкой и фокусируются на методах уменьшения размерности для кластеризации и классификации. Матрицы экспрессии генов, которые измеряют тысячи генов в тысячах экспериментов, могут использоваться для кластеризации генов или клеток или для классификации типов клеток на основе экспрессии их генов. В лекциях проводится различие между контролируемым и неконтролируемым обучением и рассматривается использование статистических схем проверки гипотез для оценки вероятности дифференциальной экспрессии генов. В видео также упоминается о необходимости учитывать базовое распределение данных и находить наиболее подходящее соответствие для наблюдаемого распределения в наборе данных.

  • 00:05:00 В этом разделе лектор обсуждает различные причины уменьшения размерности как в контролируемых, так и в неконтролируемых приложениях для обучения. К ним относятся визуализация данных, сокращение данных, классификация данных и уменьшение шума в наборах данных. Лектор объясняет, что уменьшение размерности может помочь понять факторы, влияющие на вариации, различать разные классы и выявлять интересные подмножества данных. Кроме того, лектор описывает, как уменьшение размерности включает в себя отображение данных высокой размерности на многообразие меньшей размерности.

  • 00:10:00 В этом разделе лекции вводится концепция многообразного обучения как способ понять истинную размерность данных высокой размерности, что позволяет использовать представление с меньшей размерностью. Многомерное обучение включает в себя получение многомерных данных и понимание истинной размерности данных, которые могут быть не исследованы набором данных. Уменьшение линейной размерности с использованием анализа главных компонентов (PCA) обсуждается как один из наиболее распространенных способов изучения этих многообразий. PCA включает проецирование данных в набор линейных координат, что представляет собой преобразование исходного пространства. Собственные векторы исходных данных используются в PCA для нахождения векторов, инвариантных к преобразованиям.

  • 00:15:00 В этом разделе лекции о глубоком обучении в науках о жизни вводится понятие собственного разложения как способ разложить большую матрицу данных на ее основные векторы вариации. Для симметричных матриц собственные векторы ортогональны, а для вещественных симметричных матриц собственные векторы ортогональны и вещественны. Собственная декомпозиция отражает наиболее естественное уменьшение линейной размерности набора данных, а диагональная матрица представляет влияние независимых главных компонентов. Для несимметричных матриц разложение по сингулярным числам используется для нахождения собственных векторов генов и условий и их комбинаций, которые лучше всего объясняют данные.

  • 00:20:00 В этом разделе лектор обсуждает концепцию разложения по сингулярным числам (SVD) и то, как ее можно использовать для уменьшения линейной размерности. SVD — это способ разложения матрицы на ряд операций, включая два поворота и масштабирование, чтобы найти наиболее важные измерения вариации данных. Полученную матрицу можно использовать для вычисления оптимальной аппроксимации исходных данных низкого ранга, что позволяет представить данные в пространстве меньшей размерности. Это полезно для линейного уменьшения размерности, возможности которого ограничены, но нелинейное уменьшение размерности может устранить некоторые из этих ограничений. Анализ главных компонент — это один из методов уменьшения линейной размерности, который фиксирует основные линейные размеры вариации данных.

  • 00:25:00 В этом разделе метод t-распределенного стохастического встраивания соседей (t-SNE) обсуждается как метод кластеризации данных для уменьшения размерности при сохранении расстояний в различных масштабах. Вместо того, чтобы полагаться на PCA, который одинаково обрабатывает все расстояния, t-SNE отображает многомерное пространство в более низкое измерение, сохраняя при этом близость похожих точек данных в новом пространстве. Применяя определенную полосу пропускания, отдельные клетки с похожими паттернами экспрессии в пространстве большой размерности можно сделать проксимальными друг к другу в пространстве меньшей размерности, сводя к минимуму расхождение KL между обоими пространствами. Постепенные методы можно использовать для поиска вложения, которое минимизирует функцию стоимости расхождения KL между двумя пространствами.

  • 00:30:00 В этом разделе спикер обсуждает, как распределенное стохастическое встраивание соседей (d-SNE) сохраняет локальную структуру подобия данных путем поиска по градиенту и оптимизации координат в пространстве меньшей размерности. Подход представляет собой нелинейное вложение, которое сохраняет локальные расстояния вместо глобальных расстояний и штрафует, когда точки разнесены, но соседние точки расположены ближе друг к другу. Этот метод обычно используется для визуализации наборов данных с одной ячейкой, и количество рассматриваемых соседей и размер исходных кластеров могут влиять на качество встраивания.

  • 00:35:00 В этом разделе спикер обсуждает концепцию низкоразмерной проекции данных с упором на изучение конкретных кластеров типов клеток для анализа данных отдельных ячеек. Они говорят о методе, который позволяет совместно проецировать несколько типов данных omics в набор данных более низкого измерения, в котором они могут быть сопоставлены друг с другом. Докладчик представляет несколько разработанных им подходов, в том числе подход LIGER, использующий интегративную неотрицательную матричную факторизацию, и метод масштабирования алгоритма INMF с помощью онлайн-обучения. Доклад завершается обсуждением текущих проектов по интеграции наборов данных с частично перекрывающимися функциями и объединению вариационных автокодировщиков и генеративных состязательных сетей для создания профилей РНК отдельных клеток.

  • 00:40:00 В этом разделе докладчик обсуждает различные типы измерений, которые можно проводить в отдельных клетках, включая экспрессию генов, модификацию гистонов, связывание факторов транскрипции, доступность хроматина, метилирование ДНК и конформацию хроматина. Они также подчеркивают важность знания пространственных координат и сопоставления молекулярной информации с тканевым контекстом. Докладчик упоминает о проблеме продвижения к количественному определению клеточной идентичности, где молекулярная и другие типы информации с разрешением одной клетки используются для беспристрастного переопределения типов клеток. Чтобы решить эти проблемы, спикер разработал инструмент под названием liger, основанный на интегративной неотрицательной матричной факторизации для выполнения интегративного анализа отдельных ячеек в наборах данных различных измерений. Они также обсуждают преимущества подхода «разложения на части» неотрицательной матричной факторизации.

  • 00:45:00 В этом разделе стенограммы обсуждается применение неотрицательной матричной факторизации (NMF) к геномным данным, что позволяет интерпретировать факторы NMF как метагены, которые группируют совместно экспрессируемые или совместно регулируемые гены. Эти факторы могут представлять собой биологические пути или гены, специфичные для типа клеток, а также захватывать технические факторы. Группируя гены в метагены и суммируя экспрессию клеток с использованием этих метагенов, NMF позволяет количественно определить клеточную идентичность и идентифицировать типы и состояния клеток в нескольких наборах данных. Интерпретируемость метагенов также позволяет идентифицировать технические сигналы и их деконволюцию от биологических сигналов в наборах данных.

  • 00:50:00 В этом разделе спикер обсуждает, как они математически решили задачу оптимизации пункта f и вывели новый алгоритм, основанный на спуске по блочным координатам, который имеет некоторые существенные преимущества и обеспечивает гарантию сходимости. Они используют эффективный алгоритм для решения неотрицательной задачи наименьших квадратов и выполняют последующие шаги для повышения общей надежности анализа. Затем спикер приводит пример того, как они интегрировали данные секвенирования РНК отдельных клеток от доноров-людей, чтобы сгруппировать клетки по типу клеток, а не по донору, определяя основные типы клеток субстанции и понимание того, чем клетки похожи и различаются между собой. доноры человека.

  • 00:55:00 В этом разделе спикер обсуждает различные приложения интеграции данных одной ячейки. Одним из примеров является интеграция пространственных наборов данных и наборов данных по отдельным клеткам, которые могут помочь определить пространственное расположение типов клеток в ткани и дать представление об архитектуре ткани. Спикер приводит пример использования набора данных из мозга мыши для идентификации двух подтипов астроцитов с разным пространственным расположением, что дает представление о том, как нейронные цепи работают вместе. Другим важным приложением является интеграция мультиомных наборов данных из отдельных ячеек, что является сложной задачей, поскольку наборы данных не имеют общих экземпляров или признаков. Докладчик объясняет стратегию связывания этих наборов данных путем преобразования данных эпигенома в функции на уровне генов и их корреляции с экспрессией генов.
  • 01:00:00 В этом разделе докладчик обсуждает, как можно использовать интегративную неотрицательную матричную факторизацию (iNMF) для связывания транскриптомных и эпигеномных профилей, чтобы лучше понять клеточную идентичность в разных контекстах. Используя данные из коры головного мозга мыши и костного мозга человека, докладчик демонстрирует, как связывание данных об экспрессии генов и данных о метилировании может обеспечить более четкое понимание типов клеток и даже идентифицировать типы клеток с неоднозначными метками. Кроме того, спикер объясняет, как можно использовать алгоритм онлайн-обучения для решения проблемы iNMF в больших и больших наборах данных путем постепенного обновления вычислений по мере поступления новых данных в потоковом режиме.

  • 01:05:00 В этом разделе лектор обсуждает преимущества использования мини-пакетного подхода в глубоком обучении, особенно для больших наборов данных. Этот подход позволяет итеративно обновлять веса и не хранить весь набор данных в памяти, что приводит к более быстрой сходимости. Лектор описывает три сценария, в которых мини-пакеты особенно полезны, главное преимущество которых заключается в возможности включать новые наборы данных по мере их поступления без необходимости повторного анализа каких-либо предыдущих наборов данных. Лектор также обсуждает компьютерные науки, лежащие в основе этого подхода, используя существующую теорию из статьи об онлайн-изучении словаря для оптимизации суррогатной функции, которая асимптотически сходится к тому же решению с точки зрения параметров. В конечном счете, этот подход хорошо работает на практике и сходится намного быстрее из-за избыточности каждой дополнительной ячейки в большом наборе данных.

  • 01:10:00 В этом разделе спикер обсуждает преимущества использования онлайн-алгоритмов в методах уменьшения размерности для анализа больших наборов данных. Докладчик представляет свой подход в сравнении с другими широко используемыми методами, показывая, что он требует значительно меньшего использования памяти и более экономичен по времени. Они демонстрируют возможность итеративного уточнения метода с использованием данных, сгенерированных сетью переписи клеток Brain Initiative, где они включают новые наборы данных в факторизацию с использованием онлайн-алгоритма. Они также показывают, как алгоритм inmf может быть расширен на случай, когда функции частично перекрываются, что позволяет использовать как общие, так и не общие функции в наборах данных, что является более удовлетворительным подходом, чем ранее использовавшиеся методы, которые заставляли функции выравниваться.

  • 01:15:00 В этом разделе спикер объясняет, как можно использовать алгоритм для использования всех функций, присутствующих в наборе данных, даже если некоторые функции присутствуют только в одном из источников данных. Алгоритм можно использовать для интеграции различных типов данных, таких как данные RNA-seq и ATAC-seq, чтобы получить более полную картину экспрессии генов, что может повысить способность разрешать кластеры или клеточные профили. Докладчик также представляет новый подход под названием «Мичиган», который сочетает в себе сильные стороны вариационных автокодировщиков (VAE) и генеративно-состязательных сетей (GAN) для создания реалистичных профилей клеток на основе данных об экспрессии отдельных клеток. Алгоритм использует производительность распутывания VAE и производительность генерации GAN для создания мощного подхода к манипулированию и прогнозированию изменений в идентичности ячеек.

  • 01:20:00 В этом разделе спикер выражает готовность служить наставником для студентов, заинтересованных в данной области, и благодарит аудиторию за посещение лекции. Модератор проводит быстрый опрос, чтобы проверить, усвоили ли слушатели что-то, и аудитория отвечает положительно. В целом лекция прошла хорошо и информативно.
Dimensionality Reduction - Lecture 11 - Deep Learning in Life Sciences (Spring 2021)
Dimensionality Reduction - Lecture 11 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.03.31
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest Lecture: Joshua WelchDeep Learning in the Life Sciences / Computational Systems B...
 

Рассечение цепи болезни GWAS - Лекция 12


Анализ схемы заболеваний GWAS - Лекция 12 - Глубокое обучение в науках о жизни (весна 2021 г.)

Это видео о вскрытии цепи болезни GWAS охватывает основы генетики человека, вычислительные проблемы для интерпретации и различные типы генетических вариаций, изучаемых в полногеномных ассоциативных исследованиях (GWAS). В видео также рассматриваются такие методологии, как менделевское картирование, анализ сцепления и идентификация однонуклеотидных полиморфизмов (SNP), связанных с заболеваниями. Кроме того, докладчик обсуждает использование статистики хи-квадрат, графиков Манхэттена и графиков QQ для визуализации областей генома, в значительной степени связанных с фенотипами заболеваний. Видео также включает тематическое исследование гена FTO и того, как он был всесторонне проанализирован на предмет его механистического значения при ожирении. Также обсуждаются проблемы понимания генетической связи с ожирением и шаги для решения этой проблемы.

В лекции обсуждаются проблемы изучения влияния геномных вариаций на здоровье человека и важность понимания того, как мутации влияют на разные типы клеток. Докладчик описывает свой подход к глубокому обучению для прогнозирования влияния геномной последовательности и вариаций, особенно в отношении прогнозирования связывания факторов транскрипции и организации хроматина. Они также описывают свою оценку этих прогнозов с использованием глубоко секвенированных наборов геномных данных для прогнозирования чувствительности ДНК и QTL гистоновых меток, а также использование ими глубокого обучения для прогнозирования влияния мутаций на экспрессию генов и заболевания человека, такие как аутизм. Наконец, они обсуждают свой непредвзятый анализ ранее известных наборов генов и использование библиотеки моделей последовательностей глубокого обучения.

  • 00:00:00 В этом разделе видео спикер обсуждает основы генетики человека и вычислительные проблемы интерпретации. Они объясняют, как генетические вариации выявляются с помощью полногеномных ассоциативных исследований (GWAS) и обнаруживаются отдельные генетические варианты, которые способствуют возникновению заболеваний. Лекция также охватывает генетический поиск генов и использование сцепления и GWAS для распознавания мест, связанных с заболеваниями. Также обсуждаются проблемы точного картирования, тематических исследований и инструментов машинного обучения для интерпретации вариантов, включая глубоководные варианты и глубоководные. Кратко освещается история генетики человека и моделей наследования, начиная с Древней Греции и продолжаясь до разработки Дарвином концепции трансмутации и естественного отбора.

  • 00:05:00 В этом разделе спикер обсуждает примирение между дискретным наследованием Менделя и наблюдаемой непрерывной изменчивостью фенотипических признаков. Концепция частичного наследования, введенная Менделем, показала, что существуют дискретные единицы наследования, называемые генами, которые могут быть доминантными или рецессивными. Однако биометрические непрерывные вариации, наблюдаемые у людей, нельзя было объяснить менделевским наследованием. Это изменилось после работы статистиков в начале 1900-х годов, которые показали, что непрерывную изменчивость можно объяснить несколькими менделевскими локусами. Это стало основой для менделевского картирования признаков, которое в конечном итоге привело к пониманию того, что хромосомы и ДНК несут генетический материал. Кроме того, спикер обсуждает, как отклонение от правила независимого ассортимента стало рабочей лошадкой генетики человека и как черты, которые физически близки в хромосоме, имеют тенденцию к конаследованию.

  • 00:10:00 В этом разделе спикер обсуждает традиционный подход к генетическому картированию, известный как менделевское картирование, в котором используется сцепление и частота сегрегации различных признаков для отслеживания областей человеческого генома, в которых закодированы разные признаки. Однако этот подход эффективен только для признаков с сильным эффектом. Затем спикер рассказывает о революции 2000-х годов, которая привела к возможности отображать вариации слабых эффектов, которые ранее были недоступны для анализа с использованием традиционных методов связи. Это было достигнуто с помощью полногеномных ассоциативных исследований (GWAS), в которых изучается каждый отдельный SNP в геноме и то, как они меняются при различных заболеваниях. Далее докладчик объясняет типы вариаций, исследованных в GWAS, включая SNP, вставки, SDR, структурные варианты и варианты числа копий, а также то, как эти вариации могут влиять на функциональность генома.

  • 00:15:00 В этом разделе спикер представляет рабочую лошадку полногеномных ассоциативных исследований (GWAS), а именно однонуклеотидные полиморфизмы (SNP), которые являются наиболее распространенным типом генетической изменчивости. SNP имеют два аллеля, и каждый вариант был сгруппирован и встроен в базу данных под названием dbSNP. Спикер также обсуждает другие типы вариаций, такие как стенография и повторы, вставки и удаления и многое другое. Кроме того, объясняется разница между обычными и редкими вариантами, поскольку редкие варианты позволяют исследовать вариации с сильным эффектом. Особо подчеркивается проблема поиска генов болезней, учитывая, что у людей есть две копии их генома, которые состоят из 23 хромосом, 20 000 генов, 3 миллиардов букв ДНК и миллионов полиморфных участков.

  • 00:20:00 В этом разделе лектор объясняет разницу между распространенными и редкими вариантами в генетике и их связь с полногеномными ассоциативными исследованиями и менделевским анализом. Редкие варианты имеют большой эффект и в основном обнаруживаются при менделевском анализе, в то время как распространенные варианты имеют небольшой эффект и могут быть обнаружены в исследованиях ассоциаций всего генома. Кроме того, анализ сцепления может помочь точно определить местоположение гена, вызывающего заболевание, путем изучения маркеров на хромосомах и наблюдения за тем, какие из них совместно наследуются с фенотипом в популяции.

  • 00:25:00 В этом разделе спикер представляет полногеномные ассоциативные исследования, в которых участвуют тысячи людей, примерно 50 % больных и 50 % контрольных, для изучения таких состояний, как шизофрения, ожирение или диабет. Эти исследования, как правило, преувеличивают количество случаев для увеличения мощности, а технология генотипирования используется из-за ее низкой стоимости по сравнению с секвенированием. Докладчик подчеркивает важность контроля качества как образцов, так и SNP для обеспечения точности результатов. Кроме того, спикер объясняет концепцию сертификации населения и необходимость устранения родства между людьми в исследовании.

  • 00:30:00 В этом разделе спикер объясняет, как использовать статистику хи-квадрат и распределение p-значения для обнаружения фактических сигналов болезни в полногеномном ассоциативном исследовании (GWAS). Используя таблицу непредвиденных обстоятельств, которая показывает, сколько случаев и контролей несут аллель каждого SNP, докладчик ищет отклонения в частоте аллелей между случаями и контролем. Статистика хи-квадрат измеряет величину отклонения, а значение p используется для отклонения гипотезы о том, что аллель не влияет на фенотип. Затем спикер объясняет, как построить p-значения на манхэттенском графике, чтобы визуализировать области генома, которые в значительной степени связаны с фенотипом заболевания.

  • 00:35:00 В этом разделе докладчик обсуждает использование графика Манхэттена, который отображает минус log 10 p-значения случайной связи вероятности SNP с заболеванием, а также графика QQ, который сравнивает p-значения миллионы SNP, которые были протестированы. Затем следует функциональный анализ для изучения роли SNP другими способами. Полногеномный уровень значимости установлен на уровне 5 умножить на 10 в степени минус 8, что было установлено на основе предварительных расчетов 20 лет назад. Однако точное картирование может быть затруднено из-за ограниченной генетической изменчивости человеческой популяции, у которой не было достаточно времени для независимой сегрегации всех SNP.

  • 00:40:00 В этом разделе лектор обсуждает, как варианты наследуются блоками, а не изолированно, то есть, если один вариант в блоке имеет определенный аллель, то каждый вариант в этом блоке имеет этот же аллель. После обнаружения ассоциации в регионе следующим шагом является определение того, какой однонуклеотидный полиморфизм (SNP) отвечает за ассоциацию. Исследование болезни Крона обнаружило область, которая была обнаружена как с помощью анализа сцепления, так и с помощью полногеномных ассоциативных исследований, в то время как другая область была обнаружена только последними. Лектор объясняет частоту и размер эффекта аллеля риска каждого региона.

  • 00:45:00 В этом разделе спикер обсуждает редкость защитных аллелей и трудности их обнаружения с помощью исследований случай-контроль и когортных исследований. Они объясняют, что более редкие аллели, снижающие риск, с меньшей вероятностью будут обнаружены в исследованиях, которые значительно обогащают случаи, а семейные родословные, необходимые для таких исследований, неосуществимы. Докладчик также объясняет разницу между распространенными вариантами, которые фиксирует GWAS, и редкими аллелями с сильным эффектом, которые фиксирует анализ сцепления. Раздел завершается кратким обзором гаплотипов и горячих точек рекомбинации, включая их вариации в популяциях и важность prdm9 в управлении событиями рекомбинации. Наконец, спикер представляет исследование гена FTO, который оказался самым сильным ударом GWAS в отношении ожирения или индекса массы тела и был всесторонне проанализирован на предмет его механистического значения.

  • 00:50:00 В этом разделе лекции спикер обсуждает проблемы понимания генетической связи с ожирением и намечает шаги для решения этой проблемы. Первым шагом является определение соответствующей ткани и типа клеток, что достигается путем изучения эпигеномных аннотаций различных тканей. Второй шаг — найти нижележащий ген-мишень, что осложняется дальним связыванием и образованием петель. Докладчик объясняет, что измерение экспрессии различных генов у гомозиготных лиц с высоким риском и без риска показывает, что сам ген FTO не показывает никаких изменений в экспрессии, а гены IRX3 и IRX5, расположенные далеко от FTO, вероятно, являются генами-мишенями.

  • 00:55:00 В этом разделе спикер описывает, как им удалось идентифицировать гены-мишени для некодирующих локусов, связанных с ожирением, и понять причинный SNP, используя анализ регуляторных мотивов и эволюционную консервацию. Нарушив вышестоящий регулятор и SNP, они смогли показать эпистаз между ними и то, как он влияет на репрессию и дерепрессию. Докладчик объясняет, что нарушение мотива уменьшает репрессию, а энхансеры становятся сверхактивными, что приводит к сверхактивации rx3 и rx5 на уровне экспрессии генов, вызывая переход от рассеяния энергии к хранению. Построив модель и отредактировав геном, они смогли перейти от области ассоциации, о которой они ничего не знали, к пониманию биологического процесса и целевых генов и вмешательству, чтобы изменить схему.

  • 01:00:00 В этом разделе лекции спикер обсуждает проблему изучения влияния многочисленных вариаций генома, существующих у людей, и важность лучшего понимания того, как геномная последовательность и мутации влияют на разные типы клеток и здоровье человека. Спикер объясняет, что они используют подход машинного обучения для использования геномной последовательности и больших объемов функциональных геномных данных для создания моделей, которые могут предсказывать влияние геномной последовательности и вариаций. В частности, спикер обсуждает их работу по предсказанию связывания отдельных факторов транскрипции и организации хроматина на основе геномных последовательностей. Они стремятся разработать систематический метод прогнозирования воздействия 120 000 вариаций генома за раз с использованием методов глубокого обучения.
  • 01:05:00 В этом разделе спикер обсуждает свое решение использовать модель глубокой сверточной сети для построения модели регуляторной последовательности, которая удовлетворяет их трем требованиям: возможность использовать большие последовательности и контекст длинной последовательности, возможность моделировать нелинейный взаимодействия между различными областями последовательности, а также возможность делиться изученными функциями последовательности во всех различных задачах. Докладчик объясняет, что модель изучает различные уровни функций последовательности на более низких уровнях и изучает образцы последовательности более высокого порядка на более высоких уровнях. Они также подчеркивают важность сохранения пространственной информации при прогнозировании конкретных позиций. Модель можно использовать для прогнозирования эффекта любого геномного варианта путем предоставления модели двух последовательностей, которые отличаются только одним вариантом, и сравнения прогнозов для каждого аллеля.

  • 01:10:00 В этом разделе спикер описывает, как они оценивали точность своих предсказаний для вариантов, влияющих на чувствительность ДНК на уровне хроматина. Они проанализировали глубоко секвенированные наборы геномных данных и искали гетерозиготные варианты, в которых один аллель был представлен значительно больше, чем другой, что указывало на потенциальные различия в чувствительности ДНК. Они обучили модель прогнозировать чувствительность ДНК как к эталонным, так и к альтернативным аллелям и сравнили прогнозы с экспериментальными результатами. Они обнаружили, что модель имеет более высокую точность в предсказании вариантов с более сильными различиями между эталонным и альтернативным аллелями и более уверенно предсказывает варианты. Оценка была устойчива к ложным срабатываниям, что позволяло им отфильтровывать истинные срабатывания. Они также применили этот подход к QTL гистоновых меток и обнаружили, что могут предсказать аллель, связанный с более высокими гистоновыми метками.

  • 01:15:00 В этом разделе спикер обсуждает, как они могут использовать глубокое обучение для прогнозирования влияния вариантов на молекулярном уровне на экспрессию генов. Они сталкиваются с такими проблемами, как необходимость учитывать более крупные нормативные последовательности и наличие меньшего количества доступных обучающих выборок. Они решают эти проблемы, просматривая широкую область размером 40 килобайт и применяя предварительно обученную модель для прогнозирования в разных позициях. Затем они обучают гладкую картину вклада каждого предсказания профиля экспрессии гена в экспрессию гена, используя регуляризованную линейную модель. Благодаря этому подходу они могут предсказать влияние различных мутаций и то, как они могут вызвать одно и то же заболевание с помощью аналогичного механизма. Хотя проблема предсказания экспрессии генов далека от решения, они предприняли первую попытку ее решения.

  • 01:20:00 В этом разделе спикер обсуждает использование глубокого обучения для прогнозирования влияния вариантов генома на такие заболевания человека, как аутизм. Они объясняют, что некодирующие мутации было трудно обнаружить и приписать болезни. Однако, используя модели для прогнозирования влияния мутаций на профили хроматина и профили связывания белков, они смогли сравнить мутации людей с аутизмом с их здоровыми братьями и сестрами. Исследователи обнаружили более сильное влияние на гены, связанные с аутизмом, у людей с аутизмом по сравнению с их здоровыми братьями и сестрами, что подтверждает вклад некодирующих мутаций в развитие болезни.

  • 01:25:00 В этом разделе спикер обсуждает беспристрастный анализ с использованием ранее известных наборов генов для определения вклада некодирующих мутаций. Они используют анализ на основе сетевого соседства, чтобы найти более сильные эффекты в проблемных мутациях по сравнению с мутациями братьев и сестер в генной сети. Этот анализ показывает конвергенцию механизмов, на которые указывают кодирующие и некодирующие мутации, с генами, сгруппированными в группы, связанные с синапсами и связанные с регуляцией хроматина, которые ранее были указаны в кодирующих мутациях, обнаруженных у людей с аутизмом. Докладчик также кратко упоминает библиотеку моделей последовательностей глубокого обучения, которую можно использовать для обучения и оценки моделей последовательностей.
Disease Circuitry Dissection GWAS - Lecture 12 - Deep Learning in Life Science (Spring 2021)
Disease Circuitry Dissection GWAS - Lecture 12 - Deep Learning in Life Science (Spring 2021)
  • 2021.04.08
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...
 

Механизм GWAS - Лекция 13



Механизм GWAS - Лекция 13 - Глубокое обучение в науках о жизни (весна 2021 г.)

В лекции о механизме GWAS в серии «Глубокое обучение в науках о жизни» рассматриваются различные методы понимания функции некодирующих генетических вариантов, участвующих в сложных признаках. В лекции обсуждается использование эпигеномных аннотаций и моделей глубокого обучения для определения глобальных свойств в генетически связанных регионах для конкретного заболевания. Он также охватывает обогащение различных тканей и энхансеров и объясняет, как их можно превратить в эмпирические априорные значения для прогнозирования причинного SNP в локусе. В лекции также обсуждается использование промежуточных молекулярных фенотипов, таких как экспрессия генов и метилирование, для изучения причинно-следственных связей в исследованиях полногеномной ассоциации и то, как комбинировать личные компоненты генотипа и экспрессии для объяснения фенотипической переменной экспрессии. Наконец, в лекции рассматривается использование методов причинного вывода для определения влияния изменения переменной на переменные результата, чтобы определить причинно-следственные и антипричинные пути.

В этом видео лектор обсуждает различные методы определения причинно-следственных связей в геномных исследованиях. Они охватывают концепцию d-разделения и использование естественной рандомизации в генетике как способа установления причинно-следственных связей. Лектор также обсуждает менделевскую рандомизацию и модель квази-вывода Рубина, а также метод потенциального результата для причинно-следственного вывода. Они касаются проблем условного исчисления и корректировки погрешностей в обсервационных исследованиях. Спикер также подчеркивает важность использования множественных ортогональных доказательств для разработки надежного причинно-следственного алгоритма. Кроме того, они объясняют использование генетики для изменения экспрессии генов и изучения сетей, а также вводят условие инвариантности как способ выявления причинно-следственных структур в данных. В лекции представлен всесторонний обзор различных методов и инструментов, используемых в геномных исследованиях для установления причинно-следственных связей.

  • 00:00:00 В этом разделе лекция фокусируется на расширении обсуждения от предыдущей сессии до понимания глобальных переменных, таких как эпигеномное обогащение, eQTL, а также изучение посредничества и причинно-следственных связей с приглашенным лектором профессором Йонг Джин Пак из Британского университета. Колумбия. В лекции планируется кратко рассмотреть тонкое картирование и механистическое рассечение локуса, а затем различные методы глобального анализа обогащения с использованием эпигеномики, чтобы вывести ткани регуляторов действия, типы клеток и гены-мишени. Кроме того, в лекции будут рассмотрены линейные смешанные модели и оценки полигенного риска, используемые в полногеномных ассоциативных исследованиях для прогнозирования фенотипов, а также наследуемость для перехода к остальным темам лекции в четверг. Конечная цель состоит в том, чтобы понять функциональные движущие силы и механистические основы каждого пика на манхэттенских графиках одновременно в тысячах генетических локусов.

  • 00:05:00 В этом разделе лекции инструктор обсуждает проблему использования генетики для понимания механизмов заболеваний сложных признаков, которые в основном регулируются некодирующими вариантами. Чтобы решить эту проблему, инструктор предлагает использовать эпигеномные аннотации клеточных схем и модели глубокого обучения для определения глобальных свойств во всех генетически связанных областях для определенного признака. Сравнивая различия в обогащении по различным признакам, таким как рост и диабет 1 типа, инструктор предполагает, что они могут изучить свойства, которые охватывают все регионы, и использовать их для вывода свойств отдельных локусов. Этот подход может обеспечить непредвзятое представление о болезни и помочь в прогнозировании генов-мишеней, терапии и персонализированной медицины.

  • 00:10:00 В этом разделе спикер объясняет процесс оценки перекрытия между генетическими вариантами и тканеспецифичными энхансерами для поиска значительного обогащения с использованием гипергеометрического или биномиального статистического теста. Они обнаружили, что генетические варианты, связанные с различными признаками, демонстрируют тканеспецифическое обогащение энхансерами, активными в этих тканях. Например, генетические варианты, связанные с ростом, были обогащены энхансерами эмбриональных стволовых клеток, в то время как генетические варианты, связанные с кровяным давлением, были обогащены энхансерами, действующими в левом желудочке. Они также обнаружили, что болезнь Альцгеймера не была глобально обогащена энхансерами, активными в головном мозге, а вместо этого обогащена энхансерами, активными в иммунных клетках мозга, особенно в клетках CD14+. Это привело их к постулату, что генетические варианты, связанные с болезнью Альцгеймера, действуют в первую очередь на иммунные клетки мозга. Теперь они могут использовать эту информацию в байесовской модели, чтобы определить, какие генетические варианты, связанные с заболеванием, с большей вероятностью будут функциональными.

  • 00:15:00 В этом разделе лекции спикер обсуждает, как превратить наблюдаемые обогащения в эмпирические априорные значения, которые можно использовать в GWAS. На примере болезни Крона и болезни Альцгеймера спикер поясняет, что генетические варианты, ассоциированные с заболеванием, обогащенные определенными регионами, можно использовать в качестве априора для предсказания причинного SNP в данном локусе. Затем они объясняют, как это априорное значение можно объединить с данными сводной статистики GWAS, чтобы построить апостериорную вероятность для каждого варианта. Эффективность этого метода, названного RIVIERA, демонстрируется тем фактом, что SNP, которым он отдает приоритет, с большей вероятностью будут эволюционно законсервированы и обнаружены в eQTL и цифровых геномных следах.

  • 00:20:00 В этом разделе лекции спикер обсуждает использование обогащенных энхансеров для установления высокоспецифичных ассоциаций между генетическими вариантами и признаками. Сопоставляя эти признаки с энхансерами, с которыми они перекрываются, докладчик обсуждает разделение генетических локусов на определенные ткани, чтобы лучше понять биологические функции, связанные с этими локусами. Докладчик подчеркивает, как это можно использовать для разделения сложных признаков на более простые компоненты и определения приоритетов локусов на основе их близости к энхансерам в определенных тканях. Докладчик также приводит несколько примеров локусов, связанных с ишемической болезнью сердца, которые перекрываются с различными тканями и генами-мишенями. Кроме того, спикер обсуждает, как новые локусы, которые не достигают полногеномного значения, также могут быть изучены и картированы в конкретных тканях.

  • 00:25:00 В этом разделе лектор объясняет, как они используют подход машинного обучения для определения приоритетов подпороговых локусов, которые менее значимы, чем общегеномные, и обнаруживают новые локусы, изучая признаки в значимых для всего генома локусах. . Они обнаружили множество локусов, связанных с реполяризацией сердца, и использовали их характеристики в качестве предикторов для определения приоритетности подпороговых вариантов с дополнительными линиями доказательств экспериментального тестирования. Они обнаружили, что гены, выбранные в качестве приоритетных с использованием этого подхода, были сильно обогащены для исследований связанных геномных ассоциаций и связаны с генами-мишенями, которые имеют смысл, с сильной корреляцией с фенотипами сердечной проводимости и сократимости. Они также обсудили, как они используют локусы количественных признаков экспрессии, чтобы преодолеть разрыв между генетической изменчивостью и болезнью, рассматривая промежуточные молекулярные фенотипы.

  • 00:30:00 В этом разделе спикер обсуждает использование промежуточных молекулярных признаков, в частности уровня экспрессии гена или уровня метилирования определенного сайта, как способ изучения причинно-следственной связи в полногеномных ассоциативных исследованиях. Цель состоит в том, чтобы сосредоточиться на конкретных тканях, геномных механизмах, изменениях экспрессии генов и эндофенотипах, чтобы определить, какие черты являются следствием генетики, а какие — следствием болезни. В основе локусов количественных признаков метилирования и экспрессии локусов количественных признаков лежит измерение количественных признаков, таких как рост, и корреляция количества альтернативных аллелей с уровнем метилирования или уровнем экспрессии соседнего гена. Этот подход привел к открытию десятков тысяч qtl метилирования, и определение этих промежуточных молекулярных фенотипов может помочь предсказать метилирование и связать его с заболеванием.

  • 00:35:00 В этом разделе видео обсуждается, как предполагаемое метилирование можно использовать для больших когорт, чтобы обнаружить корреляции между метилированием, обусловленным генотипом, и фенотипами, такими как болезнь Альцгеймера. Вмененное метилирование является генетическим компонентом метилирования, и, вменив его, исследователи могут использовать меньшее количество людей и искать метилирование, обусловленное генотипом, увеличивая мощность и уделяя особое внимание генетическому компоненту. В видео также показаны примеры того, как в определенных случаях при совместном использовании нескольких SNP многие SNP, которые не были геномно значимыми, становились значимыми, что позволяет исследователям комбинировать их эффекты для прогнозирования метилирования.

  • 00:40:00 В этом разделе лекции о глубоком обучении в науках о жизни спикер обсуждает методологию выявления опосредующих факторов фенотипа болезни с помощью исследований генетики, метилирования, транскрипции и конфаундеров. Они объясняют процесс использования моделей линейной регрессии для прогнозирования взаимосвязи между этими различными факторами и экспрессией генов, корректировки переменных, таких как эффекты популяции и групповые эффекты, и, в конечном итоге, выявления генетических драйверов промежуточных молекулярных фенотипов, таких как метилирование и экспрессия. Методология включает график QQ для оценки калибровки статистики и использование ковариат, таких как возраст, пол и основные компоненты для генотипов и экспрессии, для интерпретации результатов.

  • 00:45:00 В этом разделе лекции основное внимание уделяется объединению личных компонентов генотипа и выражения, чтобы определить, способна ли модель, включающая дополнительную ковариацию и генотип, лучше объяснить фенотипическую переменную выражения, чем просто базовая модель. Это лежит в основе исследования локуса количественного признака экспрессии (eQTL), которое может быть дополнено аллельным анализом. Аллельный анализ включает разделение прочтений гетерозиготных индивидуумов на те, которые содержат один аллель с А, и те, которые содержат другой аллель с С из одной и той же клетки одного и того же человека. Связав генотип А с аллель-специфической экспрессией этого аллеля, которая, по-видимому, имеет более высокую экспрессию, чем экспрессия аллеля С, можно посмотреть на аллель-специфический эффект конкретной тестируемой области с учетом конкретного SNP. Лекция также охватывает ответные QTL и их роль в определении QTL в ответ на определенные условия окружающей среды.

  • 00:50:00 В этом разделе лектор обсуждает концепцию локусов количественных признаков экспрессии (eQTL), которые представляют собой геномные локусы, регулирующие уровни экспрессии генов. Лектор объясняет, что eQTL могут либо присутствовать все время, либо появляться только в ответ на определенный стимул. Затем стенограмма переходит к теме вывода о причинно-следственной связи, который, как объясняет лектор, представляет собой способ определить, какие локусы играют причинную роль в заболевании, а какие просто коррелируют с фенотипами болезни. Лектор объясняет, что поле каузального вывода делится на две категории: каузальное следствие и каузальное открытие. Лекция будет в основном посвящена причинно-следственному влиянию.

  • 00:55:00 В этом разделе спикер обсуждает использование методов каузального вывода в изучении генетического анализа. Причинный вывод включает экспериментальные вмешательства для определения влияния изменения переменной x на переменную результата y. Цель состоит в том, чтобы гарантировать, что условная вероятность почти эквивалентна интервенционной вероятности. Спикер также объясняет концепции досягаемости, кондиционирования, корректировки и d-разделения. Используя каузальный графический язык, исследователи могут задавать каузальные вопросы и определять каузальные и антикаузальные пути. Наличие обходного пути может повлиять на интерпретацию условной вероятности и создать неправильное представление о том, что корреляция равна причинно-следственной связи.
  • 01:00:00 В этом разделе лектор обсуждает концепцию блокировки бэкдора между векторными переменными для выявления причинно-следственной связи в исследованиях геномики. Они вводят идею d-разделения и создания паттернов коллайдеров, обуславливая определенные переменные. Лектор объясняет, что если переменная достаточно проста, исследователи могут вмешиваться и случайным образом назначать переменные, чтобы разрушить зависимость между искажающими факторами и интересующей переменной. Лектор подчеркивает, что генетика является важной переменной в исследованиях геномики, так как на нее не влияют факторы окружающей среды, и установка ее на определенное значение подобна естественному рандомизированному контрольному испытанию.

  • 01:05:00 В этом разделе лектор обсуждает концепцию менделевской рандомизации и то, как ее можно использовать для понимания взаимосвязи между генотипами, промежуточными фенотипами и фенотипами болезни. Генотипы прекрасно рандомизированы, что облегчает оценку истинного причинного эффекта. Хотя этот метод в значительной степени основан на предположениях, он успешно применялся в исследованиях генного eQTL и взаимодействия генов с окружающей средой. Кроме того, лектор объясняет, что другим способом оценки параметра бета-регрессии и эффектов посредничества является комбинация регрессии y на g и другой регрессии x на g. В конечном счете, менделевская рандомизация предлагает уникальную возможность понять сложные взаимосвязи между переменными, которыми трудно манипулировать в реальной жизни.

  • 01:10:00 В этом разделе лектор обсуждает два подхода к выводу о причинно-следственных связях в геномных исследованиях: менделевская рандомизация (MR) и модель квази-вывода Рубина. MR — это рандомизированное контрольное исследование, в котором используются генотипы для случайного возмущения промежуточных переменных для рандомизированного контролируемого исследования исхода заболевания. Тем не менее, MR может быть затруднен, когда речь идет о неизвестных помехах или при наличии альтернативных путей. Модель квази-вывода Рубина — это контрфактический подход к рассуждениям, который измеряет причинно-следственные связи, когда присваивание является дискретной переменной. Этот подход создает проблему вменения, поскольку потенциальный результат для единицы отсутствует, если он не наблюдался.

  • 01:15:00 В этом разделе лекции о глубоком обучении в науках о жизни спикер обсуждает метод потенциального результата для причинно-следственного вывода в генетических исследованиях. Такие допущения, как независимость, сильная игнорируемость и перекрытие, необходимы для точной оценки индивидуальных причинных эффектов. Докладчик также приводит игрушечный пример, связанный с лекарством от болезни Альцгеймера, и обсуждает, как подгонка функции склонности и использование показателей склонности могут помочь скорректировать систематические ошибки и провести объективное сравнение между экспериментальной и контрольной группами. Метод потенциального исхода позволяет исследователям задавать интересные вопросы об эффектах различных видов лечения и вмешательств.

  • 01:20:00 В этом разделе спикер обсуждает причинно-следственный вывод с помощью структуры потенциального результата и современных методов контрфактического вывода. Они объясняют, как взвешивание обработанных групп может объяснить разницу в результатах и как можно использовать вменение для оценки потенциальных результатов. Они также обсуждают недавнюю статью, в которой предлагается использовать матрицу обрезки для захвата нескольких вмешивающихся факторов и использовать популяционный PC для корректировки этих вмешивающихся эффектов, а также стратегию вменения отсутствующих данных с использованием деревьев байесовской регрессии. Благодаря этому можно измерить индивидуальные причинные эффекты для определения эффективности лечения.

  • 01:25:00 В этом разделе спикер обсуждает причинно-следственный аспект глубокого обучения в науках о жизни. Они объясняют, что изучение причинно-следственной структуры графа из многомерных матриц данных является сложной и сложной задачей. Однако они отмечают, что прорыв в этой области произошел благодаря использованию генетики для изменения генов и измерения экспрессии генов для изучения сетей. Они объясняют, что вместо использования вероятности, основанной на количестве баллов, исследователи теперь полагаются на условие инвариантности, которое предполагает единую причинно-следственную модель, которая генерирует данные, и используют это предположение для определения причинно-следственной структуры данных. Спикер также приводит игрушечный пример, демонстрирующий этот подход.

  • 01:30:00 В этом разделе лекции спикер обсуждает идею условия инвариантности и его применение для определения того, может ли модель непротиворечиво объяснить экспериментальные данные. Докладчик на примере экспериментов с нокаутом генов показывает, как включение неверного предиктора может привести к отклонению результатов эксперимента. Идея причинно-следственной триангуляции также упоминается как способ улучшить воспроизводимость научных экспериментов. В заключение докладчик подчеркивает важность множественных ортогональных свидетельств для разработки причинно-следственного алгоритма.
GWAS mechanism - Lecture 13 - Deep Learning in Life Sciences (Spring 2021)
GWAS mechanism - Lecture 13 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.04.08
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...
 

Системная генетика - Лекция 14



Системная генетика — Лекция 14 — Глубокое обучение в науках о жизни (весна 2021 г.)

В этой лекции о системной генетике и глубоком обучении докладчик затрагивает несколько тем, включая наследуемость SNP, наследуемость разделения, стратифицированную регрессию показателей LD и глубокое обучение в молекулярном фенотипировании. Они также изучают использование электронных медицинских карт, исследования геномных ассоциаций и геномику для анализа набора данных британского биобанка, содержащего около 500 000 человек с тысячами фенотипов. Лектор обсуждает, как модели глубокого обучения можно использовать для прогнозирования функции последовательности, чтобы понять схему локусов заболеваний и использование линейных смешанных моделей для вызова GWAS и EQTL. Они также касаются предубеждений и нарушений модельных предположений в глубоком обучении и подчеркивают важность регуляторных аннотаций, специфичных для типа клеток, при выводе критических для заболевания типов клеток. Наконец, лектор обсуждает сложность результатов, связанных с негативным отбором и размерами причинно-следственных связей, и представляет профессора Мануэля Риваса из Стэнфордского университета для обсуждения декомпозиции генетических ассоциаций.

Лекция посвящена применению генетических данных в различных областях, включая количественную оценку компонентов состава и вклада признаков, выявление генетических вариантов, которые способствуют адипогенезу или липолизу, выявление мутаций, оказывающих сильное влияние на функцию генов и снижающих риск заболевания, а также разработку модели прогнозирования риска с использованием многофакторного анализа. Кроме того, в лекции обсуждается применение полигенных моделей оценки риска в различных биомаркерах и подчеркивается необходимость обмена данными между различными популяциями для повышения точности прогнозов, особенно в случае неевропейских популяций. Лекция завершается выражением готовности руководить студентами, интересующимися исследовательскими проектами, связанными с полигенными баллами UK Biobank и биотропными эффектами.

  • 00:00:00 В этом разделе спикер представляет тему системной генетики и электронных медицинских карт. Они кратко рассматривают концепции, затронутые в предыдущих лекциях, включая распространенные и редкие варианты, показатели полигенного риска, неравновесие по сцеплению и варианты точного картирования. Докладчик обсуждает проблемы интерпретации полногеномных исследований ассоциаций из-за подавляющего большинства некодирующих ассоциаций с несколькими SNP. Затем они представляют использование информации о геноме, РНК и вариациях, а также модели глубокого обучения для функции последовательности, чтобы предсказать управляющие гены, регионы и типы клеток, чтобы понять схемы, лежащие в основе локусов заболеваний. Докладчик также представляет использование линейных смешанных моделей для вызовов GWAS и EQTL, которые предсказывают фиксированные и случайные эффекты на интересующие фенотипы с использованием генотипов и ковариатов.

  • 00:05:00 В этом разделе лектор объясняет основную основу для прогнозирования фенотипа человека на основе его генетических вариантов и величины эффекта каждого альтернативного аллеля по всем SNP в геноме и всем людям в когорте. Шум распределяется между людьми с центральным значением на нуле и квадратной ковариационной матрицей. Кроме того, случайные эффекты учитываются с использованием матрицы родства, которая измеряет генетический обмен между людьми. Байесовский подход используется для интеграции всех неизвестных и определения вероятности фенотипических эффектов, обусловленных ковариационной матрицей. Линейные смешанные модели строятся для оценки общей наследуемости определенного признака, который основан на допущении бесконечно малого и оценивается с использованием ограниченной модели максимального правдоподобия. Эта модель случайных эффектов фиксирует преобразования данных и работает, несмотря на отсутствие знаний о фактической причинной дисперсии.

  • 00:10:00 В этом разделе спикер обсуждает использование глубокого обучения для захвата дополнительных вариаций путем прогнозирования эффекта промежуточных молекулярных фенотипов и линейной зависимости между SNP и экспрессией. Докладчик объясняет, что это можно сделать, используя априорные распределения, которые соответствуют потенциальному шуму, окружающему оценку, что позволяет сделать вывод о наиболее предпочтительном результате. Они также упоминают влияние популяционных различий, где самые сильные эффекты, управляющие генетическими матрицами, проистекают непосредственно из популяционных различий. Наконец, спикер объясняет концепцию наследуемости и то, как разделение генетического родства на подмножества генома может быть мощным подходом к вычислению наследуемости, предполагая, что чем длиннее хромосомы, тем больше вариантов многих сложных признаков они объясняют.

  • 00:15:00 В этом разделе Алкес Прайс из Гарвардской школы общественного здравоохранения объясняет концепцию наследуемости SNP, которая представляет собой параметр, определяемый как максимальное значение, достижимое во всей популяции в отношении взаимосвязи между фенотипом и генотипом. Он обсуждает идею разделения наследуемости между различными функциональными категориями SNP, таких как кодирование и некодирование, и то, как это может привести к выводам о том, какие SNP обогащены для наследуемости при определенных заболеваниях и тканях. Прайс также вводит концепцию стратифицированной регрессии показателей LD как инструмент для изучения критических для заболевания типов клеток и клеточных процессов в организме человека.

  • 00:20:00 В этом разделе спикер представляет идею анализа сводной статистики ассоциаций из больших наборов данных в статистической генетике. Этот метод полезен при анализе таких заболеваний, как шизофрения, ревматоидный артрит и болезнь Крона, когда доступны большие размеры выборки, путем использования сводных статистических данных, а не генотипов и фенотипов на индивидуальном уровне. Докладчик объясняет метод регрессии стратифицированной оценки LD, который используется для регрессии статистики ассоциации хи-квадрат от GWAS заболевания по SNP с LD из разных функциональных категорий. Метод основан на идее о том, что средний хи-квадрат больше единицы не подразумевает смешения и опирается на средний показатель LD по SNP.

  • 00:25:00 В этом разделе спикер объясняет концепцию сигнала мечения и биологически причинного сигнала в отношении SNP (однонуклеотидных полиморфизмов) и их показателей LD (неравновесия по сцеплению). Они обсуждают, как метод стратифицированной регрессии показателей LD (неравновесия по сцеплению) может помочь обнаружить смешение этих показателей, при этом более высокий средний показатель хи-квадрат указывает на наличие смешения. Они также затрагивают проблему геномной LD (неравновесия по сцеплению) и того, как она варьируется в зависимости от популяции и частоты SNP. Затем спикер представляет реальные данные в виде набора данных о шизофрении, чтобы дополнительно проиллюстрировать этот метод.

  • 00:30:00 В этом разделе лекции представлено уравнение регрессии для оценки наследуемости SNP с использованием показателей LD. Пересечение уравнения регрессии отражает искажение, тогда как наклон отражает корреляцию между статистикой хи-квадрат и показателем LD. Этот наклон можно использовать для оценки наследуемости SNP, а соответствующие наклоны мультилинейной регрессии могут рассказать нам о причинной наследуемости SNP различных функциональных категорий. Количественное обогащение может измерять процент наследуемости SNP, объясняемый конкретной функциональной категорией, по сравнению с процентом SNP, которые являются частью этой категории. Функциональная интерпретация наклона зависит от того, перекрываются ли функциональные категории или нет.

  • 00:35:00 В этом разделе докладчик обсуждает регрессию стратифицированной оценки LD, которая используется для оценки обогащения различных функциональных аннотаций. Этот метод применяется для кодирования SNP, энхансеров, гистоновых маркеров и многого другого. Докладчик отмечает, что метод дает несмещенные оценки, если в модель включены причинно-следственные категории, но становится смещенным, если причинно-следственные категории отсутствуют в модели. Однако, даже если некоторые категории отсутствуют, модель все равно может обеспечить достаточную полноту для получения почти беспристрастных оценок для оставшихся категорий. Докладчик подчеркивает, что методы данных на отдельных уровнях в настоящее время не предназначены для работы с большим количеством перекрывающихся или непрерывных функциональных категорий.

  • 00:40:00 В этом разделе спикер объясняет, что существуют потенциальные нарушения предположений модели в глубоком обучении, если не быть осторожным, приводя пример с верхним qtl в данных экспрессии генов, который не удовлетворяет фундаментальному предположению модели. Затем докладчик переходит к обсуждению применения метода глубокого обучения к реальным данным о хроматине и экспрессии генов. Используя общедоступную сводную статистику по 17 признакам, спикер обнаружил, что кодирующие SNP обогащены для заболеваний и сложных признаков, особенно для аутоиммунных заболеваний и роста, в то время как консервативные SNP у 29 млекопитающих также оказывают существенное влияние на болезнь. Кроме того, было обнаружено, что фантомные пять энхансеров обладают значительным обогащением при аутоиммунных заболеваниях. Затем обсуждение переходит к интерпретации этих результатов в отношении того, как определенные черты могут иметь более высокую или меньшую связь с репродуктивной приспособленностью.

  • 00:45:00 В этом разделе лектор объясняет причины, по которым определенные функциональные категории обогащаются для наследуемости, которые не связаны с большими размерами причинного эффекта. Обычные фрагменты имеют мягкую верхнюю границу размера эффекта из-за отрицательного отбора, поэтому речь идет больше о количестве фрагментов в функциональной категории, которые что-то делают, каждый из которых имеет размер причинного эффекта от среднего или малого до среднего. Лектор также обсуждает важность регуляторных аннотаций, специфичных для типа клеток, в определении критических для заболевания типов клеток. Регуляторные аннотации мозга наиболее обогащены при шизофрении, регуляторные адаптации связанных костей наиболее обогащены при росте, а типы иммунных клеток наиболее обогащены при ревматоидном артрите. Полногеномный полигенный подход может дать более глубокое понимание биологии высокополигенных признаков, чем традиционные подходы, которые фокусируются на значимых фрагментах генома, которых для этих признаков может быть очень мало.

  • 00:50:00 В этом разделе лекции спикер обсуждает использование данных об экспрессии генов для изучения конкретных генов, связанных с определенными заболеваниями, включая шизофрению и ревматоидный артрит. Они также упоминают концепцию зависимых от ld архитектур, где размер причинно-следственных связей зависит от уровня ld, и то, как фрагменты с более низкими уровнями ld имеют большие размеры причинно-следственных эффектов в 56 различных признаках. Докладчик упоминает о сложности этих результатов, связанных с негативным отбором, но не хватает времени для обсуждения данных секвенирования РНК отдельных клеток и критических для заболевания типов клеток. Затем они представляют профессора Мануэля Риваса из Стэнфордского университета, который обсуждает процесс объединения электронных медицинских карт, исследований геномных ассоциаций и геномики для анализа популяционного набора данных британского биобанка, содержащего около 500 000 человек с тысячами фенотипов.

  • 00:55:00 В этом разделе спикер обсуждает подход, называемый декомпозицией генетических ассоциаций, который включает разделение сопоставлений «многие ко многим» на меньшее количество компонентов для представления исследований генетических ассоциаций. Докладчик использовал метод разложения усеченных сингулярных значений для представления матрицы, состоящей из данных сводного уровня для тысяч признаков и генетической дисперсии, в результате чего компонент более низкого ранга состоит примерно из 100 компонентов, каждый из которых является произведением ортогональных элементов в трех матрицах. . Первые два компонента характеризовались антропометрическими фенотипами, и докладчик проецировал, как каждый вариант нагружается на два компонента, чтобы увидеть, как они влияют на разные фенотипы.

  • 01:00:00 В этом разделе спикер объясняет, как можно количественно определить компоненты состава и вклада для данного признака, например, индекс массы тела (ИМТ), который состоит из жирового компонента и безжирового компонента массы. . Генетический риск ИМТ будет также зависеть от жирового компонента, среди других компонентов. Спикер объясняет, что они заинтересованы в выявлении генетических вариантов, которые могут способствовать адипогенезу или эффектам липолиза, а не просто в том, чтобы оказывать влияние на индекс массы тела без жира, путем изучения конкретных вариантов усечения белка (PTV) и определения сильных эффектов. В ходе этого процесса говорящий идентифицирует ген pde3b, который вносит вклад в массу без жира с высоким содержанием холестерина в ИМТ, и GPR 151, который имеет функциональные последствия для идипрогенеза. Генетические ассоциации для 2000 фенотипов доступны в Интернете по адресу biobank engine.com.edu, с идеей, что он станет поисковым порталом для любого, кто сможет найти свой любимый ген, вариант или фенотип и просмотреть набор ассоциаций, доступных для различных популярных биобанки.

  • 01:05:00 В этом разделе спикер обсуждает идентификацию мутаций, которые оказывают сильное влияние на функцию генов и снижают риск заболевания, что может привести к новым терапевтическим гипотезам и направить выбор целей для разработки лекарств. Они объясняют процесс выявления конкретных генетических вариантов, оказывающих сильное влияние на функцию генов и фенотип, путем объединения сводных данных из нескольких биобанков. Оценивая генетические параметры, такие как наследуемость полигенности и корреляция генетических эффектов, они стремятся визуализировать взаимосвязь между генетикой и чертами/заболеваниями, чтобы улучшить выводы и направить терапевтическое развитие. Также приведены примеры мутаций с сильным эффектом и их влияние на защиту от таких заболеваний, как астма и диабет 1 типа.

  • 01:10:00 В этом разделе ведущий обсуждает применение генетических данных в моделях прогнозирования риска. У людей есть большое количество генетических вариантов, связанных с сотнями фенотипов, поэтому один из подходов к изучению этих связей — подгонка миллионов одномерных моделей. Однако этот подход имеет слабые свойства для прогнозирования из-за корреляции между генетическими вариантами, из-за чего трудно отличить соответствующий вариант от других. Следовательно, многомерная модель разрабатывается путем подгонки больших регрессионных моделей с миллионами переменных. Пакет, разработанный для установки этих моделей, называется S-LDSC. В модели используется алгоритм Лассо, представляющий собой оштрафованную структуру регрессии, которая позволяет выбирать переменные для повышения эффективности прогнозирования.

  • 01:15:00 В этом разделе спикер обсуждает применение полигенных моделей оценки риска для 35 биомаркеров, включая сердечно-сосудистые, почечные и печеночные биомаркеры. В ходе исследования был создан набор обучающих данных из 70, проверочный набор из 10 и тестовый набор из 20 для оценки производительности модели. Эффективность моделей измерялась в разных популяциях, и результаты показали ограничения, связанные с переносом этих прогностических моделей из одной популяции, которая использует причинно-следственные варианты для прогнозов, в другие популяции. Исследование показало, что структура корреляции варьировалась в разных популяциях, что влияло на прогностическую эффективность моделей. Более того, различные наборы генетических вариантов могут объяснить наследуемость фенотипа, а перенос прогностических моделей из одной популяции может не работать так же хорошо в других популяциях, нарушая взаимосвязь корреляционной структуры между генетическими вариантами. Это требует обмена данными между различными группами населения для повышения точности прогнозов.

  • 01:20:00 В этом разделе спикер объясняет, что при изучении генетических вариантов в разных популяциях отсутствие определенных вариантов в неевропейских популяциях может способствовать неоднородности в размерах эффекта. Однако, когда вариант присутствует в нескольких популяциях, размеры эффекта, как правило, более однородны. Приведен пример липопротеина а с пояснением, что генетические варианты, способствующие изменчивости в европейской популяции, не существуют в африканской популяции, что приводит к плохой производительности в африканских популяциях. Спикер также выражает готовность руководить студентами, заинтересованными в исследовательских проектах, связанных с полигенными баллами UK Biobank и биотропными эффектами.
Systems Genetics - Lecture 14 - Deep Learning in Life Sciences (Spring 2021)
Systems Genetics - Lecture 14 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.04.08
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...
 

Графовые нейронные сети - Лекция 15



Графовые нейронные сети — Лекция 15 — Обучение наукам о жизни (весна 2021 г.)

В этой лекции на YouTube о графовых нейронных сетях спикер охватывает широкий круг тем, включая основы графовых сетей, спектральные представления, полууправляемую классификацию и многореляционное моделирование данных. Также особое внимание уделяется пересечению сетей графов и обработки естественного языка, а также тому, как создавать графы для открытия лекарств. Лектор объясняет различные методы распространения информации по графам для получения полезных вложений узлов, которые можно использовать для задач прогнозирования. В лекции также подчеркивается важность контрастного обучения для GNN, потенциальные преимущества сочетания представлений на основе патчей и методов, основанных на внимании, а также использование подхода преобразования в НЛП. Во второй половине лекции основное внимание уделяется обсуждению статей, демонстрирующих практическое использование GNN в разработке лекарств, а также тому, как кодировать и декодировать структуру молекул с помощью дерева соединений.

В этом видео обсуждаются различные приложения графовых нейронных сетей (GNN) в науках о жизни, включая открытие лекарств и вывод скрытых графов. Докладчик освещает проблемы и потенциальные возможности в GNN, такие как отсутствие пространственной локальности и фиксированного порядка, а рассматриваемая установка включает прогнозирование типа данного узла, прогнозирование связи между двумя узлами, измерение сходства между двумя узлами или двумя сетями. , а также объединение узлов в кластеры путем обнаружения сообщества в сети. Лектор также объясняет, как GNN могут эффективно обучать и встраивать графики, преобразовывать и агрегировать информацию, а также справляться с полипрагмазией. Кроме того, в лекции рассматриваются два метода автоматического обучения репрезентациям в науках о жизни, при этом модели метаобучения, такие как MARS, используются для обобщения новых типов клеток. Наконец, в лекции обсуждается, как GNN могут изучать скрытые представления ячеек в нескольких наборах данных, чтобы фиксировать неоднородность типов ячеек.

  • 00:00:00 В этом разделе спикер представляет четвертый модуль по графам и белкам и предстоящие лекции по графовым нейронным сетям, структуре белков и дизайну лекарств. Спикер подчеркивает важность повторения материала с помощью домашних заданий, повторений и письменных работ для подготовки к предстоящему викторине в классе. Цель состоит не в том, чтобы обмануть или удивить студентов, а в том, чтобы помочь им освоить эту область и получить глубокое понимание ее. Спикер также информирует студентов о предстоящей лекции команды AlphaFold о сворачивании белков, что является революционным достижением в этой области.

  • 00:05:00 В этом разделе лектор представляет концепцию сетей и то, как они проникают в различные аспекты жизни общества, включая биологические сети. Биологические сети включают регуляторные сети, сигнальные сети и метаболические сети, действующие на разных уровнях клетки. Методы сетевого анализа необходимы для понимания свойств этих сетей, которые взаимодействуют друг с другом. Также упоминаются вероятностные сети, которые используют узлы и ребра для представления вероятностных объектов. Матричное представление этих сетей позволяет разлагать их, изучать сообщества и идентифицировать модули с помощью подходов линейной алгебры.

  • 00:10:00 В этом разделе лекции спикер представляет обзор обширной работы по сетевому анализу и его спектральным представлениям. Обсуждаемые методы включают определение разделимости компонентов с использованием максимальных разрезов сетей на основе первого и второго собственных значений матрицы Лапласа, а также использование диффузионных ядер для понимания потока информации между различными ребрами. Спикер подчеркивает важность не забывать об этой устоявшейся литературе, поскольку ее можно использовать в сочетании с методами глубокого обучения, такими как графовые нейронные сети, о которых пойдет речь в лекции. Затем спикер представляет приглашенного лектора Нила Бэнда, который расскажет о новых графовых нейронных сетях и обсудит проблемные области, такие как полууправляемое обучение, многореляционные данные и обработка естественного языка.

  • 00:15:00 В этом разделе мы узнаем, как эффективно распространять информацию по графам для вычисления функций узлов или множества графов и выполнять последующие операции с помощью сверточных сетей графов. Эта сеть может агрегировать информацию об объектах и обновлять конкретный узел, получая и извлекая будущую информацию от соседей. Конечной целью GNNS является создание одного вектора встраивания, который можно использовать для предсказания свойства всего графа или для предсказания типа каждого отдельного узла. Правило обновления основано на распространении информации из скрытого представления узла и обновлений, полученных из ближайшего окружения. Кроме того, чтобы уменьшить количество параметров модели, ко всем соседям применяются одни и те же весовые матрицы с общими параметрами вместо применения разных.

  • 00:20:00 В этом разделе лектор описывает процесс использования графовых нейронных сетей для выполнения задачи классификации сетей цитирования со статьями в качестве узлов и ссылками цитирования в качестве ребер. Применяется сверточная сеть с двухслойным графом, которая включает в себя обновление каждого узла в графе для поглощения информации из его ближайшего окружения и последующего получения выходных данных. Лектор упоминает о потенциальном недостатке чрезмерного сглаживания в глубоких сетях и предлагает использовать вентилируемые рекуррентные блоки для сохранения памяти о начальном состоянии. Кроме того, лектор обсуждает возможность сочетания методов, основанных на внимании, и представлений на основе патчей для изучения представлений более высокого порядка в графовых нейронных сетях.

  • 00:25:00 В этом разделе лектор обсуждает различные парадигмы графовых нейронных сетей, включая графовые сверточные сети, обновления внимания и методы передачи сообщений. Они подчеркивают потенциальные проблемы с памятью, которые возникают, когда графы становятся слишком плотными при передаче сообщений, но подчеркивают, что эти парадигмы полезны для различных типов учебных задач. Затем они погружаются в полуконтролируемую классификацию на графах, в которой трансдуктивные настройки позволяют моделям быстро обучаться, даже без явных признаков узлов. Наконец, лектор касается сверточных сетей реляционных графов, которые можно использовать для моделирования мультиреляционных данных, например, при обработке естественного языка.

  • 00:30:00 В этом разделе лектор обсуждает связь между графическими сетями и обработкой естественного языка, в частности, использование модели преобразователя в НЛП. Модель трансформатора обычно используется для таких задач, как языковой перевод и изучение общего концептуального понимания слов. Подход преобразователя начинается с полностью связанного графа, в отличие от биологических сетей, в которых отсутствуют многие ребра, и использует самостоятельный поиск для обновления вложений узлов перед выводом обновленной версии. Хотя подход с преобразованием не обязательно может принести пользу биологическим сетям, существует потенциал для перекрестного опыления стратегий и оптимизации между двумя областями.

  • 00:35:00 В этом разделе мы узнаем, как выполнить обновление встраивания слова для предложения из двух слов и как выполнить поиск определенного слова по всем другим словам. Сети графического внимания используют тот же метод, за исключением того, что они предполагают, что вся окрестность является графом, и существуют позиционные вложения. Докладчик объясняет, как включить информацию о связности графа в архитектуру и как замаскировать части графа, чтобы использовать только слова, которые были упомянуты ранее. Есть много возможностей перекрестного применения этих методов.

  • 00:40:00 В этом разделе лектор обсуждает настройку неконтролируемого обучения вложений обучающих узлов для последующих задач, таких как классификация узлов или классификация графов. Чтобы улучшить способность нейронных сетей стать четко определенными, лектор объясняет концепцию увеличения данных и описывает, как она используется в подходах к контрастному обучению. В лекции также рассматриваются параметры проектирования, такие как стратегии выборки, различные типы представлений узлов и различные типы функций оценки. Один из подходов заключается в использовании функции подсчета очков, чтобы максимизировать взаимную информацию между локальным и глобальным представлениями определенного класса. Это побуждает сеть извлекать информацию, относящуюся к классам, из различных подмножеств информации из графа, что приводит к более надежному внедрению узлов и повышению производительности в нисходящем направлении.

  • 00:45:00 В этом разделе спикер обсуждает размерность встраивания узлов в графовые нейронные сети (GNN) и использование контрастного обучения для GNN. Докладчик объясняет, что на практике свойства узлов в GNN могут жить в многомерном пространстве, таком как 256 или 512 измерений для одного узла в большом графе. Докладчик также отмечает, что контрастное обучение, которое включает использование положительных и отрицательных примеров для кодирования структуры графа, может использоваться вместо классификации для улучшения кодирования структуры графа. Наконец, докладчик резюмирует выводы о проектных решениях в GNN, подчеркивая эффективность оценки на основе соседей для прогнозирования ссылок и классификации узлов, а также важность учета как особенностей узлов, так и структуры графа при выборе типа представления узла. .

  • 00:50:00 В этом разделе спикер обсуждает два способа генерации графа, первый из которых — предсказание новых связей между известными сущностями с использованием стандартной нейронной сети графа или сверточной сети графа в качестве кодировщика и функции вложений как декодер. Вероятность существования любого данного ребра основана на инцидентных ему узлах и не зависит от всех других ребер. Второй способ генерирует граф с одним вектором встраивания для всего графа, используя одно конкретное состояние, которое декодируется с помощью графовой RNN, которая делает набор прогнозов при добавлении на каждом конкретном узле. Этот метод пытается ввести как можно меньше индуктивных предубеждений в отношении того, как генерировать график. Последний подход используется для открытия лекарств, в частности, в статье о вариационном автокодировщике Junction Tree Variational Autoencoder для создания молекул de novo с высокой эффективностью, независимо от того, были ли они синтезированы или охарактеризованы ранее.

  • 00:55:00 В этом разделе описан подход статьи к кодированию и декодированию структуры молекул с использованием графовых нейронных сетей. Этот подход использует мелкозернистый молекулярный граф для кодирования состояния и древовидную декомпозицию для декодирования высокоуровневой структуры графа. Используя дерево соединений для удаления циклов в графе, авторы могут упростить процесс декодирования и предсказать только метку узла и необходимость добавления дочернего узла, что приводит к достоверной структуре молекулы более высокого уровня. Авторы используют закрытую рекуррентную единицу, чтобы задействовать все состояния поддерева, которое было построено до сих пор, и добиться высокого процента реконструкции с точки зрения молекулярной достоверности. Байесовская оптимизация используется для оценки возможностей навигации в скрытом пространстве для создания новых лекарств.

  • 01:00:00 В этом разделе спикер обсуждает два приложения графовых нейронных сетей (GNN) в науках о жизни. Первое приложение находится в области открытия лекарств, где GNN используется для вывода скрытой переменной молекулы и предсказания ее химических свойств. Модель обучается с использованием структуры кодировщик-декодер и оптимизируется с использованием байесовской оптимизации. Второе приложение — это вывод скрытых графов, где GNN используются для моделирования скрытых структур в задаче путем кодирования набора динамики, возникающей во времени. Модель может быть использована для прогнозирования будущих результатов и может быть применена для выявления причин. Докладчик представляет данные игрушек, а также данные захвата движения в реальном мире, чтобы показать эффективность GNN в этих приложениях.

  • 01:05:00 В этом разделе спикер обсуждает проблемы и потенциальные возможности графовых нейронных сетей. Было упомянуто несколько проблем, включая ограниченную мощность и теоретическую связь с тестами изоморфизма в передаче сообщений и агрегации соседей, проблемы древовидных графов вычислений при поиске циклов в графах и проблему чрезмерного сглаживания. Однако спикер также видит перспективы в масштабировании этих сетей, обучении на больших наборах данных и опробовании мультимодального и кросс-модального обучения между последовательностями и графиками. После этого постдок из Стэнфордского университета обсуждает глубокое обучение в биологических сетях и то, как для данных, представленных в виде графа, необходимы более широко применимые структуры глубоких нейронных сетей. Объясняется, что, хотя глубокое обучение изменило наше представление о жизненном цикле машинного обучения сегодня, неясно, как использовать и применять глубокое обучение для сложных данных, представленных в виде графика.

  • 01:10:00 В этом разделе обсуждаются сложности обучения на графических данных, в том числе отсутствие пространственной локальности и фиксированного порядка, отсутствие опорных точек и динамическая природа графов. Целью изучения представлений на графах является поиск способа изучения функции отображения, которая использует граф в качестве входных данных для сопоставления узлов с низкоразмерным пространством вложений. Эффективное независимое от задачи изучение функций является важной целью этого процесса машинного обучения в сетях. Рассматриваемая установка предполагает наличие графа с матрицей смежности и характеристиками узла, связанными с каждым узлом, из которых цель состоит в том, чтобы предсказать тип данного узла, предсказать связь между двумя узлами, измерить сходство между двумя узлами или двумя сетями и сгруппировать узлы, выполняя обнаружение сообщества в сети. Представлен наиболее наивный подход применения глубоких нейронных сетей к графам, но выделены его ограничения, в том числе увеличение количества параметров в сети в зависимости от количества узлов, нестабильность обучения и повышенная вероятность переобучения.

  • 01:15:00 В этом разделе спикер объясняет, как графовые нейронные сети могут эффективно обучать и встраивать графы, используя идеи, заимствованные из сверточных нейронных сетей. Окрестность узла определяет структуру нейронной сети, и ключевая идея состоит в том, чтобы генерировать вложения узлов на основе окрестности локальной сети. Докладчик иллюстрирует эту концепцию, показывая, как агрегировать и преобразовывать информацию для создания операторов преобразования и агрегирования сообщений, которые не зависят от перестановок. Этим операторам можно научиться преобразовывать информацию об узле и предсказывать интересующее свойство.

  • 01:20:00 В этом разделе спикер объясняет процесс преобразования и агрегации графовых нейронных сетей. Основной подход заключается в усреднении информации от узлов и применении нейронных сетей для линейных преобразований с последующей нелинейностью. Докладчик приводит пример алгоритма GraphSAGE, где введена обобщенная функция-агрегатор для объединения признаков локальной окрестности узла. Дифференцируемые функции агрегации, такие как среднее значение, объединение в пул или ячейки LSTM, могут использоваться для агрегирования информации по соседям. Спикер также обсуждает использование графовых нейронных сетей в биологии и то, как их можно использовать для прогнозирования определенного поведения или результатов.

  • 01:25:00 В этом разделе лектор обсуждает концепцию побочных эффектов полипрагмазии, которые представляют собой побочные эффекты, возникающие в результате комбинации препаратов. Лектор объясняет, что цель состоит в том, чтобы оценить вероятность побочных эффектов от комбинации двух препаратов, моделируя их как узлы в гетерогенной сети. Лектор показывает пример того, как лекарства и белки могут быть смоделированы в сети, чтобы зафиксировать механизмы действия лекарств и лежащие в их основе биологические механизмы. Затем лектор объясняет, как графовые нейронные сети (GNN) могут быть расширены для встраивания гетерогенных сетей, где соседство должно быть разделено типом ребра, и как преобразовывать и распространять информацию по графу, определяемому сетевым соседством узлов в каждом ребре. тип.

  • 01:30:00 В этом разделе лектор обсуждает два метода автоматического обучения представлений в науках о жизни. Первый метод основан на нейронных сетях с реляционными графами, которые можно использовать для прогнозирования того, приведут ли два лекарства к побочным эффектам, путем изучения d-мерных векторных вложений для каждого узла в графе. Второй метод — это модель метаобучения под названием MARS, которая использует предварительные знания из ранее аннотированных данных для обобщения на новые, невиданные ранее типы клеток. Оптимизируя неаннотированный эксперимент и набор метаданных, MARS может автоматически аннотировать клетки по типам и избегать утомительной ручной работы по аннотированию клеток на основе их профилей экспрессии генов.

  • 01:35:00 В этом разделе лекции спикер обсуждает использование графовых нейронных сетей для изучения скрытых представлений клеток в нескольких наборах данных, чтобы зафиксировать гетерогенность типов клеток. Подход включает в себя совместную проекцию клеток из аннотированных и неаннотированных экспериментов в низкоразмерном пространстве встраивания, где одинаковые типы клеток встраиваются близко, а разные типы клеток встраиваются далеко. Для этого метод изучает ориентиры типов клеток как представителей типов клеток и функцию нелинейного картирования с использованием глубоких нейронных сетей. Подход проверен на крупномасштабных данных атласа клеток мыши с более чем 100 000 клеток из более чем 20 тканей, и он обеспечивает на 45% лучшую производительность, чем существующие методы с точки зрения скорректированного индекса Рэнда.
Graph Neural Networks - Lecture 15 - Learning in Life Sciences (Spring 2021)
Graph Neural Networks - Lecture 15 - Learning in Life Sciences (Spring 2021)
  • 2021.04.19
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecturers: Neil Band, Maria Brbic / Jure LeskovecDeep Learning in the Life Scienc...