Redes Neurais em IA e Deep Learning - página 22

 

Predicción de expresión génica - Clase 09 - Aprendizaje profundo en ciencias biológicas (primavera de 2021)



Predicción de expresión génica - Clase 09 - Aprendizaje profundo en ciencias biológicas (primavera de 2021)

El video analiza el uso del aprendizaje profundo en la predicción de la expresión génica y los desafíos que implica el análisis de conjuntos de datos biológicos, incluida la alta dimensionalidad y el ruido. La conferencia cubre metodologías como el análisis de conglomerados, las aproximaciones de matrices de bajo rango y la detección compresiva. El ponente también habla sobre el uso del aprendizaje profundo para la predicción de la expresión génica y la cromatina, así como del aprendizaje débilmente supervisado para predecir los sitios de actividad potenciadora. La conferencia analiza varias herramientas desarrolladas utilizando principalmente una metodología de aprendizaje profundo, incluidos danq, djgx, factory mat y sc fin. El presentador también habla sobre el uso de modelos generativos para estudiar conjuntos de datos genómicos e introduce la idea de la metodología de inferencia aproximada, en particular la popular llamada inferencia variacional.

En la segunda parte de la conferencia, el ponente analiza la aplicación del aprendizaje profundo en las ciencias de la vida, específicamente en la predicción de la expresión génica y la interpretación genómica. El primer tema se centra en la aplicación de modelos de autocodificador de variación al análisis de expresión de ARN para conjuntos de datos de asma. El ponente propone un marco para eliminar artefactos experimentales utilizando un modelo generativo condicional. El segundo tema analiza la inversión de Illumina en redes de aprendizaje profundo para identificar los modelos de secuencia a función para la interpretación genómica, en particular para el empalme. La empresa ha desarrollado SpliceAI, una red neuronal convolucional profunda que predice si un nucleótido es donante, aceptor o ninguno de los dos. El tercer tema trata sobre la investigación del orador para predecir si ciertas mutaciones tendrán una función de empalme críptica, lo que puede conducir a cambios de marco y enfermedades. El orador también invita a hacer preguntas y solicitudes para puestos de investigación, pasantías y posdoctorados.

  • 00:00:00 En esta sección de la conferencia, los ponentes introducen el análisis de la expresión génica y los dos métodos utilizados para medir la expresión del ARN: la hibridación y la secuenciación del genoma. Este último se ha vuelto más popular debido a la drástica caída en el costo de la secuenciación del genoma en los últimos 20 años. El resultado es una matriz que muestra qué gen se expresa a qué nivel en cientos de condiciones. Esta matriz se puede ver vertical u horizontalmente, dando un vector largo de 20.000 para cada gen en el genoma a través de una condición experimental de interés, o para un tipo de célula particular que se haya clasificado.

  • 00:05:00 En esta sección, el instructor analiza cómo se puede usar el aprendizaje profundo en la predicción de la expresión génica. Las matrices de entrada básicas implican perfilar cada célula para hacer comparaciones en múltiples dimensiones, como la similitud de los vectores de expresión para un gen dado en diferentes condiciones, tejidos, tipos de células, experimentos, edad y género. El análisis de conglomerados se puede utilizar para encontrar condiciones similares entre sí o genes que sean similares entre sí en columnas o filas. El enfoque de culpabilidad por asociación también se puede utilizar para completar la anotación de genes no anotados en función de la similitud de expresión. Además, el instructor sugiere utilizar enfoques de aprendizaje profundo como el aprendizaje autosupervisado, la predicción mediante no linealidades y características de orden superior, y el aprendizaje de tareas múltiples para predecir las diferentes clases de interés de forma conjunta y, por último, el instructor enfatiza que el aprendizaje profundo es no es el único enfoque, y existe un conjunto de herramientas que se pueden usar para hacer preguntas biológicas y aprender representaciones de estos sistemas.

  • 00:10:00 En esta sección, el disertante analiza las técnicas de reducción de la dimensionalidad que se pueden utilizar para analizar los patrones de expresión génica. Una de esas técnicas es el análisis de componentes principales (PCA), que se puede utilizar para identificar las principales dimensiones de variación en los patrones de presión genética. Las aproximaciones de rango bajo de matrices también se pueden usar para obtener efectivamente una aproximación de rango inferior óptima de los datos. También se pueden aplicar otras técnicas como t-SNE y codificadores automáticos. Además, el disertante menciona el uso de sensores compresivos para construir mediciones compuestas usando combinaciones de sondas que capturan combinaciones lineales de expresión génica. Finalmente, el disertante discute el potencial de usar la información de la cromatina para predecir los niveles de expresión génica, que será discutido en la primera disertación invitada.

  • 00:15:00 En esta sección, el disertante analiza el uso del aprendizaje profundo para predecir la expresión génica y la cromatina a partir de varias características, combinándolas sistemáticamente mediante mecanismos de atención, similar a lo discutido anteriormente para el modelo transformador y las redes neuronales recurrentes. Se explica el uso de construcciones de reporteros y pruebas de alto rendimiento, junto con la capacidad de predecir si ciertos fragmentos impulsarán la expresión mediante un enfoque de aprendizaje automático o aprendizaje profundo. El orador también presenta el concepto de predecir el empalme directamente desde la secuencia usando una red neuronal y características específicas en la secuencia, y destaca el trabajo que su equipo ha realizado sobre el uso del aprendizaje profundo para predecir potenciadores en el genoma humano usando un marco supervisado semanalmente.

  • 00:20:00 En esta sección del video, el orador analiza un método de predicción de la expresión génica utilizando un experimento reportero y un conjunto de características de la cromatina. La matriz de entrada, que consiste en las diferentes marcas en miles de ubicaciones en el genoma, se construye para cada gen, y las características de la cromatina cercana se prueban contra el resultado de la búsqueda de estrellas para predecir la expresión. El nivel de salida es un clasificador binario y las representaciones intermedias del modelo se utilizan para predecir la ubicación específica en la secuencia del genoma. Esta resolución más alta permite un uso más eficiente del análisis de datos, lo que se logra ajustando curvas particulares en la señal contigua para tener una representación más avanzada.

  • 00:25:00 En esta sección, el orador explica la idea del aprendizaje débilmente supervisado para predecir los sitios de actividad de los potenciadores usando un método similar a la detección de objetos. Al pasar la imagen original a un filtro convolucional, se generan los mapas de activación que se utilizan para crear un mapa de calor. El modelo solo requería una anotación aproximada de la existencia del potenciador y predijo la ubicación precisa usando el mismo método del mapa de calor. Los resultados de la línea celular cruzada y la validación de cromosomas cruzados han demostrado que el modelo puede predecir con precisión los potenciadores de búsqueda de estrellas. El conjunto refinado, obtenido eliminando regiones irrelevantes mientras se hacen predicciones, tiene una mayor proporción de sitios de inicio de la transcripción y está más conservado en cien especies diferentes. El orador comparó el modelo con el modelo de última generación anterior y realizó un estudio de caso en células neuroprogenitoras, descubriendo potenciadores neuroespecíficos.

  • 00:30:00 En esta sección del video de YouTube "Predicción de expresión génica", el orador analiza los desafíos en la interpretación de conjuntos de datos biológicos y la importancia de desarrollar una metodología que tenga en cuenta múltiples factores, como la alta dimensionalidad y el ruido. La investigación del ponente en su laboratorio se centra en combinar diferentes tipos de técnicas genómicas, incluida la genómica unicelular, para desarrollar métodos de estudio de la genómica. El orador también analiza su interés en aplicar el aprendizaje profundo al análisis de la expresión génica y usarlo para extraer señales de conjuntos de datos ruidosos.

  • 00:35:00 En esta sección, el orador analiza el desarrollo de una metodología que combina conjuntos de datos multimodales para permitir el examen de la biología subyacente. Destacan propuestas recientes en el campo del aprendizaje automático que combinan señales visuales con procesamiento de lenguaje natural para comprender mejor los sistemas. Luego, el orador procede a enumerar algunas herramientas que su laboratorio ha desarrollado utilizando principalmente una metodología de aprendizaje profundo, incluido danq, que cuantifica la función de las secuencias de ADN, y djgx, que predice la expresión génica. El orador también analiza brevemente otras dos herramientas, factory mat y sc fin, que predicen la unión del factor de transcripción, siendo sc fin una extensión de factory mat para la predicción de células individuales.

  • 00:40:00 En esta sección del video, el presentador analiza varias metodologías relacionadas con el uso de modelos de aprendizaje profundo en las ciencias de la vida. Específicamente, la discusión cubre la metodología OVNI para las predicciones de la estructura secundaria de la estructura del ARN, el modelo DGX que utiliza redes neuronales profundas para predecir expresiones y la metodología SAILOR para utilizar modelos generativos profundos para estudiar conjuntos de datos atáxicos de una sola célula mientras se enfoca en la idea de representación invariable. aprendiendo. La discusión también cubre el uso de modelos VAE para estudiar genómica y datos de expresión de ARN, una extensión de modelos generativos profundos para un análisis de taxi y la combinación de conjuntos de datos multimodales con un modelo para aprender representaciones compartidas. El presentador señala que todas las herramientas desarrolladas son de código abierto y están disponibles en Github.

  • 00:45:00 En esta sección, el disertante analiza un método para la predicción de la expresión génica utilizando un subconjunto de genes. Al perfilar una pequeña cantidad de genes (1000) utilizando la plataforma tecnológica Luminex, los investigadores pueden generar perfiles con millones de muestras, lo que lleva a un método rentable para comprender los procesos biológicos y los descubrimientos de fármacos. Los 20.000 genes restantes se pueden inferir mediante técnicas computacionales como las redes neuronales profundas. Al ingresar 978 vectores dimensionales en una red neuronal de avance de percepción de múltiples capas, los investigadores pueden predecir los 20,000 objetivos en una forma de múltiples tareas en forma conjunta y entrenar el modelo a través de la retropropagación, logrando una mayor precisión que la regresión lineal. El conjunto de datos geográficos que contiene perfiles de expresión con toda la colección de genes se utiliza para entrenar el modelo.

  • 00:50:00 En esta sección de la conferencia, el instructor analiza el uso de modelos generativos para estudiar conjuntos de datos genómicos. Dado que la mayoría de los conjuntos de datos genómicos carecen de etiquetas, el aprendizaje no supervisado suele ser más relevante. El objetivo es mapear conjuntos de datos de alta dimensión en una incrustación de baja dimensión, lo que puede ser más útil para identificar patrones subyacentes. El método tradicional para este propósito es el codificador automático, que se puede entrenar haciendo coincidir la entrada con la salida, pero tiene problemas como la susceptibilidad al sobreajuste y la incapacidad para generar muestras. Como solución, el instructor propone modelos generativos profundos, que modelan datos a través de un marco probabilístico con variables latentes. Al asignar prioridades a la distribución de las variables latentes, el modelo puede marginarlas para obtener las distribuciones marginales de la entrada.

  • 00:55:00 En esta sección, el profesor discute los problemas con los datos de aprendizaje basados en un marco genérico e introduce la idea de la metodología de inferencia aproximada, particularmente la popular llamada inferencia variacional, que propone una distribución auxiliar sobre la distribución de z dada X. Luego, el límite inferior del límite de probabilidad logarítmica con la distribución auxiliar se minimiza a través de un equilibrio entre los datos y la distancia ko entre las distribuciones, lo que garantiza que la distribución posterior esté lo suficientemente cerca de la distribución anterior y tenga suficiente potencia para modelar conjuntos de datos observables. . Esto condujo al desarrollo del codificador automático variacional, que puede modelar tanto p(theta)x dada z como la distribución auxiliar a través de redes neuronales entrenándolas para minimizar la variación de la verosimilitud logarítmica negativa. Sin embargo, existen problemas con el cálculo de esas expectativas, que se pueden abordar mediante el truco de la reparametrización, especialmente cuando se aplica un producto gaussiano.

  • 01:00:00 En esta sección, el orador analiza la aplicación de modelos de autocodificador de variación al análisis de expresión de ARN, específicamente para conjuntos de datos de asma. Debido a la naturaleza discreta y cuantitativa de los conjuntos de datos de RNA-seq, los investigadores utilizan distribuciones binomiales negativas infladas con ceros para modelar los recuentos de lectura. Esto lleva a la idea de usar un codificador automático combinado con este modelo para crear un modelo de generación profunda. Sin embargo, las representaciones latentes aprendidas pueden reflejar artefactos experimentales, como efectos por lotes y cobertura de lectura. Para eliminar estos efectos, el ponente propone un marco que utiliza un modelo generativo condicional que minimiza la información mutua entre las representaciones aprendidas y sus factores de confusión subyacentes.

  • 01:05:00 En esta sección, el investigador principal del laboratorio de inteligencia artificial de Illumina habla sobre el objetivo de la empresa de comprender todas las variantes posibles del genoma humano y hacer que la secuenciación del genoma sea útil para todos. La atención se centra en la interpretación de las variaciones genéticas no codificantes, que actualmente se salta la mayoría de las secuencias clínicas. Esta es la razón por la que Illumina está invirtiendo mucho en redes de aprendizaje profundo para identificar los modelos de secuencia a función para la interpretación genómica, específicamente para el empalme. Han desarrollado SpliceAI, una red neuronal convolucional profunda que predice si un nucleótido es un donante de empalme, un aceptor o ninguno, puramente a partir de la secuencia, y puede reconstruir el patrón intrón-exón de un gen a partir de una secuencia de secuencias.

  • 01:10:00 En esta sección, el presentador analiza las dificultades de predecir las uniones de empalme de exón y cómo su red de aprendizaje profundo pudo predecir los 30 exones del gen CFTR grande con una precisión de nivel de nucleótido. Descubrieron que los determinantes de secuencias de largo alcance son clave para la regulación del empalme, y la red pudo derivar estos determinantes automáticamente a partir de datos de secuencias, incluido el posicionamiento de nucleosomas y la agrupación de exones. La red usó una variedad de características, incluido el punto de ramificación, el tracto lunar poliper, ag y gt, así como potenciadores de empalme intrónicos y exónicos, y compensó la redundancia de motivos locales con un contexto de largo alcance. El presentador también mostró cómo la precisión de la red aumentó con tamaños de contexto más grandes y que también funcionó en secuencias de codificación no proteicas.

  • 01:15:00 En esta sección del video, el orador habla sobre la aplicación de IA de empalme a pacientes con enfermedades raras, específicamente un paciente con insuficiencia cardíaca de inicio temprano causada por una mutación de un solo nucleótido que extendió el exón y desplazó el marco de la proteína. El modelo también se validó en RNA-seq de GTEx, y la tasa de validación dependió de la puntuación de IA de empalme. El orador destaca la complejidad de interpretar las variantes de empalme de puntuación más baja, ya que pueden preservar el empalme normal, y hay una interpretación graduada de la variación humana que debe abordarse. También se examinó el impacto de la selección natural en las variantes con función de empalme críptica, y se encontró que la selección natural muestra que las mutaciones de empalme crípticas predichas por picante i son esencialmente equivalentes a una mutación de codificación de proteína sin sentido o de cambio de marco. Finalmente, el modelo se aplicó a grandes conjuntos de datos clínicos de pacientes con trastorno del espectro autista y discapacidad intelectual.

  • 01:20:00 En esta sección de la conferencia, el orador habla sobre su investigación para predecir si ciertas mutaciones tendrán o no una función de empalme críptica. Utilizaron la secuenciación de ARN para confirmar la unión de empalme aberrante predicha y demostraron ejemplos de cómo estas variantes hacen que el empalme se produzca en la ubicación incorrecta, lo que lleva a cambios de marco y enfermedades. El orador hace que sus herramientas sean de código abierto e invita a hacer preguntas, así como solicitudes para puestos de investigación, pasantías y posdoctorados. La conferencia concluye con un agradecimiento al orador y un recordatorio para estar atento al proyecto final.
 

Genómica unicelular - Clase 10



Genómica unicelular - Clase 10 - Aprendizaje profundo en ciencias biológicas (primavera de 2021)

En esta conferencia sobre genómica unicelular, el orador analiza varios métodos y tecnologías que se utilizan para perfilar células individuales, incluida la clasificación celular y la microfluídica. La atención se centra en tres tecnologías específicas de secuenciación de una sola célula: enfoques Smart-seq, drop-seq y agrupados. El orador también cubre el proceso de análisis de transcriptomas unicelulares, incluido el preprocesamiento, la visualización, el agrupamiento y la anotación, y el uso de la arquitectura de codificador automático en el agrupamiento comunitario. Se aplican métodos de aprendizaje profundo para la adaptación de dominios y para reconstruir tipos de células de forma estimulada. La conferencia también analiza los desafíos involucrados en el análisis de datos genómicos de una sola célula y propone el uso de un modelo generativo para abordar estos problemas de una manera escalable y consistente.

La segunda parte del video cubre varios temas relacionados con la genómica unicelular y el aprendizaje profundo. Los temas discutidos incluyen inferencia variacional, un proceso generativo para datos de secuenciación de ARN de una sola célula, el modelo SCVI para mezclar conjuntos de datos de tipos de células, CanVAE para propagar etiquetas y la implementación de varios algoritmos de aprendizaje profundo en una base de código única llamada herramientas CVI. Los oradores también abordan los desafíos en el uso de probabilidades posteriores para calcular medidas de expresión génica y presentan métodos para calcular con precisión las expectativas posteriores y controlar las tasas de descubrimiento completas.

  • 00:00:00 En esta sección de la transcripción de "Genómica unicelular - Conferencia 10 - Aprendizaje profundo en ciencias de la vida (primavera de 2021)", el orador explica por qué es necesario el perfilado de una sola célula. Las células individuales dentro del cuerpo son extremadamente diferentes entre sí y pueden variar debido a los estímulos ambientales, las interacciones, la fase del ciclo celular y los estallidos transcripcionales. El perfil de una sola célula también captura las diferencias individuales en los tipos de células, la señalización y el genotipo, que a menudo no se capturan con datos masivos. El orador describe varias tecnologías que han precedido a la explosión actual en el análisis de datos de células individuales, pero enfatiza la tecnología fundamental de amplificación de ARN individuales para capturar la diversidad transcripcional.

  • 00:05:00 En esta sección, el orador analiza las diferentes tecnologías y métodos utilizados para crear perfiles de células individuales, lo que incluye clasificación de células, microfluidos y pipeteo. Al observar células individuales en diferentes puntos de tiempo y genes entre células, los investigadores pueden ver cómo los genes individuales se activan y desactivan y cómo existe heterogeneidad incluso dentro de puntos de tiempo particulares. El análisis unicelular plantea un desafío para distinguir los valores cero técnicos y biológicos, pero los datos obtenidos a través de estas técnicas pueden recapitular lo que se ve en biología. La charla también cubre smartseek, que utiliza tecnología basada en células, dropseek y 10x, que utilizan gotas, y split-seek, que es un método para codificar en barras células individuales sin separarlas.

  • 00:10:00 En esta sección, el orador analiza los diferentes métodos utilizados en la genómica de células individuales, incluidos los microfluidos y la extracción de sangre, y describe la canalización básica utilizada en el proceso. La atención se centra en tres tecnologías específicas: Smart-seq, drop-seq y enfoques agrupados. Smart-seq utiliza la clasificación de células y captura hasta 10 000 genes por célula, pero requiere una reacción de secuenciación separada para cada pocillo, lo que la hace costosa. Drop-seq reemplaza los pocillos con gotitas, captura células individuales con códigos de barras en perlas y es más rentable. Finalmente, el enfoque combinado implica capturar todas las moléculas de ARN individuales en un solo tubo etiquetado con la identidad celular correspondiente.

  • 00:15:00 En esta sección, el orador explica tres tipos diferentes de tecnologías de secuenciación de ARN de una sola célula. El primero es la secuenciación de pozos, donde cada célula individual se clasifica en un pozo o gota, y cada pozo se etiqueta con un código de barras único para distinguir las células entre sí. El segundo es 10X Genomics, que consiste en combinar todo el ARN marcado de diferentes células en una sola reacción de secuenciación. La tercera tecnología es Split-Seq, donde las células se barajan entre diferentes pozos con diferentes códigos de barras agregados en cada iteración, lo que da como resultado una combinación única de códigos de barras para el ARN de cada célula. Esto permite un millón de direcciones únicas para cada molécula de ARN, lo que indica de qué célula proviene.

  • 00:20:00 En esta sección, el disertante analiza las tecnologías de secuenciación de células individuales, incluidas las células en pozos, las gotas y la indexación combinatoria. Se pueden usar varios tipos de ensayos, como el perfil de metilación del ADN de una sola célula, la secuenciación del genoma de una sola célula y la accesibilidad del ADN de una sola célula. Otro ensayo ampliamente utilizado es ATAC-seq de una sola célula, que analiza la accesibilidad de la cromatina en células individuales. Sin embargo, los datos de las celdas individuales pueden ser escasos, y es necesario agregar datos en múltiples ubicaciones para hablar sobre los factores de transcripción. El disertante también menciona la creciente aparición de métodos multiómicos unicelulares, pero advierte sobre los desafíos computacionales al tratar con ruido y artefactos. La sección finaliza con una introducción a dos conferencias invitadas de Europa y la costa oeste, respectivamente, que discutirán el aprendizaje de representación profunda en la genómica unicelular.

  • 00:25:00 En esta sección de la conferencia sobre genómica de células individuales, el orador discutió el proceso de análisis de transcriptomas de células individuales, que implica varios pasos de preprocesamiento, visualización, agrupación y anotación. El proceso no está supervisado, ya que la información solo está disponible en conjuntos de células, no en células individuales. El laboratorio del orador ha contribuido con herramientas y marcos para ayudar en este proceso, incluido el exitoso análisis de células individuales scanpy en python, que proporciona una biblioteca de herramientas y módulos para realizar estos pasos. La visualización y el análisis posterior implican el aprendizaje del espacio latente, y el método más utilizado es el gráfico akn. El laboratorio del orador también ha invertido en estudiar información de series temporales en transcriptomas de células individuales para comprender los procesos de diferenciación celular.

  • 00:30:00 En esta sección, el orador analiza el uso de la arquitectura de codificador automático en la agrupación comunitaria mediante redes neuronales profundas. Este enfoque se utiliza para lidiar con el tamaño creciente de los conjuntos de datos y el ruido en las matrices celulares de los tiempos de los genes. Se encuentra que la capa de cuello de botella de la arquitectura del codificador automático es significativa y puede aprender sobre procesos biológicos. El equipo del ponente ha aprovechado esta información para desarrollar un codificador automático de conteo profundo, que se adapta a la función de ruido reemplazando el error cuadrático medio con una distribución binomial negativa. Un gráfico bidimensional de este enfoque en un conjunto de datos de PBMC muestra que la capa de cuello de botella reconoce grupos de tipos de células sin ningún conocimiento previo, lo que podría ayudar a aprovechar el conocimiento biológico. El comportamiento de escalado de este método de red neuronal también se identifica como una ventaja significativa en comparación con el algoritmo Kn.

  • 00:35:00 En esta sección, el orador analiza el potencial del aprendizaje profundo en genómica y datos de células individuales para desarrollar la próxima generación de filtros convolucionales. Menciona un proyecto centrado en la adaptación de dominios que tiene como objetivo transferir ciertas configuraciones a una nueva, como perturbaciones y estímulos de drogas en las células. Llaman a este proyecto "scgen", que modela los efectos de perturbación de las células y busca predecir cómo se comportaría un nuevo tipo de célula. Al codificar todos los conjuntos de datos, esperan lograr un espacio latente linealizado donde puedan hacer aritmética y predicciones fuera de la muestra. También han estado extendiendo este modelo para una descomposición más compleja.

  • 00:40:00 En esta sección, el orador analiza la capacidad de reconstruir un tipo de célula mediante el aprendizaje profundo en la genómica unicelular. El objetivo es reconstruir un tipo de célula, como las células T positivas para CD4, de forma estimulada al dejarlas fuera, esencialmente haciendo una predicción fuera de la muestra. La predicción no solo se basa en la media sino también en la distribución de la varianza. Esta reconstrucción se realiza no solo para las células T CD4 positivas, sino también para todos los diferentes tipos de células, y se aprende la respuesta específica de la célula, lo que la convierte en una potente herramienta para la genómica. El ponente también habla de SCGen, un modelo generativo simple que se ha ampliado con el aprendizaje del espacio latente. Se puede utilizar para realizar transferencias de estilo al incluir toda la información sobre la muestra grande en el modelo. Finalmente, el orador analiza el aprendizaje por transferencia, que es esencial para manejar datos distribuidos y hacer que esos mapas sean de fácil acceso.

  • 00:45:00 En esta sección, el orador analiza la aplicación del modelado bayesiano y los autocodificadores variacionales (VAEs) a los datos de una sola célula, cuyo objetivo es comprender las distintas funciones de las células en un tejido. El proceso implica la disociación de un tejido en células individuales y la ejecución de una sola canalización de secuenciación de ARN, lo que da como resultado una matriz que muestra la cantidad de veces que una transcripción se alinea con un gen para cada célula. El orador enfatiza la importancia de la colaboración en su trabajo con estudiantes y profesores de posgrado y maestría, y presenta varios temas que cubrirá a lo largo de la presentación, desde la importancia de aplicar VAE a datos unicelulares hasta una discusión sobre extensiones y modos de falla de VAE. .

  • 00:50:00 En esta sección, el orador analiza las diversas tareas y desafíos involucrados en la genómica unicelular, incluido el análisis de consultas a nivel de células y genes. Algunas de las tareas involucran estratificación celular, análisis de trayectoria, armonización de conjuntos de datos, transferencia de anotaciones, normalización y pruebas de expresión diferencial. El análisis puede ser complejo debido al ruido técnico, como la profundidad de secuenciación variable y los efectos por lotes, así como a la naturaleza no gaussiana de alta dimensión de los datos. Para abordar estos problemas, el ponente propone utilizar modelos de variables latentes y métodos escalables para analizar los millones de muestras involucradas.

  • 00:55:00 En esta sección, el orador analiza las limitaciones de aplicar algoritmos a datos genómicos de una sola célula y la necesidad de un supuesto de modelado unificador para todo el proceso. Presentan la idea de un modelo generativo, basado en técnicas de modelado bayesiano, que se puede utilizar para analizar datos de una sola celda de forma escalable y coherente. El orador explica cómo leer un modelo gráfico y cómo se pueden usar los diferentes nodos y bordes para codificar propiedades probabilísticas, como la replicación independiente y la condicionalidad. El objetivo es calcular la distribución posterior, que se puede lograr usando la regla de Bayes, pero la probabilidad marginal a menudo es intratable, excepto cuando se usa PCA probabilística.

  • 01:00:00 En esta sección, el disertante analiza el concepto de inferencia variacional, que se utiliza en scVI para aproximar la distribución de probabilidad posterior de las observaciones. El método consiste en colocar una familia de distribuciones y encontrar el punto q que minimice la K-divergencia hacia atrás, que es esencialmente un problema de optimización. Usando la definición de una densidad condicional, el problema de optimización se vuelve manejable y la inferencia variacional se convierte en un método atractivo. El orador también presenta una extensión de PCA probabilística, donde se puede usar una red neuronal para especificar la media y la varianza de la distribución gaussiana. Sin embargo, usar la inferencia variacional en VAE requiere aprender los parámetros del modelo maximizando la evidencia, lo que se puede lograr vinculando todos los parámetros del posterior variacional usando dos redes neuronales. Finalmente, el orador analiza scVI, que incorpora efectos técnicos en un modelo gráfico para generar recuentos de expresión génica para una célula y un gen determinados.

  • 01:05:00 En esta sección, el orador brinda una explicación detallada del proceso generativo para datos de secuenciación de ARN de una sola célula utilizando un codificador automático variacional condicional (CVA) y explica cómo este modelo puede usarse para diversas tareas como estratificación, armonización, normalización, imputación y expresión diferencial. El orador enfatiza cómo este enfoque puede manejar los efectos por lotes y mejora la escalabilidad. El orador también demuestra la utilidad del modelo al mostrar que puede recuperar grupos jerárquicos y gradientes de desarrollo en las incrustaciones y puede manejar efectos de lotes en casos con efectos de lotes severos y muchos lotes.

  • 01:10:00 En esta sección, el presentador analiza el desafío de mezclar conjuntos de datos de tipo de celda sin dejar de poder distinguir los tipos de celda. Presentan el modelo SCVI que puede mezclar conjuntos de datos sin perder la capacidad de ver tipos de celdas. El presentador también habla sobre el emocionante uso de la variable latente de Rao para el análisis de expresión diferencial. El equipo comparó la clasificación de genes con SCVI y otros métodos para la tecnología de micromatrices y descubrió que SCVI estaba funcionando de manera similar o incluso ligeramente mejor. Por último, el presentador presenta el modelo SCVI++, que es una extensión de SCVI utilizada con fines de anotación, lo que permite la transferencia de etiquetas de un conjunto de datos a otro. El modelo SCVI++ se basa en un modelo de mezcla y cambia el anterior en z y utiliza una red neuronal para la asignación del tipo de celda.

  • 01:15:00 En esta sección, el orador analiza el uso de un marco llamado CanVAE en un caso de uso donde hay un subconjunto de células T pero sus tipos de subcélulas no se pueden identificar en función de algunos genes marcadores que se expresan de forma baja. . Al usar CanVAE para propagar las etiquetas, se convierte en un método de aprendizaje semisupervisado, que funciona mejor que solo el agrupamiento o la clasificación porque utiliza el conocimiento sobre todas las celdas. Además, el hablante presenta el problema de factorizar información continua o covariables del espacio latente, que es difícil de manejar con redes neuronales utilizadas para parametrizar la distribución variacional. Introducen la restricción HC VAES, un método que impone declaraciones de independencia en el agregado posterior, lo que da como resultado límites inferiores más flexibles con propiedades más adecuadas. Por último, analizan la expresión diferencial y cómo se puede considerar como un problema de selección de modelo bayesiano, en el que las proporciones de verosimilitud se pueden utilizar como umbral para determinar la expresión diferencial utilizando el marco CanVAE.

  • 01:20:00 En esta sección, el orador analiza los desafíos y limitaciones asociados con el uso de probabilidades posteriores para calcular medidas de expresión génica. El enfoque puede estar sesgado si el posterior es incorrecto, y muchas personas prefieren controlar la medida de la tasa de descubrimiento falso sobre los factores básicos. Para resolver este problema, el ponente propone un método para calcular con precisión las expectativas posteriores utilizando muestras de la distribución variacional. Introducen diferentes límites superiores que sobrestiman la varianza, lo que es más útil para un muestreo importante que subestimarlo. Además, el orador presenta un procedimiento para combinar múltiples propuestas para controlar la tasa de descubrimiento total con el CVI. El documento asociado con este trabajo también incluye análisis teóricos que cuantifican el error para un muestreo importante utilizando límites de concentración.

  • 01:25:00 En esta sección, el orador analiza la implementación de varios algoritmos de aprendizaje profundo en una base de código única llamada herramientas CVI, que contiene herramientas para analizar datos ómicos de una sola celda y una interfaz para lenguajes de programación probabilísticos. El código base contiene la implementación de alrededor de 10 a 13 modelos generativos, y los usuarios pueden cambiar fácilmente un codificador automático variacional condicional en una línea de código o crear uno nuevo. El orador también menciona un artículo de revisión que analiza el impacto de los autocodificadores variacionales y las redes antagónicas generativas en biología molecular.
 

Reducción de la dimensionalidad - Clase 11



Reducción de la dimensionalidad - Clase 11 - Aprendizaje profundo en ciencias biológicas (primavera de 2021)

Las conferencias en video sobre el aprendizaje profundo en las ciencias de la vida exploran las técnicas de reducción de la dimensionalidad para el agrupamiento y la clasificación en el análisis de datos unicelulares. Las conferencias distinguen entre aprendizaje supervisado y no supervisado y exploran el uso de marcos estadísticos de prueba de hipótesis para evaluar expresiones diferenciales de genes. La conferencia presenta el concepto de aprendizaje múltiple mediante el análisis de componentes principales, la descomposición propia y la descomposición de valores singulares para la reducción de la dimensionalidad lineal y analiza los métodos de incrustación de vecinos estocásticos distribuidos en t e incrustación de vecinos estocásticos distribuidos para la conservación de datos de agrupamiento. El orador también analiza la aplicación de la factorización de matriz no negativa a los datos genómicos y la integración de conjuntos de datos unicelulares y multiómicos. El objetivo final de estas técnicas es redefinir los tipos de células y la identidad de una manera imparcial y cuantitativa.

La segunda parte trata varios temas relacionados con la reducción de dimensionalidad, específicamente su aplicación en ciencias de la vida. La factorización de matriz no negativa integradora (iNMF) se utiliza para vincular perfiles transcriptómicos y epigenómicos para comprender mejor la identidad celular en varios contextos. La conferencia también analiza los beneficios de usar un enfoque de mini lotes en el aprendizaje profundo, particularmente para conjuntos de datos más grandes, y cómo se pueden aprovechar los algoritmos en línea para mejorar los métodos de reducción de dimensionalidad para analizar conjuntos de datos grandes. Además, el algoritmo se introduce para integrar diferentes tipos de datos, como datos RNA-seq y ATAC-seq. Finalmente, el disertante expresa su voluntad de servir como mentor para los estudiantes interesados en el campo. En general, la conferencia fue informativa y bien recibida.

  • 00:00:00 En esta sección, las conferencias en video continúan la discusión sobre el análisis de datos unicelulares y se enfocan en las técnicas de reducción de la dimensionalidad para el agrupamiento y la clasificación. Las matrices de expresión génica que miden miles de genes en miles de experimentos se pueden utilizar para agrupar genes o células o para la clasificación de tipos de células en función de sus expresiones génicas. Las conferencias distinguen entre aprendizaje supervisado y no supervisado y exploran el uso de marcos estadísticos de prueba de hipótesis para evaluar la probabilidad de expresiones diferenciales de genes. El video también menciona la necesidad de considerar la distribución subyacente de los datos y encontrar el ajuste más apropiado para la distribución observada en el conjunto de datos.

  • 00:05:00 En esta sección, el disertante analiza las diversas razones de la reducción dimensional en las aplicaciones de aprendizaje supervisado y no supervisado. Estos incluyen visualización de datos, reducción de datos, clasificación de datos y reducción de ruido en conjuntos de datos. El disertante explica que la reducción de la dimensionalidad puede ayudar a comprender los factores que impulsan la variación, distinguir entre diferentes clases e identificar subconjuntos de datos interesantes. Además, el disertante describe cómo la reducción de la dimensionalidad implica el mapeo de datos de alta dimensión en una variedad de menor dimensión.

  • 00:10:00 En esta sección de la conferencia, se introduce el concepto de aprendizaje múltiple como una forma de comprender la verdadera dimensionalidad de los datos de alta dimensión, lo que permite una representación de menor dimensión. El aprendizaje múltiple implica tomar datos de alta dimensión y comprender la verdadera dimensionalidad de los datos, que puede no ser explorada por el conjunto de datos. La reducción de la dimensionalidad lineal mediante el análisis de componentes principales (PCA) se analiza como una de las formas más comunes de aprender estas variedades. PCA implica proyectar los datos en un conjunto de coordenadas lineales, que es una transformación del espacio original. Los vectores propios de los datos originales se utilizan en PCA para encontrar los vectores que son invariantes a las transformaciones.

  • 00:15:00 En esta sección de la lección sobre aprendizaje profundo en ciencias de la vida, se presenta el concepto de descomposición propia como una forma de descomponer una gran matriz de datos en sus principales vectores de variación. Para matrices simétricas, los vectores propios son ortogonales, y para matrices simétricas reales, los vectores propios son tanto ortogonales como reales. La descomposición propia captura la reducción de dimensionalidad lineal más natural de un conjunto de datos, y la matriz diagonal representa los efectos de los componentes principales independientes. Para matrices no simétricas, se utiliza la descomposición de valores singulares para encontrar los vectores propios de los genes y las condiciones y sus combinaciones que mejor explican los datos.

  • 00:20:00 En esta sección, el disertante analiza el concepto de descomposición de valores singulares (SVD) y cómo se puede utilizar para la reducción de la dimensionalidad lineal. SVD es una forma de descomponer una matriz en una serie de operaciones, incluidas dos rotaciones y una escala, para encontrar las dimensiones de variación más importantes en los datos. La matriz resultante se puede utilizar para calcular una aproximación óptima de bajo rango de los datos originales, lo que permite la representación de los datos en un espacio dimensional más bajo. Esto es útil para la reducción de dimensionalidad lineal, que tiene capacidades limitadas, pero la reducción de dimensionalidad no lineal puede eliminar algunas de estas restricciones. El análisis de componentes principales es un método de reducción de dimensionalidad lineal que captura las principales dimensiones lineales de variación en los datos.

  • 00:25:00 En esta sección, el método de incrustación de vecinos estocásticos distribuidos en t (t-SNE) se analiza como una técnica de agrupamiento de datos para la reducción dimensional mientras se preservan las distancias en escalas variables. En lugar de depender de PCA que trata todas las distancias por igual, t-SNE mapea un espacio dimensional alto en una dimensión más baja mientras preserva la proximidad de puntos de datos similares dentro del nuevo espacio. Al aplicar un ancho de banda específico, las celdas individuales con patrones de expresión similares en un espacio dimensional alto pueden hacerse próximas entre sí en un espacio dimensional más bajo, minimizando la divergencia KL entre ambos espacios. Se pueden usar métodos graduales para encontrar una incrustación que minimice la función de costo de la divergencia KL entre los dos espacios.

  • 00:30:00 En esta sección, el orador analiza cómo la incrustación de vecinos estocásticos distribuidos (d-SNE) conserva la estructura de similitud local de los datos mediante la búsqueda a través del gradiente y la optimización de las coordenadas de un espacio de menor dimensión. El enfoque es una incrustación no lineal que preserva las distancias locales en lugar de las distancias globales y penaliza cuando los puntos están separados pero los puntos cercanos están más cerca. Este método se usa comúnmente para visualizaciones que rodean conjuntos de datos de una sola celda, y la cantidad de vecinos considerados y el tamaño de los grupos originales pueden afectar la calidad de la incrustación.

  • 00:35:00 En esta sección, el orador analiza el concepto de una proyección de datos de menor dimensión con un enfoque en el aprendizaje de grupos específicos de tipos de células para el análisis de datos de una sola célula. Hablan de un método que permite la proyección conjunta de múltiples tipos de datos ómicos en un conjunto de datos de menor dimensión dentro del cual se pueden comparar entre sí. El orador presenta varios enfoques que ha desarrollado, incluido el enfoque LIGER, que utiliza la factorización de matriz no negativa integradora y un método para ampliar el algoritmo INMF mediante el aprendizaje en línea. La charla concluye discutiendo proyectos en curso para integrar conjuntos de datos con características parcialmente superpuestas y combinar codificadores automáticos variacionales y redes antagónicas generativas para generar perfiles de ARN de células individuales.

  • 00:40:00 En esta sección, el orador analiza los diversos tipos de mediciones que se pueden realizar en células individuales, incluida la expresión génica, la modificación de histonas, la unión del factor de transcripción, la accesibilidad a la cromatina, la metilación del ADN y la conformación de la cromatina. También destacan la importancia de conocer las coordenadas espaciales y mapear la información molecular en el contexto del tejido. El orador menciona el desafío de avanzar hacia una definición cuantitativa de la identidad celular, donde la información molecular y de otro tipo con resolución de una sola célula se utiliza para redefinir los tipos de células de manera imparcial. Para hacer frente a estos desafíos, el orador desarrolló una herramienta llamada ligre, basada en la factorización de matriz no negativa integradora para realizar análisis unicelulares integradores en conjuntos de datos de diferentes medidas. También analizan los beneficios del enfoque de "descomposición basada en partes" de la factorización de matrices no negativas.

  • 00:45:00 En esta sección, la transcripción analiza la aplicación de la factorización de matriz no negativa (NMF) a los datos genómicos, lo que permite la interpretación de los factores NMF como metagenes que agrupan genes coexpresados o coregulados. Estos factores pueden representar rutas biológicas o genes específicos del tipo de célula, así como también capturar factores técnicos. Al agrupar genes en metagenes y resumir la expresión celular usando estos metagenes, NMF permite una definición cuantitativa de la identidad celular y la identificación de tipos y estados celulares en múltiples conjuntos de datos. La interpretabilidad de los metagenes también permite la identificación de señales técnicas y su deconvolución a partir de señales biológicas en los conjuntos de datos.

  • 00:50:00 En esta sección, el orador analiza cómo resolvieron matemáticamente el problema de optimización del elemento f y derivaron un algoritmo novedoso basado en el descenso de coordenadas de bloque, que tiene algunas ventajas significativas y proporciona una garantía de convergencia. Utilizan un algoritmo eficiente para resolver el problema de mínimos cuadrados no negativos y realizan pasos posteriores para aumentar la solidez general del análisis. Luego, el orador da un ejemplo de cómo integraron datos de secuenciación de ARN de una sola célula en donantes humanos para agrupar las células por tipo de célula en lugar de por donante, identificando los principales tipos de células de la sustancia e información sobre cómo las células son similares y diferentes entre donantes humanos.

  • 00:55:00 En esta sección, el orador analiza diferentes aplicaciones de integración de datos de una sola celda. Un ejemplo es la integración de conjuntos de datos espaciales y de una sola célula, que pueden ayudar a identificar las ubicaciones espaciales de los tipos de células dentro de un tejido y proporcionar información sobre la arquitectura del tejido. El orador da un ejemplo utilizando un conjunto de datos del cerebro de un ratón para identificar dos subtipos de astrocitos con diferentes ubicaciones espaciales, lo que proporciona información sobre cómo funcionan juntos los circuitos neuronales. Otra aplicación importante es la integración de conjuntos de datos multiómicos de celdas individuales, lo cual es un desafío porque los conjuntos de datos no comparten instancias ni características. El orador explica una estrategia para vincular estos conjuntos de datos al transformar los datos del epigenoma en características a nivel de genes y correlacionarlos con la expresión de genes.

  • 01:00:00 En esta sección, el orador analiza cómo se puede utilizar la factorización de matriz no negativa integradora (iNMF) para vincular los perfiles transcriptómicos y epigenómicos a fin de comprender mejor la identidad celular en diferentes contextos. Mediante el uso de datos de la corteza del ratón y la médula ósea humana, el orador demuestra cómo vincular la expresión génica y los datos de metilación puede proporcionar una comprensión más clara de los tipos de células e incluso identificar tipos de células con etiquetas ambiguas. Además, el orador explica cómo se puede utilizar un algoritmo de aprendizaje en línea para resolver el problema de iNMF en conjuntos de datos cada vez más grandes mediante la actualización incremental de los cálculos a medida que llegan nuevos datos de forma continua.

  • 01:05:00 En esta sección, el disertante analiza los beneficios de usar un enfoque de mini lotes en el aprendizaje profundo, particularmente para grandes conjuntos de datos. Este enfoque permite una actualización iterativa de los pesos y evita tener que almacenar todo el conjunto de datos en la memoria, lo que da como resultado una convergencia más rápida. El disertante describe tres escenarios donde el mini lote es particularmente útil, con la ventaja clave de poder incorporar nuevos conjuntos de datos a medida que llegan sin tener que volver a analizar los conjuntos de datos anteriores. El disertante también analiza la informática detrás de este enfoque, aprovechando la teoría existente de un artículo sobre el aprendizaje de diccionarios en línea para optimizar una función sustituta que converge asintóticamente a la misma solución en términos de parámetros. En última instancia, este enfoque funciona bien en la práctica y converge mucho más rápidamente debido a la redundancia de cada celda adicional en un conjunto de datos más grande.

  • 01:10:00 En esta sección, el disertante analiza las ventajas de usar algoritmos en línea en métodos de reducción de dimensionalidad para analizar grandes conjuntos de datos. El orador presenta un punto de referencia de su enfoque frente a otros métodos ampliamente utilizados, mostrando que tiene un uso de memoria significativamente menor y es más eficiente en el tiempo. Demuestran la capacidad de refinamiento iterativo del método usando datos generados por Brain Initiative Cell Census Network, donde incorporan nuevos conjuntos de datos en la factorización usando el algoritmo en línea. También muestran cómo el algoritmo inmf se puede extender a un caso en el que las características se superponen parcialmente, lo que permite aprovechar las características compartidas y no compartidas en los conjuntos de datos, lo cual es un enfoque más satisfactorio que los métodos utilizados anteriormente que obligan a las características a alinearse.

  • 01:15:00 En esta sección, el orador explica cómo se puede usar un algoritmo para aprovechar todas las características presentes en un conjunto de datos, incluso si algunas características solo están presentes en una de las fuentes de datos. El algoritmo se puede usar para integrar diferentes tipos de datos, como datos de RNA-seq y ATAC-seq, para brindar una imagen más completa de la expresión génica, lo que puede mejorar la capacidad de resolver grupos o perfiles celulares. El orador también presenta un nuevo enfoque, llamado Michigan, que combina las fortalezas de los codificadores automáticos variacionales (VAEs) y las redes antagónicas generativas (GAN) para generar perfiles celulares realistas a partir de datos de expresión de una sola célula. El algoritmo utiliza el rendimiento de desenredado de VAE y el rendimiento de generación de GAN para crear un enfoque poderoso para manipular y predecir cambios en la identidad celular.

  • 01:20:00 En esta sección, el disertante expresa su voluntad de servir como mentor para los estudiantes interesados en el campo y agradece a la audiencia por asistir a la conferencia. El moderador realiza una encuesta rápida para verificar si los oyentes han aprendido algo y la audiencia responde positivamente. En general, la conferencia fue bien recibida e informativa.
 

Reducción de la dimensionalidad - Clase 11



Reducción de la dimensionalidad - Clase 11 - Aprendizaje profundo en ciencias biológicas (primavera de 2021)

Las conferencias en video sobre el aprendizaje profundo en las ciencias de la vida exploran las técnicas de reducción de la dimensionalidad para el agrupamiento y la clasificación en el análisis de datos unicelulares. Las conferencias distinguen entre aprendizaje supervisado y no supervisado y exploran el uso de marcos estadísticos de prueba de hipótesis para evaluar expresiones diferenciales de genes. La conferencia presenta el concepto de aprendizaje múltiple mediante el análisis de componentes principales, la descomposición propia y la descomposición de valores singulares para la reducción de la dimensionalidad lineal y analiza los métodos de incrustación de vecinos estocásticos distribuidos en t e incrustación de vecinos estocásticos distribuidos para la conservación de datos de agrupamiento. El orador también analiza la aplicación de la factorización de matriz no negativa a los datos genómicos y la integración de conjuntos de datos unicelulares y multiómicos. El objetivo final de estas técnicas es redefinir los tipos de células y la identidad de una manera imparcial y cuantitativa.

La segunda parte trata varios temas relacionados con la reducción de dimensionalidad, específicamente su aplicación en ciencias de la vida. La factorización de matriz no negativa integradora (iNMF) se utiliza para vincular perfiles transcriptómicos y epigenómicos para comprender mejor la identidad celular en varios contextos. La conferencia también analiza los beneficios de usar un enfoque de mini lotes en el aprendizaje profundo, particularmente para conjuntos de datos más grandes, y cómo se pueden aprovechar los algoritmos en línea para mejorar los métodos de reducción de dimensionalidad para analizar conjuntos de datos grandes. Además, el algoritmo se introduce para integrar diferentes tipos de datos, como datos RNA-seq y ATAC-seq. Finalmente, el disertante expresa su voluntad de servir como mentor para los estudiantes interesados en el campo. En general, la conferencia fue informativa y bien recibida.

  • 00:00:00 En esta sección, las conferencias en video continúan la discusión sobre el análisis de datos unicelulares y se enfocan en las técnicas de reducción de la dimensionalidad para el agrupamiento y la clasificación. Las matrices de expresión génica que miden miles de genes en miles de experimentos se pueden utilizar para agrupar genes o células o para la clasificación de tipos de células en función de sus expresiones génicas. Las conferencias distinguen entre aprendizaje supervisado y no supervisado y exploran el uso de marcos estadísticos de prueba de hipótesis para evaluar la probabilidad de expresiones diferenciales de genes. El video también menciona la necesidad de considerar la distribución subyacente de los datos y encontrar el ajuste más apropiado para la distribución observada en el conjunto de datos.

  • 00:05:00 En esta sección, el disertante analiza las diversas razones de la reducción dimensional en las aplicaciones de aprendizaje supervisado y no supervisado. Estos incluyen visualización de datos, reducción de datos, clasificación de datos y reducción de ruido en conjuntos de datos. El disertante explica que la reducción de la dimensionalidad puede ayudar a comprender los factores que impulsan la variación, distinguir entre diferentes clases e identificar subconjuntos de datos interesantes. Además, el disertante describe cómo la reducción de la dimensionalidad implica el mapeo de datos de alta dimensión en una variedad de menor dimensión.

  • 00:10:00 En esta sección de la conferencia, se introduce el concepto de aprendizaje múltiple como una forma de comprender la verdadera dimensionalidad de los datos de alta dimensión, lo que permite una representación de menor dimensión. El aprendizaje múltiple implica tomar datos de alta dimensión y comprender la verdadera dimensionalidad de los datos, que puede no ser explorada por el conjunto de datos. La reducción de la dimensionalidad lineal mediante el análisis de componentes principales (PCA) se analiza como una de las formas más comunes de aprender estas variedades. PCA implica proyectar los datos en un conjunto de coordenadas lineales, que es una transformación del espacio original. Los vectores propios de los datos originales se utilizan en PCA para encontrar los vectores que son invariantes a las transformaciones.

  • 00:15:00 En esta sección de la lección sobre aprendizaje profundo en ciencias de la vida, se presenta el concepto de descomposición propia como una forma de descomponer una gran matriz de datos en sus principales vectores de variación. Para matrices simétricas, los vectores propios son ortogonales, y para matrices simétricas reales, los vectores propios son tanto ortogonales como reales. La descomposición propia captura la reducción de dimensionalidad lineal más natural de un conjunto de datos, y la matriz diagonal representa los efectos de los componentes principales independientes. Para matrices no simétricas, se utiliza la descomposición de valores singulares para encontrar los vectores propios de los genes y las condiciones y sus combinaciones que mejor explican los datos.

  • 00:20:00 En esta sección, el disertante analiza el concepto de descomposición de valores singulares (SVD) y cómo se puede utilizar para la reducción de la dimensionalidad lineal. SVD es una forma de descomponer una matriz en una serie de operaciones, incluidas dos rotaciones y una escala, para encontrar las dimensiones de variación más importantes en los datos. La matriz resultante se puede utilizar para calcular una aproximación óptima de bajo rango de los datos originales, lo que permite la representación de los datos en un espacio dimensional más bajo. Esto es útil para la reducción de dimensionalidad lineal, que tiene capacidades limitadas, pero la reducción de dimensionalidad no lineal puede eliminar algunas de estas restricciones. El análisis de componentes principales es un método de reducción de dimensionalidad lineal que captura las principales dimensiones lineales de variación en los datos.

  • 00:25:00 En esta sección, el método de incrustación de vecinos estocásticos distribuidos en t (t-SNE) se analiza como una técnica de agrupamiento de datos para la reducción dimensional mientras se preservan las distancias en escalas variables. En lugar de depender de PCA que trata todas las distancias por igual, t-SNE mapea un espacio dimensional alto en una dimensión más baja mientras preserva la proximidad de puntos de datos similares dentro del nuevo espacio. Al aplicar un ancho de banda específico, las celdas individuales con patrones de expresión similares en un espacio dimensional alto pueden hacerse próximas entre sí en un espacio dimensional más bajo, minimizando la divergencia KL entre ambos espacios. Se pueden usar métodos graduales para encontrar una incrustación que minimice la función de costo de la divergencia KL entre los dos espacios.

  • 00:30:00 En esta sección, el orador analiza cómo la incrustación de vecinos estocásticos distribuidos (d-SNE) conserva la estructura de similitud local de los datos mediante la búsqueda a través del gradiente y la optimización de las coordenadas de un espacio de menor dimensión. El enfoque es una incrustación no lineal que preserva las distancias locales en lugar de las distancias globales y penaliza cuando los puntos están separados pero los puntos cercanos están más cerca. Este método se usa comúnmente para visualizaciones que rodean conjuntos de datos de una sola celda, y la cantidad de vecinos considerados y el tamaño de los grupos originales pueden afectar la calidad de la incrustación.

  • 00:35:00 En esta sección, el orador analiza el concepto de una proyección de datos de menor dimensión con un enfoque en el aprendizaje de grupos específicos de tipos de células para el análisis de datos de una sola célula. Hablan de un método que permite la proyección conjunta de múltiples tipos de datos ómicos en un conjunto de datos de menor dimensión dentro del cual se pueden comparar entre sí. El orador presenta varios enfoques que ha desarrollado, incluido el enfoque LIGER, que utiliza la factorización de matriz no negativa integradora y un método para ampliar el algoritmo INMF mediante el aprendizaje en línea. La charla concluye discutiendo proyectos en curso para integrar conjuntos de datos con características parcialmente superpuestas y combinar codificadores automáticos variacionales y redes antagónicas generativas para generar perfiles de ARN de células individuales.

  • 00:40:00 En esta sección, el orador analiza los diversos tipos de mediciones que se pueden realizar en células individuales, incluida la expresión génica, la modificación de histonas, la unión del factor de transcripción, la accesibilidad a la cromatina, la metilación del ADN y la conformación de la cromatina. También destacan la importancia de conocer las coordenadas espaciales y mapear la información molecular en el contexto del tejido. El orador menciona el desafío de avanzar hacia una definición cuantitativa de la identidad celular, donde la información molecular y de otro tipo con resolución de una sola célula se utiliza para redefinir los tipos de células de manera imparcial. Para hacer frente a estos desafíos, el orador desarrolló una herramienta llamada ligre, basada en la factorización de matriz no negativa integradora para realizar análisis unicelulares integradores en conjuntos de datos de diferentes medidas. También analizan los beneficios del enfoque de "descomposición basada en partes" de la factorización de matrices no negativas.

  • 00:45:00 En esta sección, la transcripción analiza la aplicación de la factorización de matriz no negativa (NMF) a los datos genómicos, lo que permite la interpretación de los factores NMF como metagenes que agrupan genes coexpresados o coregulados. Estos factores pueden representar rutas biológicas o genes específicos del tipo de célula, así como también capturar factores técnicos. Al agrupar genes en metagenes y resumir la expresión celular usando estos metagenes, NMF permite una definición cuantitativa de la identidad celular y la identificación de tipos y estados celulares en múltiples conjuntos de datos. La interpretabilidad de los metagenes también permite la identificación de señales técnicas y su deconvolución a partir de señales biológicas en los conjuntos de datos.

  • 00:50:00 En esta sección, el orador analiza cómo resolvieron matemáticamente el problema de optimización del elemento f y derivaron un algoritmo novedoso basado en el descenso de coordenadas de bloque, que tiene algunas ventajas significativas y proporciona una garantía de convergencia. Utilizan un algoritmo eficiente para resolver el problema de mínimos cuadrados no negativos y realizan pasos posteriores para aumentar la solidez general del análisis. Luego, el orador da un ejemplo de cómo integraron datos de secuenciación de ARN de una sola célula en donantes humanos para agrupar las células por tipo de célula en lugar de por donante, identificando los principales tipos de células de la sustancia e información sobre cómo las células son similares y diferentes entre donantes humanos.

  • 00:55:00 En esta sección, el orador analiza diferentes aplicaciones de integración de datos de una sola celda. Un ejemplo es la integración de conjuntos de datos espaciales y de una sola célula, que pueden ayudar a identificar las ubicaciones espaciales de los tipos de células dentro de un tejido y proporcionar información sobre la arquitectura del tejido. El orador da un ejemplo utilizando un conjunto de datos del cerebro de un ratón para identificar dos subtipos de astrocitos con diferentes ubicaciones espaciales, lo que proporciona información sobre cómo funcionan juntos los circuitos neuronales. Otra aplicación importante es la integración de conjuntos de datos multiómicos de celdas individuales, lo cual es un desafío porque los conjuntos de datos no comparten instancias ni características. El orador explica una estrategia para vincular estos conjuntos de datos al transformar los datos del epigenoma en características a nivel de genes y correlacionarlos con la expresión de genes.

  • 01:00:00 En esta sección, el orador analiza cómo se puede utilizar la factorización de matriz no negativa integradora (iNMF) para vincular los perfiles transcriptómicos y epigenómicos a fin de comprender mejor la identidad celular en diferentes contextos. Mediante el uso de datos de la corteza del ratón y la médula ósea humana, el orador demuestra cómo vincular la expresión génica y los datos de metilación puede proporcionar una comprensión más clara de los tipos de células e incluso identificar tipos de células con etiquetas ambiguas. Además, el orador explica cómo se puede utilizar un algoritmo de aprendizaje en línea para resolver el problema de iNMF en conjuntos de datos cada vez más grandes mediante la actualización incremental de los cálculos a medida que llegan nuevos datos de forma continua.

  • 01:05:00 En esta sección, el disertante analiza los beneficios de usar un enfoque de mini lotes en el aprendizaje profundo, particularmente para grandes conjuntos de datos. Este enfoque permite una actualización iterativa de los pesos y evita tener que almacenar todo el conjunto de datos en la memoria, lo que da como resultado una convergencia más rápida. El disertante describe tres escenarios donde el mini lote es particularmente útil, con la ventaja clave de poder incorporar nuevos conjuntos de datos a medida que llegan sin tener que volver a analizar los conjuntos de datos anteriores. El disertante también analiza la informática detrás de este enfoque, aprovechando la teoría existente de un artículo sobre el aprendizaje de diccionarios en línea para optimizar una función sustituta que converge asintóticamente a la misma solución en términos de parámetros. En última instancia, este enfoque funciona bien en la práctica y converge mucho más rápidamente debido a la redundancia de cada celda adicional en un conjunto de datos más grande.

  • 01:10:00 En esta sección, el disertante analiza las ventajas de usar algoritmos en línea en métodos de reducción de dimensionalidad para analizar grandes conjuntos de datos. El orador presenta un punto de referencia de su enfoque frente a otros métodos ampliamente utilizados, mostrando que tiene un uso de memoria significativamente menor y es más eficiente en el tiempo. Demuestran la capacidad de refinamiento iterativo del método usando datos generados por Brain Initiative Cell Census Network, donde incorporan nuevos conjuntos de datos en la factorización usando el algoritmo en línea. También muestran cómo el algoritmo inmf se puede extender a un caso en el que las características se superponen parcialmente, lo que permite aprovechar las características compartidas y no compartidas en los conjuntos de datos, lo cual es un enfoque más satisfactorio que los métodos utilizados anteriormente que obligan a las características a alinearse.

  • 01:15:00 En esta sección, el orador explica cómo se puede usar un algoritmo para aprovechar todas las características presentes en un conjunto de datos, incluso si algunas características solo están presentes en una de las fuentes de datos. El algoritmo se puede usar para integrar diferentes tipos de datos, como datos de RNA-seq y ATAC-seq, para brindar una imagen más completa de la expresión génica, lo que puede mejorar la capacidad de resolver grupos o perfiles celulares. El orador también presenta un nuevo enfoque, llamado Michigan, que combina las fortalezas de los codificadores automáticos variacionales (VAEs) y las redes antagónicas generativas (GAN) para generar perfiles celulares realistas a partir de datos de expresión de una sola célula. El algoritmo utiliza el rendimiento de desenredado de VAE y el rendimiento de generación de GAN para crear un enfoque poderoso para manipular y predecir cambios en la identidad celular.

  • 01:20:00 En esta sección, el disertante expresa su voluntad de servir como mentor para los estudiantes interesados en el campo y agradece a la audiencia por asistir a la conferencia. El moderador realiza una encuesta rápida para verificar si los oyentes han aprendido algo y la audiencia responde positivamente. En general, la conferencia fue bien recibida e informativa.
 

Disección de circuitos de enfermedades GWAS - Clase 12


Disección de circuitos de enfermedades GWAS - Clase 12 - Aprendizaje profundo en ciencias de la vida (primavera de 2021)

Este video sobre la disección de circuitos de enfermedades GWAS cubre los fundamentos de la genética humana, los desafíos computacionales para la interpretación y los diversos tipos de variaciones genéticas examinadas en los estudios de asociación del genoma completo (GWAS). El video también explora metodologías como el mapeo mendeliano, el análisis de ligamiento y la identificación de polimorfismos de un solo nucleótido (SNP) asociados con enfermedades. Además, el orador analiza el uso de estadísticas de chi-cuadrado, diagramas de Manhattan y diagramas QQ para visualizar regiones genómicas significativamente asociadas con fenotipos de enfermedades. El video también incluye un estudio de caso sobre el gen FTO y cómo se diseccionó exhaustivamente por sus implicaciones mecánicas en la obesidad. También se discuten los desafíos de comprender la asociación genética con la obesidad y los pasos para abordar este problema.

La conferencia analiza el desafío de estudiar el impacto de las variaciones genómicas en la salud humana y la importancia de comprender cómo las mutaciones afectan a los diferentes tipos de células. El orador describe su enfoque de aprendizaje profundo para predecir el efecto de la secuencia y las variaciones genómicas, particularmente en relación con la predicción de la unión de los factores de transcripción y la organización de la cromatina. También describen su evaluación de estas predicciones utilizando conjuntos de datos genómicos profundamente secuenciados para predecir la sensibilidad del ADN y los QTL de marcas de histonas, así como su uso del aprendizaje profundo para predecir el efecto de las mutaciones en la expresión génica y enfermedades humanas como el autismo. Finalmente, discuten su análisis imparcial de conjuntos de genes previamente conocidos y el uso de una biblioteca de modelos de secuencias de aprendizaje profundo.

  • 00:00:00 En esta sección del video, el orador analiza los fundamentos de la genética humana y los desafíos computacionales en la interpretación. Explican cómo se identifican las variaciones genéticas a través de estudios de asociación del genoma completo (GWAS) y cómo se encuentran las variantes genéticas individuales que contribuyen a las enfermedades. La conferencia también cubre la búsqueda de genes genéticos y el uso de vinculación y GWAS para reconocer ubicaciones asociadas con enfermedades. También se analizan los desafíos del mapeo fino, los estudios de casos y las herramientas de aprendizaje automático para la interpretación de variantes, incluidas las variantes profundas y las profundidades marinas. Se cubre brevemente la historia de la genética humana y los patrones de herencia, comenzando desde la antigua Grecia y continuando hasta el desarrollo del concepto de transmutación y selección natural de Darwin.

  • 00:05:00 En esta sección, el orador analiza la reconciliación entre la herencia discreta de Mendel y la variación continua observada en los rasgos fenotípicos. El concepto de herencia de partículas introducido por Mendel mostró que había unidades discretas de herencia denominadas genes que eran dominantes o recesivos. Sin embargo, la biometría de variación continua observada en humanos no pudo ser explicada por la herencia mendeliana. Esto cambió con el trabajo de los estadísticos a principios del siglo XX, quienes demostraron que la variación continua podía explicarse mediante múltiples loci mendelianos. Esto se convirtió en la base para el mapeo de rasgos mendelianos que eventualmente condujo a la comprensión de que los cromosomas y el ADN transportan el material genético. Además, el orador analiza cómo la desviación de la regla de la distribución independiente se convirtió en el caballo de batalla de la genética humana y cómo los rasgos que están físicamente cerca en el cromosoma tienden a ser coheredados.

  • 00:10:00 En esta sección, el disertante analiza el enfoque tradicional del mapeo genético conocido como mapeo mendeliano, que utiliza la vinculación y la frecuencia de segregación de diferentes rasgos para rastrear las regiones del genoma humano donde se codifican los diferentes rasgos. Sin embargo, este enfoque solo es efectivo para rasgos con un efecto fuerte. Luego, el orador habla sobre la revolución en la década de 2000 que condujo a la capacidad de mapear variaciones de efectos débiles, que anteriormente era impermeable al análisis utilizando métodos de vinculación tradicionales. Esto se logró a través de estudios de asociación del genoma completo (GWAS, por sus siglas en inglés), que analizan cada SNP en todo el genoma y cómo varían con diferentes enfermedades. El orador continúa explicando los tipos de variaciones examinadas en GWAS, incluidos SNP, indels, SDR, variantes estructurales y variantes del número de copias, y cómo estas variaciones pueden afectar la funcionalidad del genoma.

  • 00:15:00 En esta sección, el orador presenta el caballo de batalla de los estudios de asociación del genoma completo (GWAS), a saber, los polimorfismos de nucleótido único (SNP), que son el tipo más común de variación genética. Los SNP tienen dos alelos y cada variante se ha agrupado e integrado en una base de datos llamada dbSNP. El orador también analiza otros tipos de variaciones, como taquigrafía y repeticiones, inserciones y eliminaciones, y más. Además, se explica la diferencia entre variantes comunes y raras, ya que las variantes raras permiten el examen de una fuerte variación del efecto. Se destaca el desafío de encontrar genes de enfermedades, dado que los humanos tienen dos copias de su genoma que consisten en 23 cromosomas, 20,000 genes, 3 mil millones de letras de ADN y millones de sitios polimórficos.

  • 00:20:00 En esta sección, el disertante explica la diferencia entre las variantes comunes y raras en genética y su relación con los estudios de asociación del genoma completo y el análisis mendeliano. Las variantes raras tienen un gran efecto y se encuentran principalmente en el análisis mendeliano, mientras que las variantes comunes tienen un efecto pequeño y pueden capturarse mediante estudios de asociación del genoma completo. Además, el análisis de ligamiento puede ayudar a identificar la ubicación de un gen que causa un trastorno al estudiar los marcadores en los cromosomas y ver cuáles se heredan con el fenotipo en una población.

  • 00:25:00 En esta sección, el orador presenta los estudios de asociación del genoma completo, que reúnen a miles de personas, aproximadamente un 50 % de casos y un 50 % de controles, para estudiar afecciones como la esquizofrenia, la obesidad o la diabetes. Estos estudios suelen sobrerrepresentar los casos para ganar poder, y la tecnología de genotipado se utiliza debido a su bajo costo en comparación con la secuenciación. El ponente destaca la importancia del control de calidad tanto en las muestras como en los SNP para garantizar la precisión de los resultados. Además, el disertante explica el concepto de certificación de población y la necesidad de eliminar la relación entre los individuos del estudio.

  • 00:30:00 En esta sección, el orador explica cómo usar una estadística de chi-cuadrado y una distribución de valor p para detectar señales de enfermedad reales en un estudio de asociación del genoma completo (GWAS). Utilizando una tabla de contingencia que muestra cuántos casos y controles portan el alelo de cada SNP, el hablante busca desviaciones en la frecuencia de alelos entre casos y controles. El estadístico chi-cuadrado mide la magnitud de la desviación y el valor p se utiliza para rechazar la hipótesis de que el alelo no tiene efecto sobre el fenotipo. Luego, el orador explica cómo trazar los valores p en un diagrama de Manhattan para visualizar las regiones genómicas que están significativamente asociadas con el fenotipo de la enfermedad.

  • 00:35:00 En esta sección, el disertante analiza el uso de la gráfica de Manhattan, que muestra el valor p menos log 10 de la probabilidad asociada aleatoriamente de un SNP con una enfermedad, así como la gráfica QQ, que compara los valores p de millones de SNP que han sido probados. Estos son seguidos por un análisis funcional para examinar el papel de los SNP de otras maneras. El nivel de significación de todo el genoma se establece en 5 por 10 a la potencia de menos 8, que se estableció sobre la base de un cálculo al dorso del sobre hace 20 años. Sin embargo, el mapeo fino puede ser un desafío debido a la variación genética limitada en la población humana, que no ha tenido tiempo suficiente para que todos los SNP se segreguen de forma independiente.

  • 00:40:00 En esta sección, el disertante analiza cómo las variantes se heredan en bloques en lugar de aisladas, lo que significa que si una variante en un bloque tiene un cierto alelo, entonces todas las variantes en ese bloque tienen el mismo alelo. Después de encontrar una asociación en una región, el siguiente paso es identificar qué polimorfismo de nucleótido único (SNP) es responsable de la asociación. Un estudio de la enfermedad de Crohn encontró una región que fue detectada tanto por análisis de ligamiento como por estudios de asociación de todo el genoma, mientras que otra región solo fue encontrada por este último. El disertante explica la frecuencia y el tamaño del efecto del alelo de riesgo de cada región.

  • 00:45:00 En esta sección, el orador analiza la rareza de los alelos protectores y las dificultades para descubrirlos a través de estudios de casos y controles y de cohortes. Explican que es menos probable que se encuentren alelos más raros que disminuyen el riesgo en estudios que enriquecen mucho los casos, y que los pedigríes familiares requeridos para tales estudios no son factibles. El orador también explica la diferencia entre las variantes comunes que captura GWAS y los alelos raros de efecto fuerte que captura el análisis de ligamiento. La sección concluye con una breve descripción general de los haplotipos y los puntos críticos de recombinación, incluida su variación entre poblaciones y la importancia de prdm9 para guiar los eventos de recombinación. Finalmente, el orador presenta un estudio sobre el gen FTO, que fue el mayor éxito de GWAS para la obesidad o el índice de masa corporal y fue diseccionado exhaustivamente por sus implicaciones mecánicas.

  • 00:50:00 En esta sección de la conferencia, el orador analiza los desafíos de comprender la asociación genética con la obesidad y describe los pasos para abordar este problema. El primer paso es identificar el tejido y el tipo de célula relevantes, lo que se logra mediante el examen de las anotaciones epigenómicas de varios tejidos. El segundo paso es encontrar el gen objetivo aguas abajo, lo cual se complica por los enlaces y bucles de largo alcance. El ponente explica que la medición de la expresión de diferentes genes en individuos homocigotos de riesgo y sin riesgo revela que el gen FTO en sí mismo no muestra cambios en la expresión, sino que los genes IRX3 e IRX5, ubicados lejos de FTO, son probablemente los genes objetivo.

  • 00:55:00 En esta sección, el orador describe cómo pudieron identificar genes diana para loci no codificantes relacionados con la obesidad y comprender el SNP causal mediante el análisis de motivos regulatorios y la conservación evolutiva. Al interrumpir el regulador aguas arriba y el SNP, pudieron mostrar la epistasis entre los dos y cómo afecta la represión y la desrepresión. El orador explica que la interrupción del motivo disminuye la represión y los potenciadores se sobreactivan, lo que lleva a la sobreactivación de rx3 y rx5 en el nivel de expresión génica, lo que provoca un cambio de disipación de energía a almacenamiento. Al construir un modelo y editar el genoma, pudieron pasar de una región de asociación en la que no sabían nada a comprender el proceso biológico y los genes objetivo, e intervenir para cambiar el circuito.

  • 01:00:00 En esta sección de la conferencia, el ponente analiza el desafío de estudiar el impacto de las numerosas variaciones del genoma que existen en los individuos y la importancia de obtener una mejor comprensión de cómo la secuencia genómica y las mutaciones afectan a los diferentes tipos de células y salud humana. El orador explica que adoptan un enfoque de aprendizaje automático para utilizar la secuencia genómica y grandes cantidades de datos genómicos funcionales para construir modelos que puedan predecir el efecto de la secuencia y las variaciones genómicas. En concreto, el ponente comenta su trabajo sobre la predicción de la unión de factores de transcripción individuales y la organización de la cromatina en función de secuencias genómicas. Su objetivo es desarrollar un método sistemático para predecir el impacto de 120.000 variaciones del genoma a la vez utilizando técnicas de aprendizaje profundo.

  • 01:05:00 En esta sección, el orador discute su decisión de usar un modelo de red convolucional profunda para construir un modelo de secuencia reguladora que satisfaga sus tres requisitos: la capacidad de usar secuencias grandes y un contexto de secuencia larga, la capacidad de modelar el no lineal interacciones en diferentes regiones de la secuencia, y la capacidad de compartir características de secuencia aprendidas en todas las diferentes tareas. El orador explica que el modelo aprende diferentes niveles de características de secuencia en los niveles inferiores y aprende patrones de secuencia de orden superior en los niveles superiores. También enfatizan la importancia de preservar la información espacial al hacer predicciones específicas de posición. El modelo se puede usar para predecir el efecto de cualquier variante genómica dando al modelo dos secuencias que difieren en una sola variante y comparando las predicciones para cada alelo.

  • 01:10:00 En esta sección, el orador describe cómo evaluaron la precisión de sus predicciones para las variantes que afectan la sensibilidad del ADN a nivel de la cromatina. Analizaron conjuntos de datos genómicos profundamente secuenciados y buscaron variantes heterocigotas en las que un alelo estaba significativamente más representado que el otro, lo que indica posibles diferencias en la sensibilidad del ADN. Entrenaron un modelo para predecir la sensibilidad del ADN para los alelos de referencia y alternativos y compararon las predicciones con los resultados experimentales. Descubrieron que el modelo tenía una mayor precisión en la predicción de variantes con diferencias más fuertes entre los alelos de referencia y alternativos y variantes predichas con mayor confianza. La evaluación fue robusta a los falsos positivos, lo que les permitió filtrar los verdaderos positivos. También aplicaron este enfoque a los QTL de marcas de histonas y descubrieron que podían predecir el alelo vinculado a las marcas de histonas más altas.

  • 01:15:00 En esta sección, el orador analiza cómo pueden usar el aprendizaje profundo para predecir los efectos a nivel molecular de las variantes en la expresión génica. Enfrentan desafíos como la necesidad de considerar secuencias regulatorias más grandes y tener menos muestras de capacitación disponibles. Abordan estos desafíos observando una amplia región de 40 kilobytes y aplicando un modelo previamente entrenado para predecir en diferentes posiciones. Luego entrenan un patrón suave de contribuciones de cada predicción del perfil de expresión génica a la expresión génica utilizando un modelo lineal regularizado. A través de este enfoque, pueden predecir el efecto de diferentes mutaciones y cómo pueden causar la misma enfermedad a través de un mecanismo similar. Si bien el problema de predecir la expresión génica está lejos de resolverse, han hecho un primer intento de abordarlo.

  • 01:20:00 En esta sección, el ponente analiza el uso del aprendizaje profundo para predecir el efecto de las variantes genómicas en enfermedades humanas como el autismo. Explican que las mutaciones no codificantes han sido difíciles de detectar y atribuir a la enfermedad. Sin embargo, mediante el uso de modelos para predecir el impacto de las mutaciones en los perfiles de cromatina y los perfiles de unión a proteínas, pudieron comparar las mutaciones de las personas con autismo con las de sus hermanos no afectados. Los investigadores encontraron que había un efecto más fuerte en los genes asociados con el autismo en las personas con autismo en comparación con sus hermanos no afectados, lo que confirma la contribución de las mutaciones no codificantes a la enfermedad.

  • 01:25:00 En esta sección, el orador analiza un análisis imparcial utilizando conjuntos de genes previamente conocidos para determinar la contribución de las mutaciones no codificantes. Utilizan un análisis basado en el vecindario de la red para buscar efectos más fuertes en las mutaciones problemáticas en comparación con las mutaciones entre hermanos dentro de una red de genes. Este análisis muestra una convergencia de mecanismos indicados por mutaciones codificantes y no codificantes, con genes agrupados en grupos relacionados con la sinapsis y la regulación de la cromatina que se habían indicado previamente en las mutaciones codificantes descubiertas en individuos con autismo. El orador también menciona brevemente una biblioteca de modelos de secuencias de aprendizaje profundo que se puede usar para entrenar y evaluar modelos de secuencias.
 

Mecanismo GWAS - Clase 13



Mecanismo GWAS - Clase 13 - Aprendizaje profundo en ciencias de la vida (primavera de 2021)

La conferencia sobre el mecanismo GWAS en la serie Deep Learning in Life Sciences analiza varios métodos para comprender la función de las variantes genéticas no codificantes involucradas en rasgos complejos. La conferencia analiza el uso de anotaciones epigenómicas y modelos de aprendizaje profundo para identificar propiedades globales en regiones asociadas genéticamente para una enfermedad en particular. También cubre enriquecimientos a través de diferentes tejidos y potenciadores y explica cómo estos pueden convertirse en antecedentes empíricos para predecir el SNP causal dentro de un locus. La conferencia también analiza el uso de fenotipos moleculares intermedios, como la expresión génica y la metilación, para estudiar la causalidad en los estudios de asociación del genoma completo y cómo combinar los componentes personales del genotipo y la expresión para explicar la variable fenotípica de la expresión. Por último, la conferencia examina el uso de métodos de inferencia causal para determinar el efecto de cambiar una variable en las variables de resultado para identificar vías causales versus anticausales.

El disertante en este video analiza varias técnicas para inferir efectos causales en la investigación genómica. Cubren el concepto de separación d y el uso de la aleatorización natural en genética como una forma de establecer relaciones causales. El disertante también analiza la aleatorización mendeliana y el modelo de cuasi-inferencia de Rubin, junto con el método de resultado potencial para la inferencia causal. Tocan los desafíos de la imputación y el ajuste de los sesgos en los estudios observacionales. El orador también enfatiza la importancia de usar múltiples evidencias ortogonales para desarrollar un algoritmo causal robusto. Además, explican el uso de la genética para perturbar las expresiones génicas y aprender redes, e introducen la condición de invariancia como una forma de identificar estructuras causales en los datos. La conferencia proporciona una descripción general completa de varias técnicas y herramientas utilizadas en la investigación genómica para la inferencia causal.

  • 00:00:00 En esta sección, la conferencia se centra en ampliar la discusión de la sesión anterior para comprender las variables globales como los enriquecimientos epigenómicos, los eQTL y el estudio de la mediación y la causalidad con el profesor invitado Yong Jin Park de la Universidad de British Columbia. La conferencia planea revisar brevemente el mapeo fino y la disección mecanicista de locus, seguido de diferentes métodos para el análisis de enriquecimiento global usando epigenómica, para inferir tejidos de reguladores de acción, tipos de células y genes diana. Además, la conferencia analizará los modelos mixtos lineales y las puntuaciones de riesgo poligénico utilizados en los estudios de asociación de todo el genoma para predecir fenotipos y la heredabilidad para la transición a los temas restantes de la conferencia del jueves. El objetivo final es comprender los impulsores funcionales y las bases mecanísticas detrás de cada pico en las parcelas de Manhattan simultáneamente en miles de loci genéticos.

  • 00:05:00 En esta sección de la conferencia, el instructor analiza el desafío de usar la genética para comprender los mecanismos de enfermedades para rasgos complejos, que se rigen principalmente por variantes no codificantes. Para abordar este desafío, el instructor propone usar anotaciones epigenómicas de circuitos celulares y modelos de aprendizaje profundo para identificar propiedades globales en todas las regiones asociadas genéticamente para un rasgo particular. Al comparar las diferencias en los enriquecimientos en diferentes rasgos, como la altura y la diabetes tipo 1, el instructor sugiere que pueden aprender propiedades que abarcan todas las regiones y usarlas para inferir propiedades de loci individuales. Este enfoque puede proporcionar una visión imparcial de la enfermedad y ayudar a predecir los genes diana, la terapia y la medicina personalizada.

  • 00:10:00 En esta sección, el ponente explica el proceso de evaluación de la superposición entre variantes genéticas y potenciadores específicos de tejido para buscar un enriquecimiento significativo mediante una prueba estadística hipergeométrica o binomial. Descubrieron que las variantes genéticas asociadas con diferentes rasgos muestran un enriquecimiento específico de tejido a través de los potenciadores activos en esos tejidos. Por ejemplo, las variantes genéticas asociadas con la altura se enriquecieron en potenciadores de células madre embrionarias, mientras que las variantes genéticas asociadas con la presión arterial se enriquecieron en potenciadores que actúan en el ventrículo izquierdo. También descubrieron que la enfermedad de Alzheimer no estaba globalmente enriquecida con potenciadores activos en el cerebro, sino que se enriquecía con potenciadores activos en las células inmunitarias del cerebro, específicamente las células CD14+. Esto les llevó a postular que las variantes genéticas asociadas con el Alzheimer actúan principalmente en las células inmunitarias del cerebro. Ahora pueden usar esta información en un marco bayesiano para determinar qué variantes genéticas asociadas con la enfermedad tienen más probabilidades de ser funcionales.

  • 00:15:00 En esta sección de la conferencia, el orador analiza cómo convertir los enriquecimientos observados en antecedentes empíricos que se pueden usar en GWAS. Usando el ejemplo de la enfermedad de Crohn y la enfermedad de Alzheimer, el ponente explica que las variantes genéticas asociadas con una enfermedad que se enriquecen en ciertas regiones se pueden usar como a priori para predecir el SNP causal dentro de un locus determinado. Luego explican cómo se puede combinar este dato anterior con la evidencia de las estadísticas de resumen de GWAS para construir una probabilidad posterior para cada variante. La eficacia de este método, llamado RIVIERA, se demuestra por el hecho de que es más probable que los SNP que prioriza se conserven evolutivamente y se encuentren en eQTL y huellas genómicas digitales.

  • 00:20:00 En esta sección de la conferencia, el orador habla sobre el uso de potenciadores enriquecidos para hacer asociaciones altamente específicas entre variantes genéticas y rasgos. Al asignar estos rasgos a los potenciadores con los que se superponen, el orador analiza la partición de los loci genéticos en tejidos específicos para comprender mejor las funciones biológicas asociadas con estos loci. El orador destaca cómo se puede usar esto para dividir rasgos complejos en componentes más simples y priorizar loci en función de su proximidad a los potenciadores en tejidos específicos. El orador también proporciona varios ejemplos de loci asociados con la enfermedad de las arterias coronarias que se superponen con diferentes tejidos y genes diana. Además, el orador analiza cómo los nuevos loci que no alcanzan un significado en todo el genoma también pueden estudiarse y mapearse en tejidos específicos.

  • 00:25:00 En esta sección, el disertante explica cómo utilizan un enfoque de aprendizaje automático para priorizar loci subumbrales, que son menos significativos que la importancia de todo el genoma, y descubren nuevos loci mediante el aprendizaje de características en los significativos de todo el genoma . Descubrieron muchos loci asociados con la repolarización del corazón y usaron sus características como predictores para priorizar variantes por debajo del umbral con líneas de evidencia adicionales de pruebas experimentales. Descubrieron que los genes priorizados con este enfoque estaban fuertemente enriquecidos para estudios de asociación de genomas relacionados y vinculados a genes objetivo que tienen sentido, con una fuerte correlación con los fenotipos de conducción y contractilidad cardíaca. También discutieron cómo usan los loci de rasgos cuantitativos de expresión para cerrar la brecha entre la variación genética y la enfermedad al observar fenotipos moleculares intermedios.

  • 00:30:00 En esta sección, el disertante analiza el uso de rasgos moleculares intermedios, específicamente el nivel de expresión de un gen o el nivel de metilación de un sitio específico, como una forma de estudiar la causalidad en los estudios de asociación del genoma completo. El objetivo es centrarse en tejidos específicos, mecanismos genómicos, cambios en la expresión génica y endofenotipos para identificar qué rasgos son consecuencia de la genética frente a aquellos que son consecuencia de la enfermedad. La base de los loci de rasgos cuantitativos de metilación y los loci de rasgos cuantitativos de expresión es medir rasgos cuantitativos como la altura y correlacionar el número de alelos alternativos con el nivel de metilación o el nivel de expresión de un gen cercano. Este enfoque ha llevado al descubrimiento de decenas de miles de qtls de metilación, y la imputación de estos fenotipos moleculares intermedios puede ayudar a predecir la metilación y correlacionarla con la enfermedad.

  • 00:35:00 En esta sección, el video analiza cómo se puede usar la metilación imputada para cohortes más grandes para descubrir correlaciones entre la metilación impulsada por el genotipo y fenotipos como la enfermedad de Alzheimer. La metilación imputada es el componente genético de la metilación y, al imputarla, los investigadores pueden usar menos individuos y buscar la metilación impulsada por el genotipo, aumentando el poder y observando específicamente el componente genético. El video también muestra ejemplos de cómo, en ciertos casos, al usar varios SNP juntos, muchos SNP que no eran genómicamente significativos se volvieron significativos, lo que permite a los investigadores combinar sus efectos para predecir la metilación.

  • 00:40:00 En esta sección de la conferencia sobre el aprendizaje profundo en las ciencias de la vida, el orador analiza una metodología para identificar los factores mediadores del fenotipo de la enfermedad a través de la genética, la metilación, la transcripción y los estudios de confusión. Explican el proceso de usar modelos de regresión lineal para predecir la relación entre estos diversos factores y la expresión génica, corrigiendo variables como efectos de población y efectos de lote y, en última instancia, identificando impulsores genéticos de fenotipos moleculares intermedios como la metilación y la expresión. La metodología implica un gráfico QQ para evaluar la calibración de las estadísticas y el uso de covariables como la edad, el sexo y los componentes principales de los genotipos y la expresión para interpretar los resultados.

  • 00:45:00 En esta sección de la conferencia, la atención se centra en combinar los componentes personales del genotipo y la expresión para determinar si un modelo que incluye covarianza adicional y genotipo es más capaz de explicar la variable fenotípica de la expresión que solo el modelo de referencia. Esta es la base de un estudio de locus de rasgos cuantitativos de expresión (eQTL) que se puede complementar con análisis alélicos. El análisis de alelos implica dividir las lecturas de individuos heterocigotos en aquellos que contienen un alelo con A y aquellos que contienen otro alelo con C de la misma célula de la misma persona. Al asociar el genotipo A con la expresión específica de alelo de este alelo que parece tener una expresión más alta que la del alelo C, se puede observar el efecto específico de alelo de una región particular que se está probando dado un SNP particular. La conferencia también cubre los QTL de respuesta y su papel en la determinación de los QTL en respuesta a una condición ambiental particular.

  • 00:50:00 En esta sección, el disertante analiza el concepto de loci de rasgos cuantitativos de expresión (eQTL), que son loci genómicos que regulan los niveles de expresión génica. El disertante explica que los eQTL pueden estar presentes todo el tiempo o solo estar presentes en respuesta a un estímulo particular. Luego, la transcripción pasa al tema de la inferencia de causalidad, que el disertante explica que es una forma de determinar qué loci desempeñan un papel causal en una enfermedad frente a cuáles simplemente están correlacionados con los fenotipos de la enfermedad. El disertante explica que el campo de inferencia causal se divide en dos categorías: efecto causal y descubrimiento causal. La conferencia se centrará principalmente en la influencia del efecto causal.

  • 00:55:00 En esta sección, el orador analiza el uso de métodos de inferencia causal en el estudio del análisis genético. La inferencia causal implica intervenciones experimentales para determinar el efecto de cambiar una variable x en la variable de resultado y. El objetivo es asegurar que la probabilidad condicional sea casi equivalente a la probabilidad intervencionista. El orador también explica los conceptos de accesibilidad, condicionamiento, ajuste y separación d. Mediante el uso de lenguaje gráfico causal, los investigadores pueden hacer preguntas causales e identificar vías causales versus anticausales. La presencia de un camino de puerta trasera puede afectar la interpretación de la probabilidad condicional y crear la idea errónea de que la correlación es igual a la causalidad.

  • 01:00:00 En esta sección, el disertante analiza el concepto de bloquear el camino de puerta trasera entre variables vectoriales para identificar el efecto causal en la investigación genómica. Introducen la idea de la separación d y la creación de patrones colisionadores al condicionar ciertas variables. El disertante explica que si una variable es lo suficientemente simple, los investigadores pueden realizar intervenciones y asignar variables al azar para romper la dependencia entre los factores de confusión y la variable de interés. El conferenciante destaca que la genética es una variable importante en la investigación genómica ya que no se ve afectada por factores ambientales, y fijarla en un valor determinado es como un ensayo de control aleatorio natural.

  • 01:05:00 En esta sección, el disertante analiza el concepto de aleatorización mendeliana y cómo se puede utilizar para comprender la relación entre genotipos, fenotipos intermedios y fenotipos de enfermedad. Los genotipos están bellamente aleatorizados, lo que facilita la estimación del verdadero efecto causal. Aunque este método se basa en gran medida en suposiciones, se ha aplicado con éxito en estudios de interacción gen-ambiente y eQTL de genes. Además, el disertante explica que otra forma de estimar el parámetro de regresión beta y los efectos de mediación es a través de la combinación de una regresión y sobre g y otra regresión x sobre g. En última instancia, la aleatorización mendeliana ofrece una oportunidad única para comprender relaciones complejas entre variables que son difíciles de manipular en la vida real.

  • 01:10:00 En esta sección, el disertante analiza dos enfoques para inferir efectos causales en la investigación genómica: la aleatorización mendeliana (MR) y el modelo de cuasi-inferencia de Rubin. MR es un ensayo controlado aleatorio que utiliza genotipos para perturbar aleatoriamente variables intermedias para un ensayo controlado aleatorio sobre el resultado de una enfermedad. Sin embargo, la RM puede ser difícil cuando se trata de factores de confusión desconocidos o si existen caminos alternativos. El modelo de cuasi-inferencia de Rubin es un enfoque de razonamiento contrafáctico que mide los efectos causales cuando la asignación es una variable discreta. Este enfoque crea un problema de imputación ya que falta el resultado potencial para una unidad si no se observó.

  • 01:15:00 En esta sección de la conferencia sobre el aprendizaje profundo en las ciencias de la vida, el orador analiza el método de resultado potencial para la inferencia causal en los estudios genéticos. Suposiciones como la independencia, la fuerte ignorabilidad y la superposición son necesarias para estimar con precisión los efectos causales individuales. El orador también brinda un ejemplo de juguete que involucra un medicamento para la enfermedad de Alzheimer y analiza cómo ajustar una función de propensión y usar puntajes de propensión puede ayudar a ajustar los sesgos y producir comparaciones justas entre los grupos de tratamiento y control. El método de resultado potencial permite a los investigadores hacer preguntas interesantes sobre los efectos de diferentes tratamientos e intervenciones.

  • 01:20:00 En esta sección, el orador analiza la inferencia causal a través del marco de resultados potenciales y técnicas de inferencia contrafactual de última generación. Explican cómo la ponderación de los grupos tratados puede explicar la diferencia en los resultados y cómo se puede utilizar la imputación para estimar los resultados potenciales. También analizan un artículo reciente que propone el uso de una matriz de recorte para capturar múltiples factores de confusión y el uso de PC de población para ajustar estos efectos de confusión, así como una estrategia para imputar datos faltantes mediante árboles de regresión bayesianos. A través de esto, se pueden medir los efectos causales individuales para determinar la efectividad de los tratamientos.

  • 01:25:00 En esta sección, el orador analiza el aspecto del descubrimiento causal del aprendizaje profundo en las ciencias de la vida. Explican que aprender la estructura del gráfico causal a partir de matrices de datos de alta dimensión es un problema complejo y desafiante. Sin embargo, señalan que el avance en esta área provino del uso de la genética para perturbar genes y medir las expresiones génicas para aprender redes. Explican que, en lugar de utilizar una probabilidad basada en puntajes, los investigadores ahora confían en la condición de invariancia que asume un único modelo causal que genera los datos y utilizan esta suposición para identificar la estructura causal de los datos. El orador también proporciona un ejemplo de juguete que demuestra este enfoque.

  • 01:30:00 En esta sección de la conferencia, el orador discute la idea de la condición de invariancia y su aplicación para determinar si un modelo puede explicar de manera consistente los datos experimentales. El orador usa el ejemplo de los experimentos de eliminación de genes y muestra cómo la inclusión de un predictor incorrecto puede conducir al rechazo de los resultados experimentales. La idea de la triangulación causal también se menciona como una forma de mejorar la reproducibilidad de los experimentos científicos. El disertante concluye enfatizando la importancia de múltiples evidencias ortogonales para desarrollar un algoritmo causal.
 

Genética de Sistemas - Clase 14



Genética de sistemas - Conferencia 14 - Aprendizaje profundo en ciencias de la vida (primavera de 2021)

En esta conferencia sobre genética de sistemas y aprendizaje profundo, el orador cubre varios temas, incluida la heredabilidad de SNP, la heredabilidad de partición, la regresión de puntuación de LD estratificada y el aprendizaje profundo en fenotipado molecular. También exploran el uso de registros de salud electrónicos, estudios de asociación genómica y genómica para analizar un conjunto de datos del biobanco del Reino Unido de alrededor de 500 000 individuos con miles de fenotipos. El disertante analiza cómo se pueden usar los modelos de aprendizaje profundo para la predicción de funciones de secuencia para comprender el circuito de los loci de enfermedades y el uso de modelos mixtos lineales para llamadas GWAS y EQTL. También tocan los sesgos y las violaciones de los supuestos del modelo en el aprendizaje profundo y destacan la importancia de las anotaciones reguladoras específicas del tipo de célula para inferir tipos de células críticas para la enfermedad. Por último, el disertante discute la complejidad de los hallazgos relacionados con la selección negativa y los tamaños del efecto causal y presenta al profesor Manuel Rivas de la Universidad de Stanford para discutir la descomposición de las asociaciones genéticas.

La conferencia profundiza en la aplicación de datos genéticos en varias áreas, incluida la cuantificación de la composición y los componentes de contribución de los rasgos, la identificación de variantes genéticas que contribuyen a la adipogénesis o la lipólisis, la identificación de mutaciones con fuertes efectos en la función de los genes y un menor riesgo de enfermedad, y el desarrollo de modelos de predicción de riesgo mediante análisis multivariante. Además, la conferencia analiza la aplicación de modelos de puntaje de riesgo poligénico en varios biomarcadores y enfatiza la necesidad de compartir datos entre diferentes poblaciones para mejorar la precisión predictiva, particularmente en el caso de poblaciones no europeas. La conferencia concluye expresando su voluntad de supervisar a los estudiantes interesados en proyectos de investigación relacionados con las puntuaciones poligénicas y los efectos biotrópicos del UK Biobank.

  • 00:00:00 En esta sección, el ponente introduce el tema de la genética de sistemas y la historia clínica electrónica. Revisan brevemente los conceptos tratados en las conferencias anteriores, incluidas las variantes comunes y raras, las puntuaciones de riesgo poligénico, el desequilibrio de ligamiento y las variantes de mapeo fino. El orador analiza los desafíos en la interpretación de los estudios de asociación de todo el genoma debido a la gran mayoría de asociaciones no codificantes con múltiples SNP. Luego, introducen el uso de información genómica, de ARN y de variación, así como modelos de aprendizaje profundo para la función de secuencia para predecir genes impulsores, regiones y tipos de células para comprender los circuitos subyacentes a los loci de la enfermedad. El orador también presenta el uso de modelos mixtos lineales para las llamadas GWAS y EQTL, que predicen los efectos fijos y aleatorios en los fenotipos de interés utilizando genotipos y covariables.

  • 00:05:00 En esta sección, el disertante explica los fundamentos básicos para predecir el fenotipo de una persona en función de sus variantes genéticas y el tamaño del efecto de cada alelo alternativo en todos los SNP del genoma y todos los individuos de la cohorte. El ruido se distribuye entre los individuos con un valor centrado en cero y una matriz de covarianza al cuadrado. Además, los efectos aleatorios se contabilizan utilizando una matriz de parentesco que mide el intercambio genético entre individuos. Se utiliza un enfoque bayesiano para integrar todas las incógnitas y determinar la probabilidad de efectos fenotípicos impulsados por la matriz de covarianza. Los modelos mixtos lineales se construyen para estimar la heredabilidad total de un rasgo particular, que se basa en la suposición infinitesimal y se estima utilizando un modelo de máxima verosimilitud restringida. Este modelo de efectos aleatorios captura las transformaciones de los datos y funciona a pesar de la falta de conocimiento sobre la varianza causal real.

  • 00:10:00 En esta sección, el orador analiza el uso del aprendizaje profundo para capturar la variación adicional mediante la predicción del efecto de los fenotipos moleculares intermedios y la relación lineal entre los SNP y la expresión. El orador explica que esto se puede hacer utilizando distribuciones previas que coincidan con el ruido potencial que rodea la estimación, lo que permite inferir el resultado más preferido. También mencionan la influencia de las diferencias de población, donde los efectos más fuertes que impulsan las matrices genéticas se derivan directamente de las diferencias de población. Finalmente, el orador explica el concepto de heredabilidad y cómo dividir la relación genética en subconjuntos del genoma puede ser un enfoque poderoso para calcular la heredabilidad, lo que sugiere que cuanto más largos son los cromosomas, más variantes explican para muchos rasgos complejos.

  • 00:15:00 En esta sección, Alkes Price de la Escuela de Salud Pública de Harvard explica el concepto de heredabilidad de SNP, que es un parámetro definido como el valor máximo alcanzable en toda la población con respecto a la relación entre fenotipo y genotipo. Analiza la idea de dividir la heredabilidad en diferentes categorías funcionales de SNP, como la codificación frente a la no codificación, y cómo esto podría llevar a conclusiones sobre qué SNP se enriquecen para la heredabilidad en enfermedades y tejidos específicos. Price también presenta el concepto de regresión estratificada de la puntuación de LD como una herramienta para estudiar los tipos de células críticas para enfermedades y los procesos celulares en todo el cuerpo humano.

  • 00:20:00 En esta sección, el orador introduce la idea de analizar estadísticas de asociación resumidas de grandes conjuntos de datos en genética estadística. Este método es útil cuando se analizan enfermedades como la esquizofrenia, la artritis reumatoide y la enfermedad de Crohn, donde se dispone de muestras de gran tamaño mediante la utilización de datos estadísticos resumidos en lugar de genotipos y fenotipos a nivel individual. El orador explica el método de regresión de puntuación de LD estratificada, que se utiliza para hacer una regresión de las estadísticas de asociación de chi-cuadrado de GWAS de enfermedad a través de SNP con LD de diferentes categorías funcionales. El método se basa en la idea de que un chi-cuadrado promedio mayor que uno no implica confusión y se basa en el puntaje promedio de LD en todos los SNP.

  • 00:25:00 En esta sección, el ponente explica el concepto de señal de etiquetado y señal biológicamente causal en relación con los SNP (polimorfismos de un solo nucleótido) y sus puntuaciones de LD (desequilibrio de enlace). Discuten cómo el método de regresión de puntaje de LD (desequilibrio de ligamiento) estratificado puede ayudar a detectar confusión en estos puntajes, con un puntaje de chi-cuadrado promedio más alto que indica la presencia de confusión. También tocan el tema del LD genómico (desequilibrio de ligamiento) y cómo varía según la población y la frecuencia de los SNP. Luego, el orador presenta datos reales en forma de un conjunto de datos de esquizofrenia para ilustrar mejor este método.

  • 00:30:00 En esta sección de la lección, se introduce una ecuación de regresión para estimar la heredabilidad de SNP usando puntuaciones de LD. La intersección de la ecuación de regresión refleja la confusión, mientras que la pendiente refleja la correlación entre la estadística de chi-cuadrado y la puntuación de LD. Esta pendiente se puede utilizar para estimar la heredabilidad de SNP, y las respectivas pendientes de regresión multilineal pueden informarnos sobre la heredabilidad causal de SNP de diferentes categorías funcionales. La cantidad de enriquecimiento puede medir el porcentaje de heredabilidad de SNP explicado por una categoría funcional específica frente al porcentaje de SNP que forman parte de esa categoría. La interpretación funcional de la pendiente depende de si las categorías funcionales se superponen o no.

  • 00:35:00 En esta sección, el orador analiza la regresión de puntuación LD estratificada, que se utiliza para evaluar el enriquecimiento en varias anotaciones funcionales. El método se aplica a la codificación de SNP, potenciadores, marcadores de histonas y más. El orador señala que el método produce estimaciones no sesgadas si las categorías causales están incluidas en el modelo, pero se vuelve sesgada si las categorías causales no están en el modelo. Sin embargo, incluso si faltan algunas categorías, el modelo aún puede proporcionar suficiente riqueza para producir estimaciones casi imparciales para las categorías restantes. El orador enfatiza que los métodos de datos de nivel individual no están diseñados actualmente para ejecutarse en una gran cantidad de categorías funcionales superpuestas o de valores continuos.

  • 00:40:00 En esta sección, el orador explica que existen posibles violaciones de las suposiciones del modelo en el aprendizaje profundo si no se tiene cuidado, citando un ejemplo con qtl superior en los datos de expresión génica que no satisface la suposición fundamental del modelo. Luego, el orador pasa a discutir las aplicaciones del método de aprendizaje profundo a los datos reales de cromatina y expresión génica. Usando estadísticas resumidas disponibles públicamente de 17 rasgos, el orador descubrió que los SNP de codificación están enriquecidos para enfermedades y rasgos complejos, especialmente para enfermedades autoinmunes y altura, mientras que también se encontró que los SNP conservados en 29 mamíferos tienen un impacto sustancial en la enfermedad. Además, se descubrió que los potenciadores fantasma cinco tienen un enriquecimiento significativo para las enfermedades autoinmunes. Luego, la discusión gira en torno a la interpretación de estos resultados en relación con cómo ciertos rasgos pueden tener un mayor o menor acoplamiento con la aptitud reproductiva.

  • 00:45:00 En esta sección, el disertante explica las razones por las cuales ciertas categorías funcionales se enriquecen para la heredabilidad, que no se deben a tamaños de efectos causales más grandes. Los recortes comunes tienen un límite superior suave en los tamaños del efecto debido a la selección negativa, por lo que se trata más de la cantidad de recortes en la categoría funcional que hacen algo, y cada uno tiene tamaños de efecto causales medianos o pequeños a medianos. El disertante también analiza la importancia de las anotaciones reguladoras específicas del tipo de célula para inferir tipos de células críticas para la enfermedad. Las anotaciones reguladoras cerebrales están más enriquecidas para la esquizofrenia, las adaptaciones reguladoras óseas conectadas están más enriquecidas para la altura y los tipos de células inmunitarias están más enriquecidos para la artritis reumatoide. Un enfoque poligénico de todo el genoma puede generar mayores conocimientos biológicos para rasgos altamente poligénicos que los enfoques tradicionales que se centran en recortes significativos de todo el genoma, que pueden ser muy bajos en número para estos rasgos.

  • 00:50:00 En esta sección de la conferencia, el orador analiza el uso de datos de expresión génica para estudiar genes específicos relacionados con ciertas enfermedades, como la esquizofrenia y la artritis reumatoide. También mencionan el concepto de arquitecturas dependientes de ld, donde el tamaño de los efectos causales depende del nivel de ld, y cómo los recortes con niveles más bajos de ld tienen tamaños de efectos causales más grandes en 56 rasgos diferentes. El orador menciona la complejidad de estos hallazgos, que están relacionados con la selección negativa, pero se queda sin tiempo para discutir los datos de secuenciación del ARN de una sola célula y los tipos de células críticas para la enfermedad. Luego presentan al profesor Manuel Rivas de la Universidad de Stanford, quien analiza el proceso de combinar registros de salud electrónicos, estudios de asociación genómica y genómica para analizar un conjunto de datos de un biobanco del Reino Unido basado en la población de alrededor de 500 000 individuos con miles de fenotipos.

  • 00:55:00 En esta sección, el orador analiza un enfoque llamado descomposición de asociaciones genéticas, que consiste en desentrañar mapeos de muchos a muchos en menos componentes para representar estudios de asociación genética. El orador usó un enfoque de descomposición de valores singulares truncados para representar una matriz compuesta de datos de nivel de resumen para miles de rasgos y varianza genética, lo que resultó en un componente de rango inferior de aproximadamente 100 componentes, cada uno de los cuales es un producto de elementos ortogonales en tres matrices. . Los primeros dos componentes se caracterizaron por fenotipos antropométricos, y el orador proyectó cómo cada variante se carga en los dos componentes para ver cómo afectan a los diferentes fenotipos.

  • 01:00:00 En esta sección, el disertante explica cómo se pueden cuantificar los componentes de composición y contribución para un rasgo dado, como el Índice de Masa Corporal (IMC), que se compone de un componente de grasa y un componente de masa libre de grasa . El riesgo genético del IMC estaría también aportado por un componente graso, entre otros componentes. El orador explica que están interesados en identificar variantes genéticas que puedan contribuir a la adipogénesis o los efectos de la lipólisis en lugar de simplemente tener un efecto sin grasa en el índice de masa corporal mediante el estudio de variantes de truncado de proteínas (PTV) específicas e identificando tamaños de efectos fuertes. A través de este proceso, el ponente identifica el gen pde3b que tiene una contribución de masa libre de grasa de colesterol alto al IMC, y GPR 151 que tiene consecuencias funcionales sobre la idiprogénesis. Las asociaciones genéticas para 2000 fenotipos están disponibles en línea en biobank engine.com.edu, con la idea de que se convierta en un portal de búsqueda para que cualquier persona busque su gen, variante o fenotipo favorito y explore el conjunto de asociaciones que están disponibles en diferentes biobancos.

  • 01:05:00 En esta sección, el disertante analiza la identificación de mutaciones que tienen fuertes efectos en la función de los genes y reducen el riesgo de enfermedad, lo que puede conducir a nuevas hipótesis terapéuticas y guiar la selección de objetivos para el descubrimiento de fármacos. Explican el proceso de identificación de variantes genéticas específicas con fuertes efectos sobre la función genética y el fenotipo mediante la combinación de datos de nivel de resumen de múltiples biobancos. Mediante la estimación de parámetros genéticos como la heredabilidad de la poligenicidad y la correlación de los efectos genéticos, pretenden visualizar la relación entre la genética y los rasgos/enfermedades para mejorar la inferencia y guiar el desarrollo terapéutico. También se proporcionan ejemplos de mutaciones de efecto fuerte y sus efectos sobre la protección contra enfermedades como el asma y la diabetes tipo 1.

  • 01:10:00 En esta sección, el presentador analiza la aplicación de datos genéticos en modelos de predicción de riesgos. Los humanos tienen una gran cantidad de variantes genéticas vinculadas a cientos de fenotipos, por lo que un enfoque para explorar estos vínculos es ajustar millones de modelos univariados. Sin embargo, este enfoque tiene propiedades débiles para la predicción debido a la correlación entre las variantes genéticas, lo que dificulta distinguir la variante relevante de otras. Por lo tanto, se desarrolla un modelo multivariante ajustando grandes modelos de regresión con millones de variables. El paquete desarrollado para adaptarse a estos modelos se llama S-LDSC. El modelo utiliza el algoritmo Lasso, que es un marco de regresión penalizado que permite la selección de variables para mejorar el rendimiento predictivo.

  • 01:15:00 En esta sección, el orador analiza la aplicación de modelos de puntaje de riesgo poligénico para 35 biomarcadores, incluidos biomarcadores cardiovasculares, renales y hepáticos. El estudio creó un conjunto de datos de entrenamiento de 70, un conjunto de validación de 10 y una división de prueba de 20 para evaluar el rendimiento del modelo. El rendimiento de los modelos se midió en diferentes poblaciones y los resultados mostraron limitaciones asociadas con la transferencia de estos modelos predictivos de una población que utiliza variantes causales para las predicciones a otras poblaciones. El estudio demostró que la estructura de correlación variaba entre diferentes poblaciones, lo que afectaba el rendimiento predictivo de los modelos. Además, diferentes conjuntos de variantes genéticas pueden explicar la heredabilidad del fenotipo, y la transferencia de modelos predictivos de una población puede no funcionar tan bien en otras poblaciones, rompiendo la relación de la estructura de correlación entre las variantes genéticas. Esto exige la necesidad de compartir datos entre diferentes poblaciones para mejorar la precisión predictiva.

  • 01:20:00 En esta sección, el ponente explica que al estudiar variantes genéticas en diferentes poblaciones, la ausencia de ciertas variantes en poblaciones no europeas puede contribuir a la heterogeneidad en los tamaños del efecto. Sin embargo, cuando una variante está presente en múltiples poblaciones, los tamaños del efecto tienden a ser más homogéneos. Se da el ejemplo de la lipoproteína a, con la explicación de que las variantes genéticas que contribuyen a la variación en la población europea no existen en la población africana, lo que conduce a un rendimiento deficiente en las poblaciones africanas. El ponente también expresa su voluntad de supervisar a los estudiantes interesados en proyectos de investigación relacionados con las puntuaciones poligénicas y los efectos biotrópicos del UK Biobank.
 

Graficar Redes Neuronales - Clase 15



Redes neuronales gráficas - Clase 15 - Aprendizaje en ciencias de la vida (primavera de 2021)

En esta conferencia de YouTube sobre redes neuronales gráficas, el orador cubre una amplia gama de temas, incluidos los conceptos básicos de las redes gráficas, las representaciones espectrales, la clasificación semisupervisada y el modelado de datos multirelacional. También hay un enfoque en la intersección de las redes de gráficos y el procesamiento del lenguaje natural y cómo generar gráficos para el descubrimiento de fármacos. El disertante explica varios métodos para propagar información a través de gráficos para obtener incrustaciones de nodos útiles que se pueden usar para tareas de predicción. La conferencia también destaca la importancia del aprendizaje contrastivo para las GNN, los beneficios potenciales de combinar representaciones basadas en parches y métodos basados en la atención, y el uso del enfoque transformador en PNL. La segunda mitad de la conferencia se centra en la discusión de documentos que muestran los usos prácticos de las GNN en el descubrimiento de fármacos y cómo codificar y decodificar la estructura de las moléculas mediante un árbol de unión.

Este video analiza múltiples aplicaciones de las redes neuronales gráficas (GNN) en las ciencias de la vida, incluido el descubrimiento de fármacos y la inferencia de gráficos latentes. El orador destaca los problemas y las posibles vías en las GNN, como la falta de localidad espacial y ordenamiento fijo, y la configuración considerada implica predecir el tipo de un nodo dado, predecir un enlace entre dos nodos, medir la similitud entre dos nodos o dos redes. y agrupar nodos mediante la detección de comunidades en la red. El disertante también explica cómo los GNN pueden entrenar e incorporar gráficos de manera eficiente, transformar y agregar información y lidiar con los efectos secundarios de la polifarmacia. Además, la conferencia cubre dos métodos para el aprendizaje automático de representaciones en ciencias de la vida, con modelos de metaaprendizaje como MARS que se aprovechan para generalizar a nuevos tipos de células. Por último, la conferencia analiza cómo las GNN pueden aprender representaciones de células latentes en múltiples conjuntos de datos para capturar la heterogeneidad del tipo de célula.

  • 00:00:00 En esta sección, el orador presenta el cuarto módulo sobre gráficos y proteínas y las próximas conferencias sobre redes neuronales gráficas, estructura de proteínas y diseño de fármacos. El orador enfatiza la importancia de revisar el material a través de la tarea, reposiciones y trabajos para prepararse para un próximo examen en clase. El objetivo no es engañar o sorprender a los estudiantes, sino ayudarlos a adoptar el campo y obtener una comprensión profunda del mismo. El orador también informa a los estudiantes de una próxima conferencia del equipo de AlphaFold sobre el plegamiento de proteínas, que es un avance revolucionario en el campo.

  • 00:05:00 En esta sección, el disertante introduce el concepto de redes y cómo están presentes en varios aspectos de la sociedad, incluidas las redes biológicas. Las redes biológicas incluyen redes reguladoras, redes de señalización y redes metabólicas que operan en diferentes niveles de la célula. Existe la necesidad de métodos de análisis de redes para comprender las propiedades de estas redes que interactúan entre sí. Además, se mencionan redes probabilísticas que utilizan nodos y aristas para representar objetos probabilísticos. Las representaciones matriciales de estas redes permiten descomponerlas, comunidades de aprendizaje e identificar módulos a través de enfoques de álgebra lineal.

  • 00:10:00 En esta sección de la conferencia, el orador brinda una descripción general del extenso trabajo sobre análisis de redes y sus representaciones espectrales. Los métodos discutidos incluyen la identificación de la separabilidad de los componentes utilizando cortes máximos a través de redes basadas en los valores propios primero y segundo de la matriz de Laplacian, así como el uso de núcleos de difusión para comprender el flujo de información entre diferentes bordes. El orador enfatiza la importancia de no olvidarse de esta literatura establecida, ya que se puede usar en combinación con métodos de aprendizaje profundo como las redes neuronales gráficas que se discutirán en la conferencia. Luego, el orador presenta al disertante invitado, Neil Band, quien brindará una actualización sobre las redes neuronales gráficas y analizará los dominios problemáticos, como el aprendizaje semisupervisado, los datos multirelacionales y el procesamiento del lenguaje natural.

  • 00:15:00 En esta sección, aprendemos cómo propagar información de manera efectiva a través de gráficos para calcular las características de los nodos o muchos gráficos y realizar operaciones posteriores mediante el uso de redes convolucionales de gráficos. Esta red puede agregar la información de características y actualizar el nodo en particular al recibir y extraer información futura de los vecinos. El objetivo final de GNNS es producir un vector de incrustación que se pueda usar para predecir la propiedad de un gráfico completo o predecir el tipo de cada nodo individual. La regla de actualización se basa en la propagación de información de la representación oculta del nodo y las actualizaciones recibidas del vecindario inmediato. Además, para reducir el número de parámetros del modelo, se aplican las mismas matrices de peso con parámetros compartidos a todos los vecinos en lugar de aplicar otros diferentes.

  • 00:20:00 En esta sección, el disertante describe el proceso de usar redes neuronales gráficas para realizar una tarea de clasificación en redes de citas con artículos como nodos y enlaces de citas como bordes. Se aplica la red convolucional de gráficos de dos capas, que implica actualizar cada nodo en el gráfico para absorber información de su vecindad inmediata y luego obtener los resultados. El disertante menciona el inconveniente potencial del suavizado excesivo con redes profundas y sugiere el uso de unidades recurrentes cerradas para preservar la memoria del estado inicial. Además, el disertante analiza la posibilidad de combinar métodos basados en la atención y representaciones basadas en parches para aprender representaciones de orden superior en redes neuronales gráficas.

  • 00:25:00 En esta sección, el disertante analiza diferentes paradigmas en las redes neuronales gráficas, incluidas las redes convolucionales de gráficos, las actualizaciones atencionales y las técnicas de paso de mensajes. Destacan los posibles problemas de memoria que surgen cuando los gráficos se vuelven demasiado densos en el paso de mensajes, pero enfatizan que estos paradigmas son útiles para diferentes tipos de tareas de aprendizaje. Luego, se sumergen en la clasificación semisupervisada en gráficos, en la que la configuración transductiva puede permitir que los modelos aprendan rápidamente, incluso sin características de nodo explícitas. Por último, el disertante aborda las redes convolucionales de gráficos relacionales, que se pueden usar para modelar datos multirelacionales, como en el procesamiento del lenguaje natural.

  • 00:30:00 En esta sección, el disertante discute la conexión entre las redes gráficas y el procesamiento del lenguaje natural, particularmente el uso del modelo transformador en PNL. El modelo transformador se usa comúnmente para tareas como la traducción de idiomas y el aprendizaje de la comprensión conceptual general de las palabras. El enfoque del transformador comienza con un gráfico completamente conectado, a diferencia de las redes biológicas en las que faltan muchos bordes, y utiliza la autoatención para actualizar las incrustaciones de nodos antes de generar una versión actualizada. Si bien el enfoque transformador no necesariamente beneficiará a las redes biológicas, existe la posibilidad de polinización cruzada de estrategias y optimización entre los dos campos.

  • 00:35:00 En esta sección, aprendemos cómo realizar una actualización de incrustación de palabras para una oración de dos palabras, y cómo hacer una búsqueda de una palabra en particular para todas las demás palabras. Las redes de atención de gráficos usan este mismo método, excepto que asumen que todo el vecindario es el gráfico y hay incrustaciones posicionales. El orador explica cómo incorporar información de conectividad de gráficos en la arquitectura y cómo enmascarar partes del gráfico para usar solo palabras que se mencionaron anteriormente. Hay muchas oportunidades para la aplicación cruzada de estos métodos.

  • 00:40:00 En esta sección, el disertante analiza la configuración de aprendizaje no supervisado de las incrustaciones de nodos de aprendizaje para tareas posteriores, como la clasificación de nodos o la clasificación de gráficos. Para mejorar la capacidad de las redes neuronales para volverse bien especificadas, el disertante explica el concepto de aumento de datos y describe cómo se utiliza en enfoques de aprendizaje contrastivos. La conferencia también cubre parámetros de diseño, como estrategias de muestreo, diferentes tipos de representaciones de nodos y diferentes tipos de funciones de puntuación. Un enfoque es utilizar la función de puntuación para maximizar la información mutua entre las representaciones locales y globales de una clase en particular. Esto alienta a la red a extraer información relacionada con la clase de diferentes subconjuntos de información del gráfico, lo que lleva a incrustaciones de nodos más sólidas y un mejor rendimiento descendente.

  • 00:45:00 En esta sección, el orador analiza la dimensionalidad de las incrustaciones de nodos en redes neuronales gráficas (GNN) y el uso del aprendizaje contrastivo para GNN. El orador explica que, en la práctica, las propiedades de los nodos en GNN podrían vivir en un espacio de alta dimensión, como 256 o 512 dimensiones para un solo nodo en un gráfico grande. El orador también señala que el aprendizaje contrastivo, que implica el uso de ejemplos positivos y negativos para codificar la estructura del gráfico, podría usarse en lugar de la clasificación para mejorar la codificación de la estructura del gráfico. Finalmente, el orador resume las conclusiones de las decisiones de diseño en GNN, destacando la efectividad de la puntuación basada en vecinos para la predicción de enlaces y la clasificación de nodos y la importancia de considerar tanto las características de los nodos como la estructura del gráfico al elegir el tipo de representación del nodo. .

  • 00:50:00 En esta sección, el orador analiza dos formas de generar un gráfico, la primera de las cuales es predecir nuevos enlaces entre entidades conocidas utilizando una red neuronal de gráficos estándar o una red convolucional de gráficos como codificador y una función de las incrustaciones como un decodificador La probabilidad de existencia de cualquier borde dado se basa en los nodos incidentes y es independiente de todos los demás bordes. La segunda forma genera un gráfico con un solo vector de incrustación para todo el gráfico, usando un estado particular, que se decodifica usando un Graph RNN que hace un conjunto de predicciones al agregar cada nodo específico. Este método intenta introducir la menor cantidad posible de sesgos inductivos sobre cómo generar un gráfico. Este último enfoque se utiliza para el descubrimiento de fármacos, concretamente en el artículo sobre Junction Tree Variational Autoencoder para generar moléculas de novo con alta potencia, independientemente de si se han sintetizado o caracterizado previamente.

  • 00:55:00 En esta sección, se describe el enfoque del documento para codificar y decodificar la estructura de las moléculas usando redes neuronales gráficas. El enfoque utiliza un gráfico molecular de grano fino para codificar un estado y una descomposición en árbol para decodificar la estructura de nivel superior del gráfico. Mediante el uso de un árbol de unión para eliminar ciclos en el gráfico, los autores pueden simplificar el proceso de decodificación y predecir solo la etiqueta de un nodo y si agregar o no un nodo secundario, lo que da como resultado una estructura de nivel superior válida de la molécula. Los autores utilizan una unidad recurrente cerrada para involucrar todo el estado del subárbol que se ha construido hasta el momento y lograr un alto porcentaje de reconstrucción en términos de validez molecular. La optimización bayesiana se utiliza para evaluar la navegabilidad del espacio latente para generar nuevos fármacos.

  • 01:00:00 En esta sección, el orador analiza dos aplicaciones de las redes neuronales gráficas (GNN) en las ciencias de la vida. La primera aplicación está en el campo del descubrimiento de fármacos, donde la GNN se usa para inferir la variable latente de una molécula y predecir su propiedad química. El modelo se entrena utilizando un marco de codificador-decodificador y se optimiza mediante la optimización bayesiana. La segunda aplicación es la inferencia de gráficos latentes, donde los GNN se utilizan para modelar estructuras ocultas en un problema al codificar el conjunto de dinámicas que ocurren con el tiempo. El modelo se puede utilizar para predecir resultados futuros y se puede aplicar al descubrimiento causal. El orador presenta datos de juguetes, así como datos de captura de movimiento del mundo real para mostrar la eficacia de las GNN en estas aplicaciones.

  • 01:05:00 En esta sección, el orador analiza los problemas y las posibles vías en las redes neuronales gráficas. Se mencionaron algunos problemas, incluido el poder limitado y la relación teórica con las pruebas de isomorfismo en el paso de mensajes y la agregación de vecindarios, los desafíos de los gráficos de cálculo estructurados en árbol para encontrar ciclos en los gráficos y el problema del suavizado excesivo. Sin embargo, el orador también ve prometedor escalar estas redes, aprender sobre grandes conjuntos de datos y probar el aprendizaje multimodal y transmodal entre secuencias y gráficos. Después de esto, un postdoctorado de la Universidad de Stanford analiza el aprendizaje profundo en redes biológicas y cómo, para los datos representados como un gráfico, se necesitan marcos de redes neuronales profundas de aplicación más amplia. Se explica que, si bien el aprendizaje profundo ha transformado la forma en que pensamos sobre el ciclo de vida del aprendizaje automático en la actualidad, no está claro cómo usar y aplicar el aprendizaje profundo para datos complejos representados como un gráfico.

  • 01:10:00 En esta sección, se analizan las complejidades del aprendizaje en datos de gráficos, incluida la falta de localidad espacial y ordenamiento fijo, la inexistencia de puntos de referencia y la naturaleza dinámica de los gráficos. El objetivo del aprendizaje de representación en gráficos es encontrar una manera de aprender una función de mapeo que tome el gráfico como entrada para mapear los nodos en un espacio de incrustación de baja dimensión. El aprendizaje eficiente de características independientes de tareas es un objetivo crucial de este proceso para el aprendizaje automático en redes. La configuración considerada asume un gráfico con una matriz de adyacencia y características de nodo asociadas con cada nodo, a partir del cual el objetivo es predecir un tipo de nodo dado, predecir un vínculo entre dos nodos, medir la similitud entre dos nodos o dos redes y agrupar nodos mediante la detección de la comunidad en la red. Se presenta el enfoque más ingenuo de aplicar redes neuronales profundas a los gráficos, pero se destacan sus limitaciones, incluido el aumento en la cantidad de parámetros en la red según la cantidad de nodos, la inestabilidad del entrenamiento y la mayor probabilidad de sobreajuste.

  • 01:15:00 En esta sección, el orador explica cómo las redes neuronales gráficas pueden entrenar e incorporar gráficos de manera eficiente utilizando ideas tomadas de las redes neuronales convolucionales. La vecindad de un nodo define la estructura de la red neuronal, y la idea clave es generar incorporaciones de nodos basadas en la vecindad de la red local. El orador ilustra este concepto al mostrar cómo agregar y transformar información para producir operadores de transformación y agregación de mensajes, que son invariantes a la permutación. Estos operadores se pueden aprender para transformar la información del nodo y predecir la propiedad de interés.

  • 01:20:00 En esta sección, el ponente explica el proceso de transformación y agregación de las redes neuronales gráficas. El enfoque básico es promediar la información de los nodos y aplicar redes neuronales para transformaciones lineales seguidas de no linealidad. El ponente presenta el ejemplo del algoritmo GraphSAGE, donde se introduce una función de agregador generalizado para combinar las características de la vecindad local de un nodo. Las funciones de agregación diferenciables, como la media, la agrupación o las celdas LSTM, se pueden usar para agregar información entre los vecinos. El orador también analiza el uso de redes neuronales gráficas en biología y cómo se pueden usar para predecir ciertos comportamientos o resultados.

  • 01:25:00 En esta sección, el disertante discute el concepto de efectos secundarios de la polifarmacia, que son los efectos secundarios resultantes de la combinación de medicamentos. El disertante explica que el objetivo es estimar la probabilidad de efectos secundarios de la combinación de dos fármacos modelándolos como nodos en una red heterogénea. El disertante muestra un ejemplo de cómo se pueden modelar fármacos y proteínas en una red para capturar los mecanismos de acción de los fármacos y los mecanismos biológicos subyacentes. Luego, el disertante explica cómo Graph Neural Networks (GNN) se puede extender para integrar redes heterogéneas, donde el vecindario debe estar separado por un tipo de borde, y cómo transformar y propagar información a través del gráfico definido por el vecindario de red de los nodos en cada borde. tipo.

  • 01:30:00 En esta sección, el disertante analiza dos métodos para el aprendizaje automático de representaciones en ciencias de la vida. El primer método se basa en redes neuronales de gráficos relacionales, que se pueden utilizar para predecir si dos fármacos provocarán efectos secundarios mediante el aprendizaje de incrustaciones de vectores d-dimensionales para cada nodo en el gráfico. El segundo método es un modelo de metaaprendizaje llamado MARS, que aprovecha el conocimiento previo de datos previamente anotados para generalizar a nuevos tipos de células nunca antes vistos. Al optimizar el experimento sin anotaciones y el conjunto de metadatos, MARS puede anotar automáticamente las células en los tipos de células y evitar el tedioso esfuerzo manual de anotar las células en función de sus perfiles de expresión génica.

  • 01:35:00 En esta sección de la conferencia, el orador analiza el uso de redes neuronales gráficas para aprender representaciones de células latentes en múltiples conjuntos de datos para capturar la heterogeneidad de los tipos de células. El enfoque implica la proyección conjunta de células de experimentos anotados y no anotados en un espacio de incrustación de baja dimensión, donde los tipos de células similares se incrustan cerca y los diferentes tipos de células se incrustan lejos. Para lograr esto, el método aprende puntos de referencia de tipos de células como representantes de tipos de células y una función de mapeo no lineal utilizando redes neuronales profundas. El enfoque se valida con datos de un atlas de células de ratón a gran escala con más de 100 000 células de más de 20 tejidos, y logra un rendimiento un 45 % mejor que los métodos existentes en términos de índice Rand ajustado.
 

IA para el diseño de fármacos - Clase 16


IA para el diseño de fármacos - Clase 16 - Aprendizaje profundo en las ciencias de la vida (primavera de 2021)

Esta conferencia analiza el uso del aprendizaje profundo para el diseño de fármacos. Explica cómo se puede utilizar el aprendizaje profundo para encontrar nuevos compuestos con resistencia a los antibióticos. También analiza cómo se pueden mejorar los modelos de aprendizaje profundo incorporando conocimiento biológico.

Esta segunda parte de la conferencia proporciona una descripción general de cómo se puede usar el aprendizaje profundo en el diseño de fármacos, específicamente para predecir la actividad antiviral de las combinaciones de fármacos. El modelo se probó in vivo utilizando ensayos basados en células y se identificaron dos nuevas combinaciones de fármacos sinérgicos.

  • 00:00:00 El orador presentará el aprendizaje profundo para el diseño de medicamentos y sus desafíos. Hablará sobre el espacio funcional y el espacio químico, y explicará cómo se puede usar el aprendizaje profundo para encontrar drogas automáticamente.

  • 00:05:00 Los tres enfoques para el diseño de fármacos se basan en los primeros principios, la simulación y la detección virtual. Los dos primeros son buenos para encontrar compuestos con propiedades específicas, pero el último es más ambicioso y trata de encontrar el compuesto correcto observando propiedades que son independientes entre sí. La simulación suele ser demasiado lenta y la proyección virtual es costosa. El diseño de fármacos Denoble es el enfoque más ambicioso y trata de resolver el problema inverso de encontrar un compuesto observando un conjunto de criterios.

  • 00:10:00 En esta conferencia, el orador analiza dos métodos para el descubrimiento de fármacos, la detección virtual y el diseño de fármacos nobles. Ambos métodos tienen sus propias ventajas y desventajas, ya que la detección virtual es más rápida y económica pero tiene menos cobertura que los métodos tradicionales, mientras que el diseño de fármacos nobles es más lento pero puede encontrar compuestos más novedosos. Los algoritmos genéticos son una forma efectiva de explorar el espacio químico, pero aún hay margen de mejora en los algoritmos para esta tarea.

  • 00:15:00 En esta conferencia, el profesor explica cómo se utiliza el aprendizaje profundo en el diseño de medicamentos y cómo puede ser más eficiente que las técnicas tradicionales. También menciona un artículo llamado "Dolly", que muestra cómo se puede usar el aprendizaje profundo para generar imágenes realistas de objetos.

  • 00:20:00 En esta conferencia, el profesor analiza las técnicas de aprendizaje profundo utilizadas en el descubrimiento de fármacos y da ejemplos de cómo estas técnicas han ayudado a los investigadores a encontrar nuevos antibióticos.

  • 00:25:00 Las redes neuronales gráficas son un tipo de inteligencia artificial que se utilizan para buscar nuevos compuestos que puedan matar bacterias. El objetivo de usar este tipo de IA es encontrar compuestos que no se descubren con los métodos tradicionales, ya que estos métodos pueden pasar por alto patrones antibacterianos desconocidos.

  • 00:30:00 Esta conferencia analiza cómo se puede usar el aprendizaje profundo para identificar patrones en los datos relacionados con la resistencia a los antibióticos. El modelo es capaz de predecir si una molécula será efectiva contra bacterias, con una precisión de alrededor de 9,0 auc.

  • 00:35:00 El video analiza cómo los antibióticos existentes ya no son efectivos contra algunas cepas de bacterias, y cómo un nuevo compuesto, llamado "alucinación", es novedoso y efectivo contra estas cepas. También analiza cómo el compuesto es eficaz contra infecciones en ratones.

  • 00:40:00 El video analiza el éxito de los modelos de aprendizaje profundo sobre los métodos tradicionales en el descubrimiento de nuevos compuestos con resistencia a los antibióticos. El video también muestra cómo un método tradicional, el diseño manual, no es capaz de descubrir ciertos compuestos con resistencia a los antibióticos. Los modelos de aprendizaje profundo pueden capturar diferentes partes del espacio y están altamente clasificados por los modelos.

  • 00:45:00 El orador describe los modelos de aprendizaje profundo utilizados para el diseño de fármacos y explica cómo se pueden mejorar los modelos mediante la incorporación de conocimientos biológicos. Presenta un estudio de caso de una combinación de fármacos que resultó ser más eficaz que un solo fármaco.

  • 00:50:00 El video analiza la IA para el diseño de fármacos, con un enfoque particular en el uso del aprendizaje profundo para identificar compuestos sinérgicos. El objetivo es encontrar fármacos que sean sinérgicos y menos tóxicos, e incorporar al modelo el conocimiento del ciclo de replicación viral.

  • 00:55:00 La conferencia analiza los métodos de aprendizaje profundo para el diseño de fármacos, centrándose en cómo se puede utilizar para predecir la actividad antiviral de un fármaco contra una variedad de objetivos. El primer paso es predecir la interacción del objetivo del fármaco, utilizando un conjunto de datos de Campbell y del Instituto Nacional de Salud. Luego, se usa una red neuronal para aprender la representación de la estructura de la molécula, que es necesaria para el segundo paso del proceso de diseño de fármacos: predecir la actividad antiviral del fármaco contra una variedad de objetivos. Al usar una combinación de aprendizaje profundo y finalización de matriz, se destaca el potencial para mejorar el diseño de fármacos.

  • 01:00:00 Esta conferencia analiza cómo se puede usar el aprendizaje profundo en el diseño de fármacos, específicamente para predecir la actividad antiviral de las combinaciones de fármacos. El modelo se probó in vivo utilizando ensayos basados en células y se identificaron dos nuevas combinaciones de fármacos sinérgicos.

  • 01:05:00 Esta conferencia se centra en el aprendizaje profundo en las ciencias de la vida y su importancia para el diseño de fármacos. La conferencia cubre dos enfoques previos al diseño de fármacos, uno que usa secuencias y el otro que usa redes neuronales recurrentes. La conferencia señala que la representación de las moléculas en el flujo de la sonrisa es bastante frágil y que las técnicas tienen un rendimiento deficiente cuando se aplican al descubrimiento de fármacos. La conferencia señala que una mejor manera de representar moléculas es con gráficos, que se pueden generar de manera eficiente con redes neuronales recurrentes.

  • 01:10:00 La conferencia analiza el aprendizaje profundo en las ciencias de la vida, específicamente en lo que respecta al diseño de fármacos. La conferencia señala que el aprendizaje profundo se puede utilizar para generar moléculas, pero que tiene problemas con las moléculas escasas y los motivos de ondas de árboles bajos. Se propuso una red neuronal recurrente como solución, y se descubrió que tenía más éxito con moléculas que tienen motivos de onda de árbol bajo.

  • 01:15:00 Esta conferencia analiza el aprendizaje profundo en las ciencias de la vida, centrándose en un codificador automático de aprendizaje profundo que puede codificar moléculas en un vector de baja dimensión. Esto reduce la cantidad de motivos que se pueden generar, así como la complejidad del tiempo del proceso.

  • 01:20:00 En esta conferencia, el profesor explica cómo se puede usar el aprendizaje profundo para mejorar la precisión de la reconstrucción de motivos en el diseño de fármacos. Los modelos de generación de motivos multifacéticos son ventajosos porque permiten la captura de ciclos grandes en moléculas. La tasa de éxito de la generación de motivos utilizando un enfoque de nodo por nodo es baja debido a la representación incorrecta del espacio de secuencias. Sin embargo, el uso de un enfoque motivo por motivo mejora significativamente la tasa de éxito. Esto se debe a que el modelo puede aprender a modificar moléculas existentes para mejorar sus similitudes con las drogas.

  • 01:25:00 El orador brinda una breve descripción general del aprendizaje profundo en las ciencias de la vida, destacando los desafíos y oportunidades de cada área. Termina con una discusión sobre química y diseño de fármacos.

  • 01:30:00 En esta conferencia, el profesor invitado brinda consejos a los estudiantes interesados en realizar proyectos en el campo de la inteligencia artificial para el diseño de fármacos. Afirman que los estudiantes pueden recibir tutoría de ellos si lo desean.
 

Aprendizaje profundo para el plegamiento de proteínas - Clase 17



Aprendizaje profundo para el plegamiento de proteínas - Clase 17 - MIT Deep Learning in Life Sciences (primavera de 2021)

Este video analiza el uso del aprendizaje profundo en el campo del plegamiento de proteínas y, específicamente, cómo se puede usar el aprendizaje profundo geométrico para estudiar estructuras de proteínas y predecir cosas como los sitios de unión de ligandos y las interacciones proteína-proteína. El video también cubre métodos de modelado basados en plantillas versus sin plantillas, varios enfoques para la predicción de contactos en el plegamiento de proteínas y el uso de redes neuronales residuales para el modelado de imágenes en la predicción de estructuras de proteínas. En general, el orador enfatiza la promesa del aprendizaje profundo para mejorar nuestra comprensión de las estructuras de las proteínas y sus funciones, y proporciona ejemplos y resultados detallados para respaldar esta afirmación.

El video analiza varios enfoques del aprendizaje profundo para el plegamiento de proteínas, incluido el uso de predicciones y plantillas de coevolución para un modelado preciso, la importancia de encontrar mejores homólogos y el potencial del aprendizaje profundo para lograr resultados comparables sin depender de la física tradicional. métodos. Los oradores también profundizan en el uso de resultados diferenciables y la importancia de la precisión global, así como en la evolución del espacio de algoritmos y el potencial del aprendizaje profundo para predecir confirmaciones de proteínas en función de factores como la variación genética o las moléculas pequeñas. En general, el video destaca el emocionante potencial del aprendizaje profundo para revolucionar la predicción de la estructura de proteínas y sus múltiples aplicaciones.

  • 00:00:00 En esta sección del video, Bruno Correa presenta el concepto de aprendizaje profundo geométrico y cómo se aplica al estudio de estructuras de proteínas. Explica cómo el aprendizaje profundo ha tenido éxito en la clasificación de imágenes, pero que los conjuntos de datos en biología son generalmente mucho más ricos y de mayor dimensión, con varios tiempos y otras dimensiones, lo que hace que el aprendizaje profundo geométrico sea un enfoque valioso. Correa analiza la importancia de las estructuras proteicas en sus funciones, desde las funciones mecánicas y químicas hasta la unión y el reconocimiento, y presenta ejemplos como anticuerpos, bombas de iones y proteínas de comunicación y rigidez. También aborda la cuestión de si AlphaFold ha abordado el trabajo de estudiar las superficies de las proteínas, y explica que AlphaFold ha resuelto las estructuras de las proteínas, pero no específicamente el estudio de las superficies de las proteínas.

  • 00:05:00 En esta sección, el orador analiza los desafíos de predecir la función de la proteína a partir de su estructura, lo cual es importante para comprender cómo las proteínas interactúan entre sí y con otros metabolitos en las células. El ponente presenta varias formas de representar las estructuras de las proteínas, centrándose en las representaciones de superficie que pueden tener funciones similares a pesar de tener secuencias y arquitecturas diferentes. Por analogía con el estudio de las caras de las personas, el orador argumenta que el estudio de los patrones en las superficies de las proteínas puede revelar información importante sobre sus funciones. Luego, el orador presenta un enfoque de aprendizaje profundo para predecir los sitios de unión de ligandos de proteínas utilizando representaciones de superficie molecular 3D.

  • 00:10:00 En esta sección del video, el orador analiza el uso del aprendizaje profundo geométrico para el problema del plegamiento de proteínas. Explican que los objetos prototípicos para el aprendizaje profundo geométrico son gráficos o superficies, y su equipo usó representaciones de malla de proteínas para estudiarlos. Luego explican el uso de "parches", que son subconjuntos de la malla con varias características vectoriales en cada nodo, y cómo se les asignan los pesos locales. El orador describe los diferentes tipos de características que se codificaron en cada nodo, incluido el índice de forma, la curvatura dependiente de la distancia, la hidrofobicidad y las características electrostáticas. Esta información luego se reutilizó en un vector para su posterior análisis.

  • 00:15:00 En esta sección, el orador analiza cómo el enfoque de aprendizaje profundo geométrico puede codificar la superficie de una molécula independientemente de su secuencia, lo que permite el estudio de patrones de átomos y propiedades químicas. El ponente señala las posibles aplicaciones de este enfoque, como la clasificación de bolsillos de proteínas en función de las características de ligandos particulares y la predicción de las configuraciones de acoplamiento de dos proteínas utilizando huellas dactilares de superficie. Se realizaron estudios de ablación para comprender qué factores contribuyen más a predecir la especificidad, y se encontró que la química y la geometría eran importantes. En general, el enfoque se muestra prometedor en el avance de la comprensión de las estructuras de proteínas y sus funciones.

  • 00:20:00 En esta sección, el orador describe una red llamada sitio masivo que puede predecir qué sitios en la superficie de una proteína determinada tienen más probabilidades de interactuar con otras proteínas. También analizan una técnica de escaneo de huellas dactilares utilizada para el acoplamiento y las tasas de éxito de este enfoque en comparación con otros programas de acoplamiento. El orador presenta la próxima generación de masiva llamada D masiva, que utiliza una red completamente diferenciable para crear una nube de puntos que describe la superficie de la proteína y el cálculo de las características geométricas y químicas, incluidas las propiedades electrostáticas. Por último, el ponente menciona brevemente el apasionante aspecto del diseño del proyecto y analiza un objetivo importante para controlar la actividad de las células T en el tratamiento del cáncer.

  • 00:25:00 En esta sección, el orador analiza cómo usaron el aprendizaje profundo para diseñar moléculas que se dirigen a las proteínas. Utilizaron masivo para predecir el sitio que sería más propenso a ser el objetivo de las moléculas de diseño y extrajeron la huella digital de la superficie objetivo. Luego acoplaron motivos en este sitio y predijeron interacciones con la proteína de interés. El resultado fue un nuevo motivo que no se conocía previamente en la naturaleza y que coincidió con estructuras experimentales con una desviación cuadrática media de alrededor de un angstrom, lo que indica un aglutinante de alta afinidad que se une a la proteína. El orador se ofrece a asesorar potencialmente a los estudiantes interesados en explorar esta área de investigación.

  • 00:30:00 En esta sección de la conferencia, el orador analiza las dos categorías principales de métodos de predicción de estructuras de proteínas: modelado basado en plantillas y modelado sin plantillas. Mientras que el modelado basado en plantillas se basa en el uso de estructuras de proteínas existentes en la base de datos PDB como plantillas para predecir nuevas estructuras, el modelado sin plantillas es un método más reciente que implica la búsqueda de homología y el aprendizaje automático para predecir estructuras sin depender de plantillas. El orador se centra en el último método y describe un enfoque más nuevo que utiliza la búsqueda de homología de secuencias, el perfilado de señales y el aprendizaje automático para predecir estructuras de proteínas sin depender de plantillas, que ha demostrado una mayor precisión para muchas proteínas que los métodos basados en plantillas. El orador también analiza el método de ensamblaje de fragmentos, un enfoque popular de modelado basado en plantillas utilizado en el pasado.

  • 00:35:00 En esta sección de la conferencia, el orador habla sobre la canalización utilizada para el modelado sin plantilla en el plegamiento de proteínas. La información predictiva sobre la distancia entre dos átomos o residuos en la proteína se alimenta a un motor de optimización para construir la estructura. El orador también analiza diferentes estrategias para múltiples alineaciones de secuencias, incluido el uso de un valor de corte para la cantidad de cobertura o residuos de carbono necesarios. El componente crucial de este modelado es predecir la matriz de inducción, modelando las medidas de interjección utilizando medidas de contenido o métricas de distancia. El ponente presenta algunas ideas efectivas para la predicción de la posición de los contactos, que han hecho que la predicción sea mucho más fácil y las colaboraciones mucho más efectivas en los últimos años.

  • 00:40:00 En esta sección, el ponente analiza tres enfoques diferentes para la predicción de contactos en el plegamiento de proteínas. El primer enfoque es un método estadístico global para el análisis de coaliciones, pero requiere una gran cantidad de secuencias homólogas para ser efectivo. El segundo enfoque utiliza redes neuronales residuales convolucionales profundas para la predicción de la distancia de contacto, y el tercero es una red transformadora para la predicción de contactos que tiene en cuenta tanto la secuencia como la información estructural del banco de datos de proteínas. El orador también explica los desafíos que enfrentan los métodos de aprendizaje supervisado anteriores para la predicción de contactos y cómo se pueden mejorar mediante el uso de modelos de aprendizaje automático más avanzados.

  • 00:45:00 En esta sección, el ponente analiza las limitaciones de los métodos previos de predicción de contactos para el plegamiento de proteínas, que solo consideraban dos residuos a la vez y, por lo tanto, ignoraban las relaciones más amplias dentro de la proteína completa. Para abordar estos problemas, el ponente propone un nuevo método que utiliza el aprendizaje profundo para predecir todos los contactos en una proteína simultáneamente. Este método se basa en tratar cada par de átomos como un píxel en una imagen, lo que puede usarse para formular el problema como una tarea de segmentación de imágenes. Mediante el uso de una red neuronal residual totalmente convolucional, el orador muestra que su método puede mejorar significativamente la precisión de la predicción de contacto y permitir el plegamiento de proteínas más grandes y duras. Además, el método funciona bien tanto para proteínas monocatenarias como de membrana, y se puede utilizar para la predicción de contactos complejos sin cambiar el modelo.

  • 00:50:00 En esta sección, el ponente analiza el uso de redes neuronales residuales para predecir la estructura de proteínas a través del modelado de imágenes utilizando redes neuronales convolucionales. Explican que el uso de conexiones residuales permite el uso de redes mucho más profundas, lo que conduce a una mejor precisión sin sobreajuste. El orador muestra algunos resultados del desempeño de su método en clasificación y precisión en comparación con otros métodos, lo que demuestra el éxito del enfoque de aprendizaje profundo. La precisión ha mejorado en los últimos ocho años y ahora puede llegar al 80 por ciento.

  • 00:55:00 En esta sección, el orador analiza el progreso en la posición de contacto y la posición de diseño utilizando modelos de aprendizaje profundo para el plegamiento de proteínas. La precisión de contacto ha mejorado significativamente con una precisión actual del 80 %, que es mucho más útil que el examen anterior. El orador explica el proceso de usar una red digital para la posición de diseño y cómo puede mejorar significativamente el modelado temporal. El orador también analiza la importancia de la información codificada en ruso y muestra que incluso para ciertas proteínas fermentadas, aún se puede lograr una buena predicción sin usarla. Los resultados sugieren que el aprendizaje profundo puede generar nuevas estructuras y que se necesita una pequeña cantidad de hormonas de secuencia para obtener predicciones precisas.

  • 01:00:00 En esta sección, los disertantes discuten el uso de información de secuencia y estructura para mejorar el modelado de proteínas. Exploran la idea de usar predicciones existentes como retroalimentación en un conjunto de entrenamiento para mejorar las predicciones de coevolución y conducir a mejores predictores basados en secuencias. También analizan el uso de información de plantillas y la importancia de encontrar buenas plantillas para un modelado preciso. Además, cuestionan el papel de la física en el modelado de proteínas y sugieren que, si bien los métodos físicos pueden ayudar a refinar los modelos, el aprendizaje profundo también puede lograr resultados comparables sin el uso de la física.

  • 01:05:00 En esta sección, el video explica cómo modelar proteínas realmente grandes sin usar plantillas. La proteína de ejemplo tiene más de 13 000 residuos, lo que dificulta el modelado preciso a través de medios tradicionales. Sin embargo, al combinar diferentes métodos de ensamblaje y utilizar el flujo de trabajo de iPhone2, la proteína se modela con gran precisión. El video también señala que el uso de un transformador requiere una gran cantidad de potencia y memoria de GPU, lo que dificulta su uso para la mayoría de las personas. Sin embargo, el modelo de aprendizaje automático sigue siendo factible con un conjunto más pequeño de datos de entrenamiento. Además, encontrar mejores homólogos en los que basar el modelo es un cuello de botella potencial que se puede mejorar a través de más investigaciones. Finalmente, se muestra un gráfico de progreso para el modelado 3D de objetivos desafiantes, con puntajes más altos que indican una mejor calidad de los modelos predichos.

  • 01:10:00 En esta sección, Muhammad Al-Qaraghuli habla sobre la evolución del espacio de algoritmos para la predicción de estructuras de proteínas en las últimas dos décadas. Él analiza cómo los métodos anteriores se centraron en usar un modelo basado en la física y una función de energía para llegar al estado de energía más bajo de una proteína, mientras que los métodos más recientes han utilizado la coevolución para extraer información utilizando varias técnicas de inferencia probabilística. Al-Qaraghuli señala que la precisión de estos métodos sigue siendo limitada sin información de secuencia adicional y analiza cómo el aprendizaje profundo se ha convertido en un cambio de juego para la predicción de la estructura de proteínas, en particular para las proteínas de membrana y transmembrana.

  • 01:15:00 En esta sección, el orador analiza la evolución de los enfoques de aprendizaje profundo para el plegamiento de proteínas, comenzando con el uso de métodos no supervisados a principios de la década de 2010 y la introducción del aprendizaje profundo a través de enfoques únicos basados en redes, como el trabajo de Jim Wazoo. con RaptorX en 2016 y el uso de una arquitectura de red residual por capital X 18. El orador describe el desarrollo del primer conjunto de enfoques diferenciables de extremo a extremo en 2018, que no eran necesariamente competitivos con los métodos existentes, pero pudieron generar predicciones mucho más rápido. El último desarrollo, AlphaFold 2, trata los objetos de alineación de secuencia múltiple (MSA) como objetos de ley para capturar potencialmente correlaciones de orden superior y aspectos globales de secuencia y filogenia. Finalmente, el orador describe el santo grial del plegamiento de proteínas, la capacidad de trabajar tan bien como AlphaFold 2 a partir de secuencias de proteínas individuales, que su último trabajo pretende lograr.

  • 01:20:00 En esta sección, los disertantes discuten la capacidad de las proteínas para plegarse in vitro y hasta qué punto las chaperonas dentro de la célula guían este proceso. También exploran la cantidad de información que está presente en la secuencia primaria de proteínas y si es suficiente para predecir el impacto de una mutación que altera la proteína. Discuten las predicciones de la proteína A2, que muestran que aún puede ser posible predecir a partir de secuencias individuales sin requerir que estén presentes todos los aspectos físicos. Finalmente, se presenta el algoritmo del espacio, que involucra la entrada, un torso de red neuronal y la salida, que generalmente es un objeto proxy relacionado con la estructura, y luego se envía a través de una canalización de procesamiento posterior para generar el tridimensional final. estructura.

  • 01:25:00 En esta sección, el orador analiza la importancia de la diferenciabilidad para el resultado generado a partir de un modelo de aprendizaje profundo. Si el resultado es distante del objetivo real, entonces hay una pérdida de optimización potencial. El ponente también analiza el uso del posprocesamiento, que puede dar lugar a predicciones autoincoherentes, y cómo su implementación de un modelo de aprendizaje profundo predice la estructura de frecuencia final sin necesidad de cantidades de proxy. En su enfoque, parametrizan la geometría local usando un alfabeto discreto de ángulos de torsión y predicen una distribución de probabilidad sobre ese alfabeto. Al hacerlo, pueden mantener la diferenciabilidad del motor, lo que permite una optimización eficiente de la estructura final.

  • 01:30:00 En esta sección, el orador explica su enfoque para construir la estructura de una proteína utilizando ángulos de torsión libres en cada residuo y un proceso iterativo. La función de pérdida se define en términos de precisión global, no solo de precisión local, para tener en cuenta las interacciones entre los residuos al dar forma a la estructura original. El orador reconoce que si bien su enfoque es limitado, creen que hay una homogeneización implícita de la estructura que ocurre internamente en la red neuronal, lo que lleva a mejores predicciones con el tiempo. El orador también analiza cómo parametrizan la salida utilizando matrices de puntuación específicas de la posición (PSSM) y una arquitectura recurrente. Finalmente, el orador presenta algunas de sus predicciones hechas usando este enfoque y señala que mientras algunos aspectos de la estructura fueron bien predichos, otros no.

  • 01:35:00 En esta sección, el orador analiza cómo han evolucionado la idea de la parametrización de torsión utilizando la construcción frenesia, que simplifica las matemáticas y simplifica el proceso de formulación. Ahora se enfocan solo en C alfa y parametrizan usando matrices de rotación, lo que resuelve el problema de las estructuras secundarias patológicas. El cambio clave es que han vuelto a la idea de una secuencia única, que alimentan a través de un modelo de lenguaje. Usan transformadores para incrustar cada residuo en un espacio latente y lo usan como entrada para hacer predicciones, con el desafío adicional de adaptar fragmentos y empalmar dos proteínas diferentes para mejorar el rendimiento del entrenamiento. El orador muestra resultados que comparan RGN1 y RGN2 en la predicción de una secuencia de lanzamiento objetivo, con RGN2 logrando resultados significativamente mejores debido a un paso de refinamiento de procesamiento posterior. Es importante tener en cuenta que esto se basa en una entrada de secuencia única que pasó por un modelo de lenguaje.

  • 01:40:00 En esta sección del video, el orador analiza la precisión de su método para predecir estructuras de proteínas. Muestran ejemplos alineados con respecto a alfa 2, y aunque la precisión no es tan buena como la más avanzada, utilizan mucha menos información para hacer la predicción. También muestran ejemplos de proteínas singleton, que se encuentran esencialmente en la zona crepuscular del espacio de secuencia y no tienen homólogos de secuencia, donde su enfoque está marcando una diferencia significativa en comparación con el sistema disponible públicamente de última generación. Además, el orador analiza las proteínas de novo y las proteínas diseñadas en las que funcionan bien sistemáticamente, lo que tiene sentido ya que este tipo de enfoques basados en secuencias serían útiles en el diseño de proteínas. Finalmente, el orador explica que la aceleración significativa en su método podría ser útil para una variedad de aplicaciones.

  • 01:45:00 En esta sección, los oradores discuten el potencial de usar el aprendizaje profundo para predecir diferentes confirmaciones de proteínas en función de diferentes factores, como la variación genética o las moléculas pequeñas. Si bien tener un método de espacio de señal único podría funcionar mejor en teoría, no hay forma de saberlo hasta que realmente puedan comparar diferentes versiones, como cuando se lanza alpha 2. También se mencionan problemas de refinamiento, como predecir la falla general usando un MSA y luego refinarlo en la estructura real usando otra etapa. Los virus que evolucionan rápidamente se mencionan como otra área en la que el aprendizaje profundo podría ser útil. En última instancia, los oradores expresan su entusiasmo por las posibles oportunidades de colaboración en el futuro y el privilegio de poder conectarse con personas de diferentes partes del mundo.