Aprendizado de máquina e redes neurais - página 22

 

Modelos Gerativos, GANs de Redes Adversárias, Autoencoders Variacionais VAEs, Aprendizagem por Representação - Aula 06 (Primavera de 2021)



Modelos Gerativos, GANs de Redes Adversárias, Autoencoders Variacionais VAEs, Aprendizagem por Representação - Aula 06 (Primavera de 2021)

Este vídeo discute o conceito de aprendizagem de representação em aprendizado de máquina, enfatizando sua importância em tarefas de classificação e potencial de inovação no desenvolvimento de novas arquiteturas. Tarefas auto-supervisionadas e de pretexto são introduzidas como formas de aprender representações sem exigir dados rotulados, por meio de técnicas como autoencoders e variational autoencoders (VAEs). O palestrante também discute modelos generativos, como VAEs e redes adversárias generativas (GANs), que podem gerar novos dados manipulando a representação do espaço latente. Os prós e contras de cada método são discutidos, destacando sua eficácia, mas também suas limitações. No geral, o vídeo fornece uma visão abrangente de diferentes abordagens para aprendizado de representação e modelos generativos em aprendizado de máquina.

O vídeo explora os conceitos de Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs) e aprendizagem de representação em modelos generativos. Os GANs envolvem o gerador e o discriminador com objetivos opostos, e o processo de treinamento é lento para amostras falsas, mas melhorias na resolução e na função objetiva podem levar a imagens de aparência realista. O palestrante demonstra como as GANs podem gerar salas arquitetonicamente plausíveis e transferir uma sala para outra. Os VAEs modelam explicitamente funções de densidade e capturam a diversidade de imagens do mundo real por meio de parâmetros de espaço latente significativos. O palestrante incentiva a criatividade e a experimentação com arquiteturas e modelos abertos, e a aplicação de modelos generativos e aprendizado de representação em vários domínios é um campo em rápido crescimento com possibilidades ilimitadas.

  • 00:00:00 Nesta seção, o palestrante discute o conceito de aprendizado de representação em aprendizado de máquina e como ele tem sido usado em redes neurais convolucionais (CNNs) para aprender sobre o mundo. Eles enfatizam que o verdadeiro avanço do aprendizado profundo veio da capacidade da CNN de aprender não linearidades e representações sobre o mundo por meio da extração de recursos. O palestrante argumenta que as tarefas de classificação estão impulsionando a extração de recursos e que é daí que vem toda a representação do conhecimento do mundo. Eles também sugerem que há potencial para inovação no desenvolvimento de novas arquiteturas para aprendizagem de representação em vários domínios que vão além das arquiteturas existentes. Finalmente, eles afirmam que a parte mais emocionante dos modelos generativos é a representação do espaço latente, e não os rótulos, e que tais modelos podem ser usados para aprender um modelo do mundo sem depender de rótulos.

  • 00:05:00 Nesta seção, o palestrante discute o aprendizado de representação e o uso do aprendizado autossupervisionado para esse fim. O aprendizado autossupervisionado envolve o uso de parte dos dados para treinar outra parte dos dados e enganar os dados para que sejam seus próprios supervisores. Isso permite o aprendizado de representações legais que podem ser usadas para gerar visões do mundo. Os modelos generativos funcionam executando o modelo de trás para frente e indo da representação comprimida do mundo para mais exemplos dele. Outra abordagem para o aprendizado de representação são as tarefas pré-texto, nas quais a tarefa em questão é meramente uma desculpa para aprender representações. O exemplo dado é prever a si mesmo, que é o objetivo dos codificadores automáticos. O conceito de passar por uma representação comprimida e reexpandi-la na própria imagem por meio de um grampo é significativo o suficiente para que uma representação subjacente ao mundo possa ser aprendida. Autocodificadores variacionais modelam explicitamente a variância e as distribuições.

  • 00:10:00 Nesta seção, o palestrante discute o conceito de tarefas de pretexto, que se refere ao processamento de sinais de entrada por meio de uma rede para aprender representações da rede e usar o sinal de entrada para criar um sinal de treinamento que é uma tarefa que não se realmente não me importo. Exemplos de tarefas de pretexto incluem prever imagens antes e depois, prever os pixels restantes de uma imagem após a remoção de um patch e colorir imagens em preto e branco. O objetivo das tarefas de pretexto é forçar-se a aprender representações do mundo, levando a tarefas eficazes de aprendizagem supervisionada. A importância de entender esse conceito é crucial, pois leva aos tópicos subsequentes de discussão, como autoencoders, autoencoders variacionais e redes adversárias generativas.

  • 00:15:00 Nesta seção, o conceito de aprendizado auto-supervisionado é apresentado como uma forma de aprender boas representações construindo tarefas de pretexto que permitem o aprendizado sem a necessidade de dados rotulados. Tarefas de pretexto incluem inferir a estrutura de uma imagem, transformar imagens ou usar várias imagens, entre outras. Um exemplo de tarefa de pretexto é inferir a orientação relativa de fragmentos de imagem, enquanto outro é uma tarefa de quebra-cabeça em que a imagem original deve ser reconstruída. Os prós e contras de cada método auto-supervisionado são discutidos, destacando sua eficácia, mas também suas limitações, como assumir orientações fotográficas canônicas em imagens de treinamento ou espaço externo limitado.

  • 00:20:00 Nesta seção, o palestrante explica o conceito de tarefas de pretexto, construindo o mesmo tipo de conceito de tarefas de pretexto e aplicando-o a diferentes exemplos para aprender uma representação do mundo que nos fará resolver tarefas aparentemente complexas na verdade aprendendo algo interessante sobre o mundo. Um dos exemplos inclui a criação de uma representação de codificador e decodificador para aprender representações de recursos de dimensão inferior a partir de dados não rotulados que estão treinando uma tarefa de aprendizado não supervisionado em uma tarefa de aprendizado supervisionado. O objetivo é forçar representações significativas de variações de dados e usar recursos para construir a versão decodificada de sua imagem original codificada, e a função de perda é a diferença entre o original e o previsto.

  • 00:25:00 Nesta seção, o palestrante explica como os autoencoders podem ser usados para construir representações do mundo e gerar imagens por meio de uma função geradora. O vetor z em autoencoders pode fornecer informações significativas sobre os recursos relativos e a presença de diferentes recursos no mundo, que podem ser usados para gerar imagens adicionais. O codificador e o decodificador podem ser usados separadamente para tarefas diferentes, como usar o decodificador como um modelo generativo e o codificador como um vetor de espaço de recursos para aprendizado de representação. Em seguida, o palestrante apresenta o conceito de autoencoders variacionais (VAEs), que é uma versão probabilística dos autoencoders que nos permite obter amostras do modelo para gerar dados adicionais. Os VAEs aprendem a partir de uma representação multidimensional de um conjunto de escalares e variações associadas para cada escalar. Amostrando o verdadeiro anterior do vetor do espaço latente, podemos gerar imagens com base em vários atributos da imagem.

  • 00:30:00 Nesta seção, o palestrante discute modelos generativos e seu objetivo de capturar o mundo por meio do ajuste de vários vetores no autoencoder. Esses vetores acabam sendo representações significativas do mundo, permitindo a amostragem de diferentes imagens variando os parâmetros. A estratégia para treinar os modelos generativos é maximizar a probabilidade dos dados de treinamento aprendendo os parâmetros do modelo. O palestrante então apresenta autoencoders variacionais, que geram modelos probabilisticamente modelando explicitamente a média e a variância dos dados. Ao fazer com que o codificador forneça um único z e uma variação de z, o locutor é capaz de amostrar ambas as distribuições normais e reconhecer diferentes variações de objetos, como barcos.

  • 00:35:00 Nesta seção, o palestrante explica o conceito de autoencoders variacionais (VAEs) e como eles funcionam. Os VAEs consistem em uma rede codificadora que mapeia dados de entrada para um espaço latente, uma rede decodificadora que gera dados de saída do espaço latente e uma rede de geração que gera imagens a partir da representação aprendida pela rede codificadora. O palestrante explica que a função de perda VAE é um limite inferior variacional que maximiza a reconstrução dos dados de entrada e a aproximação da distribuição anterior de imagens usando a rede do decodificador. O palestrante também menciona que o termo de divergência KL é intratável, mas pode ser tratado como um limite inferior para otimização por meio de gradiente descendente.

  • 00:40:00 Nesta seção, o palestrante explica como modelos generativos, como autoencoders variacionais (VAEs), podem ser usados para construir uma representação do mundo com recursos significativos. Ao codificar imagens usando apenas duas dimensões, o VAE pode capturar o espaço de todos os caracteres possíveis e gerar qualquer tipo de caractere que possa ser representado usando apenas uma coordenada bidimensional. Ao diagonalizar o anterior em z, a rede está aprendendo variáveis latentes independentes e as diferentes dimensões de z codificam fatores de variação interpretáveis em uma boa representação de recursos. Essa rede de codificadores permite que os usuários gerem dados e decodifiquem o espaço latente por meio da distribuição anterior de z, tornando os VAEs uma ferramenta útil para o aprendizado de representação.

  • 00:45:00 Nesta seção, o vídeo discute o uso de autoencoders variacionais (VAEs) como uma abordagem de princípios para modelos generativos que permite a inferência do espaço latente dado x, que pode ser uma representação útil para outras tarefas. No entanto, os VAEs têm alguns contras, como maximizar o limite inferior da probabilidade, o que não é tão bom quanto avaliar explicitamente a probabilidade. As amostras geradas de VAEs também são mais borradas e de qualidade inferior em comparação com as de redes adversárias generativas (GANs). Há pesquisas em andamento para melhorar a qualidade das amostras de VAEs, como o uso de aproximações mais flexíveis para distribuições posteriores mais ricas e a incorporação de estrutura nas variáveis latentes. O vídeo também resume as principais conclusões das seções anteriores sobre geração, aprendizado não supervisionado e parâmetros de espaço latente.

  • 00:50:00 Nesta seção, o conceito de redes adversárias generativas (GANs) é discutido. As GANs são projetadas para gerar imagens complexas de alta dimensão por amostragem de uma distribuição simples, como ruído aleatório e transformações de aprendizado para criar imagens a partir de um conjunto de treinamento. O sistema consiste em uma rede geradora para criar imagens falsas e uma rede discriminadora para distinguir entre imagens reais e falsas. O objetivo é treinar o gerador para criar imagens mais realistas enganando o discriminador, que se torna um adversário no processo. O sistema é auto-supervisionado, o que significa que não é necessária rotulagem manual e substitui a necessidade de avaliadores humanos.

  • 00:55:00 Nesta seção, o palestrante explica o conceito de redes adversárias generativas (GANs) que usam uma abordagem de jogo mini-max para treinar um gerador e uma rede discriminadora. O discriminador é treinado para determinar se as imagens geradas são reais ou falsas, enquanto o gerador é treinado para criar imagens que podem enganar o discriminador fazendo-o acreditar que são reais. Por meio dessa função de verossimilhança conjunta, os pesos e parâmetros de ambas as redes são treinados simultaneamente, com o objetivo de fazer com que o discriminador imprima uma pontuação de 1 para imagens reais e 0 para imagens falsas. O gerador, por outro lado, visa minimizar essa pontuação gerando imagens indistinguíveis das reais.

  • 01:00:00 Nesta seção, é explicado o conceito de Generative Adversarial Networks (GANs), onde um gerador e um discriminador têm objetivos opostos em um cenário de jogo. O gerador tenta produzir dados falsos que enganarão o discriminador, que aprendeu a classificar dados reais corretamente. No entanto, o treinamento é lento quando a amostra é falsa, então um truque é usado onde o objetivo do gerador é alterado para maximizar a probabilidade do discriminador estar errado para os dados falsos. O treinamento conjunto das duas redes pode ser desafiador, mas aumentar progressivamente a resolução das imagens pode melhorar a estabilidade. O algoritmo de treinamento GAN envolve a alternância entre atualizar o discriminador subindo o gradiente estocástico e atualizar o gerador usando a função objetivo aprimorada.

  • 01:05:00 Nesta seção, o vídeo discute o conceito de Generative Adversarial Networks (GANs) e o processo de treinamento envolvido na construção de uma rede geradora para criar imagens realistas. O vídeo explica como a rede discriminadora é treinada para distinguir entre as imagens geradas e as imagens reais, e como a rede geradora é treinada para melhorar a qualidade das imagens geradas na medida em que superam o desempenho humano. O vídeo explica ainda mais como construir arquiteturas convolucionais profundas com convoluções estriadas fracionadas e usar funções de ativação ReLU e ReLU com vazamento para obter imagens de aparência realista. O vídeo demonstra o potencial do uso de GANs para gerar salas arquitetonicamente plausíveis e mostra como transferir uma sala para outra interpolando entre as coordenadas do espaço latente.

  • 01:10:00 Nesta seção, o palestrante discute modelos generativos, como GANs, Variational Autoencoders (VAEs) e aprendizado de representação. O objetivo desses modelos é gerar amostras diversificadas e realistas, aprendendo os padrões e estilos subjacentes do mundo real. O palestrante apresenta exemplos de como esses modelos são capazes de executar várias tarefas de manipulação de imagem, como upscaling, transferência de conhecimento de domínio e síntese de textura. O palestrante também destaca os avanços desses modelos, como os Progressive GANs, que permitem gerar imagens de alta resolução, e o site "This person does not exist" da Nvidia, que utiliza um grande número de espaços de parâmetros para aprender parâmetros ortogonais que permitem a decomposição de diferentes componentes da imagem.

  • 01:15:00 Nesta seção, o palestrante explica uma taxonomia de modelos generativos, que pode envolver a modelagem de funções de densidade explícitas ou implícitas. Redes adversárias generativas (GANs) modelam a densidade implicitamente por meio de geradores de acoplamento e redes discriminadoras, enquanto os autoencoders variacionais (VAEs) modelam a densidade explicitamente. O poder do aprendizado profundo está no aprendizado de representação, e o palestrante incentiva a criatividade e a experimentação com as muitas arquiteturas e modelos abertos do campo jovem. O uso de tarefas de pretexto, como prever a si mesmo ou preencher manchas ausentes, pode ajudar a aprender representações latentes significativas do mundo e avançar em direção a modelos verdadeiramente generativos que podem ser amostrados de uma distribuição verdadeira de parâmetros de espaço latente.

  • 01:20:00 Nesta seção, o palestrante discute o conceito de capturar a diversidade de imagens do mundo real por meio de parâmetros de espaço latente significativos em autoencoders variacionais (VAEs). Ao restringir os parâmetros do espaço latente para serem ortogonais e distintos uns dos outros, as imagens resultantes podem ser indistinguíveis de pessoas reais. Além disso, o palestrante observa que a aplicação de modelos generativos e aprendizagem de representação é um campo em rápido crescimento com possibilidades ilimitadas em vários domínios.
 

Genômica Regulatória - Aprendizado Profundo em Ciências da Vida - Aula 07 (Primavera de 2021)



Genômica Regulatória - Aprendizado Profundo em Ciências da Vida - Aula 07 (Primavera de 2021)

A palestra cobre o campo da genômica regulatória, incluindo os fundamentos biológicos da regulação gênica, métodos clássicos para genômica regulatória, descoberta de motivos usando redes neurais convolucionais e o uso de modelos de aprendizado de máquina para entender como a sequência codifica as propriedades de regulação gênica. O palestrante explica a importância dos motivos regulatórios na regulação dos genes e como a interrupção desses motivos pode levar a doenças. Eles introduzem um novo modelo usando uma rede neural convolucional que mapeia as leituras de sequenciamento para o genoma e conta quantas extremidades de cinco primos cada par de bases nas duas fitas possui. O modelo pode ser usado para várias leituras de diferentes proteínas e pode ser ajustado separadamente ou simultaneamente usando um modelo multitarefa. O palestrante também mostra como o modelo pode analisar qualquer tipo de ensaio, incluindo dados genômicos, usando estruturas de interpretação que revelam histórias biológicas sobre como a sintaxe afeta a cooperatividade do TF. Os modelos podem fazer previsões que são validadas por meio de experimentos CRISPR de alta resolução.

O vídeo discute como o aprendizado profundo pode melhorar a qualidade dos dados ATAC-seq de baixa cobertura, aprimorando e eliminando picos de sinal. O AttackWorks é um modelo de aprendizado profundo que recebe dados de cobertura e usa uma arquitetura de rede neural residual para melhorar a precisão do sinal e identificar sites de cromatina acessíveis. O palestrante demonstra como o AttackWorks pode ser usado para lidar com dados de baixa qualidade e aumentar a resolução do estudo da acessibilidade da cromatina de célula única. Eles também descrevem um experimento específico em células-tronco hematopoiéticas que usaram ATAC-seq para identificar elementos regulatórios específicos envolvidos no priming de linhagem. O palestrante convida os alunos a procurar estágios ou colaborações.

  • 00:00:00 Nesta seção, o palestrante apresenta o campo da genômica regulatória e convida palestrantes convidados para discutir artigos influentes e oferecer oportunidades de colaboração e estágios para os alunos. A palestra é o início do Módulo 2 sobre regulação de genes e abrange os fundamentos biológicos da regulação de genes, métodos clássicos de genômica regulatória e descoberta de motivos usando redes neurais convolucionais. A palestra enfatiza a complexidade do código genético, permitindo a construção e o desenvolvimento de um organismo autocurável com intrincadas interconexões em todos os aspectos do corpo, da cabeça aos pés.

  • 00:05:00 Nesta seção, é discutida a complexidade das células e como elas se lembram de sua identidade, apesar de não terem nenhuma informação contextual. O circuito regulatório das células também é destacado, baseado em um conjunto de primitivos e construções que permitem que as células se lembrem do estado de cada pedaço do genoma. A embalagem do DNA em construções estruturais e funcionais é parte integrante desse processo, permitindo que as células compactem tanto DNA dentro delas. Esse empacotamento é feito por meio de nucleossomos, pequenas contas em uma visão em cadeia do DNA, compostas por quatro proteínas histonas, cada uma com uma longa cauda de aminoácidos que pode ser modificada pós-traducionalmente com diferentes modificações de histonas. Essas modificações funcionam com marcas epigenômicas adicionais, como dinucleotídeos CPG, diretamente no DNA para permitir que as células se lembrem de sua identidade.

  • 00:10:00 Nesta seção, o palestrante discute os três tipos de modificações na epigenômica: acessibilidade do DNA, modificações de histonas e metilação do DNA. Ele explica como essas modificações podem afetar a regulação dos genes e a ligação dos fatores de transcrição. Usando a linguagem da epigenômica, pode-se programar cada tipo de célula no corpo ajustando a compactação do DNA para assinaturas específicas de regiões promotoras. Promotores, regiões transcritas, regiões reprimidas e regiões intensificadoras são todas marcadas por diferentes conjuntos de marcas que podem ser identificadas e estudadas. Os intensificadores, em particular, são extremamente dinâmicos e marcados pela monometilação H3K4, acetilação H3K27 e acessibilidade ao DNA.

  • 00:15:00 Nesta seção, o palestrante explica o conceito de "estados da cromatina", que são diferentes estados da cromatina correspondentes a intensificadores, promotores, regiões transcritas e reprimidas, entre outros. Um modelo de Markov oculto multivariado é usado para descobrir esses estados de cromatina, e isso é usado para localizar regiões intensificadoras, regiões promotoras e regiões transcritas em diferentes tipos de células do corpo. A maneira como as proteínas reconhecem o DNA também é explicada, com fatores de transcrição usando domínios de ligação ao DNA para reconhecer sequências específicas de DNA no genoma. O palestrante também fala sobre motivos de DNA e matrizes de peso de posição, que permitem o reconhecimento da especificidade de uma sequência de DNA, e medidas teóricas de informação que distinguem sítios de ligação para reguladores.

  • 00:20:00 Nesta seção da palestra, o palestrante discute a importância dos motivos regulatórios na regulação do gene e como as interrupções desses motivos podem levar a doenças. O palestrante então explica três tecnologias para sondar a regulação de genes: imunoprecipitação de cromatina, acessibilidade de DNA e ATAC-seq. Essas tecnologias podem ser usadas para mapear as localizações dos intensificadores e descobrir a linguagem do DNA usando motivos e construindo modelos de aprendizado profundo.

  • 00:25:00 Nesta seção do vídeo, o palestrante discute o uso de modelos de aprendizado de máquina para entender como a sequência codifica as propriedades de regulação de genes. Ela apresenta diferentes experimentos que traçam o perfil do DNA regulatório e destaca a necessidade de entender a complexa sintaxe dos elementos regulatórios para conduzir respostas específicas. O problema é modelado como uma tarefa de aprendizado de máquina em que cada genoma é particionado em pequenos pedaços de mil pares de bases, e cada um desses pares de bases é associado a algum sinal do experimento.

  • 00:30:00 Nesta seção, o palestrante discute a abordagem tradicional de resumir informações genéticas mapeando sequências para escalares usando vários modelos de aprendizado de máquina. No entanto, essa abordagem resulta em perda de informações, pois os perfis de cobertura de leitura na resolução de um único nucleotídeo contêm geometrias que refletem a interação do DNA da proteína, resultando em pegadas de alta resolução. Esses detalhes intrincados são perdidos ao resumir informações em um escalar. Para corrigir esse problema, o palestrante enfatiza a necessidade de construir um novo modelo que possa modelar os dados em sua resolução mais básica, o que é realizado com uma rede neural convolucional que mapeia leituras de sequenciamento para o genoma e conta quantos fins de cinco primos cada par de bases nas duas fitas tem. Eles então usam uma rede neural que faz essa tradução, começando com a sequência, em leituras de valores reais, que se movem em direção ao perfil, resultando em uma sequência direta para o modelo de perfil.

  • 00:35:00 Nesta seção, o palestrante explica o uso de funções de perda para modelar contagens de leituras que caem em uma sequência e como essas leituras são distribuídas pelos pares de bases. Eles usam uma combinação de erro quadrático médio para contagens totais e probabilidade de log negativo multinomial para a distribuição precisa de leituras em cada par de base. O modelo pode ser usado para várias leituras de diferentes proteínas e pode ser ajustado separadamente ou simultaneamente usando um modelo multitarefa. O palestrante aplica esse modelo a quatro famosos fatores de transcrição de pluripotência em células-tronco embrionárias de camundongos usando experimentos de chip nexus com pegadas de alta resolução.

  • 00:40:00 Nesta seção, o palestrante enfoca a precisão dos modelos em fazer previsões sobre intensificadores no genoma, que são altamente precisos apesar de algum ruído ou diferenças dos dados observados devido à redução de ruído, imputação e outros fatores. Para avaliar o desempenho do genoma dos modelos, eles usam duas métricas: a divergência de Jensen-Shannon e a similaridade entre experimentos replicados, com o primeiro mostrando melhor desempenho do que o último, que é calculado para fornecer limites superiores e inferiores. O palestrante então explica sua abordagem de interpretação, usando o algoritmo DeepLift para decompor recursivamente as contribuições de neurônios em camadas e nucleotídeos, fornecendo interpretações de alta resolução de quais partes da sequência conduzem a ligação por cada um dos quatro fatores de transcrição, revelando uma sintaxe combinatória.

  • 00:45:00 Nesta seção, o palestrante discute dois métodos usados para resumir os padrões aprendidos pelo modelo em todo o genoma. O primeiro método, Modisco, pega todas as sequências ligadas por uma proteína de interesse e infere pontuações profundas para cada nucleotídeo em cada sequência. As sequências são então agrupadas com base na similaridade e agrupadas em motivos não redundantes. O segundo método se concentra na sintaxe ou nos arranjos de motivos de ordem superior que conduzem a ligação cooperativa. Usando o exemplo do nanomotif, a rede neural é capaz de detectar nucleotídeos importantes flanqueando o núcleo e identificar padrões periódicos precisamente em dez pares de bases e meio, indicando que o nano se liga ao DNA de uma maneira que envolve algo acontecendo no mesmo lado da hélice do DNA.

  • 00:50:00 Nesta seção, o palestrante discute uma preferência de sintaxe suave no DNA que é demonstrada por meio de um espaçamento preferencial de múltiplos de dez pares de bases e meio. O palestrante mostra como o modelo é capaz de aprender essa sintaxe por meio da presença de picos sutis no sinal vistos no genoma, permitindo que ele co-localize com sites específicos e aprenda a sintaxe que impulsiona a ligação. O palestrante também descreve experimentos realizados in silico para obter informações sobre como a sintaxe impulsiona a ligação de diferentes proteínas, incluindo um experimento sintético em que dois motivos são incorporados em uma sequência aleatória e o espaçamento entre eles é alterado para prever a ligação de proteínas, bem como um Experimento CRISPR in silico em que os intensificadores reais sofrem mutação e os efeitos da ligação de quatro proteínas são previstos pelo modelo. O palestrante observa que a sintaxe é aprendida em camadas superiores do modelo e mostra que sua remoção faz com que a sintaxe desapareça completamente.

  • 00:55:00 Nesta seção, o palestrante explica um experimento sintético usando um intensificador vinculado por OP4 e nano para mostrar os efeitos da exclusão de motivos específicos. O modelo prevê os efeitos da exclusão dos motivos e os experimentos mostram o mesmo efeito, validando assim as previsões do modelo. O palestrante apresenta o BPNet, um modelo que pode analisar qualquer tipo de ensaio, incluindo dados genômicos, usando estruturas de interpretação que revelam histórias biológicas sobre como a sintaxe afeta a cooperatividade do TF. Os modelos podem fazer previsões que são validadas por meio de experimentos CRISPR de alta resolução. A palestra termina com a discussão de um artigo recente sobre aprimoramento baseado em aprendizado profundo de dados epigenômicos com ATAC-seq, que é uma colaboração entre a equipe do palestrante e o laboratório Bowing Rosenthal.

  • 01:00:00 Nesta seção, o conceito de acessibilidade da cromatina via sequenciamento é explicado. Os picos na faixa de cobertura representam as regiões reguladoras ativas do genoma, permitindo a identificação de elementos reguladores ativos em diferentes tipos de células ou tecidos. Ataxi também pode ser realizado no nível de célula única, fornecendo maior resolução em biologia. No entanto, a qualidade dos dados pode ser um problema, pois a profundidade do sequenciamento, a preparação da amostra e o número de células em um experimento Ataxi de célula única podem afetar os resultados. O ataque funciona como um modelo de aprendizado profundo desenvolvido para resolver alguns desses problemas.

  • 01:05:00 Nesta seção, o palestrante discute a ferramenta AttackWorks, que pega a faixa de cobertura de um experimento ruidoso e usa uma arquitetura de rede neural residual para eliminar ruídos e aprimorar o sinal atáxico, bem como identificar locais de picos ou sítios de cromatina. O modelo usa camadas convolucionais unidimensionais e convoluções dilatadas e inclui uma função de perda de várias partes que mede a precisão da faixa de cobertura sem ruído e a precisão da classificação dos locais de pico. Ao contrário de outros modelos, o AttackWorks apenas coleta dados de cobertura em vez da sequência do genoma para ser mais transferível entre diferentes tipos de células. O palestrante explica a estratégia de treinamento simples usada para treinar o modelo e mostra resultados de exemplo de seu uso em diferentes tipos de células humanas.

  • 01:10:00 Nesta seção, o palestrante explica como o aprendizado profundo pode ser usado para melhorar a qualidade dos dados ATAC-seq de baixa cobertura reduzindo o ruído do sinal e aprimorando picos que antes eram difíceis de identificar. Eles mostram exemplos de como o ataque funciona, um modelo de aprendizado profundo, capaz de distinguir picos de ruídos próximos e identificar com precisão a localização da cromatina acessível em diferentes tipos de células, mesmo em novos dados que não estavam presentes nos dados de treinamento. Eles também discutem como o ataque funciona e pode reduzir o custo dos experimentos, produzindo os mesmos resultados de qualidade com menos sequenciamento. Além disso, eles demonstram como o ataque funciona e pode lidar com dados ATAC-seq de baixa qualidade limpando o ruído de fundo e identificando picos que correspondem de perto aos dados de alta qualidade. Por fim, eles medem o desempenho dos trabalhos de ataque observando o enriquecimento da cobertura em torno dos locais de início da transcrição.

  • 01:15:00 Nesta seção, o palestrante discute como o aprendizado profundo pode ser aplicado para abordar a questão da capacidade limitada de estudar pequenas populações de células em dados atáxicos de célula única. Eles podem selecionar aleatoriamente um subconjunto de células de um tipo de célula abundante e usá-las para obter um sinal ruidoso. Eles podem então treinar um modelo de trabalho de ataque para pegar o sinal de algumas células e descartá-lo para prever qual seria o sinal de muitas células.
    parece. Depois de terem esse modelo treinado, eles podem aplicá-lo a pequenas populações de muito poucas células para prever como seriam os dados se tivessem mais células para sequenciar. Essa abordagem aumenta significativamente a resolução na qual eles podem estudar a acessibilidade da cromatina de célula única e mostram que os modelos são transferíveis entre experimentos, tipos de células e até espécies.

  • 01:20:00 Nesta seção, o palestrante discute um único experimento de sequenciamento celular em células-tronco hematopoiéticas, que podem se diferenciar na linhagem de células linfóide ou eritróide. O experimento revelou heterogeneidade na população de células únicas e identificou subpopulações de células que estão preparadas para se diferenciar em uma das duas linhagens. A equipe usou o ATAC-seq para reduzir o ruído do sinal e identificar elementos reguladores específicos que controlam o processo de preparação da linhagem. Eles reconhecem a equipe envolvida no projeto e convidam os alunos a buscar estágios ou colaborações.
 

Deep Learning for Regulatory Genomics - Regulator binding, Transcription Factors TFs - Aula 08 (Primavera de 2021)



Deep Learning for Regulatory Genomics - Regulator binding, Transcription Factors TFs - Aula 08 (Primavera de 2021)

O vídeo discute o uso de aprendizado profundo para genômica regulatória e foca em como a sequência de DNA pode revelar diferentes motivos presentes nas regiões intensificadoras e promotoras e seu loop 3D. O vídeo explica como a tecnologia de captura de confirmação cromossômica (3C) pode sondar a organização cromossômica e a tecnologia Hi-C pode identificar domínios topologicamente associados (TADs), que interagem entre si, e o padrão de compartimento no genoma. Os filtros convolucionais são aplicados em todas as posições da sequência de DNA para detectar diferentes características ou motivos, e a estrutura de aprendizado profundo pode aprender propriedades, filtros e motivos comuns da sequência de DNA, que permitem a realização de várias tarefas de previsão. O vídeo também menciona como o aprendizado multitarefa é benéfico e o uso de camadas adicionais na rede de aprendizado profundo para reconhecer e combinar várias representações de blocos de construção de motivos de fator de transcrição pode permitir um reconhecimento mais eficiente de motivos complexos.

O palestrante neste vídeo discute o uso de aprendizado profundo para genômica regulatória com foco na ligação do fator de transcrição e na previsão da expressão gênica. Eles exploram o uso de estruturas de convolução e convoluções dilatadas para trazer grandes regiões de DNA e fazer previsões em uma estrutura multitarefa para dados de cromatina e expressão gênica. O palestrante também aborda o uso de conexões residuais para treinar redes neurais profundas e explica como o modelo pode prever contatos 3D usando dados e modelos IC. No geral, o aprendizado profundo pode ser uma ferramenta poderosa para analisar dados genômicos e fazer previsões com base na sequência de DNA com dados suficientes e as transformações corretas.

  • 00:00:00 Nesta seção, o palestrante discute o uso de sequência de DNA e aprendizado profundo para prever características do genoma regulador de genes, com foco na distinção de diferentes motivos que compõem regiões intensificadoras e promotoras e seus loops 3D. O palestrante descreve o uso de matrizes de peso de posição (PWMs) para determinar a especificidade da ligação de cada fator de transcrição, que é então usado para prever a função reguladora do gene. A imunoprecipitação da cromatina também é mencionada como uma tecnologia usada para traçar o perfil de regiões regulatórias no genoma.

  • 00:05:00 Nesta seção, o palestrante explica como a compreensão da estrutura tridimensional da cromatina pode revelar onde diferentes fatores de transcrição estão ligados. O núcleo contém todo o DNA de uma célula e é organizado espacialmente com regiões ativas afastadas da lâmina nuclear e mais próximas do centro do núcleo. A captura de confirmação cromossômica (3C) é uma técnica usada para sondar a organização cromossômica cortando aleatoriamente filamentos de DNA e, em seguida, colando-os novamente para ver onde diferentes seções de DNA podem estar em contato umas com as outras. Essa técnica pode revelar como os cromossomos estão realmente se entrelaçando.

  • 00:10:00 Nesta seção, o palestrante explica como cortar e ligar diferentes fragmentos de DNA pode ser usado para criar moléculas quiméricas que revelam onde porções de DNA se ligam e mapeiam no genoma. Ao sequenciar e analisar essas regiões quiméricas, os pesquisadores podem obter informações sobre o empacotamento tridimensional do genoma e como diferentes regiões interagem umas com as outras. O palestrante discute várias técnicas, como 3C, 4C, 5C e ChIA-PET, que permitem a análise de interações entre regiões genômicas e o uso de métodos baseados em anticorpos para estudar seletivamente regiões ligadas por reguladores específicos.

  • 00:15:00 Nesta seção, o palestrante explica como a tecnologia Hi-C funciona e como ela fornece informações sobre a forma como o genoma é organizado. A tecnologia Hi-C envolve adicionar marcas de biotinilação às regiões do genoma e, em seguida, puxar essas marcas para sequenciá-las, o que permite aos cientistas determinar como duas regiões do genoma interagem umas com as outras. As imagens resultantes mostram informações em loop e revelam que as regiões próximas à diagonal interagem mais. A tecnologia Hi-C também identifica domínios topologicamente associados (TADs), que interagem mais uns com os outros do que com o exterior do domínio, e padrões hierárquicos de interação dentro deles. Além disso, a tecnologia mostra um padrão quadriculado onde regiões tendem a interagir mais com regiões do mesmo tipo, o que permite aos cientistas visualizar a compactação e organização do genoma.

  • 00:20:00 Nesta seção, o palestrante discute a territorialidade de diferentes cromossomos dentro do núcleo e o padrão do compartimento a versus b no genoma, o que sugere que uma parte do genoma é inativa e mais próxima da periferia, enquanto a parte ativa fica mais perto do centro. O palestrante também menciona domínios topologicamente associados, que são grupos de regiões que interagem fortemente dentro deles, mas não através deles. O modelo predominante para os picos de canto nesses domínios é que eles são criados por um processo de extrusão de loop, que envolve locais de ligação para o regulador CTFC e a coesina empurrando um loop de DNA.

  • 00:25:00 Nesta seção, o vídeo explica o modelo de extrusão de loop de interpretação de cromatina de alto nível e dobramento tridimensional da cromatina, que envolve os locais de ligação sendo aproximados e empurrando o DNA através do crescimento efetivo de um loop. O vídeo continua a discutir a análise computacional de motivos regulatórios, usando abordagens tradicionais antes do aprendizado profundo, e como a mesma metodologia de aprendizado profundo pode ser usada para análise de imagens e genômica regulatória com a codificação única do DNA. Essa metodologia envolve o refinamento de um logotipo de motivo, iterando entre o reconhecimento de um padrão de sequência comum e a descoberta de instâncias desse motivo.

  • 00:30:00 Nesta seção, o palestrante explica como os filtros convolucionais são usados no aprendizado representacional na arquitetura de aprendizado profundo. A sequência de DNA é transformada em uma representação de codificação one-hot com quatro canais de entrada diferentes para cada letra. Filtros convolucionais são aplicados em todas as posições da sequência de DNA para detectar diferentes características ou motivos. Esses motivos são então aprendidos e podem ser aplicados para realizar uma tarefa específica, como determinar se um fator de transcrição é binário ou não. O palestrante destaca que o framework de deep learning pode aprender todos esses filtros convolucionais e variar o número de camadas, tarefas de previsão, relações de entrada-saída, entre outros. Em última análise, a arquitetura pode extrair propriedades, filtros e motivos comuns da sequência de DNA e usá-los para aprender uma representação da sequência, permitindo que várias tarefas de previsão sejam realizadas.

  • 00:35:00 Nesta seção, o palestrante faz uma introdução ao uso de aprendizado de máquina em sequências de ácidos nucleicos em biologia. Ele discute as deficiências de usos bem-sucedidos anteriores de aprendizado de máquina, como kernels de string, e como eles não foram capazes de levar em consideração o posicionamento espacial de k-mers ou qualquer relacionamento entre eles. O palestrante então sugere que os métodos de aprendizado profundo poderiam potencialmente superar essas limitações e permitir melhores representações de sequências de DNA para aprendizado de máquina.

  • 00:40:00 Nesta seção do vídeo, o palestrante explica o processo de uso de filtros de convolução em aprendizado profundo para genômica regulatória, que é semelhante ao processo usado na análise de imagens. A primeira camada dos filtros de convolução reconhece as matrizes de peso de posição que são digitalizadas na sequência, criando uma representação numérica e, em seguida, uma operação de normalização em lote é aplicada, seguida por uma função não linear que define valores negativos como zero. Em seguida, a operação de agrupamento máximo é usada para obter o valor máximo de posições adjacentes para cada canal de filtro. As camadas convolucionais são então aplicadas várias vezes para o modelo, com operações de agrupamento entre elas, para aprender as relações entre os fatores de transcrição e os locais de ligação.

  • 00:45:00 Nesta seção, o palestrante discute como fazer previsões em aprendizado profundo para genômica regulatória. Eles recolhem o objeto ao longo do eixo de comprimento e executam uma camada totalmente conectada para fazer previsões. O palestrante fornece um exemplo de hipersensibilidade do DNA e como existem muitos locais acessíveis entre os tipos de células, mas também muitos picos específicos de tipos de células que devem ser aprendidos. Os conjuntos de treinamento, validação e teste consistem em dois milhões de locais, que são divididos em 164 chamadas binárias para saber se há um sinal significativo desse ensaio de hipersensibilidade de DNA. O palestrante discute os benefícios do aprendizado multitarefa, onde todas as convoluções e camadas totalmente conectadas são compartilhadas entre todas as tarefas, exceto a transformação linear final. Eles explicam que essa representação conjunta dá melhores resultados do que treinar modelos separados para cada tarefa.

  • 00:50:00 Nesta seção, os apresentadores discutem as tarefas envolvidas em seu modelo de aprendizado profundo para genômica regulatória, que inclui diferentes tipos de células e ensaios, como chip-seq de fator de transcrição e chip-seq de modificação de histona. Eles explicam que o modelo usa redes neurais convolucionais que são mais flexíveis do que k-mer SVMs e podem representar mais coisas. Para entender o que o modelo está fazendo, eles analisam as matrizes de peso de posição obtidas dos filtros de convolução e as comparam com o banco de dados cisBP dos locais de ligação do fator de transcrição. Eles descobrem que os filtros reconhecem amplamente sequências semelhantes aos motivos do banco de dados e observam que o uso de vários filtros para fatores de transcrição importantes, como CTCF, é crucial para prever a acessibilidade.

  • 00:55:00 Nesta seção, o palestrante discute o potencial de usar camadas adicionais em uma rede de aprendizado profundo para reconhecer e combinar várias representações de blocos de construção de motivos de fator de transcrição, como CTCF. Isso pode permitir um reconhecimento mais eficiente de motivos complexos, embora também possa dificultar a localização exata e a contribuição de cada filtro individual. O palestrante também menciona várias análises que eles realizaram para obter insights sobre o conteúdo da informação e a influência de diferentes filtros no modelo, o que poderia ajudar a interpretar melhor os resultados de uma abordagem de aprendizado profundo para genômica regulatória.

  • 01:00:00 Nesta seção do vídeo, o palestrante discute o uso de um motivo conhecido para fazer previsões e estudar os locais de ligação do fator de transcrição por meio da mutação de cada nucleotídeo da sequência. O palestrante passa a discutir um novo problema de prever a transcrição e a expressão gênica computando uma função de todos os elementos em uma longa região do DNA. A solução envolve o uso de estruturas de convolução e a introdução de uma grande região de sequência, cerca de 100.000 nucleotídeos para o modelo, e, em seguida, o agrupamento máximo para obter a sequência com resolução de cerca de 128 pares de bases. O desafio é como compartilhar informações em todo o genoma, e diferentes módulos podem ser usados para isso. As redes neurais recorrentes foram consideradas a melhor ferramenta para o trabalho.

  • 01:05:00 Nesta seção, o palestrante fala sobre uma ferramenta chamada convolução dilatada que eles usaram em vez de uma rede neural recorrente para evitar o problema de treinamento lento em sequências longas. A convolução dilatada envolve inserir lacunas na convolução e expandi-la, o que permite que o campo receptivo cresça exponencialmente, levando a um método muito eficiente de cobrir uma imagem. O palestrante discute como eles usaram convoluções dilatadas para fazer previsões em uma estrutura multitarefa para dados de cromatina e expressão gênica. Eles também mencionam uma técnica adicional chamada conexões residuais ou conexões de salto que podem ser úteis para treinar redes neurais profundas.

  • 01:10:00 Nesta seção, o palestrante discute o uso de redes residuais para tornar mais fácil para cada camada aprender novas informações sem ter que reaprender tudo antes delas. Isso é especialmente útil para convoluções dilatadas, que observam diferentes posições mais distantes. Ao transmitir diretamente o que já foi aprendido com a conexão residual, eles podem adicionar novas informações a cada vetor de posição e normalizá-lo ou lançar uma convolução sobre ele. O número de conexões residuais depende do comprimento da sequência que está sendo trabalhada, pois elas devem ser capazes de olhar longe o suficiente sem atingir os limites da sequência.

  • 01:15:00 Nesta seção do vídeo, o palestrante discute o uso de 5 a 10 camadas de convolução dilatadas para uma sequência de entrada de 100.000, mas observa que isso pode mudar dependendo da escala da sequência ou do tamanho da caixa. A entrada neste caso é o sinal contínuo de vários conjuntos de dados, e o palestrante observa que não pode ser facilmente binarizado como a expressão gênica. O palestrante indica que uma função de perda positiva funciona melhor para os dados e observa que a qualidade do modelo é afetada pela qualidade dos dados, que podem variar consideravelmente. O palestrante menciona brevemente o uso do modelo para fazer previsões de mutações em SNPs associados a doenças e a importância de conectar pesquisas de biologia computacional a associações de doenças. Por fim, o palestrante cobre brevemente a previsão de contatos 3D usando dados e modelos IC.

  • 01:20:00 Nesta seção, o palestrante explica como eles usam os dados c altos para fazer previsões. Os dados são bidimensionais, com nucleotídeos no eixo x e no eixo y, representando a frequência de contato entre essa parte do genoma e outro compartimento no genoma. Usando o erro quadrático médio e o aprendizado multitarefa, o modelo pode prever os dados. No entanto, com um milhão de nucleotídeos entrando, as limitações de memória da GPU se tornam um problema. A solução é usar a média da posição i e da posição j, resultando em uma matriz 2D que as ferramentas de aprendizado profundo podem analisar. Usando convoluções 2D, convoluções dilatadas e resimetrizando a matriz após cada camada, o modelo pode fazer previsões com o ctcf sendo o principal fator de aprendizado.

  • 01:25:00 Nesta seção, David Kelley discute como o aprendizado profundo pode ser usado na genômica regulatória para analisar entradas básicas como a sequência de DNA e prever a ligação do fator de transcrição, usando o CTCF como exemplo. Com dados suficientes e as transformações corretas, as arquiteturas de redes neurais podem aprender e fazer previsões com sucesso com base em dados genômicos. Embora os dados sintéticos sejam atualmente o foco principal, esta apresentação oferece uma visão geral das formas como o aprendizado profundo pode ser aplicado em biologia e genômica.
 

Previsão de Expressão Gênica - Aula 09 - Aprendizado Profundo em Ciências da Vida (Primavera de 2021)



Previsão de Expressão Gênica - Aula 09 - Aprendizado Profundo em Ciências da Vida (Primavera de 2021)

O vídeo discute o uso de aprendizado profundo na previsão de expressão gênica e os desafios envolvidos na análise de conjuntos de dados biológicos, incluindo alta dimensionalidade e ruído. A palestra abrange metodologias como análise de cluster, aproximações de baixo escalão de matrizes e detecção compressiva. O palestrante também fala sobre o uso de aprendizado profundo para previsão de expressão gênica e cromatina, bem como aprendizado fracamente supervisionado para prever locais de atividade intensificadora. A palestra discute várias ferramentas desenvolvidas usando principalmente a metodologia de aprendizado profundo, incluindo danq, djgx, factory mat e sc fin. O apresentador também fala sobre o uso de modelos generativos para estudar conjuntos de dados genômicos e apresenta a ideia de metodologia de inferência aproximada, particularmente a popular chamada inferência variacional.

Na segunda parte da palestra, o palestrante discute a aplicação do deep learning nas ciências da vida, especificamente na previsão da expressão gênica e na interpretação genômica. O primeiro tópico se concentra na aplicação de modelos de autoencoder de variação para análise de expressão de RNA para conjuntos de dados de asma. O palestrante propõe uma estrutura para remover artefatos experimentais usando um modelo generativo condicional. O segundo tópico discute o investimento da Illumina em redes de aprendizado profundo para identificar os modelos de sequência para função para interpretação genômica, particularmente para splicing. A empresa desenvolveu SpliceAI, uma rede neural convolucional profunda que prevê se um nucleotídeo é um doador de splice, aceitador ou nenhum dos dois. O terceiro tópico é sobre a pesquisa do palestrante em prever se certas mutações terão função de emenda críptica, o que pode levar a mudanças de quadro e doenças. O palestrante também convida perguntas e aplicativos para cargos de pesquisa, estágios e pós-doutorados.

  • 00:00:00 Nesta seção da palestra, os palestrantes apresentam a análise da expressão gênica e os dois métodos usados para medir a expressão do RNA: hibridação e sequenciamento do genoma. Este último tornou-se mais popular por causa da queda drástica no custo do sequenciamento do genoma nos últimos 20 anos. O resultado é uma matriz que mostra qual gene é expresso em que nível em centenas de condições. Essa matriz pode ser vista vertical ou horizontalmente, fornecendo um vetor de 20.000 comprimentos para cada gene no genoma em uma condição experimental de interesse ou para um tipo de célula específico que foi classificado.

  • 00:05:00 Nesta seção, o instrutor discute como o aprendizado profundo pode ser usado na previsão de expressão gênica. As matrizes básicas de entrada envolvem o perfil de cada célula para fazer comparações em várias dimensões, como semelhança de vetores de expressão para um determinado gene em diferentes condições, tecidos, tipos de células, experimentos, idade e sexo. A análise de cluster pode ser usada para encontrar condições semelhantes entre si ou genes semelhantes entre colunas ou linhas. A abordagem de culpa por associação também pode ser usada para completar a anotação de genes não anotados com base na similaridade de expressão. Além disso, o instrutor sugere o uso de abordagens de aprendizado profundo, como aprendizado auto-supervisionado, previsão usando não linearidades e recursos de ordem superior e aprendizado multitarefa para prever as diferentes classes de interesse em conjunto e, finalmente, o instrutor enfatiza que o aprendizado profundo é não é a única abordagem, e existe um conjunto de ferramentas que podem ser usadas para fazer perguntas biológicas e aprender representações desses sistemas.

  • 00:10:00 Nesta seção, o palestrante discute técnicas de redução de dimensionalidade que podem ser usadas para analisar padrões de expressão gênica. Uma dessas técnicas é a análise de componentes principais (PCA), que pode ser usada para identificar as principais dimensões de variação nos padrões de pressão genética. Aproximações de baixa classificação de matrizes também podem ser usadas para obter efetivamente uma aproximação ideal de classificação inferior dos dados. Outras técnicas como t-SNE e auto-encoders também podem ser aplicadas. Além disso, o palestrante menciona o uso de sensoriamento compressivo para construir medições compostas usando combinações de sondas que capturam combinações lineares de expressão gênica. Por fim, o palestrante discute o potencial do uso da informação da cromatina para prever os níveis de expressão gênica, o que será discutido na primeira palestra do convidado.

  • 00:15:00 Nesta seção, o palestrante discute o uso de aprendizado profundo para prever a expressão gênica e a cromatina de vários recursos, combinando-os sistematicamente usando mecanismos de atenção, semelhante ao que foi discutido anteriormente para o modelo transformador e redes neurais recorrentes. O uso de construções de repórter e testes de alto rendimento são explicados, juntamente com a capacidade de prever se determinados fragmentos conduzirão a expressão usando uma abordagem de aprendizado de máquina ou aprendizado profundo. O palestrante também apresenta o conceito de prever o splicing diretamente da sequência usando uma rede neural e recursos específicos na sequência, e destaca o trabalho que sua equipe fez no uso de aprendizado profundo para prever intensificadores no genoma humano usando uma estrutura supervisionada semanalmente.

  • 00:20:00 Nesta seção do vídeo, o palestrante discute um método de previsão da expressão gênica usando um experimento repórter e um conjunto de características da cromatina. A matriz de entrada, que consiste nas diferentes marcas em milhares de locais no genoma, é construída para cada gene, e as características da cromatina próximas são testadas contra o resultado da busca de estrelas para prever a expressão. O nível de saída é um classificador binário e as representações intermediárias do modelo são usadas para prever a localização específica na sequência do genoma. Essa resolução mais alta permite um uso mais eficiente da análise de dados, que é obtido ajustando curvas específicas no sinal contíguo para ter uma representação mais avançada.

  • 00:25:00 Nesta seção, o palestrante explica a ideia de aprendizado fracamente supervisionado para prever locais de atividade do intensificador usando um método semelhante à detecção de objetos. Ao passar a imagem original para um filtro convolucional, são gerados os mapas de ativação que são usados para criar um mapa de calor. O modelo exigia apenas uma anotação grosseira da existência do intensificador e previu a localização precisa usando o mesmo método do mapa de calor. Os resultados da linha celular cruzada e validação cromossômica cruzada mostraram que o modelo pode prever com precisão os intensificadores de busca estelar. O conjunto refinado, obtido pela remoção de regiões irrelevantes durante a realização de previsões, tem uma proporção maior de locais de início da transcrição e é mais conservado em cem espécies diferentes. O palestrante comparou o modelo com o modelo de última geração anterior e realizou um estudo de caso em células neuroprogenitoras, descobrindo potenciadores neuroespecíficos.

  • 00:30:00 Nesta seção do vídeo do YouTube "Gene Expression Prediction", o palestrante discute os desafios na interpretação de conjuntos de dados biológicos e a importância de desenvolver uma metodologia que leve em conta múltiplos fatores, como alta dimensionalidade e ruído. A pesquisa do palestrante em seu laboratório concentra-se na combinação de diferentes tipos de técnicas genômicas, incluindo genômica de célula única, para desenvolver métodos para estudar genômica. O palestrante também discute seu interesse em aplicar aprendizado profundo à análise de expressão gênica e usá-lo para extrair sinais de conjuntos de dados ruidosos.

  • 00:35:00 Nesta seção, o palestrante discute o desenvolvimento de uma metodologia que combina conjuntos de dados multimodalidade para permitir o exame da biologia subjacente. Eles destacam propostas recentes no campo do aprendizado de máquina que combinam sinais visuais com processamento de linguagem natural para entender melhor os sistemas. O palestrante passa a listar algumas ferramentas que seu laboratório desenvolveu usando principalmente a metodologia de aprendizado profundo, incluindo danq, que quantifica a função de sequências de DNA, e djgx, que prevê a expressão gênica. O palestrante também discute brevemente duas outras ferramentas, factory mat e sc fin, que prevêem a ligação do fator de transcrição, com sc fin sendo uma extensão do factory mat para previsão de célula única.

  • 00:40:00 Nesta seção do vídeo, o apresentador discute várias metodologias relacionadas ao uso de modelos de aprendizado profundo em ciências da vida. Especificamente, a discussão abrange a metodologia UFO para previsões de estruturas secundárias de estrutura de RNA, o modelo DGX que utiliza redes neurais profundas para prever expressões e a metodologia SAILOR para utilizar modelos generativos profundos para estudar conjuntos de dados atáxicos de célula única enquanto foca na ideia de representação invariante aprendizado. A discussão também cobre o uso de modelos VAE para estudar genômica e dados de expressão de RNA, uma extensão de modelos generativos profundos para uma análise de táxi e a combinação de conjuntos de dados multimodalidade com um modelo para aprender representações compartilhadas. O apresentador destaca que todas as ferramentas desenvolvidas são open source e estão disponíveis no Github.

  • 00:45:00 Nesta seção, o palestrante discute um método para prever a expressão gênica usando um subconjunto de genes. Ao traçar o perfil de um pequeno número de genes (1.000) usando a plataforma de tecnologia Luminex, os pesquisadores podem gerar perfis com milhões de amostras, levando a um método econômico para entender processos biológicos e descobertas de medicamentos. Os 20.000 genes restantes podem ser inferidos usando técnicas computacionais, como redes neurais profundas. Ao inserir 978 vetores dimensionais em uma rede neural de feed-forward de percepção multicamada, os pesquisadores podem prever os 20.000 alvos de maneira multitarefa em conjunto e treinar o modelo por meio de retropropagação, obtendo melhor precisão do que a regressão linear. O conjunto de dados geográficos contendo perfis de expressão com toda a coleção de genes é usado para treinar o modelo.

  • 00:50:00 Nesta seção da palestra, o instrutor discute o uso de modelos generativos para estudar conjuntos de dados genômicos. Como a maioria dos conjuntos de dados genômicos não possui rótulos, o aprendizado não supervisionado costuma ser mais relevante. O objetivo é mapear conjuntos de dados de alta dimensão em uma incorporação de baixa dimensão, o que pode ser mais útil na identificação de padrões subjacentes. O método tradicional para esse fim é o autoencoder, que pode ser treinado combinando a entrada com a saída, mas apresenta problemas como suscetibilidade ao overfitting e incapacidade de gerar amostras. Como solução, o instrutor propõe modelos generativos profundos, que modelam dados por meio de uma estrutura probabilística com variáveis latentes. Ao atribuir prioris à distribuição das variáveis latentes, o modelo pode marginalizá-las para obter as distribuições marginais do input.

  • 00:55:00 Nesta seção, o professor discute os problemas com dados de aprendizagem com base em uma estrutura genérica e introduz a ideia de metodologia de inferência aproximada, particularmente a popular chamada inferência variacional, que propõe uma distribuição auxiliar na distribuição de z dado x. O limite inferior do limite de log-verossimilhança com a distribuição auxiliar é então minimizado por meio de um equilíbrio entre os dados e a distância ko entre as distribuições, garantindo assim que a distribuição posterior seja próxima o suficiente da distribuição anterior, tendo poder suficiente para modelar conjuntos de dados observáveis . Isso levou ao desenvolvimento do autoencoder variacional, que pode modelar p(theta)x dado z e distribuição auxiliar por meio de redes neurais, treinando-as para minimizar a variação do log-verossimilhança negativo. No entanto, existem problemas com o cálculo dessas expectativas, que podem ser resolvidos usando o truque da reparametrização, principalmente ao aplicar um produto gaussiano.

  • 01:00:00 Nesta seção, o palestrante discute a aplicação de modelos de autoencoder de variação para análise de expressão de RNA, especificamente para conjuntos de dados de asma. Devido à natureza discreta e quantitativa dos conjuntos de dados de RNA-seq, os pesquisadores usam distribuições binomiais negativas infladas de zero para modelar as contagens de leitura. Isso leva à ideia de usar um autoencoder combinado com esse modelo para criar um modelo de geração profunda. No entanto, as representações latentes aprendidas podem refletir artefatos experimentais, como efeitos de lote e cobertura de leitura. Para remover esses efeitos, o falante propõe uma estrutura usando um modelo generativo condicional que minimiza a informação mútua entre as representações aprendidas e seus fatores de confusão subjacentes.

  • 01:05:00 Nesta seção, o investigador principal do Laboratório de IA da Illumina fala sobre o objetivo da empresa de entender todas as variantes possíveis do genoma humano e tornar o sequenciamento do genoma útil para todos. O foco está na interpretação de variações genéticas não codificantes, que a maioria dos sequenciamentos clínicos atualmente ignora. É por isso que a Illumina está investindo pesadamente em redes de aprendizado profundo para identificar os modelos de sequência para função para interpretação genômica, especificamente para splicing. Eles desenvolveram SpliceAI, uma rede neural convolucional profunda que prevê se um nucleotídeo é um doador de splice, aceitador ou nenhum dos dois, puramente a partir da sequência, e pode reconstruir o padrão íntron-exon de um gene a partir de uma sequência de sequências.

  • 01:10:00 Nesta seção, o apresentador discute as dificuldades de prever junções de splice de exon e como sua rede aprendida profunda foi capaz de prever todos os 30 éxons do grande gene CFTR com precisão em nível de nucleotídeo. Eles descobriram que os determinantes de sequência de longo alcance são a chave para a regulação do splicing, e a rede foi capaz de derivar esses determinantes automaticamente a partir dos dados da sequência, incluindo o posicionamento do nucleossomo e o agrupamento de éxons. A rede usou uma variedade de recursos, incluindo o ponto de ramificação, polyper moon tract, ag e gt, bem como intensificadores de emenda intrônicos e exônicos, e compensou a redundância de motivos locais com um contexto de longo alcance. O apresentador também mostrou como a precisão da rede aumentou com tamanhos de contexto maiores e também funcionou em sequências de codificação não proteica.

  • 01:15:00 Nesta seção do vídeo, o palestrante discute a aplicação de splice AI para pacientes com doenças raras, especificamente um paciente com insuficiência cardíaca de início precoce causada por uma mutação de nucleotídeo único que estendeu o éxon e deslocou o quadro da proteína. O modelo também foi validado em RNA-seq de GTEx, e a taxa de validação dependeu da pontuação do splice AI. O palestrante destaca a complexidade de interpretar as variantes de emenda de pontuação mais baixa, pois elas podem preservar a emenda normal, e há uma interpretação graduada da variação humana que precisa ser abordada. O impacto da seleção natural em variantes com função de splicing críptico também foi examinado, e descobriu-se que a seleção natural mostra que as mutações de splicing críptico previstas pelo i picante são essencialmente equivalentes a um frameshift ou mutação de codificação de proteína sem sentido. Finalmente, o modelo foi aplicado a grandes conjuntos de dados clínicos de pacientes com transtorno do espectro do autismo e deficiência intelectual.

  • 01:20:00 Nesta seção da palestra, o palestrante fala sobre suas pesquisas para prever se certas mutações terão ou não a função de emenda críptica. Eles usaram o sequenciamento de RNA para confirmar a junção de splicing aberrante prevista e demonstraram exemplos de como essas variantes fazem com que o splicing ocorra no local errado, levando a mudanças de quadro e doenças. O palestrante torna suas ferramentas de código aberto e convida perguntas, bem como inscrições para cargos de pesquisa, estágios e pós-doutorados. A palestra termina com um agradecimento ao palestrante e um lembrete para ficar atento ao projeto final.
 

Genômica de Célula Única - Aula 10



Genômica de Célula Única - Aula 10 - Aprendizado Profundo em Ciências da Vida (Primavera de 2021)

Nesta palestra sobre genômica de célula única, o palestrante discute vários métodos e tecnologias usadas para criar perfis de células individuais, incluindo separação de células e microfluídica. O foco está em três tecnologias específicas de sequenciamento de célula única - Smart-seq, drop-seq e abordagens agrupadas. O palestrante também aborda o processo de análise de transcriptomas unicelulares, incluindo pré-processamento, visualização, clustering e anotação, e o uso da arquitetura do autoencoder no clustering da comunidade. Métodos de aprendizado profundo são aplicados para adaptação de domínio e para reconstruir tipos de células de maneira estimulada. A palestra também discute os desafios envolvidos na análise de dados genômicos unicelulares e propõe o uso de um modelo generativo para abordar essas questões de forma escalável e consistente.

A segunda parte do vídeo aborda vários tópicos relacionados à genômica de célula única e aprendizado profundo. Os tópicos discutidos incluem inferência variacional, um processo generativo para dados de sequenciamento de RNA de célula única, o modelo SCVI para misturar conjuntos de dados de tipo de célula, CanVAE para propagação de rótulos e a implementação de vários algoritmos de aprendizado profundo em uma única base de código chamada ferramentas CVI. Os palestrantes também abordam os desafios no uso de probabilidades posteriores para calcular medidas de expressão gênica e apresentam métodos para calcular com precisão as expectativas posteriores e controlar as taxas de descoberta total.

  • 00:00:00 Nesta seção da transcrição de "Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Primavera de 2021)", o palestrante explica por que o perfil de célula única é necessário. Células individuais dentro do corpo são extremamente diferentes umas das outras e podem variar devido a estímulos ambientais, interações, fase do ciclo celular e rajadas de transcrição. O perfil de célula única também captura diferenças individuais em tipos de células, sinalização e genótipo, que muitas vezes não são capturados com dados em massa. O palestrante descreve várias tecnologias que precederam a explosão atual na análise de dados de célula única, mas enfatiza a tecnologia fundamental de amplificar RNAs individuais para capturar a diversidade transcricional.

  • 00:05:00 Nesta seção, o palestrante discute as diferentes tecnologias e métodos usados para criar o perfil de células individuais, que inclui separação de células, microfluídica e pipetagem. Ao observar células individuais em diferentes pontos de tempo e genes entre as células, os pesquisadores podem ver como os genes individuais estão ligando e desligando e como há heterogeneidade mesmo dentro de pontos de tempo específicos. A análise unicelular representa um desafio em distinguir valores zero técnicos e biológicos, mas os dados obtidos por meio dessas técnicas são capazes de recapitular o que se vê na biologia. A palestra também abrange smartseek, que usa tecnologia baseada em células, dropseek e 10x, que usam gotículas, e split-seek, que é um método para codificar células individuais sem separá-las.

  • 00:10:00 Nesta seção, o palestrante discute os diferentes métodos usados em genômica de célula única, incluindo microfluídica e coleta de sangue, e descreve o pipeline básico usado no processo. O foco está em três tecnologias específicas - Smart-seq, drop-seq e abordagens agrupadas. O Smart-seq usa classificação de células e captura até 10.000 genes por célula, mas requer uma reação de sequenciamento separada para cada poço, tornando-a cara. O Drop-seq substitui poços por gotículas, capturando células individuais com códigos de barras em esferas e é mais econômico. Finalmente, a abordagem agrupada envolve a captura de todas as moléculas de RNA individuais em um único tubo marcado com a identidade celular correspondente.

  • 00:15:00 Nesta seção, o palestrante explica três tipos diferentes de tecnologias de sequenciamento de RNA de célula única. O primeiro é o Well Sequencing, onde cada célula é classificada em um poço ou gota, e cada poço é rotulado com um código de barras exclusivo para distinguir as células umas das outras. O segundo é o 10X Genomics, que envolve a combinação de todo o RNA marcado de diferentes células em uma única reação de sequenciamento. A terceira tecnologia é Split-Seq, onde as células são embaralhadas entre diferentes poços com diferentes códigos de barras adicionados a cada iteração, resultando em uma combinação única de códigos de barras para o RNA de cada célula. Isso permite um milhão de endereços exclusivos para cada molécula de RNA, indicando de qual célula ela veio.

  • 00:20:00 Nesta seção, o palestrante discute tecnologias de sequenciamento de célula única, incluindo células em poços, gotículas e indexação combinatória. Vários tipos de ensaios podem ser usados, como perfil de metilação de DNA de célula única, sequenciamento de genoma de célula única e acessibilidade de DNA de célula única. Outro ensaio amplamente utilizado é o ATAC-seq de célula única, que analisa a acessibilidade da cromatina em células individuais. No entanto, os dados de células individuais podem ser esparsos e agregar dados em vários locais é necessário para falar sobre fatores de transcrição. O palestrante também menciona o crescente surgimento de métodos multi-ômicos unicelulares, mas alerta sobre os desafios computacionais em lidar com ruídos e artefatos. A seção termina com uma introdução a duas palestras da Europa e da Costa Oeste, respectivamente, que discutirão o aprendizado de representação profunda em genômica de célula única.

  • 00:25:00 Nesta seção da palestra sobre genômica de célula única, o palestrante discutiu o processo de análise de transcriptomas de célula única, que envolve várias etapas de pré-processamento, visualização, agrupamento e anotação. O processo não é supervisionado, pois as informações estão disponíveis apenas em conjuntos de células, não em células individuais. O laboratório do palestrante contribuiu com ferramentas e estruturas para auxiliar nesse processo, incluindo a bem-sucedida análise de célula única scanpy em python, que fornece uma biblioteca de ferramentas e módulos para executar essas etapas. A visualização e a análise downstream envolvem aprendizado de espaço latente, sendo o método mais comumente usado o gráfico kn. O laboratório do palestrante também investiu no estudo de informações de séries temporais em transcriptomas unicelulares para entender os processos de diferenciação celular.

  • 00:30:00 Nesta seção, o palestrante discute o uso da arquitetura de autoencoder em agrupamento de comunidades usando redes neurais profundas. Essa abordagem é usada para lidar com o aumento do tamanho dos conjuntos de dados e do ruído nas matrizes de célula x gene. A camada de gargalo da arquitetura do autoencoder é significativa e pode aprender sobre processos biológicos. A equipe do palestrante aproveitou essas informações para desenvolver um autoencoder de contagem profunda, que se adapta à função de ruído substituindo o erro quadrático médio pela distribuição binomial negativa. Um gráfico bidimensional dessa abordagem em um conjunto de dados PBMC mostra que a camada de gargalo reconhece grupos de tipos de células sem nenhum conhecimento prévio, o que pode ajudar a alavancar o conhecimento biológico. O comportamento de dimensionamento desse método de rede neural também é identificado como uma vantagem significativa em comparação com o algoritmo Kn.

  • 00:35:00 Nesta seção, o palestrante discute o potencial da aprendizagem profunda em genômica e dados de célula única para desenvolver a próxima geração de filtros convolucionais. Ele menciona um projeto focado na adaptação de domínio que visa transferir certas configurações para uma nova, como perturbações e estímulos de drogas nas células. Eles chamam esse projeto de "scgen", que modela os efeitos de perturbação das células e procura prever como um novo tipo de célula se comportaria. Ao codificar todos os conjuntos de dados, eles esperam alcançar um espaço latente linearizado onde possam fazer aritmética e previsão fora da amostra. Eles também têm estendido esse modelo para uma decomposição mais complexa.

  • 00:40:00 Nesta seção, o palestrante discute a capacidade de reconstruir um tipo de célula usando aprendizado profundo em genômica de célula única. O objetivo é reconstruir um tipo de célula, como células T CD4 positivas, de maneira estimulada, deixando-as de fora, essencialmente fazendo uma previsão fora da amostra. A previsão não se baseia apenas na média, mas também na distribuição da variância. Essa reconstrução é feita não apenas para células T CD4 positivas, mas também para todos os diferentes tipos de células, e a resposta específica da célula é aprendida, tornando-a uma ferramenta potente para a genômica. O palestrante também fala sobre o SCGen, um modelo generativo simples que foi ampliado com o aprendizado do espaço latente. Ele pode ser usado para fazer a transferência de estilo empacotando todas as informações sobre a grande amostra no modelo. Por fim, o palestrante discute o aprendizado por transferência, essencial para lidar com dados distribuídos e facilitar o acesso a esses mapas.

  • 00:45:00 Nesta seção, o palestrante discute a aplicação de modelagem bayesiana e autoencoders variacionais (VAEs) para dados de célula única, que visa entender as funções distintas das células em um tecido. O processo envolve a dissociação de um tecido em células únicas e a execução de um único pipeline de sequenciamento de RNA, resultando em uma matriz que mostra o número de vezes que um transcrito se alinha com um gene para cada célula. O palestrante enfatiza a importância da colaboração em seu trabalho com alunos e professores de pós-graduação e mestrado e apresenta vários tópicos que abordarão ao longo da apresentação, desde a importância da aplicação de VAEs a dados de célula única até uma discussão sobre extensões e modos de falha de VAEs .

  • 00:50:00 Nesta seção, o palestrante discute as várias tarefas e desafios envolvidos na genômica de célula única, incluindo a análise de consultas em nível de célula e gene. Algumas das tarefas envolvem estratificação celular, análise de trajetória, harmonização do conjunto de dados, transferência de anotação, normalização e teste de expressão diferencial. A análise pode ser complexa devido ao ruído técnico, como profundidade de sequenciamento variável e efeitos de lote, bem como à natureza não gaussiana de alta dimensão dos dados. Para resolver essas questões, o palestrante propõe o uso de modelos de variáveis latentes e métodos escaláveis para analisar os milhões de amostras envolvidas.

  • 00:55:00 Nesta seção, o palestrante discute as limitações da aplicação de algoritmos a dados genômicos de célula única e a necessidade de uma suposição de modelagem unificada para todo o processo. Eles apresentam a ideia de um modelo generativo, baseado em técnicas de modelagem bayesiana, que pode ser usado para analisar dados de célula única de maneira escalável e consistente. O palestrante explica como ler um modelo gráfico e como os diferentes nós e arestas podem ser usados para codificar propriedades probabilísticas, como replicação independente e condicionalidade. O objetivo é calcular a distribuição a posteriori, que pode ser obtida pela regra de Bayes, mas a verossimilhança marginal costuma ser intratável, exceto quando se usa o PCA probabilístico.

  • 01:00:00 Nesta seção, o palestrante discute o conceito de inferência variacional, que é usado no scVI para aproximar a distribuição de probabilidade posterior das observações. O método envolve colocar uma família de distribuições e encontrar o ponto q que minimiza a divergência K para posterior, que é essencialmente um problema de otimização. Usando a definição de uma densidade condicional, o problema de otimização torna-se tratável e a inferência variacional torna-se um método atraente. O palestrante também apresenta uma extensão do PCA probabilístico, onde uma rede neural pode ser usada para especificar a média e a variância da distribuição gaussiana. No entanto, usar inferência variacional em VAEs requer aprender os parâmetros do modelo maximizando a evidência, o que pode ser alcançado amarrando todos os parâmetros do posterior variacional usando duas redes neurais. Por fim, o palestrante discute o scVI, que incorpora efeitos técnicos em um modelo gráfico para gerar contagens de expressão gênica para uma determinada célula e gene.

  • 01:05:00 Nesta seção, o palestrante fornece uma explicação detalhada do processo gerador de dados de sequenciamento de RNA de célula única usando um autoencoder variacional condicional (CVA) e explica ainda como esse modelo pode ser usado para várias tarefas, como estratificação, harmonização, normalização, imputação e expressão diferencial. O palestrante enfatiza como essa abordagem pode lidar com efeitos de lote e melhorar a escalabilidade. O palestrante também demonstra a utilidade do modelo mostrando que ele pode recuperar clusters hierárquicos e gradientes de desenvolvimento nas incorporações e pode lidar com efeitos de lote em casos com efeitos de lote graves e muitos lotes.

  • 01:10:00 Nesta seção, o apresentador discute o desafio de misturar conjuntos de dados de tipos de células enquanto ainda consegue distinguir os tipos de células. Eles apresentam o modelo SCVI que pode misturar conjuntos de dados sem perder a capacidade de ver os tipos de células. O apresentador também fala sobre o empolgante uso da variável latente Rao para análise de expressão diferencial. A equipe comparou a classificação de genes com o SCVI e outros métodos para a tecnologia de microarray e descobriu que o SCVI tinha um desempenho semelhante ou até um pouco melhor. Por fim, o apresentador apresenta o modelo SCVI++, que é uma extensão do SCVI usada para fins de anotação, permitindo a transferência de rótulos de um conjunto de dados para outro. O modelo SCVI++ é baseado em um modelo de mistura e altera o prior em z e usa uma rede neural para a atribuição do tipo de célula.

  • 01:15:00 Nesta seção, o palestrante discute o uso de uma estrutura chamada CanVAE em um caso de uso em que há um subconjunto de células T, mas seus tipos de subcélulas não podem ser identificados com base em alguns genes marcadores que são pouco expressos . Ao usar o CanVAE para propagar os rótulos, ele se torna um método de aprendizado semi-supervisionado, que funciona melhor do que apenas agrupamento ou classificação porque utiliza o conhecimento sobre todas as células. Além disso, o falante apresenta um problema de fatorar informações contínuas ou covariáveis do espaço latente, o que é difícil de lidar com redes neurais usadas na parametrização da distribuição variacional. Eles introduzem a restrição HC VAES, um método que impõe declarações de independência na posterior agregada, resultando em limites inferiores mais flexíveis com propriedades mais adequadas. Por fim, eles discutem a expressão diferencial e como ela pode ser pensada como um problema de seleção de modelo Bayesiano, onde as taxas de verossimilhança podem ser usadas como um limite para determinar a expressão diferencial usando a estrutura CanVAE.

  • 01:20:00 Nesta seção, o palestrante discute os desafios e limitações associados ao uso de probabilidades posteriores para calcular medidas de expressão gênica. A abordagem pode ser tendenciosa se a posteriori estiver incorreta, e muitas pessoas preferem controlar a medida da taxa de descoberta falsa em vez dos fatores básicos. Para resolver esse problema, o palestrante propõe um método para calcular expectativas posteriores com precisão usando amostras da distribuição variacional. Eles introduzem diferentes limites superiores que superestimam a variância, o que é mais útil para amostragem importante do que subestimá-la. Além disso, o palestrante apresenta um procedimento para combinar várias propostas para controlar a taxa de descoberta total com o CVI. O artigo associado a este trabalho também inclui análises teóricas que quantificam o erro para amostragem importante usando limites de concentração.

  • 01:25:00 Nesta seção, o palestrante discute a implementação de vários algoritmos de aprendizado profundo em uma única base de código chamada ferramentas CVI, que contém ferramentas para analisar dados ômicos de célula única e uma interface para linguagens de programação probabilísticas. A base de código contém a implementação de cerca de 10 a 13 modelos generativos, e os usuários podem alterar facilmente um autoencoder variacional condicional em uma linha de código ou criar um novo. O palestrante também menciona um artigo de revisão que discute o impacto de autoencoders variacionais e redes adversárias generativas em biologia molecular.
 

Redução de Dimensionalidade - Aula 11



Redução de Dimensionalidade - Aula 11 - Aprendizado Profundo em Ciências da Vida (Primavera de 2021)

As palestras em vídeo sobre aprendizado profundo em ciências da vida exploram técnicas de redução de dimensionalidade para agrupamento e classificação em análise de dados de célula única. As palestras distinguem entre aprendizado supervisionado e não supervisionado e exploram o uso de estruturas de teste de hipóteses estatísticas para avaliar expressões diferenciais de genes. A palestra apresenta o conceito de aprendizado múltiplo usando análise de componentes principais, decomposição própria e decomposição de valor singular para redução de dimensionalidade linear e discute os métodos de incorporação de vizinhança estocástica distribuída em t e incorporação de vizinhança estocástica distribuída para preservação de dados de agrupamento. O palestrante também discute a aplicação da fatoração de matriz não negativa a dados genômicos e a integração de conjuntos de dados unicelulares e multiômicos. O objetivo final dessas técnicas é redefinir tipos de células e identidade de forma imparcial e quantitativa.

A segunda parte discute vários tópicos relacionados à redução de dimensionalidade, especificamente sua aplicação em ciências da vida. A fatoração de matriz não negativa integrativa (iNMF) é usada para vincular perfis transcriptômicos e epigenômicos para entender melhor a identidade celular em vários contextos. A palestra também discute os benefícios de usar uma abordagem de mini-lote em aprendizado profundo, particularmente para conjuntos de dados maiores, e como os algoritmos online podem ser aproveitados para melhorar os métodos de redução de dimensionalidade para analisar grandes conjuntos de dados. Além disso, o algoritmo é introduzido para integrar diferentes tipos de dados, como dados de RNA-seq e ATAC-seq. Por fim, o palestrante expressa vontade de servir como mentor para alunos interessados na área. No geral, a palestra foi informativa e bem recebida.

  • 00:00:00 Nesta seção, as aulas em vídeo continuam a discussão sobre análise de dados de célula única e focam em técnicas de redução de dimensionalidade para agrupamento e classificação. As matrizes de expressão gênica que medem milhares de genes em milhares de experimentos podem ser usadas para agrupar genes ou células ou para a classificação de tipos de células com base em suas expressões gênicas. As palestras distinguem entre aprendizado supervisionado e não supervisionado e exploram o uso de estruturas de teste de hipóteses estatísticas para avaliar a probabilidade de expressões diferenciais de genes. O vídeo também menciona a necessidade de considerar a distribuição subjacente dos dados e encontrar o ajuste mais apropriado para a distribuição observada no conjunto de dados.

  • 00:05:00 Nesta seção, o palestrante discute as várias razões para a redução dimensional em aplicativos de aprendizado supervisionados e não supervisionados. Isso inclui visualização de dados, redução de dados, classificação de dados e redução de ruído em conjuntos de dados. O palestrante explica que a redução de dimensionalidade pode ajudar a entender os fatores que impulsionam a variação, distinguir entre diferentes classes e identificar subconjuntos de dados interessantes. Além disso, o palestrante descreve como a redução de dimensionalidade envolve o mapeamento de dados de alta dimensão em uma variedade de dimensão inferior.

  • 00:10:00 Nesta seção da palestra, o conceito de aprendizado múltiplo é introduzido como uma forma de entender a verdadeira dimensionalidade de dados de alta dimensão, o que permite uma representação de dimensão inferior. O aprendizado múltiplo envolve pegar dados de alta dimensão e entender a verdadeira dimensionalidade dos dados, que pode não ser explorada pelo conjunto de dados. A redução da dimensionalidade linear usando a análise de componentes principais (PCA) é discutida como uma das formas mais comuns de aprender essas variedades. PCA envolve projetar os dados em um conjunto de coordenadas lineares, que é uma transformação do espaço original. Os autovetores dos dados originais são usados no PCA para encontrar os vetores que são invariantes às transformações.

  • 00:15:00 Nesta seção da palestra sobre aprendizagem profunda em ciências da vida, o conceito de autodecomposição é introduzido como uma forma de decompor uma grande matriz de dados em seus principais vetores de variação. Para matrizes simétricas, autovetores são ortogonais, e para matrizes simétricas reais, autovetores são ortogonais e reais. A decomposição própria captura a redução de dimensionalidade linear mais natural de um conjunto de dados, e a matriz diagonal representa os efeitos dos componentes principais independentes. Para matrizes não simétricas, a decomposição de valor singular é usada para encontrar os autovetores dos genes e condições e suas combinações que melhor explicam os dados.

  • 00:20:00 Nesta seção, o palestrante discute o conceito de decomposição de valor singular (SVD) e como ele pode ser usado para redução de dimensionalidade linear. SVD é uma forma de decompor uma matriz em uma série de operações, incluindo duas rotações e uma escala, a fim de encontrar as dimensões de variação mais importantes nos dados. A matriz resultante pode ser usada para calcular uma aproximação ótima de baixo escalão dos dados originais, permitindo a representação dos dados em um espaço dimensional inferior. Isso é útil para redução de dimensionalidade linear, que é limitada em suas capacidades, mas a redução de dimensionalidade não linear pode eliminar algumas dessas restrições. A análise de componentes principais é um método de redução de dimensionalidade linear que captura as principais dimensões lineares de variação nos dados.

  • 00:25:00 Nesta seção, o método de incorporação estocástica de vizinhança t-distribuída (t-SNE) é discutido como uma técnica de agrupamento de dados para redução dimensional enquanto preserva distâncias em escalas variadas. Em vez de depender do PCA que trata todas as distâncias igualmente, o t-SNE mapeia um espaço dimensional alto para uma dimensão inferior, preservando a proximidade de pontos de dados semelhantes dentro do novo espaço. Aplicando uma largura de banda específica, células individuais com padrões de expressão semelhantes em um espaço dimensional alto podem ser feitas próximas umas das outras em um espaço dimensional inferior, minimizando a divergência KL entre ambos os espaços. Métodos graduais podem ser usados para encontrar uma imersão que minimize a função de custo da divergência KL entre os dois espaços.

  • 00:30:00 Nesta seção, o palestrante discute como a incorporação estocástica de vizinhos distribuídos (d-SNE) preserva a estrutura de similaridade local dos dados, pesquisando por gradiente e otimizando as coordenadas de um espaço de dimensão inferior. A abordagem é uma incorporação não linear que preserva as distâncias locais em vez das distâncias globais e penaliza quando os pontos estão separados, mas os pontos próximos estão mais próximos. Esse método é comumente usado para visualizações em torno de conjuntos de dados de célula única, e o número de vizinhos considerados e o tamanho dos clusters originais podem afetar a qualidade da incorporação.

  • 00:35:00 Nesta seção, o palestrante discute o conceito de uma projeção dimensional inferior de dados com foco no aprendizado de grupos específicos de tipos de células para análise de dados de célula única. Eles falam sobre um método que permite a projeção conjunta de vários tipos de dados ômicos em um conjunto de dados de dimensão inferior dentro do qual eles podem ser combinados entre si. O palestrante apresenta várias abordagens que desenvolveu, incluindo a abordagem LIGER, que usa fatoração de matriz não negativa integrativa e um método para ampliar o algoritmo INMF usando aprendizado online. A palestra termina discutindo projetos em andamento para integrar conjuntos de dados com recursos parcialmente sobrepostos e combinando autoencoders variacionais e redes adversárias generativas para gerar perfis de RNA de célula única.

  • 00:40:00 Nesta seção, o palestrante discute os vários tipos de medições que podem ser realizadas em células individuais, incluindo expressão gênica, modificação de histonas, ligação de fator de transcrição, acessibilidade da cromatina, metilação do DNA e conformação da cromatina. Eles também destacam a importância de conhecer as coordenadas espaciais e mapear as informações moleculares de volta ao contexto do tecido. O palestrante menciona o desafio de avançar para uma definição quantitativa da identidade celular, onde as informações moleculares e outras com resolução de célula única são usadas para redefinir os tipos de células de maneira imparcial. Para enfrentar esses desafios, o palestrante desenvolveu uma ferramenta chamada liger, baseada na fatoração de matriz não negativa integrativa para realizar análises integrativas de célula única em conjuntos de dados de diferentes medições. Eles também discutem os benefícios da abordagem de "decomposição baseada em partes" da fatoração de matriz não negativa.

  • 00:45:00 Nesta seção, a transcrição discute a aplicação da fatoração de matriz não negativa (NMF) a dados genômicos, permitindo a interpretação de fatores NMF como metagenes que agrupam genes co-expressos ou co-regulados. Esses fatores podem representar vias biológicas ou genes específicos do tipo de célula, bem como capturar fatores técnicos. Ao agrupar genes em metagenes e resumir a expressão celular usando esses metagenes, o NMF permite uma definição quantitativa da identidade celular e a identificação de tipos e estados celulares em vários conjuntos de dados. A interpretabilidade dos metagenes também permite a identificação de sinais técnicos e sua deconvolução de sinais biológicos nos conjuntos de dados.

  • 00:50:00 Nesta seção, o palestrante discute como eles resolveram matematicamente o problema de otimização do item f e derivaram um novo algoritmo baseado na descida de coordenadas de bloco, que tem algumas vantagens significativas e fornece uma garantia de convergência. Eles usam um algoritmo eficiente para resolver o problema de mínimos quadrados não negativos e executam etapas a jusante para aumentar a robustez geral da análise. O palestrante então dá um exemplo de como eles integraram dados de sequência de RNA de célula única em doadores humanos para agrupar as células por tipo de célula em vez de por doador, identificando os principais tipos de células da substância e insights sobre como as células são semelhantes e diferentes em doadores humanos.

  • 00:55:00 Nesta seção, o palestrante discute diferentes aplicações de integração de dados de célula única. Um exemplo é a integração de conjuntos de dados espaciais e unicelulares, que podem ajudar a identificar as localizações espaciais dos tipos de células dentro de um tecido e fornecer informações sobre a arquitetura do tecido. O palestrante dá um exemplo usando um conjunto de dados do cérebro do camundongo para identificar dois subtipos de astrócitos com diferentes localizações espaciais, o que fornece informações sobre como os circuitos neurais funcionam juntos. Outra aplicação importante é a integração de conjuntos de dados multi-ômicos de células únicas, o que é um desafio porque os conjuntos de dados não compartilham nem instâncias nem recursos. O palestrante explica uma estratégia para vincular esses conjuntos de dados, transformando os dados do epigenoma em recursos no nível do gene e correlacionando-os com a expressão do gene.

  • 01:00:00 Nesta seção, o palestrante discute como a fatoração de matriz não negativa integrativa (iNMF) pode ser usada para vincular perfis transcriptômicos e epigenômicos para entender melhor a identidade celular em diferentes contextos. Usando dados do córtex de camundongos e da medula óssea humana, o palestrante demonstra como vincular a expressão gênica e os dados de metilação pode fornecer uma compreensão mais clara dos tipos de células e até identificar tipos de células com rótulos ambíguos. Além disso, o palestrante explica como um algoritmo de aprendizado on-line pode ser utilizado para resolver o problema do iNMF em conjuntos de dados cada vez maiores, atualizando os cálculos de forma incremental à medida que novos dados chegam de forma contínua.

  • 01:05:00 Nesta seção, o palestrante discute os benefícios de usar uma abordagem de mini lote em aprendizado profundo, principalmente para grandes conjuntos de dados. Essa abordagem permite uma atualização iterativa dos pesos e evita o armazenamento de todo o conjunto de dados na memória, resultando em uma convergência mais rápida. O palestrante descreve três cenários em que o minilote é particularmente útil, com a principal vantagem de poder incorporar novos conjuntos de dados à medida que chegam, sem a necessidade de reanalisar quaisquer conjuntos de dados anteriores. O palestrante também discute a ciência da computação por trás dessa abordagem, aproveitando a teoria existente de um artigo sobre aprendizado de dicionário online para otimizar uma função substituta que converge assintoticamente para a mesma solução em termos de parâmetros. Em última análise, essa abordagem funciona bem na prática e converge muito mais rapidamente devido à redundância de cada célula adicional em um conjunto de dados maior.

  • 01:10:00 Nesta seção, o palestrante discute as vantagens do uso de algoritmos online em métodos de redução de dimensionalidade para análise de grandes conjuntos de dados. O palestrante apresenta um benchmark de sua abordagem em relação a outros métodos amplamente utilizados, mostrando que ele tem um uso de memória significativamente menor e é mais eficiente em termos de tempo. Eles demonstram a capacidade de refinamento iterativo do método usando dados gerados pela Brain Initiative Cell Census Network, onde incorporam novos conjuntos de dados na fatoração usando o algoritmo online. Eles também mostram como o algoritmo inmf pode ser estendido para um caso em que os recursos se sobrepõem parcialmente, permitindo o aproveitamento de recursos compartilhados e não compartilhados em conjuntos de dados, o que é uma abordagem mais satisfatória do que os métodos usados anteriormente que forçam o alinhamento dos recursos.

  • 01:15:00 Nesta seção, o palestrante explica como um algoritmo pode ser usado para aproveitar todos os recursos presentes em um conjunto de dados, mesmo que alguns recursos estejam presentes apenas em uma das fontes de dados. O algoritmo pode ser usado para integrar diferentes tipos de dados, como dados de RNA-seq e ATAC-seq, para fornecer uma imagem mais completa da expressão gênica, o que pode aumentar a capacidade de resolver clusters ou perfis celulares. O palestrante também apresenta uma nova abordagem, chamada Michigan, que combina os pontos fortes de autoencoders variacionais (VAEs) e redes adversárias generativas (GANs) para gerar perfis de células realistas a partir de dados de expressão de célula única. O algoritmo usa o desempenho de desemaranhamento do VAE e o desempenho de geração do GAN para criar uma abordagem poderosa para manipular e prever mudanças na identidade da célula.

  • 01:20:00 Nesta seção, o palestrante expressa sua disposição em servir de mentor para alunos interessados na área e agradece a presença do público na palestra. O moderador faz uma enquete rápida para verificar se os ouvintes aprenderam alguma coisa, e o público responde positivamente. No geral, a palestra foi bem recebida e informativa.
 

Dissecção do Circuito da Doença GWAS - Aula 12


Dissecção de Circuitos de Doenças GWAS - Palestra 12 - Aprendizado Profundo em Ciências da Vida (Primavera de 2021)

Este vídeo sobre dissecação de circuitos de doenças GWAS cobre os fundamentos da genética humana, os desafios computacionais para interpretação e os vários tipos de variações genéticas examinadas em estudos de associação do genoma (GWAS). O vídeo também explora metodologias como mapeamento mendeliano, análise de ligação e identificação de polimorfismos de nucleotídeo único (SNPs) associados a doenças. Além disso, o palestrante discute o uso de estatísticas de qui-quadrado, gráficos de Manhattan e gráficos QQ para visualizar regiões genômicas significativamente associadas a fenótipos de doenças. O vídeo também inclui um estudo de caso sobre o gene FTO e como ele foi amplamente dissecado por suas implicações mecanísticas na obesidade. Também são discutidos os desafios de entender a associação genética com a obesidade e os passos para abordar esta questão.

A palestra aborda o desafio de estudar o impacto das variações genômicas na saúde humana e a importância de entender como as mutações afetam diferentes tipos de células. O palestrante descreve sua abordagem de aprendizado profundo para prever o efeito da sequência e variações genômicas, particularmente em relação à previsão da ligação de fatores de transcrição e organização da cromatina. Eles também descrevem a avaliação dessas previsões usando conjuntos de dados genômicos profundamente sequenciados para prever a sensibilidade do DNA e QTLs de marca de histona, bem como o uso de aprendizado profundo para prever o efeito de mutações na expressão gênica e doenças humanas, como o autismo. Por fim, eles discutem sua análise imparcial de conjuntos de genes conhecidos anteriormente e o uso de uma biblioteca de modelo de sequência de aprendizado profundo.

  • 00:00:00 Nesta seção do vídeo, o palestrante discute os fundamentos da genética humana e os desafios computacionais na interpretação. Eles explicam como as variações genéticas são identificadas por meio de estudos de associação do genoma (GWAS) e variantes genéticas individuais que contribuem para doenças são encontradas. A palestra também aborda a caça genética e o uso de ligação e GWAS para reconhecer locais associados a doenças. Os desafios de mapeamento fino, estudos de caso e ferramentas de aprendizado de máquina para interpretação de variantes, incluindo variantes profundas e águas profundas, também são discutidos. A história da genética humana e os padrões de herança são brevemente cobertos, começando na Grécia antiga e continuando até o desenvolvimento do conceito de transmutação e seleção natural por Darwin.

  • 00:05:00 Nesta seção, o palestrante discute a reconciliação entre a herança discreta de Mendel e a variação contínua observada em características fenotípicas. O conceito de herança particulada introduzido por Mendel mostrou que havia unidades discretas de herança denominadas genes que eram dominantes ou recessivos. No entanto, a biometria da variação contínua observada em humanos não pode ser explicada pela herança mendeliana. Isso mudou com o trabalho de estatísticos no início dos anos 1900, que mostraram que a variação contínua poderia ser explicada por múltiplos loci mendelianos. Isso se tornou a base para o mapeamento de traços mendelianos que eventualmente levou ao entendimento de que os cromossomos e o DNA carregam o material genético. Além disso, o palestrante discute como o desvio da regra de sortimento independente tornou-se o burro de carga da genética humana e como traços que estão fisicamente próximos no cromossomo tendem a ser co-herdados.

  • 00:10:00 Nesta seção, o palestrante discute a abordagem tradicional de mapeamento genético conhecida como mapeamento mendeliano, que usa ligação e a frequência de segregação de diferentes características para rastrear as regiões do genoma humano onde diferentes características são codificadas. No entanto, esta abordagem só é eficaz para características com um efeito forte. O palestrante então fala sobre a revolução nos anos 2000 que levou à capacidade de mapear variações de efeito fraco, que antes era impermeável à análise usando métodos de ligação tradicionais. Isso foi realizado por meio de estudos de associação do genoma (GWAS), que analisam cada SNP do genoma e como eles variam com diferentes doenças. O palestrante explica os tipos de variações examinadas no GWAS, incluindo SNPs, indels, SDRs, variantes estruturais e variantes de número de cópias, e como essas variações podem afetar a funcionalidade do genoma.

  • 00:15:00 Nesta seção, o palestrante apresenta o burro de carga dos estudos de associação ampla do genoma (GWAS), ou seja, polimorfismos de nucleotídeo único (SNPs), que são o tipo mais comum de variação genética. Os SNPs têm dois alelos, e cada variante foi agrupada e construída em um banco de dados chamado dbSNP. O palestrante também discute outros tipos de variações, como taquigrafia e repetições, inserções e exclusões e muito mais. Além disso, a diferença entre variantes comuns e raras é explicada, pois as variantes raras permitem o exame de forte variação de efeito. O desafio de encontrar genes de doenças é destacado, visto que os seres humanos têm duas cópias de seu genoma que consistem em 23 cromossomos, 20.000 genes, 3 bilhões de letras de DNA e milhões de sítios polimórficos.

  • 00:20:00 Nesta seção, o palestrante explica a diferença entre variantes comuns e raras em genética e sua relação com estudos de associação genômica ampla e análise mendeliana. As variantes raras têm um grande efeito e são encontradas principalmente na análise mendeliana, enquanto as variantes comuns têm um efeito pequeno e podem ser capturadas por estudos de associação do genoma. Além disso, a análise de ligação pode ajudar a identificar a localização de um gene que causa um distúrbio, estudando marcadores nos cromossomos e vendo quais são co-herdados com o fenótipo em uma população.

  • 00:25:00 Nesta seção, o palestrante apresenta estudos de associação genômica ampla, que reúnem milhares de indivíduos, aproximadamente 50% casos e 50% controles, para estudar condições como esquizofrenia, obesidade ou diabetes. Esses estudos geralmente super-representam casos para ganhar poder, e a tecnologia de genotipagem é usada devido ao seu baixo custo em comparação com o sequenciamento. O palestrante enfatiza a importância do controle de qualidade tanto nas amostras quanto nos SNPs para garantir a precisão dos resultados. Além disso, o palestrante explica o conceito de certificação populacional e a necessidade de eliminar o parentesco entre os indivíduos do estudo.

  • 00:30:00 Nesta seção, o palestrante explica como usar uma estatística qui-quadrado e distribuição de valor p para detectar sinais reais de doenças em um estudo de associação de genoma (GWAS). Usando uma tabela de contingência que mostra quantos casos e controles carregam o alelo de cada SNP, o palestrante procura desvios na frequência de alelos entre casos e controles. A estatística qui-quadrado mede a magnitude do desvio e o valor p é usado para rejeitar a hipótese de que o alelo não tem efeito sobre o fenótipo. O palestrante explica como plotar os valores-p em um gráfico de Manhattan para visualizar as regiões genômicas que estão significativamente associadas ao fenótipo da doença.

  • 00:35:00 Nesta seção, o palestrante discute o uso do gráfico de Manhattan, que exibe o valor p menos log 10 da probabilidade de um SNP associado aleatoriamente a uma doença, bem como o gráfico QQ, que compara os valores p de milhões de SNPs que foram testados. Estes são seguidos por análises funcionais para examinar o papel dos SNPs de outras maneiras. O nível de significância de todo o genoma é definido em 5 vezes 10 elevado a menos 8, que foi estabelecido com base em um cálculo de fundo de envelope há 20 anos. No entanto, o mapeamento fino pode ser desafiador devido à variação genética limitada na população humana, que não teve tempo suficiente para que todos os SNPs se segregassem independentemente.

  • 00:40:00 Nesta seção, o palestrante discute como as variantes são herdadas em blocos em vez de isoladas, o que significa que, se uma variante em um bloco tiver um determinado alelo, todas as variantes nesse bloco terão o mesmo alelo. Depois de encontrar uma associação em uma região, o próximo passo é identificar qual polimorfismo de nucleotídeo único (SNP) é responsável pela associação. Um estudo da doença de Crohn encontrou uma região que foi detectada tanto pela análise de ligação quanto pelos estudos de associação do genoma, enquanto outra região foi encontrada apenas por estes últimos. O palestrante explica a frequência e o tamanho do efeito do alelo de risco de cada região.

  • 00:45:00 Nesta seção, o palestrante discute a raridade dos alelos protetores e as dificuldades em descobri-los por meio de controle de caso e estudos de coorte. Eles explicam que alelos mais raros que diminuem o risco são menos prováveis de serem encontrados em estudos que enriquecem muito os casos, e os pedigrees familiares necessários para tais estudos não são viáveis. O palestrante também explica a diferença entre variantes comuns que o GWAS captura e alelos de efeito forte e raros que a análise de ligação captura. A seção termina com uma breve visão geral dos haplótipos e hotspots de recombinação, incluindo sua variação entre as populações e a importância de prdm9 na orientação de eventos de recombinação. Finalmente, o palestrante apresenta um estudo sobre o gene FTO, que foi o GWAS mais forte para obesidade ou índice de massa corporal e foi amplamente dissecado por suas implicações mecanísticas.

  • 00:50:00 Nesta seção da palestra, o palestrante discute os desafios de entender a associação genética com a obesidade e descreve os passos para abordar esta questão. O primeiro passo é identificar o tecido relevante e o tipo de célula, o que é realizado examinando as anotações epigenômicas de vários tecidos. A segunda etapa é encontrar o gene alvo downstream, que é complicado por links e loops de longo alcance. O palestrante explica que medir a expressão de diferentes genes em indivíduos homozigotos de risco e não risco revela que o próprio gene FTO não apresenta alteração na expressão, mas sim os genes IRX3 e IRX5, localizados longe do FTO, provavelmente são os genes-alvo.

  • 00:55:00 Nesta seção, o palestrante descreve como eles foram capazes de identificar genes-alvo para loci não codificantes relacionados à obesidade e entender o SNP causal usando análise de motivos regulatórios e conservação evolutiva. Ao interromper o regulador upstream e o SNP, eles foram capazes de mostrar a epistasia entre os dois e como isso afeta a repressão e a desrepressão. O palestrante explica que a interrupção do motivo diminui a repressão e os intensificadores ficam superativados, levando à superativação de rx3 e rx5 no nível de expressão gênica, causando uma mudança da dissipação de energia para o armazenamento. Ao construir um modelo e com a edição do genoma, eles foram capazes de passar de uma região de associação onde não sabiam nada para entender o processo biológico e os genes-alvo, e intervir para mudar o circuito.

  • 01:00:00 Nesta seção da palestra, o palestrante discute o desafio de estudar o impacto das inúmeras variações genômicas existentes nos indivíduos e a importância de entender melhor como a sequência genômica e as mutações afetam diferentes tipos de células e saúde humana. O palestrante explica que eles adotam uma abordagem de aprendizado de máquina para utilizar a sequência genômica e grandes quantidades de dados genômicos funcionais para construir modelos que podem prever o efeito da sequência e variações genômicas. Especificamente, o palestrante discute seu trabalho em prever a ligação de fatores de transcrição individuais e a organização da cromatina com base em sequências genômicas. Eles pretendem desenvolver um método sistemático para prever o impacto de 120.000 variações do genoma por vez, usando técnicas de aprendizado profundo.

  • 01:05:00 Nesta seção, o palestrante discute sua decisão de usar um modelo de rede convolucional profunda para construir um modelo de sequência regulatória que satisfaça seus três requisitos: a capacidade de usar sequências grandes e contexto de sequência longa, a capacidade de modelar o não linear interações em diferentes regiões da sequência e a capacidade de compartilhar recursos de sequência aprendidos em todas as diferentes tarefas. O palestrante explica que o modelo aprende diferentes níveis de recursos de sequência nos níveis inferiores e aprende padrões de sequência de ordem superior nos níveis superiores. Eles também enfatizam a importância de preservar as informações espaciais ao fazer previsões específicas de posição. O modelo pode ser usado para prever o efeito de qualquer variante genômica, fornecendo ao modelo duas sequências que diferem em apenas uma variante e comparando as previsões para cada alelo.

  • 01:10:00 Nesta seção, o palestrante descreve como avaliou a precisão de suas previsões para variantes que afetam a sensibilidade do DNA no nível da cromatina. Eles analisaram conjuntos de dados genômicos profundamente sequenciados e procuraram variantes heterozigóticas em que um alelo era significativamente mais representado do que o outro, indicando possíveis diferenças de sensibilidade do DNA. Eles treinaram um modelo para prever a sensibilidade do DNA para os alelos de referência e alternativos e compararam as previsões com os resultados experimentais. Eles descobriram que o modelo tinha maior precisão na previsão de variantes com diferenças mais fortes entre os alelos de referência e alternativos e variantes previstas com mais confiança. A avaliação foi robusta para falsos positivos, permitindo filtrar os verdadeiros positivos. Eles também aplicaram essa abordagem aos QTLs de marca de histona e descobriram que podiam prever o alelo ligado a marcas de histona mais altas.

  • 01:15:00 Nesta seção, o palestrante discute como eles podem usar o aprendizado profundo para prever os efeitos de nível molecular de variantes na expressão gênica. Eles enfrentam desafios como a necessidade de considerar sequências regulatórias maiores e ter menos amostras de treinamento disponíveis. Eles abordam esses desafios observando uma ampla região de 40 kilobytes e aplicando um modelo pré-treinado para prever em diferentes posições. Eles então treinam um padrão suave de contribuições de cada previsão de perfil de expressão gênica para a expressão gênica usando um modelo linear regularizado. Por meio dessa abordagem, eles podem prever o efeito de diferentes mutações e como elas podem causar a mesma doença por meio de um mecanismo semelhante. Embora o problema de prever a expressão do gene esteja longe de ser resolvido, eles fizeram uma primeira tentativa de resolvê-lo.

  • 01:20:00 Nesta seção, o palestrante discute o uso de aprendizado profundo para prever o efeito de variantes genômicas em doenças humanas, como o autismo. Eles explicam que as mutações não codificantes têm sido difíceis de detectar e atribuir à doença. No entanto, usando modelos para prever o impacto das mutações nos perfis de cromatina e nos perfis de ligação de proteínas, eles foram capazes de comparar as mutações de indivíduos com autismo com seus irmãos não afetados. Os pesquisadores descobriram que houve um efeito mais forte nos genes associados ao autismo em indivíduos com autismo em comparação com seus irmãos não afetados, confirmando assim a contribuição de mutações não codificantes para a doença.

  • 01:25:00 Nesta seção, o palestrante discute uma análise imparcial usando conjuntos de genes previamente conhecidos para determinar a contribuição de mutações não codificantes. Eles usam uma análise baseada em vizinhança de rede para procurar efeitos mais fortes em mutações de problemas em comparação com mutações de irmãos dentro de uma rede de genes. Esta análise mostra uma convergência de mecanismos indicados por mutações codificantes e não codificantes, com genes agrupados em grupos relacionados à sinapse e à regulação da cromatina que haviam sido previamente indicados nas mutações codificantes descobertas em indivíduos autistas. O palestrante também menciona brevemente uma biblioteca de modelo de sequência de aprendizado profundo que pode ser usada para treinar e avaliar modelos de sequência.
 

Mecanismo GWAS - Aula 13



Mecanismo GWAS - Palestra 13 - Deep Learning in Life Sciences (Primavera de 2021)

A palestra sobre o mecanismo GWAS na série Deep Learning in Life Sciences analisa vários métodos para entender a função de variantes genéticas não codificantes envolvidas em características complexas. A palestra discute o uso de anotações epigenômicas e modelos de aprendizado profundo para identificar propriedades globais em regiões geneticamente associadas para uma doença específica. Ele também cobre enriquecimentos em diferentes tecidos e intensificadores e explica como eles podem ser transformados em prioris empíricos para prever o SNP causal dentro de um locus. A palestra também discute o uso de fenótipos moleculares intermediários, como expressão gênica e metilação, para estudar a causalidade em estudos de associação do genoma e como combinar componentes pessoais de genótipo e expressão para explicar a variável fenotípica da expressão. Por fim, a palestra examina o uso de métodos de inferência causal para determinar o efeito da alteração de uma variável nas variáveis de resultado para identificar caminhos causais versus anticausais.

O palestrante neste vídeo discute várias técnicas para inferir efeitos causais na pesquisa genômica. Eles abrangem o conceito de separação d e o uso de randomização natural em genética como forma de estabelecer relações causais. O palestrante também discute a randomização Mendeliana e o Modelo de Quasi-Inferência de Rubin, juntamente com o método de resultado potencial para inferência causal. Eles abordam os desafios de imputação e ajuste de vieses em estudos observacionais. O palestrante também enfatiza a importância de usar várias evidências ortogonais para desenvolver um algoritmo causal robusto. Além disso, eles explicam o uso da genética para perturbar as expressões gênicas e aprender redes, e apresentam a condição de invariância como uma forma de identificar estruturas causais nos dados. A palestra fornece uma visão abrangente de várias técnicas e ferramentas usadas na pesquisa genômica para inferência causal.

  • 00:00:00 Nesta seção, a palestra se concentra em expandir a discussão da sessão anterior para entender variáveis globais, como enriquecimentos epigenômicos, eQTLs e o estudo de mediação e causalidade com o professor convidado Yong Jin Park da University of British Colômbia. A palestra planeja revisar brevemente o mapeamento fino e a dissecação mecanicista do locus, seguida de diferentes métodos para análise de enriquecimento global usando epigenômica, para inferir tecidos de reguladores de ação, tipos de células e genes-alvo. Além disso, a palestra examinará modelos lineares mistos e escores de risco poligênico usados em estudos de associação do genoma para prever fenótipos e hereditariedade para transição para os tópicos restantes na palestra de quinta-feira. O objetivo final é entender os direcionadores funcionais e as bases mecanísticas por trás de cada pico nas parcelas de Manhattan simultaneamente em milhares de loci genéticos.

  • 00:05:00 Nesta seção da palestra, o instrutor discute o desafio de usar a genética para entender os mecanismos da doença para características complexas, que são governadas principalmente por variantes não codificantes. Para enfrentar esse desafio, o instrutor propõe o uso de anotações epigenômicas de circuitos celulares e modelos de aprendizado profundo para identificar propriedades globais em todas as regiões geneticamente associadas para uma característica específica. Ao comparar as diferenças nos enriquecimentos em diferentes características, como altura e diabetes tipo 1, o instrutor sugere que eles possam aprender propriedades que atravessam todas as regiões e usá-las para inferir propriedades de loci individuais. Essa abordagem pode fornecer uma visão imparcial da doença e ajudar na previsão de genes-alvo, terapêutica e medicina personalizada.

  • 00:10:00 Nesta seção, o palestrante explica o processo de avaliação da sobreposição entre variantes genéticas e intensificadores específicos de tecido para procurar enriquecimento significativo usando um teste estatístico hipergeométrico ou binomial. Eles descobriram que as variantes genéticas associadas a diferentes características mostram enriquecimento específico do tecido em potenciadores ativos nesses tecidos. Por exemplo, variantes genéticas associadas à altura foram enriquecidas em intensificadores de células-tronco embrionárias, enquanto variantes genéticas associadas à pressão arterial foram enriquecidas em intensificadores de ação no ventrículo esquerdo. Eles também descobriram que a doença de Alzheimer não era globalmente enriquecida por potenciadores ativos no cérebro, mas sim enriquecida por potenciadores ativos em células imunes do cérebro, especificamente células CD14+. Isso os levou a postular que as variantes genéticas associadas ao Alzheimer agem principalmente nas células imunes do cérebro. Eles agora podem usar essas informações em uma estrutura bayesiana para determinar quais variantes genéticas associadas à doença têm maior probabilidade de serem funcionais.

  • 00:15:00 Nesta seção da palestra, o palestrante discute como transformar os enriquecimentos observados em prioris empíricos que podem ser usados no GWAS. Usando o exemplo da Doença de Crohn e do Alzheimer, o palestrante explica que as variantes genéticas associadas a uma doença sendo enriquecida em certas regiões podem ser usadas como um anteparo para prever o SNP causal dentro de um determinado locus. Eles então explicam como esta prévia pode ser combinada com a evidência das estatísticas resumidas do GWAS para construir uma probabilidade posterior para cada variante. A eficácia desse método, chamado RIVIERA, é demonstrada pelo fato de que os SNPs que ele prioriza têm maior probabilidade de serem conservados evolutivamente e encontrados em eQTLs e pegadas de genoma digital.

  • 00:20:00 Nesta seção da palestra, o palestrante discute o uso de intensificadores enriquecidos para fazer associações altamente específicas entre variantes e características genéticas. Ao mapear esses traços para os intensificadores com os quais eles se sobrepõem, o palestrante discute a partição de loci genéticos em tecidos específicos para entender melhor as funções biológicas associadas a esses loci. O palestrante destaca como isso pode ser usado para dividir características complexas em componentes mais simples e priorizar loci com base em sua proximidade com intensificadores em tecidos específicos. O palestrante também fornece vários exemplos de loci associados à doença arterial coronariana que se sobrepõem a diferentes tecidos e genes-alvo. Além disso, o palestrante discute como novos loci que não atingem o significado do genoma também podem ser estudados e mapeados para tecidos específicos.

  • 00:25:00 Nesta seção, o palestrante explica como eles usam uma abordagem de aprendizado de máquina para priorizar loci sublimiares, que são menos significativos do que a significância de todo o genoma, e descobrir novos loci aprendendo características nos significativos de todo o genoma . Eles descobriram muitos loci associados à repolarização do coração e usaram seus recursos como preditores para priorizar variantes abaixo do limiar com linhas adicionais de evidência de testes experimentais. Eles descobriram que os genes priorizados usando essa abordagem foram fortemente enriquecidos para estudos de associação de genoma relacionados e ligados a genes-alvo que fazem sentido, com uma forte correlação com os fenótipos de condução e contratilidade cardíaca. Eles também discutiram como eles usam loci de traços quantitativos de expressão para preencher a lacuna entre a variação genética e a doença, observando os fenótipos moleculares intermediários.

  • 00:30:00 Nesta seção, o palestrante discute o uso de traços moleculares intermediários, especificamente o nível de expressão de um gene ou o nível de metilação de um sítio específico, como forma de estudar a causalidade em estudos de associação genômica ampla. O objetivo é focar em tecidos específicos, mecanismos genômicos, alterações na expressão gênica e endofenótipos para identificar quais características são consequência da genética versus aquelas que são consequência da doença. A base dos loci de traços quantitativos de metilação e dos loci de traços quantitativos de expressão é medir traços quantitativos, como altura, e correlacionar o número de alelos alternativos com o nível de metilação ou o nível de expressão de um gene próximo. Essa abordagem levou à descoberta de dezenas de milhares de qtls de metilação, e a imputação desses fenótipos moleculares intermediários pode ajudar a prever a metilação e correlacioná-la com a doença.

  • 00:35:00 Nesta seção, o vídeo discute como a metilação imputada pode ser usada para coortes maiores para descobrir correlações entre a metilação orientada pelo genótipo e fenótipos como a doença de Alzheimer. A metilação imputada é o componente genético da metilação e, ao imputá-la, os pesquisadores podem usar menos indivíduos e procurar a metilação impulsionada pelo genótipo, aumentando o poder e observando especificamente o componente genético. O vídeo também mostra exemplos de como, em certos casos, ao usar vários SNPs juntos, muitos SNPs que não eram genomicamente significativos se tornaram significativos, o que permite aos pesquisadores combinar seus efeitos para prever a metilação.

  • 00:40:00 Nesta seção da palestra sobre aprendizado profundo em ciências da vida, o palestrante discute uma metodologia para identificar fatores mediadores do fenótipo da doença por meio de genética, metilação, transcrição e estudos de confusão. Eles explicam o processo de usar modelos de regressão linear para prever a relação entre esses vários fatores e a expressão gênica, corrigindo variáveis como efeitos populacionais e efeitos de lote e, finalmente, identificando drivers genéticos de fenótipos moleculares intermediários, como metilação e expressão. A metodologia envolve um gráfico QQ para avaliar a calibração das estatísticas e o uso de covariáveis como idade, sexo e componentes principais para genótipos e expressão para interpretar os resultados.

  • 00:45:00 Nesta seção da palestra, o foco está na combinação de genótipo e componentes pessoais de expressão para determinar se um modelo que inclui covariância e genótipo adicionais é mais capaz de explicar a variável fenotípica de expressão do que apenas o modelo de linha de base. Esta é a base de um estudo de locus de traço quantitativo de expressão (eQTL) que pode ser complementado com análise alélica. A análise alélica envolve a divisão dos reads de indivíduos heterozigotos naqueles contendo um alelo com um A e aqueles contendo outro alelo com um C da mesma célula da mesma pessoa. Ao associar o genótipo A com a expressão específica do alelo desse alelo que parece ter uma expressão maior que a do alelo C, pode-se observar o efeito específico do alelo de uma determinada região que está sendo testada com um determinado SNP. A palestra também aborda QTLs de resposta e seu papel na determinação de QTLs em resposta a uma condição ambiental específica.

  • 00:50:00 Nesta seção, o palestrante discute o conceito de loci de traços quantitativos de expressão (eQTLs), que são loci genômicos que regulam os níveis de expressão gênica. O palestrante explica que os eQTLs podem estar presentes o tempo todo ou apenas se tornarem presentes em resposta a um determinado estímulo. A transcrição faz a transição para o tópico de inferência de causalidade, que o palestrante explica ser uma maneira de determinar quais loci estão desempenhando um papel causal em uma doença versus quais estão simplesmente correlacionados com os fenótipos da doença. O palestrante explica que o campo de inferência causal é dividido em duas categorias: efeito causal e descoberta causal. A palestra se concentrará principalmente na influência do efeito causal.

  • 00:55:00 Nesta seção, o palestrante discute o uso de métodos de inferência causal no estudo da análise genética. A inferência causal envolve intervenções experimentais para determinar o efeito da mudança de uma variável x na variável de resultado y. O objetivo é garantir que a probabilidade condicional seja quase equivalente à probabilidade intervencionista. O palestrante também explica os conceitos de acessibilidade, condicionamento, ajuste e separação. Usando linguagem gráfica causal, os pesquisadores podem fazer perguntas causais e identificar caminhos causais versus anticausais. A presença de um caminho de backdoor pode afetar a interpretação da probabilidade condicional e criar o equívoco de que correlação é igual a causalidade.

  • 01:00:00 Nesta seção, o palestrante discute o conceito de bloquear o caminho backdoor entre variáveis vetoriais para identificar o efeito causal na pesquisa genômica. Eles introduzem a ideia de separação d e criam padrões colisores condicionando certas variáveis. O palestrante explica que se uma variável for simples o suficiente, os pesquisadores podem fazer intervenções e atribuir variáveis aleatoriamente para quebrar a dependência entre fatores de confusão e a variável de interesse. O palestrante enfatiza que a genética é uma variável importante na pesquisa genômica, pois não é afetada por fatores ambientais, e configurá-la para um determinado valor é como um ensaio de controle aleatório natural.

  • 01:05:00 Nesta seção, o palestrante discute o conceito de randomização mendeliana e como ela pode ser usada para entender a relação entre genótipos, fenótipos intermediários e fenótipos de doenças. Os genótipos são lindamente randomizados, tornando mais fácil estimar o verdadeiro efeito causal. Embora esse método dependa fortemente de suposições, ele foi aplicado com sucesso em estudos de interação de gene eQTL e gene-ambiente. Além disso, o palestrante explica que outra forma de estimar o parâmetro de regressão beta e efeitos de mediação é através da combinação da regressão y sobre ge outra regressão x sobre g. Em última análise, a randomização mendeliana oferece uma oportunidade única para entender relações complexas entre variáveis que são difíceis de manipular na vida real.

  • 01:10:00 Nesta seção, o palestrante discute duas abordagens para inferir efeitos causais em pesquisas genômicas: a Randomização Mendeliana (MR) e o Modelo de Quasi-Inferência de Rubin. MR é um estudo de controle randomizado que faz uso de genótipos para perturbar aleatoriamente as variáveis intermediárias para um estudo controlado randomizado sobre o resultado de uma doença. No entanto, a RM pode ser difícil quando se trata de fatores de confusão desconhecidos ou se houver caminhos alternativos. O Modelo de Quasi-Inferência de Rubin é uma abordagem de raciocínio contrafactual que mede os efeitos causais quando a atribuição é uma variável discreta. Essa abordagem cria um problema de imputação, pois o resultado potencial de uma unidade está ausente se não for observado.

  • 01:15:00 Nesta seção da palestra sobre aprendizado profundo em ciências da vida, o palestrante discute o método de resultado potencial para inferência causal em estudos genéticos. Suposições como independência, forte ignorabilidade e sobreposição são necessárias para estimar efeitos causais individuais com precisão. O palestrante também fornece um exemplo de brinquedo envolvendo um medicamento para a doença de Alzheimer e discute como o ajuste de uma função de propensão e o uso de escores de propensão podem ajudar a ajustar vieses e produzir comparações justas entre os grupos de tratamento e controle. O método do resultado potencial permite que os pesquisadores façam perguntas interessantes sobre os efeitos de diferentes tratamentos e intervenções.

  • 01:20:00 Nesta seção, o palestrante discute a inferência causal por meio da estrutura de resultado potencial e técnicas de inferência contrafactuais de última geração. Eles explicam como a ponderação dos grupos tratados pode explicar a diferença nos resultados e como a imputação pode ser usada para estimar os resultados potenciais. Eles também discutem um artigo recente que propõe o uso de uma matriz de recorte para capturar vários fatores de confusão e o uso de PC populacional para ajustar esses efeitos de confusão, bem como uma estratégia para imputar dados ausentes usando árvores de regressão Bayesiana. Com isso, os efeitos causais individuais podem ser medidos para determinar a eficácia dos tratamentos.

  • 01:25:00 Nesta seção, o palestrante discute o aspecto da descoberta causal do aprendizado profundo nas ciências da vida. Eles explicam que aprender a estrutura do gráfico causal a partir de matrizes de dados de alta dimensão é um problema complexo e desafiador. No entanto, eles observam que o avanço nessa área veio do uso da genética para perturbar genes e medir as expressões gênicas para aprender redes. Eles explicam que, em vez de usar uma probabilidade baseada em pontuação, os pesquisadores agora contam com a condição de invariância que assume um único modelo causal que gera os dados e usa essa suposição para identificar a estrutura causal dos dados. O palestrante também fornece um exemplo de brinquedo que demonstra essa abordagem.

  • 01:30:00 Nesta seção da palestra, o palestrante discute a ideia de condição de invariância e sua aplicação para determinar se um modelo pode explicar consistentemente os dados experimentais. O palestrante usa o exemplo de experimentos de nocaute de genes e mostra como a inclusão de um preditor errado pode levar à rejeição dos resultados experimentais. A ideia de triangulação causal também é mencionada como forma de melhorar a reprodutibilidade dos experimentos científicos. O palestrante conclui enfatizando a importância de várias evidências ortogonais para desenvolver um algoritmo causal.
 

Genética de Sistemas - Aula 14



Genética de Sistemas - Aula 14 - Aprendizado Profundo em Ciências da Vida (Primavera de 2021)

Nesta palestra sobre genética de sistemas e aprendizado profundo, o palestrante aborda vários tópicos, incluindo herdabilidade de SNP, herdabilidade de particionamento, regressão de pontuação LD estratificada e aprendizado profundo em fenotipagem molecular. Eles também exploram o uso de registros eletrônicos de saúde, estudos de associação genômica e genômica para analisar um conjunto de dados do biobanco do Reino Unido de cerca de 500.000 indivíduos com milhares de fenótipos. O palestrante discute como modelos de aprendizado profundo podem ser usados para previsão de funções de sequência para entender os circuitos de loci de doenças e o uso de modelos mistos lineares para chamada de GWAS e EQTL. Eles também abordam os vieses e as violações das suposições do modelo no aprendizado profundo e destacam a importância das anotações regulatórias específicas do tipo de célula na inferência de tipos de células críticas para doenças. Por fim, o palestrante discute a complexidade das descobertas relacionadas à seleção negativa e tamanhos de efeito causal e apresenta o professor Manuel Rivas, da Universidade de Stanford, para discutir a decomposição de associações genéticas.

A palestra aprofunda a aplicação de dados genéticos em várias áreas, incluindo a quantificação dos componentes de composição e contribuição de características, identificação de variantes genéticas que contribuem para a adipogênese ou lipólise, identificação de mutações com fortes efeitos na função gênica e menor risco de doença, e o desenvolvimento de modelos de previsão de risco usando análise multivariada. Além disso, a palestra discute a aplicação de modelos de pontuação de risco poligênico em vários biomarcadores e enfatiza a necessidade de compartilhamento de dados entre diferentes populações para melhorar a precisão preditiva, principalmente no caso de populações não europeias. A palestra termina expressando a vontade de supervisionar os alunos interessados em projetos de pesquisa relacionados aos escores poligênicos e efeitos biotrópicos do UK Biobank.

  • 00:00:00 Nesta seção, o palestrante apresenta o tema da genética de sistemas e registros eletrônicos de saúde. Eles revisam brevemente os conceitos abordados nas aulas anteriores, incluindo variantes comuns e raras, pontuações de risco poligênico, desequilíbrio de ligação e variantes de mapeamento fino. O palestrante discute os desafios na interpretação de estudos de associação em todo o genoma devido à grande maioria das associações não codificantes com vários SNPs. Em seguida, eles introduzem o uso de informações genômicas, de RNA e de variação, bem como modelos de aprendizado profundo para a função de sequência para prever genes, regiões e tipos de células acionadoras para entender os circuitos subjacentes aos loci da doença. O palestrante também apresenta o uso de modelos lineares mistos para chamadas GWAS e EQTL, que prevêem os efeitos fixos e aleatórios em fenótipos de interesse usando genótipos e covariáveis.

  • 00:05:00 Nesta seção, o palestrante explica os fundamentos básicos para prever o fenótipo de uma pessoa com base em suas variantes genéticas e o tamanho do efeito de cada alelo alternativo em todos os SNPs do genoma e todos os indivíduos da coorte. O ruído é distribuído entre os indivíduos com um valor centrado em zero e uma matriz de covariância quadrada. Além disso, os efeitos aleatórios são contabilizados usando uma matriz de parentesco que mede o compartilhamento genético entre os indivíduos. Uma abordagem bayesiana é usada para integrar todas as incógnitas e determinar a probabilidade de efeitos fenotípicos conduzidos pela matriz de covariância. Modelos lineares mistos são construídos para estimar a herdabilidade total de uma determinada característica, que é baseada na suposição infinitesimal e é estimada usando um modelo de máxima verossimilhança restrita. Esse modelo de efeitos aleatórios captura as transformações dos dados e funciona apesar da falta de conhecimento sobre a variação causal real.

  • 00:10:00 Nesta seção, o palestrante discute o uso de aprendizado profundo na captura de variação adicional por meio da previsão do efeito de fenótipos moleculares intermediários e a relação linear entre SNPs e expressão. O palestrante explica que isso pode ser feito usando distribuições anteriores que correspondem ao ruído potencial em torno da estimativa, o que permite inferir o resultado mais preferido. Eles também mencionam a influência das diferenças populacionais, onde os efeitos mais fortes que impulsionam as matrizes genéticas decorrem diretamente das diferenças populacionais. Por fim, o palestrante explica o conceito de herdabilidade e como particionar o parentesco genético em subconjuntos do genoma pode ser uma abordagem poderosa para calcular a herdabilidade, sugerindo que quanto mais longos os cromossomos, mais variantes eles explicam para muitas características complexas.

  • 00:15:00 Nesta seção, Alkes Price, da Harvard School of Public Health, explica o conceito de herdabilidade SNP, que é um parâmetro definido como o valor máximo atingível em toda a população em relação à relação entre fenótipo e genótipo. Ele discute a ideia de particionar a herdabilidade em diferentes categorias funcionais de SNPs, como codificação versus não codificação, e como isso pode levar a conclusões sobre quais SNPs são enriquecidos para herdabilidade em doenças e tecidos específicos. Price também apresenta o conceito de regressão de pontuação LD estratificada como uma ferramenta para estudar tipos de células críticas para doenças e processos celulares em todo o corpo humano.

  • 00:20:00 Nesta seção, o palestrante apresenta a ideia de analisar estatísticas de associação resumidas de grandes conjuntos de dados em genética estatística. Este método é útil ao analisar doenças como esquizofrenia, artrite reumatóide e doença de Crohn, onde grandes tamanhos de amostras estão disponíveis, utilizando dados estatísticos resumidos em vez de genótipos e fenótipos de nível individual. O palestrante explica o método de regressão de escore ld estratificado, que é usado para regredir as estatísticas de associação qui-quadrada da doença GWAS em SNPs com LD de diferentes categorias funcionais. O método é baseado na ideia de que um qui-quadrado médio maior que um não implica confusão e depende da pontuação média de LD entre os SNPs.

  • 00:25:00 Nesta seção, o palestrante explica o conceito de sinal de marcação e sinal biologicamente causal em relação aos SNPs (polimorfismos de nucleotídeo único) e suas pontuações LD (desequilíbrio de ligação). Eles discutem como o método de regressão estratificada de pontuação LD (desequilíbrio de ligação) pode ajudar a detectar confusão nessas pontuações, com uma pontuação qui-quadrada média mais alta indicando a presença de confusão. Eles também abordam a questão do LD genômico (desequilíbrio de ligação) e como ele varia com base na população e na frequência de SNPs. O falante então apresenta dados reais na forma de um conjunto de dados de esquizofrenia para ilustrar ainda mais esse método.

  • 00:30:00 Nesta seção da palestra, uma equação de regressão é introduzida para estimar a herdabilidade SNP usando pontuações LD. A interceptação da equação de regressão reflete a confusão, enquanto a inclinação reflete a correlação entre a estatística qui-quadrado e o escore LD. Essa inclinação pode ser usada para estimar a herdabilidade do SNP, e as respectivas inclinações da regressão multilinear podem nos informar sobre a herdabilidade causal do SNP de diferentes categorias funcionais. O enriquecimento de quantidade pode medir a porcentagem de herdabilidade de SNP explicada por uma categoria funcional específica versus a porcentagem de SNPs que fazem parte dessa categoria. A interpretação funcional da inclinação depende se as categorias funcionais estão sobrepostas ou não.

  • 00:35:00 Nesta seção, o palestrante discute a regressão de pontuação LD estratificada, que é usada para avaliar o enriquecimento em várias anotações funcionais. O método é aplicado para codificar SNPs, intensificadores, marcadores de histonas e muito mais. O palestrante observa que o método produz estimativas imparciais se as categorias causais forem incluídas no modelo, mas torna-se tendencioso se as categorias causais não estiverem no modelo. No entanto, mesmo que algumas categorias estejam ausentes, o modelo ainda pode fornecer riqueza suficiente para produzir estimativas quase imparciais para as categorias restantes. O palestrante enfatiza que os métodos de dados de nível individual não são atualmente projetados para serem executados em um grande número de categorias funcionais sobrepostas ou de valor contínuo.

  • 00:40:00 Nesta seção, o palestrante explica que há possíveis violações das suposições do modelo no aprendizado profundo, se não for cuidadoso, citando um exemplo com qtl superior em dados de expressão gênica que não satisfazem a suposição do modelo fundamental. O palestrante então passa a discutir as aplicações do método de aprendizado profundo para cromatina real e dados de expressão gênica. Usando estatísticas resumidas publicamente disponíveis de 17 características, o palestrante descobriu que os SNPs codificadores são enriquecidos para doenças e características complexas, especialmente para doenças autoimunes e altura, enquanto SNPs conservados em 29 mamíferos também demonstraram ter um impacto substancial na doença. Além disso, verificou-se que os potencializadores fantasmas cinco têm um enriquecimento significativo para doenças autoimunes. A discussão então se volta para a interpretação desses resultados em relação a como certas características podem ter um acoplamento maior ou menor com a aptidão reprodutiva.

  • 00:45:00 Nesta seção, o palestrante explica as razões pelas quais certas categorias funcionais são enriquecidas para herdabilidade, que não são devido a tamanhos de efeito causal maiores. Os recortes comuns têm um limite superior suave nos tamanhos de efeito devido à seleção negativa, portanto, trata-se mais do número de recortes na categoria funcional que fazem algo, cada um com tamanhos de efeito causal médios ou pequenos a médios. O palestrante também discute a importância das anotações regulatórias específicas do tipo de célula na inferência de tipos de células críticas para doenças. As anotações regulatórias do cérebro são mais enriquecidas para a esquizofrenia, as adaptações regulatórias ósseas conectadas são mais enriquecidas para a altura e os tipos de células imunes são mais enriquecidos para a artrite reumatoide. Uma abordagem poligênica em todo o genoma pode produzir maiores insights biológicos para características altamente poligênicas do que as abordagens tradicionais que se concentram em recortes significativos em todo o genoma, que podem ser muito baixos em número para essas características.

  • 00:50:00 Nesta seção da palestra, o palestrante discute o uso de dados de expressão gênica para estudar genes específicos relacionados a certas doenças, incluindo esquizofrenia e artrite reumatóide. Eles também mencionam o conceito de arquiteturas dependentes de ld, onde o tamanho dos efeitos causais depende do nível de ld, e como recortes com níveis mais baixos de ld têm tamanhos de efeitos causais maiores em 56 características diferentes. O palestrante menciona a complexidade dessas descobertas, que estão relacionadas à seleção negativa, mas fica sem tempo para discutir dados de sequenciamento de RNA de célula única e tipos de células críticas para doenças. Em seguida, eles apresentam o professor Manuel Rivas, da Universidade de Stanford, que discute o processo de combinação de registros eletrônicos de saúde, estudos de associação genômica e genômica para analisar um conjunto de dados de biobanco de base populacional do Reino Unido de cerca de 500.000 indivíduos com milhares de fenótipos.

  • 00:55:00 Nesta seção, o palestrante discute uma abordagem chamada decomposição de associações genéticas, que envolve desvendar mapeamentos muitos-para-muitos em menos componentes para representar estudos de associação genética. O palestrante usou uma abordagem de decomposição de valor singular truncada para representar uma matriz composta de dados de nível resumido para milhares de características e variância genética, resultando em um componente de classificação inferior de cerca de 100 componentes, cada um dos quais é um produto de elementos ortogonais em três matrizes . Os dois primeiros componentes foram caracterizados por fenótipos antropométricos, e o palestrante projetou como cada variante carrega os dois componentes para ver como eles afetam diferentes fenótipos.

  • 01:00:00 Nesta seção, o palestrante explica como os componentes de composição e contribuição para uma determinada característica podem ser quantificados, como o Índice de Massa Corporal (IMC), que é composto por um componente de gordura e um componente de massa isenta de gordura . O risco genético do IMC seria contribuído por um componente de gordura, entre outros componentes também. O palestrante explica que eles estão interessados em identificar variantes genéticas que possam contribuir para efeitos de adipogênese ou lipólise, em vez de apenas ter um efeito livre de gordura no índice de massa corporal, estudando variantes de truncamento de proteínas específicas (PTVs) e identificando tamanhos de efeito fortes. Através deste processo, o orador identifica o gene pde3b que tem uma contribuição de massa isenta de gordura de colesterol elevado para o IMC, e GPR 151 que tem consequências funcionais na idiprogénese. As associações genéticas para 2.000 fenótipos estão disponíveis on-line em biobank engine.com.edu, com a ideia de que se torne um portal de pesquisa para qualquer pessoa pesquisar seu gene, variante ou fenótipo favorito e navegar no conjunto de associações disponíveis em diferentes biobancos.

  • 01:05:00 Nesta seção, o palestrante discute a identificação de mutações que têm fortes efeitos na função gênica e diminuem o risco de doenças, o que pode levar a novas hipóteses terapêuticas e orientar a seleção de alvos para a descoberta de medicamentos. Eles explicam o processo de identificação de variantes genéticas específicas com fortes efeitos na função e no fenótipo do gene, combinando dados de nível resumido de vários biobancos. Ao estimar parâmetros genéticos, como herdabilidade de poligenicidade e correlação de efeitos genéticos, eles visam visualizar a relação entre genética e características/doenças para melhorar a inferência e orientar o desenvolvimento terapêutico. Exemplos de mutações de efeito forte e seus efeitos na proteção contra doenças como asma e diabetes tipo 1 também são fornecidos.

  • 01:10:00 Nesta seção, o apresentador discute a aplicação de dados genéticos em modelos de previsão de risco. Os seres humanos têm um grande número de variantes genéticas ligadas a centenas de fenótipos, então uma abordagem para explorar essas ligações é ajustar milhões de modelos univariados. No entanto, esta abordagem tem fracas propriedades de previsão devido à correlação entre variantes genéticas, o que torna difícil distinguir a variante relevante de outras. Portanto, um modelo multivariado é desenvolvido ajustando grandes modelos de regressão com milhões de variáveis. O pacote desenvolvido para a adaptação desses modelos é denominado S-LDSC. O modelo usa o algoritmo Lasso, que é uma estrutura de regressão penalizada que permite a seleção de variáveis para melhorar o desempenho preditivo.

  • 01:15:00 Nesta seção, o palestrante discute a aplicação de modelos de pontuação de risco poligênico para 35 biomarcadores, incluindo biomarcadores cardiovasculares, renais e hepáticos. O estudo criou um conjunto de dados de treinamento de 70, um conjunto de validação de 10 e uma divisão de teste de 20 para avaliar o desempenho do modelo. O desempenho dos modelos foi medido em diferentes populações e os resultados mostraram limitações associadas à transferência desses modelos preditivos de uma população que usa variantes causais para previsões para outras populações. O estudo demonstrou que a estrutura de correlação variou entre diferentes populações, impactando o desempenho preditivo dos modelos. Além disso, diferentes conjuntos de variantes genéticas podem explicar a hereditariedade do fenótipo, e a transferência de modelos preditivos de uma população pode não funcionar tão bem em outras populações, quebrando a relação da estrutura de correlação entre as variantes genéticas. Isso exige o compartilhamento de dados entre diferentes populações para melhorar a precisão preditiva.

  • 01:20:00 Nesta seção, o palestrante explica que, ao estudar variantes genéticas em diferentes populações, a ausência de certas variantes em populações não europeias pode contribuir para a heterogeneidade nos tamanhos de efeito. No entanto, quando uma variante está presente em várias populações, os tamanhos de efeito tendem a ser mais homogêneos. O exemplo da lipoproteína a é dado, com a explicação de que as variantes genéticas que contribuem para a variância na população européia não existem na população africana, levando a um desempenho ruim nas populações africanas. O palestrante também expressa vontade de supervisionar alunos interessados em projetos de pesquisa relacionados aos escores poligênicos e efeitos biotrópicos do UK Biobank.
 

Redes Neurais Graficas - Aula 15



Redes Neurais Graficas - Aula 15 - Aprendizagem em Ciências da Vida (Primavera de 2021)

Nesta palestra do YouTube sobre Graph Neural Networks, o palestrante cobre uma ampla gama de tópicos, incluindo os fundamentos de redes de grafos, representações espectrais, classificação semi-supervisionada e modelagem de dados multi-relacionais. Há também um foco na interseção de redes de gráficos e processamento de linguagem natural e como gerar gráficos para descoberta de medicamentos. O palestrante explica vários métodos para propagar informações em gráficos para obter embeddings de nós úteis que podem ser usados para tarefas de previsão. A palestra também destaca a importância do aprendizado contrastivo para GNNs, os benefícios potenciais da combinação de representações baseadas em patches e métodos baseados em atenção, e o uso da abordagem transformadora em NLP. A segunda metade da palestra se concentra na discussão de artigos que mostram os usos práticos de GNNs na descoberta de medicamentos e como codificar e decodificar a estrutura de moléculas usando uma árvore de junção.

Este vídeo discute várias aplicações de redes neurais de grafo (GNNs) em ciências da vida, incluindo descoberta de drogas e inferência de grafo latente. O palestrante destaca os problemas e caminhos potenciais em GNNs, como a falta de localidade espacial e ordenação fixa, e a configuração considerada envolve prever o tipo de um determinado nó, prever um link entre dois nós, medir a similaridade entre dois nós ou duas redes , e nós de cluster executando detecção de comunidade na rede. O palestrante também explica como os GNNs podem treinar e incorporar gráficos de forma eficiente, transformar e agregar informações e lidar com os efeitos colaterais da polifarmácia. Além disso, a palestra aborda dois métodos para aprender automaticamente representações em ciências da vida, com modelos de meta-aprendizagem como MARS sendo aproveitados para generalizar para novos tipos de células. Por fim, a palestra discute como os GNNs podem aprender representações de células latentes em vários conjuntos de dados para capturar a heterogeneidade do tipo de célula.

  • 00:00:00 Nesta seção, o palestrante apresenta o quarto módulo sobre gráficos e proteínas e as próximas palestras sobre redes neurais de grafos, estrutura de proteínas e design de drogas. O palestrante enfatiza a importância de revisar o material por meio de deveres de casa, revisões e trabalhos para se preparar para um próximo questionário em sala de aula. O objetivo não é enganar ou surpreender os alunos, mas ajudá-los a abraçar o campo e obter uma compreensão profunda dele. O palestrante também informa os alunos sobre uma próxima palestra da equipe AlphaFold sobre dobramento de proteínas, que é um avanço revolucionário no campo.

  • 00:05:00 Nesta seção, o palestrante apresenta o conceito de redes e como elas estão presentes em vários aspectos da sociedade, incluindo redes biológicas. As redes biológicas incluem redes reguladoras, redes de sinalização e redes metabólicas operando em diferentes níveis da célula. Há uma necessidade de métodos de análise de rede para entender as propriedades dessas redes que interagem entre si. Além disso, há uma menção a redes probabilísticas que usam nós e arestas para representar objetos probabilísticos. As representações matriciais dessas redes permitem decompô-las, comunidades de aprendizagem e identificar módulos por meio de abordagens de álgebra linear.

  • 00:10:00 Nesta seção da palestra, o palestrante fornece uma visão geral do extenso corpo de trabalho sobre análise de rede e suas representações espectrais. Os métodos discutidos incluem a identificação da separabilidade de componentes usando cortes máximos através de redes baseadas no primeiro e segundo autovalores da matriz Laplaciana, bem como o uso de núcleos de difusão para entender o fluxo de informações entre diferentes arestas. O palestrante enfatiza a importância de não esquecer essa literatura estabelecida, pois ela pode ser usada em combinação com métodos de aprendizado profundo, como redes neurais de grafos, que serão discutidas na palestra. O palestrante então apresenta o palestrante convidado, Neil Band, que fornecerá uma atualização sobre redes neurais de grafos e discutirá domínios de problemas como aprendizado semi-supervisionado, dados multi-relacionais e processamento de linguagem natural.

  • 00:15:00 Nesta seção, aprendemos como propagar informações de forma eficaz em gráficos para calcular recursos de nó ou muitos gráficos e executar operações de downstream usando redes convolucionais de gráfico. Essa rede pode agregar as informações do recurso e atualizar o nó específico recebendo e extraindo informações futuras dos vizinhos. O objetivo final do GNNS é produzir um vetor de incorporação que pode ser usado para prever a propriedade de um grafo inteiro ou prever o tipo de cada nó individual. A regra de atualização é baseada na propagação de informações da representação oculta do nó e atualizações recebidas da vizinhança imediata. Além disso, para reduzir o número de parâmetros do modelo, as mesmas matrizes de peso são aplicadas com parâmetros compartilhados para todos os vizinhos, em vez de aplicar matrizes diferentes.

  • 00:20:00 Nesta seção, o palestrante descreve o processo de uso de redes neurais de grafos para realizar uma tarefa de classificação em redes de citações com papéis como nós e links de citação como arestas. A rede convolucional do gráfico de duas camadas é aplicada, o que envolve a atualização de cada nó no gráfico para absorver informações de sua vizinhança imediata e, em seguida, obter as saídas. O palestrante menciona a desvantagem potencial de suavização excessiva com redes profundas e sugere o uso de unidades recorrentes fechadas para preservar a memória do estado inicial. Além disso, o palestrante discute a possibilidade de combinar métodos baseados em atenção e representações baseadas em patches para aprender representações de ordem superior em redes neurais de grafos.

  • 00:25:00 Nesta seção, o palestrante discute diferentes paradigmas em redes neurais de grafos, incluindo redes convolucionais de grafos, atualizações atencionais e técnicas de passagem de mensagens. Eles destacam os possíveis problemas de memória que surgem quando os gráficos se tornam muito densos na passagem de mensagens, mas enfatizam que esses paradigmas são úteis para diferentes tipos de tarefas de aprendizado. Eles então mergulham na classificação semi-supervisionada em grafos, na qual a configuração transdutiva pode permitir que os modelos aprendam rapidamente, mesmo sem recursos de nó explícitos. Por fim, o palestrante aborda as redes convolucionais de grafos relacionais, que podem ser usadas para modelar dados multirrelacionais, como no processamento de linguagem natural.

  • 00:30:00 Nesta seção, o palestrante discute a conexão entre redes gráficas e processamento de linguagem natural, particularmente o uso do modelo transformador em NLP. O modelo transformador é comumente usado para tarefas como tradução de idiomas e aprendizado de compreensão conceitual geral de palavras. A abordagem do transformador começa a partir de um grafo totalmente conectado, ao contrário das redes biológicas, onde muitas arestas estão faltando, e usa a autoatenção para atualizar os embeddings dos nós antes de produzir uma versão atualizada. Embora a abordagem transformadora não beneficie necessariamente as redes biológicas, há potencial para polinização cruzada de estratégias e otimização entre os dois campos.

  • 00:35:00 Nesta seção, aprendemos como executar uma atualização de incorporação de palavras para uma frase de duas palavras e como fazer uma pesquisa de uma palavra específica para todas as outras palavras. As redes de atenção do grafo usam esse mesmo método, exceto pelo fato de assumirem que toda a vizinhança é o grafo e que há incorporações posicionais. O palestrante explica como incorporar as informações de conectividade do gráfico na arquitetura e como mascarar partes do gráfico para usar apenas as palavras mencionadas anteriormente. Existem muitas oportunidades para a aplicação cruzada desses métodos.

  • 00:40:00 Nesta seção, o palestrante discute a configuração de aprendizagem não supervisionada de embeddings de nó de aprendizagem para tarefas downstream, como classificação de nó ou classificação de gráfico. Para melhorar a capacidade das redes neurais de se tornarem bem especificadas, o palestrante explica o conceito de aumento de dados e descreve como ele é usado em abordagens de aprendizado contrastivo. A palestra também abrange parâmetros de projeto, como estratégias de amostragem, diferentes tipos de representações de nós e diferentes tipos de funções de pontuação. Uma abordagem é usar a função de pontuação para maximizar a informação mútua entre as representações local e global de uma classe particular. Isso incentiva a rede a extrair informações relacionadas à classe de diferentes subconjuntos de informações do gráfico, levando a incorporações de nós mais robustas e melhor desempenho de downstream.

  • 00:45:00 Nesta seção, o palestrante discute a dimensionalidade das incorporações de nós em redes neurais de grafos (GNNs) e o uso de aprendizado contrastivo para GNNs. O palestrante explica que, na prática, as propriedades dos nós em GNNs poderiam residir em um espaço de alta dimensão, como 256 ou 512 dimensões para um único nó em um grafo grande. O palestrante também observa que o aprendizado contrastivo, que envolve o uso de exemplos positivos e negativos para codificar a estrutura do grafo, pode ser usado em vez da classificação para melhorar a codificação da estrutura do grafo. Por fim, o palestrante resume as conclusões das decisões de design em GNNs, destacando a eficácia da pontuação baseada em vizinhos para previsão de link e classificação de nó e a importância de considerar os recursos dos nós e a estrutura do grafo ao escolher o tipo de representação do nó. .

  • 00:50:00 Nesta seção, o palestrante discute duas maneiras de gerar um gráfico, a primeira das quais é prever novos links entre entidades conhecidas usando uma rede neural de gráfico padrão ou rede convolucional de gráfico como um codificador e uma função dos embeddings como um decodificador. A probabilidade de qualquer existência de aresta é baseada nos nós incidentes a ela e é independente de todas as outras arestas. A segunda forma gera um gráfico com um único vetor de incorporação para todo o gráfico, usando um estado específico, que é decodificado usando um Graph RNN que faz um conjunto de previsões ao adicionar em cada nó específico. Este método tenta introduzir o menor número possível de vieses indutivos sobre como gerar um gráfico. A última abordagem é usada para a descoberta de drogas, especificamente no artigo sobre Junction Tree Variational Autoencoder para gerar moléculas de novo com alta potência, independentemente de terem sido sintetizadas ou caracterizadas anteriormente.

  • 00:55:00 Nesta seção, é descrita a abordagem do artigo para codificar e decodificar a estrutura de moléculas usando redes neurais de gráfico. A abordagem utiliza um gráfico molecular de granulação fina para codificar um estado e uma decomposição de árvore para decodificar a estrutura de nível superior do gráfico. Usando uma árvore de junção para remover ciclos no grafo, os autores são capazes de simplificar o processo de decodificação e prever apenas o rótulo de um nó e adicionar ou não um nó filho, resultando em uma estrutura válida de nível superior da molécula. Os autores usam uma unidade recorrente fechada para envolver todo o estado da subárvore que foi construída até agora e alcançar uma alta porcentagem de reconstrução em termos de validade molecular. A otimização bayesiana é usada para avaliar a navegabilidade do espaço latente para a geração de novos medicamentos.

  • 01:00:00 Nesta seção, o palestrante discute duas aplicações de redes neurais de grafos (GNN) nas ciências da vida. A primeira aplicação é no campo da descoberta de drogas, onde o GNN é usado para inferir a variável latente de uma molécula e prever sua propriedade química. O modelo é treinado usando uma estrutura de codificador-decodificador e otimizado usando a otimização bayesiana. A segunda aplicação é a inferência de grafos latentes, onde os GNNs são usados para modelar estruturas ocultas em um problema codificando o conjunto de dinâmicas que ocorrem ao longo do tempo. O modelo pode ser usado para prever resultados futuros e pode ser aplicado à descoberta causal. O alto-falante apresenta dados de brinquedos, bem como dados de captura de movimento do mundo real para mostrar a eficácia dos GNNs nessas aplicações.

  • 01:05:00 Nesta seção, o palestrante discute os problemas e possíveis caminhos em redes neurais de gráfico. Alguns problemas foram mencionados, incluindo o poder limitado e a relação teórica com testes de isomorfismo na passagem de mensagens e agregação de vizinhança, os desafios dos gráficos de computação estruturados em árvore para encontrar ciclos em gráficos e a questão da suavização excessiva. No entanto, o palestrante também vê promessa em escalar essas redes, aprendendo em grandes conjuntos de dados e experimentando aprendizado multimodal e cross-modal entre sequências e gráficos. Em seguida, um pós-doutorando da Universidade de Stanford discute o aprendizado profundo em redes biológicas e como, para os dados representados como um gráfico, são necessárias estruturas de rede neural profunda de aplicação mais ampla. É explicado que, embora o aprendizado profundo tenha transformado a maneira como pensamos no ciclo de vida do aprendizado de máquina hoje, não está claro como usar e aplicar o aprendizado profundo para dados complexos representados como um gráfico.

  • 01:10:00 Nesta seção, são discutidas as complexidades do aprendizado em dados de gráficos, incluindo a falta de localidade espacial e ordenação fixa, a inexistência de pontos de referência e a natureza dinâmica dos gráficos. O objetivo do aprendizado de representação em grafos é encontrar uma maneira de aprender uma função de mapeamento que usa o grafo como entrada para mapear os nós para um espaço de incorporação de baixa dimensão. O aprendizado eficiente de recursos independentes de tarefas é um objetivo crucial desse processo para aprendizado de máquina em redes. A configuração considerada assume um grafo com uma matriz de adjacência e recursos de nó associados a cada nó, a partir do qual o objetivo é prever um tipo de determinado nó, prever um link entre dois nós, medir a similaridade entre dois nós ou duas redes e agrupar nós realizando detecção de comunidade na rede. A abordagem mais ingênua de aplicar redes neurais profundas a grafos é apresentada, mas suas limitações são destacadas, incluindo o aumento do número de parâmetros na rede dependendo do número de nós, a instabilidade do treinamento e aumento da probabilidade de overfitting.

  • 01:15:00 Nesta seção, o palestrante explica como as redes neurais gráficas podem treinar e incorporar gráficos com eficiência usando ideias emprestadas de redes neurais convolucionais. A vizinhança de um nó define a estrutura da rede neural, e a ideia principal é gerar embeddings de nós com base na vizinhança da rede local. O palestrante ilustra esse conceito mostrando como agregar e transformar informações para produzir operadores de transformação e agregação de mensagens, que são invariantes de permutação. Esses operadores podem ser aprendidos para transformar as informações do nó e prever a propriedade de interesse.

  • 01:20:00 Nesta seção, o palestrante explica o processo de transformação e agregação de redes neurais de grafos. A abordagem básica é calcular a média das informações dos nós e aplicar redes neurais para transformações lineares seguidas de não linearidade. O palestrante apresenta o exemplo do algoritmo GraphSAGE, onde uma função agregadora generalizada é introduzida para combinar as características da vizinhança local de um nó. Funções de agregação diferenciáveis, como média, agrupamento ou células LSTM, podem ser usadas para agregar informações entre os vizinhos. O palestrante também discute o uso de redes neurais gráficas em biologia e como elas podem ser usadas para prever certos comportamentos ou resultados.

  • 01:25:00 Nesta seção, o palestrante discute o conceito de efeitos colaterais da polifarmácia, que são efeitos colaterais resultantes da combinação de medicamentos. O palestrante explica que o objetivo é estimar a probabilidade de efeitos colaterais da combinação de dois medicamentos, modelando-os como nós em uma rede heterogênea. O palestrante mostra um exemplo de como drogas e proteínas podem ser modeladas em uma rede para capturar os mecanismos de ação das drogas e os mecanismos biológicos subjacentes. O palestrante então explica como Graph Neural Networks (GNNs) pode ser estendido para incorporar redes heterogêneas, onde a vizinhança precisa ser separada por um tipo de aresta, e como transformar e propagar informações através do grafo definido pela vizinhança da rede dos nós em cada aresta tipo.

  • 01:30:00 Nesta seção, o palestrante discute dois métodos para a aprendizagem automática de representações em ciências da vida. O primeiro método é baseado em redes neurais de gráfico relacional, que podem ser usadas para prever se duas drogas resultarão em efeitos colaterais, aprendendo incorporações de vetores d-dimensionais para cada nó no gráfico. O segundo método é um modelo de meta-aprendizado chamado MARS, que aproveita o conhecimento prévio de dados anotados anteriormente para generalizar para novos tipos de células nunca antes vistos. Ao otimizar o experimento não anotado e o conjunto de metadados, o MARS pode anotar células automaticamente em tipos de células e evitar o tedioso esforço manual de anotar células com base em seus perfis de expressão gênica.

  • 01:35:00 Nesta seção da palestra, o palestrante discute o uso de redes neurais de gráfico para aprender representações de células latentes em vários conjuntos de dados para capturar a heterogeneidade dos tipos de células. A abordagem envolve a projeção conjunta de células de experimentos anotados e não anotados em um espaço de incorporação de baixa dimensão, onde tipos de células semelhantes são incorporados próximos e diferentes tipos de células são incorporados longe. Para conseguir isso, o método aprende os marcos do tipo de célula como representantes do tipo de célula e uma função de mapeamento não linear usando redes neurais profundas. A abordagem é validada em dados de um atlas de células de camundongos em grande escala com mais de 100.000 células de mais de 20 tecidos e atinge um desempenho 45% melhor do que os métodos existentes em termos de Índice de Rand Ajustado.