Apprendimento automatico e Reti Neurali - pagina 22

 

Deep Learning for Regulatory Genomics - Regulator vincolante, Transcription Factors TFs - Lecture 08 (Spring 2021)



Deep Learning for Regulatory Genomics - Regulator vincolante, Transcription Factors TFs - Lecture 08 (Spring 2021)

Il video discute l'uso del deep learning per la genomica regolatrice e si concentra su come la sequenza del DNA può rivelare diversi motivi presenti nelle regioni promotrici e potenziatrici e il loro looping 3D. Il video spiega come la tecnologia Chromosome Confirmation Capture (3C) può sondare l'organizzazione cromosomica e la tecnologia Hi-C può identificare i domini topologicamente associati (TAD), che interagiscono tra loro, e il modello di compartimento nel genoma. I filtri convoluzionali vengono applicati in ogni posizione della sequenza del DNA per rilevare diverse caratteristiche o motivi e il framework di deep learning può apprendere proprietà, filtri e motivi comuni della sequenza del DNA, che consentono di eseguire varie attività di previsione. Il video menziona anche come l'apprendimento multitasking sia vantaggioso e l'utilizzo di livelli aggiuntivi nella rete di deep learning per riconoscere e combinare più rappresentazioni di elementi costitutivi dei motivi del fattore di trascrizione potrebbe consentire un riconoscimento più efficiente di motivi complessi.

Il relatore in questo video discute l'utilizzo del deep learning per la genomica normativa con particolare attenzione al legame del fattore di trascrizione e alla previsione dell'espressione genica. Esplorano l'uso di strutture di convoluzione e convoluzioni dilatate per introdurre ampie regioni di DNA e fare previsioni in un quadro multi-task per i dati sulla cromatina e l'espressione genica. Il relatore copre anche l'uso di connessioni residue per addestrare reti neurali profonde e spiega come il modello può prevedere i contatti 3D utilizzando dati e modelli IC. Nel complesso, il deep learning può essere un potente strumento per analizzare i dati genomici e fare previsioni basate sulla sequenza del DNA con dati sufficienti e le giuste trasformazioni.

  • 00:00:00 In questa sezione, il relatore discute l'uso della sequenza del DNA e del deep learning per prevedere le caratteristiche del genoma regolatore del gene, concentrandosi sulla distinzione dei diversi motivi che costituiscono le regioni potenziatore e promotore e il loro looping 3D. Il relatore descrive l'uso di matrici peso posizione (PWM) per determinare la specificità del legame di ciascun fattore di trascrizione, che viene quindi utilizzato per prevedere la funzione di regolazione del gene. L'immunoprecipitazione della cromatina è anche menzionata come una tecnologia utilizzata per profilare le regioni regolatorie nel genoma.

  • 00:05:00 In questa sezione, il relatore spiega come la comprensione della struttura tridimensionale della cromatina può rivelare dove sono legati diversi fattori di trascrizione. Il nucleo contiene tutto il DNA di una cellula ed è organizzato spazialmente con regioni attive allontanate dalla lamina nucleare e più vicine al centro del nucleo. La cattura della conferma del cromosoma (3C) è una tecnica utilizzata per sondare l'organizzazione cromosomica tagliando casualmente filamenti di DNA e quindi incollandoli di nuovo insieme per vedere dove diverse sezioni di DNA potrebbero essere in contatto tra loro. Questa tecnica può rivelare come i cromosomi si stiano effettivamente avvolgendo l'un l'altro.

  • 00:10:00 In questa sezione, il relatore spiega come tagliare e legare diversi frammenti di DNA può essere utilizzato per creare molecole chimeriche che rivelano dove le porzioni di DNA si legano e mappano nel genoma. Sequenziando e analizzando queste regioni chimeriche, i ricercatori possono ottenere informazioni sulla confezione tridimensionale del genoma e su come le diverse regioni interagiscono tra loro. Il relatore discute varie tecniche come 3C, 4C, 5C e ChIA-PET che consentono l'analisi delle interazioni tra regioni genomiche e l'uso di metodi basati su anticorpi per studiare selettivamente le regioni legate da specifici regolatori.

  • 00:15:00 In questa sezione, il relatore spiega come funziona la tecnologia Hi-C e come fornisce informazioni sul modo in cui è organizzato il genoma. La tecnologia Hi-C prevede l'aggiunta di segni di biotinilazione alle regioni del genoma e quindi l'abbattimento di tali segni per sequenziarli, il che consente agli scienziati di determinare in che modo due regioni del genoma interagiscono tra loro. Le immagini risultanti mostrano informazioni in loop e rivelano che le regioni vicine alla diagonale interagiscono maggiormente. La tecnologia Hi-C identifica anche i domini topologicamente associati (TAD), che interagiscono più tra loro che con l'esterno del dominio, e i modelli gerarchici di interazione al loro interno. Inoltre, la tecnologia mostra uno schema a scacchiera in cui le regioni tendono a interagire maggiormente con regioni dello stesso tipo, il che consente agli scienziati di visualizzare la compattazione e l'organizzazione del genoma.

  • 00:20:00 In questa sezione, il relatore discute la territorialità dei diversi cromosomi all'interno del nucleo e lo schema del compartimento a rispetto a b nel genoma, il che suggerisce che una parte del genoma è inattiva e più vicina alla periferia mentre la parte attiva è più vicino al centro. L'oratore menziona anche i domini topologicamente associati, che sono gruppi di regioni che interagiscono fortemente al loro interno, ma non attraverso di essi. Il modello prevalente per i picchi d'angolo in questi domini è che sono creati da un processo di estrusione ad anello, che coinvolge i siti di legame per il regolatore CTFC e la coesina che spingono un anello di DNA attraverso.

  • 00:25:00 In questa sezione, il video spiega il modello di estrusione ad anello dell'interpretazione della cromatina di alto livello e il ripiegamento tridimensionale della cromatina, che comporta l'avvicinamento dei siti di legame e la spinta del DNA attraverso la crescita efficace di un anello. Il video passa quindi a discutere l'analisi computazionale dei motivi regolatori, utilizzando approcci tradizionali prima del deep learning, e come la stessa metodologia di deep learning può essere utilizzata per l'analisi delle immagini e la genomica regolatoria con l'unica codifica a caldo del DNA. Questa metodologia comporta il perfezionamento di un logo motivo iterando tra il riconoscimento di un modello di sequenza comune e la scoperta di istanze di quel motivo.

  • 00:30:00 In questa sezione, il relatore spiega come i filtri convoluzionali vengono utilizzati nell'apprendimento rappresentativo nell'architettura del deep learning. La sequenza del DNA viene trasformata in una rappresentazione di codifica one-hot con quattro diversi canali di input per ogni lettera. I filtri convoluzionali vengono applicati in ogni posizione della sequenza del DNA per rilevare diverse caratteristiche o motivi. Questi motivi vengono quindi appresi e possono essere applicati per svolgere un compito specifico, come determinare se un fattore di trascrizione è binario o meno. Il relatore sottolinea che il framework di deep learning può apprendere tutti questi filtri convoluzionali e variare il numero di livelli, attività di previsione, relazioni input-output, tra gli altri. In definitiva, l'architettura può estrarre proprietà, filtri e motivi comuni della sequenza del DNA e utilizzarli per apprendere una rappresentazione della sequenza, consentendo l'esecuzione di vari compiti di previsione.

  • 00:35:00 In questa sezione, il relatore fornisce un'introduzione all'uso dell'apprendimento automatico sulle sequenze di acidi nucleici in biologia. Discute le carenze dei precedenti usi di successo dell'apprendimento automatico, come i kernel di stringhe, e di come non fossero in grado di tenere conto del posizionamento spaziale dei k-mer o di qualsiasi relazione tra loro. Il relatore suggerisce quindi che i metodi di apprendimento profondo potrebbero potenzialmente superare questi limiti e consentire una migliore rappresentazione delle sequenze di DNA per l'apprendimento automatico.

  • 00:40:00 In questa sezione del video, il relatore spiega il processo di utilizzo dei filtri di convoluzione nell'apprendimento approfondito per la genomica normativa, che è simile al processo utilizzato nell'analisi delle immagini. Il primo livello dei filtri di convoluzione riconosce le matrici di peso posizione che vengono scansionate attraverso la sequenza, creando una rappresentazione numerica, quindi viene applicata un'operazione di normalizzazione batch, seguita da una funzione non lineare che imposta i valori negativi su zero. Successivamente, l'operazione di max pooling viene utilizzata per prendere il valore massimo delle posizioni adiacenti per ciascun canale di filtro. I livelli convoluzionali vengono quindi applicati più volte per il modello, con operazioni di pooling intermedie, per apprendere le relazioni tra fattori di trascrizione e siti di legame.

  • 00:45:00 In questa sezione, il relatore discute la creazione di previsioni nel deep learning per la genomica normativa. Comprimono l'oggetto lungo l'asse della lunghezza ed eseguono un livello completamente connesso per fare previsioni. Il relatore fornisce quindi un esempio di ipersensibilità del DNA e di come ci siano molti siti accessibili attraverso i tipi di cellule, ma anche molti picchi specifici del tipo di cellula che devono essere appresi. I set di addestramento, convalida e test sono costituiti da due milioni di siti, che sono suddivisi in 164 chiamate binarie per verificare se c'è un segnale significativo da questo test di ipersensibilità del DNA. Il relatore discute i vantaggi dell'apprendimento multitasking, in cui tutte le convoluzioni e i livelli completamente connessi sono condivisi tra tutte le attività ad eccezione della trasformazione lineare finale. Spiegano che questa rappresentazione congiunta dà risultati migliori rispetto alla formazione di modelli separati per ciascun compito.

  • 00:50:00 In questa sezione, i relatori discutono le attività coinvolte nel loro modello di deep learning per la genomica regolatoria, che include diversi tipi di cellule e analisi come chip-seq del fattore di trascrizione e chip-seq di modifica dell'istone. Spiegano che il modello utilizza reti neurali convoluzionali che sono più flessibili delle SVM k-mer e possono rappresentare più cose. Per capire cosa sta facendo il modello, analizzano le matrici dei pesi di posizione ottenute dai filtri di convoluzione e le confrontano con il database cisBP dei siti di legame dei fattori di trascrizione. Scoprono che i filtri riconoscono in gran parte sequenze simili ai motivi del database e notano che l'uso di più filtri per importanti fattori di trascrizione come CTCF è cruciale per prevedere l'accessibilità.

  • 00:55:00 In questa sezione, il relatore discute il potenziale dell'utilizzo di livelli aggiuntivi in una rete di deep learning per riconoscere e combinare più rappresentazioni di elementi costitutivi di motivi di fattori di trascrizione, come CTCF. Ciò potrebbe consentire un riconoscimento più efficiente di motivi complessi, sebbene potrebbe anche rendere difficile individuare la posizione esatta e il contributo di ogni singolo filtro. Il relatore menziona anche diverse analisi che hanno eseguito per ottenere informazioni sul contenuto delle informazioni e sull'influenza di diversi filtri nel modello, che potrebbero aiutare a interpretare meglio i risultati di un approccio di deep learning alla genomica normativa.

  • 01:00:00 In questa sezione del video, l'oratore discute l'utilizzo di un motivo noto per fare previsioni e lo studio dei siti di legame del fattore di trascrizione mutando ogni singolo nucleotide attraverso la sequenza. L'oratore passa quindi a discutere un nuovo problema di previsione della trascrizione e dell'espressione genica calcolando una funzione di tutti gli elementi in una lunga regione del DNA. La soluzione prevede l'utilizzo di strutture di convoluzione e l'inserimento di un'ampia regione di sequenza, circa 100.000 nucleotidi per il modello, e quindi l'esecuzione di un pool massimo per portare la sequenza a una risoluzione di circa 128 coppie di basi. La sfida è come condividere le informazioni attraverso il genoma e per questo possono essere utilizzati diversi moduli. Si è ipotizzato che le reti neurali ricorrenti fossero lo strumento migliore per il lavoro.

  • 01:05:00 In questa sezione, l'oratore parla di uno strumento chiamato convoluzione dilatata che hanno utilizzato al posto di una rete neurale ricorrente per evitare il problema dell'addestramento lento su lunghe sequenze. La convoluzione dilatata comporta l'inserimento di lacune nella convoluzione e la sua espansione, il che consente al campo recettivo di crescere in modo esponenziale, portando a un metodo molto efficiente in termini di parametri per coprire un'immagine. Il relatore discute quindi di come hanno utilizzato le convoluzioni dilatate per fare previsioni in un quadro multi-task per i dati sulla cromatina e l'espressione genica. Menzionano anche una tecnica aggiuntiva chiamata connessioni residue o connessioni saltate che può essere utile per addestrare reti neurali profonde.

  • 01:10:00 In questa sezione, il relatore discute l'uso di reti residue per rendere più facile per ogni livello apprendere nuove informazioni senza dover riapprendere tutto prima. Ciò è particolarmente utile per le circonvoluzioni dilatate, che guardano a diverse posizioni più lontane. Trasmettendo direttamente ciò che è già stato appreso con la connessione residua, possono aggiungere nuove informazioni al vettore di ciascuna posizione e normalizzarlo o gettarvi sopra una convoluzione. Il numero di connessioni residue dipende dalla lunghezza della sequenza con cui si sta lavorando, poiché dovrebbero essere in grado di guardare abbastanza lontano senza uscire dai limiti della sequenza.

  • 01:15:00 In questa sezione del video, il relatore discute l'uso di 5-10 strati di convoluzione dilatati per una sequenza di input di 100.000, ma osserva che questo può cambiare a seconda della scala della sequenza o della dimensione del contenitore. L'input in questo caso è il segnale continuo da vari set di dati e l'oratore nota che non può essere facilmente binarizzato come l'espressione genica. Il relatore indica che una funzione più perdita funziona meglio per i dati e osserva che la qualità del modello è influenzata dalla qualità dei dati, che può variare considerevolmente. Il relatore menziona brevemente l'uso del modello per fare previsioni per le mutazioni negli SNP associati alla malattia e l'importanza di collegare la ricerca di biologia computazionale alle associazioni di malattie. Infine, il relatore copre brevemente la previsione dei contatti 3D utilizzando dati e modelli IC.

  • 01:20:00 In questa sezione, il relatore spiega come usano i dati c alti per fare previsioni. I dati sono bidimensionali, con nucleotidi lungo l'asse xe l'asse y, che rappresentano la frequenza di contatto tra quella parte del genoma e un altro bin nel genoma. Utilizzando l'errore quadratico medio e l'apprendimento multitasking, il modello può prevedere i dati. Tuttavia, con un milione di nucleotidi in arrivo, i limiti di memoria della GPU diventano un problema. La soluzione è utilizzare la media della posizione i e della posizione j, ottenendo una matrice 2D che gli strumenti di deep learning possono analizzare. Utilizzando convoluzioni 2D, convoluzioni dilatate e risimmetrizzando la matrice dopo ogni strato, il modello può fare previsioni con ctcf come principale fattore di apprendimento.

  • 01:25:00 In questa sezione, David Kelley illustra come il deep learning può essere utilizzato nella genomica normativa per analizzare input di base come la sequenza del DNA e prevedere il legame del fattore di trascrizione, utilizzando CTCF come esempio. Con dati sufficienti e le giuste trasformazioni, le architetture di rete neurale possono apprendere e fare previsioni con successo sulla base dei dati genomici. Mentre i dati sintetici sono attualmente l'obiettivo principale, questa presentazione offre una panoramica dei modi in cui il deep learning può essere applicato in biologia e genomica.
Deep Learning for Regulatory Genomics - Regulator binding, Transcription Factors TFs
Deep Learning for Regulatory Genomics - Regulator binding, Transcription Factors TFs
  • 2021.03.16
  • www.youtube.com
Deep Learning in Life Sciences - Lecture 08 - TF binding (Spring 2021)MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021Prof. Manolis Kellis with Guest lectur...
 

Previsione dell'espressione genica - Lezione 09 - Apprendimento approfondito nelle scienze della vita (primavera 2021)



Previsione dell'espressione genica - Lezione 09 - Apprendimento approfondito nelle scienze della vita (primavera 2021)

Il video discute l'uso del deep learning nella previsione dell'espressione genica e le sfide coinvolte nell'analisi di set di dati biologici, tra cui l'alta dimensionalità e il rumore. La conferenza copre metodologie come l'analisi dei cluster, le approssimazioni di basso rango delle matrici e il rilevamento compressivo. Il relatore parla anche dell'uso dell'apprendimento profondo per la previsione dell'espressione genica e della cromatina, nonché dell'apprendimento debolmente supervisionato per prevedere i siti di attività di potenziamento. La conferenza discute diversi strumenti sviluppati utilizzando principalmente la metodologia del deep learning, tra cui danq, djgx, factory mat e sc fin. Il relatore parla anche dell'uso di modelli generativi per lo studio dei set di dati genomici e introduce l'idea della metodologia dell'inferenza approssimata, in particolare quella popolare chiamata inferenza variazionale.

Nella seconda parte della conferenza, il relatore discute l'applicazione del deep learning nelle scienze della vita, in particolare nella previsione dell'espressione genica e nell'interpretazione genomica. Il primo argomento si concentra sull'applicazione dei modelli di autoencoder di variazione all'analisi dell'espressione dell'RNA per i set di dati sull'asma. Il relatore propone un framework per rimuovere artefatti sperimentali utilizzando un modello generativo condizionale. Il secondo argomento discute l'investimento di Illumina nelle reti di deep learning per identificare i modelli sequenza-funzione per l'interpretazione genomica, in particolare per lo splicing. La società ha sviluppato SpliceAI, una rete neurale convoluzionale profonda che prevede se un nucleotide è un donatore di giunzione, un accettore o nessuno dei due. Il terzo argomento riguarda la ricerca del relatore sulla previsione se determinate mutazioni avranno una funzione di giunzione criptica, che può portare a frameshift e malattie. Il relatore invita anche domande e domande per posizioni di ricerca, stage e postdoc.

  • 00:00:00 In questa sezione della conferenza, i relatori introducono l'analisi dell'espressione genica ei due metodi utilizzati per misurare l'espressione dell'RNA: l'ibridazione e il sequenziamento del genoma. Quest'ultimo è diventato più popolare a causa del drastico calo del costo del sequenziamento del genoma negli ultimi 20 anni. Il risultato è una matrice che mostra quale gene è espresso a quale livello in centinaia di condizioni. Questa matrice può essere vista verticalmente o orizzontalmente, dando un vettore lungo 20.000 per ogni gene nel genoma attraverso una condizione sperimentale di interesse, o per un particolare tipo di cellula che è stato ordinato.

  • 00:05:00 In questa sezione, l'istruttore discute su come utilizzare il deep learning nella previsione dell'espressione genica. Le matrici di input di base implicano la profilazione di ogni cellula per effettuare confronti su più dimensioni come la somiglianza dei vettori di espressione per un dato gene in diverse condizioni, tessuti, tipi di cellule, esperimenti, età e sesso. L'analisi dei cluster può essere utilizzata per trovare condizioni simili tra loro o geni simili tra loro su colonne o righe. L'approccio della colpa per associazione può anche essere utilizzato per completare l'annotazione di geni non annotati basati sulla somiglianza dell'espressione. Inoltre, l'istruttore suggerisce di utilizzare approcci di deep learning come l'apprendimento auto-supervisionato, la previsione utilizzando non linearità e caratteristiche di ordine superiore e l'apprendimento multi-task per prevedere congiuntamente le diverse classi di interesse e, infine, l'istruttore sottolinea che l'apprendimento profondo è non è l'unico approccio, ed esiste una serie di strumenti che possono essere utilizzati per porre domande biologiche e apprendere rappresentazioni di questi sistemi.

  • 00:10:00 In questa sezione, il docente discute le tecniche di riduzione della dimensionalità che possono essere utilizzate per analizzare i modelli di espressione genica. Una di queste tecniche è l'analisi delle componenti principali (PCA), che può essere utilizzata per identificare le principali dimensioni della variazione nei modelli di pressione genetica. È anche possibile utilizzare approssimazioni di basso rango di matrici per ottenere efficacemente un'approssimazione ottimale di rango inferiore dei dati. Possono essere applicate anche altre tecniche come t-SNE e codificatori automatici. Inoltre, il docente menziona l'uso del rilevamento della compressione per costruire misurazioni composite utilizzando combinazioni di sonde che catturano combinazioni lineari dell'espressione genica. Infine, il docente discute il potenziale dell'utilizzo delle informazioni sulla cromatina per prevedere i livelli di espressione genica, che sarà discusso nella prima conferenza degli ospiti.

  • 00:15:00 In questa sezione, il relatore discute l'uso del deep learning per prevedere l'espressione genica e la cromatina da varie caratteristiche, combinandole sistematicamente utilizzando meccanismi di attenzione, simili a quanto discusso in precedenza per il modello del trasformatore e le reti neurali ricorrenti. Viene spiegato l'uso di costrutti reporter e test ad alto rendimento, insieme alla capacità di prevedere se determinati frammenti guideranno l'espressione utilizzando un approccio di machine learning o deep learning. Il relatore introduce anche il concetto di previsione dello splicing direttamente dalla sequenza utilizzando una rete neurale e caratteristiche specifiche nella sequenza, e mette in evidenza il lavoro svolto dal suo team sull'utilizzo del deep learning per prevedere i potenziatori nel genoma umano utilizzando un framework supervisionato settimanalmente.

  • 00:20:00 In questa sezione del video, il relatore discute un metodo di previsione dell'espressione genica utilizzando un esperimento reporter e una serie di caratteristiche della cromatina. La matrice di input, che consiste dei diversi segni in migliaia di posizioni nel genoma, è costruita per ogni gene e le caratteristiche della cromatina nelle vicinanze sono testate rispetto al risultato della ricerca della stella per prevedere l'espressione. Il livello di output è un classificatore binario e le rappresentazioni intermedie del modello vengono utilizzate per prevedere la posizione specifica nella sequenza del genoma. Questa maggiore risoluzione consente un uso più efficiente dell'analisi dei dati, che si ottiene inserendo particolari curve nel segnale contiguo per avere una rappresentazione più avanzata.

  • 00:25:00 In questa sezione, il relatore spiega l'idea dell'apprendimento debolmente supervisionato per prevedere i siti di attività di potenziamento utilizzando un metodo simile al rilevamento di oggetti. Passando l'immagine originale in un filtro convoluzionale, vengono generate le mappe di attivazione che vengono utilizzate per creare una mappa termica. Il modello richiedeva solo un'annotazione grossolana dell'esistenza del potenziatore e prevedeva la posizione precisa utilizzando lo stesso metodo della mappa termica. I risultati della convalida della linea cellulare incrociata e dei cromosomi incrociati hanno dimostrato che il modello può prevedere con precisione i potenziatori di starseek. L'insieme raffinato, ottenuto eliminando le regioni irrilevanti mentre si fanno previsioni, ha una proporzione maggiore di siti di inizio trascrizionale ed è più conservato in un centinaio di specie diverse. Il relatore ha confrontato il modello con il precedente modello all'avanguardia ed ha eseguito un caso di studio nelle cellule neuroprogenitrici, scoprendo potenziatori neuro-specifici.

  • 00:30:00 In questa sezione del video di YouTube "Gene Expression Prediction", il relatore discute le sfide nell'interpretazione dei set di dati biologici e l'importanza di sviluppare una metodologia che tenga conto di molteplici fattori, come l'alta dimensionalità e il rumore. La ricerca del relatore nel suo laboratorio si concentra sulla combinazione di diversi tipi di tecniche genomiche, inclusa la genomica a cellula singola, per sviluppare metodi per lo studio della genomica. Il relatore discute anche del suo interesse nell'applicare il deep learning all'analisi dell'espressione genica e nel suo utilizzo per estrarre segnali da set di dati rumorosi.

  • 00:35:00 In questa sezione, il relatore discute lo sviluppo di una metodologia che combina set di dati multimodali per consentire l'esame della biologia sottostante. Evidenziano proposte recenti nel campo dell'apprendimento automatico che combinano segnali visivi con l'elaborazione del linguaggio naturale per comprendere meglio i sistemi. Il relatore procede quindi elencando alcuni strumenti che il loro laboratorio ha sviluppato utilizzando principalmente la metodologia del deep learning, tra cui danq, che quantifica la funzione delle sequenze di DNA, e djgx, che prevede l'espressione genica. L'oratore discute anche brevemente altri due strumenti, factory mat e sc fin, che prevedono il legame del fattore di trascrizione, con sc fin che è un'estensione del factory mat per la previsione di una singola cella.

  • 00:40:00 In questa sezione del video, il presentatore discute diverse metodologie relative all'uso di modelli di deep learning nelle scienze della vita. Nello specifico, la discussione copre la metodologia UFO per le previsioni della struttura secondaria della struttura dell'RNA, il modello DGX che utilizza reti neurali profonde per prevedere le espressioni e la metodologia SAILOR per l'utilizzo di modelli generativi profondi per studiare set di dati atassici a singola cellula concentrandosi sull'idea di rappresentazione invariante apprendimento. La discussione copre anche l'uso di modelli VAE per studiare la genomica e i dati di espressione dell'RNA, un'estensione di modelli generativi profondi per un'analisi taxi e la combinazione di set di dati multimodali con un modello per apprendere rappresentazioni condivise. Il presentatore osserva che tutti gli strumenti sviluppati sono open source e disponibili su Github.

  • 00:45:00 In questa sezione, il docente discute un metodo per la previsione dell'espressione genica utilizzando un sottoinsieme di geni. Profilando un piccolo numero di geni (1.000) utilizzando la piattaforma tecnologica Luminex, i ricercatori possono generare profili con milioni di campioni, portando a un metodo conveniente per comprendere i processi biologici e le scoperte di farmaci. I restanti 20.000 geni possono essere dedotti utilizzando tecniche computazionali come le reti neurali profonde. Inserendo 978 vettori dimensionali in una rete neurale feed-forward di percezione multistrato, i ricercatori possono prevedere congiuntamente i 20.000 obiettivi in modo multi-task e addestrare il modello attraverso la retropropagazione, ottenendo una precisione migliore rispetto alla regressione lineare. Il set di dati geografici contenente i profili di espressione con l'intera raccolta di geni viene utilizzato per addestrare il modello.

  • 00:50:00 In questa sezione della lezione, il docente discute l'uso di modelli generativi per lo studio di set di dati genomici. Poiché la maggior parte dei set di dati genomici non dispone di etichette, l'apprendimento senza supervisione è spesso più rilevante. L'obiettivo è mappare set di dati ad alta dimensione in un incorporamento a bassa dimensione, che può essere più utile per identificare i modelli sottostanti. Il metodo tradizionale per questo scopo è l'autoencoder, che può essere addestrato abbinando l'input all'output, ma presenta problemi come la suscettibilità all'overfitting e l'incapacità di generare campioni. Come soluzione, il docente propone modelli generativi profondi, che modellano i dati attraverso un framework probabilistico con variabili latenti. Assegnando priori alla distribuzione delle variabili latenti, il modello può marginalizzare su di esse per ottenere le distribuzioni marginali dell'input.

  • 00:55:00 In questa sezione, il professore discute i problemi con i dati di apprendimento basati su un framework generico e introduce l'idea di metodologia di inferenza approssimata, in particolare quella popolare chiamata inferenza variazionale, che propone una distribuzione ausiliaria sulla distribuzione di z dato X. Il limite inferiore della probabilità logaritmica legato alla distribuzione ausiliaria viene quindi ridotto al minimo attraverso un equilibrio tra i dati e la distanza ko tra le distribuzioni, garantendo così che la distribuzione posteriore sia abbastanza vicina alla distribuzione precedente pur avendo abbastanza potenza per modellare set di dati osservabili . Ciò ha portato allo sviluppo dell'autocodificatore variazionale, che può modellare sia p(theta)x data z sia la distribuzione ausiliaria attraverso reti neurali addestrandole a minimizzare la variazione della probabilità logaritmica negativa. Tuttavia, ci sono problemi con il calcolo di tali aspettative, che possono essere risolti utilizzando il trucco della riparametrizzazione, in particolare quando si applica un prodotto gaussiano.

  • 01:00:00 In questa sezione, il relatore discute l'applicazione dei modelli di autoencoder di variazione all'analisi dell'espressione dell'RNA, in particolare per i set di dati sull'asma. A causa della natura discreta e quantitativa dei set di dati RNA-seq, i ricercatori utilizzano distribuzioni binomiali negative gonfiate a zero per modellare i conteggi delle letture. Ciò porta all'idea di utilizzare un codificatore automatico combinato con questo modello per creare un modello di generazione profonda. Tuttavia, le rappresentazioni latenti apprese possono riflettere artefatti sperimentali, come effetti batch e copertura di lettura. Per rimuovere questi effetti, il relatore propone una struttura che utilizza un modello generativo condizionale che minimizza le informazioni reciproche tra le rappresentazioni apprese ei loro fattori di confusione sottostanti.

  • 01:05:00 In questa sezione, il ricercatore principale dell'AI Lab di Illumina parla dell'obiettivo dell'azienda di comprendere ogni possibile variante nel genoma umano e rendere il sequenziamento del genoma utile a tutti. L'attenzione si concentra sull'interpretazione delle variazioni genetiche non codificanti, che la maggior parte del sequenziamento clinico attualmente salta. Questo è il motivo per cui Illumina sta investendo molto nelle reti di deep learning per identificare i modelli sequenza-funzione per l'interpretazione genomica, in particolare per lo splicing. Hanno sviluppato SpliceAI, una rete neurale convoluzionale profonda che prevede se un nucleotide è un donatore di giunzione, un accettore o nessuno dei due, esclusivamente dalla sequenza, e può ricostruire il pattern introne-esone di un gene da una sequenza di sequenze.

  • 01:10:00 In questa sezione, il relatore discute le difficoltà di prevedere le giunzioni di giunzione degli esoni e come la loro rete di deep learning è stata in grado di prevedere tutti i 30 esoni del grande gene CFTR con precisione a livello di nucleotide. Hanno scoperto che i determinanti della sequenza a lungo raggio sono fondamentali per la regolazione della giunzione e la rete è stata in grado di derivare automaticamente questi determinanti dai dati della sequenza, compreso il posizionamento dei nucleosomi e il raggruppamento degli esoni. La rete utilizzava una varietà di caratteristiche, tra cui il punto di diramazione, il tratto lunare polyper, ag e gt, nonché potenziatori di giunzione intronica ed esonica, e compensava la ridondanza dei motivi locali con un contesto a lungo raggio. Il relatore ha anche mostrato come l'accuratezza della rete aumentasse con dimensioni di contesto maggiori e che funzionasse anche su sequenze codificanti non proteiche.

  • 01:15:00 In questa sezione del video, il relatore discute l'applicazione dell'IA di giunzione a pazienti affetti da malattie rare, in particolare un paziente con insufficienza cardiaca ad esordio precoce causata da una singola mutazione nucleotidica che ha esteso l'esone e ha spostato la struttura della proteina. Il modello è stato anche convalidato su RNA-seq da GTEx e il tasso di convalida dipendeva dal punteggio AI di giunzione. Il relatore sottolinea la complessità dell'interpretazione delle varianti di giunzione con punteggio inferiore in quanto possono preservare lo splicing normale e c'è un'interpretazione graduale della variazione umana che deve essere affrontata. È stato anche esaminato l'impatto della selezione naturale sulle varianti con funzione di giunzione criptica e si è scoperto che la selezione naturale mostra che le mutazioni di giunzione criptiche previste da piccante i sono essenzialmente equivalenti a una mutazione di codifica proteica frameshift o senza senso. Infine, il modello è stato applicato a grandi insiemi di dati clinici di pazienti con disturbo dello spettro autistico e disabilità intellettiva.

  • 01:20:00 In questa sezione della conferenza, il relatore parla della loro ricerca sulla previsione se certe mutazioni avranno o meno una funzione di giunzione criptica. Hanno usato il sequenziamento dell'RNA per confermare la giunzione di giunzione aberrante prevista e hanno dimostrato esempi di come queste varianti causano lo splicing nella posizione sbagliata, portando a frameshift e malattie. Il relatore rende i propri strumenti open source e invita domande, nonché domande per posizioni di ricerca, stage e postdoc. La conferenza si conclude con un ringraziamento al relatore e un promemoria per rimanere sintonizzati per il progetto finale.
Gene Expression Prediction - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)
Gene Expression Prediction - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.03.20
  • www.youtube.com
6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://youtube...
 

Genomica unicellulare - Lezione 10



Genomica unicellulare - Lezione 10 - Apprendimento approfondito nelle scienze della vita (primavera 2021)

In questa conferenza sulla genomica unicellulare, il relatore discute vari metodi e tecnologie utilizzati per profilare le singole cellule, tra cui lo smistamento cellulare e la microfluidica. L'attenzione si concentra su tre specifiche tecnologie di sequenziamento a cella singola: approcci Smart-seq, drop-seq e raggruppati. Il relatore copre anche il processo di analisi dei trascrittomi a cella singola, inclusa la preelaborazione, la visualizzazione, il clustering e l'annotazione e l'uso dell'architettura dell'autoencoder nel clustering della comunità. I metodi di apprendimento profondo vengono applicati per l'adattamento del dominio e per ricostruire i tipi di cellule in modo stimolato. La conferenza discute anche le sfide insite nell'analisi dei dati genomici unicellulari e propone l'uso di un modello generativo per affrontare questi problemi in modo scalabile e coerente.

La seconda parte del video copre vari argomenti relativi alla genomica unicellulare e al deep learning. Gli argomenti discussi includono l'inferenza variazionale, un processo generativo per i dati di sequenziamento dell'RNA a cella singola, il modello SCVI per la miscelazione di set di dati di tipo cellulare, CanVAE per la propagazione di etichette e l'implementazione di vari algoritmi di deep learning su un'unica base di codice chiamata strumenti CVI. I relatori affrontano anche le sfide nell'uso delle probabilità a posteriori per calcolare le misure dell'espressione genica e presentano metodi per calcolare con precisione le aspettative a posteriori e controllare i tassi di scoperta completi.

  • 00:00:00 In questa sezione della trascrizione da "Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Spring 2021)", il relatore spiega perché è necessaria la profilazione di una singola cellula. Le singole cellule all'interno del corpo sono estremamente diverse l'una dall'altra e possono variare a causa di stimoli ambientali, interazioni, fase del ciclo cellulare e burst trascrizionali. La profilazione di una singola cella cattura anche le differenze individuali nei tipi di cellule, nella segnalazione e nel genotipo, che spesso non vengono acquisite con i dati di massa. L'oratore delinea diverse tecnologie che hanno preceduto l'attuale esplosione nell'analisi dei dati a singola cellula, ma sottolinea la tecnologia fondamentale dell'amplificazione dei singoli RNA per catturare la diversità trascrizionale.

  • 00:05:00 In questa sezione, il relatore discute le diverse tecnologie e metodi utilizzati per la profilazione delle singole cellule, che include lo smistamento cellulare, la microfluidica e il pipettaggio. Osservando le singole cellule in diversi punti temporali e i geni tra le cellule, i ricercatori possono vedere come i singoli geni si accendono e si spengono e come c'è eterogeneità anche all'interno di determinati punti temporali. L'analisi unicellulare pone una sfida nel distinguere i valori zero tecnici e biologici, ma i dati ottenuti attraverso queste tecniche sono in grado di ricapitolare ciò che si vede in biologia. Il discorso copre anche smartseek, che utilizza la tecnologia basata su celle, dropseek e 10x, che utilizzano entrambi goccioline, e split-seek, che è un metodo per codificare a barre singole celle senza separarle.

  • 00:10:00 In questa sezione, il relatore discute i diversi metodi utilizzati nella genomica unicellulare, inclusa la microfluidica e la raccolta del sangue, e descrive la pipeline di base utilizzata nel processo. L'attenzione si concentra su tre tecnologie specifiche: approcci Smart-seq, drop-seq e raggruppati. Smart-seq utilizza lo smistamento delle cellule e cattura fino a 10.000 geni per cellula, ma richiede una reazione di sequenziamento separata per ogni pozzetto, rendendola costosa. Drop-seq sostituisce i pozzetti con goccioline, catturando singole celle con codici a barre in perline ed è più conveniente. Infine, l'approccio in pool comporta la cattura di tutte le singole molecole di RNA in un singolo tubo etichettato con l'identità cellulare corrispondente.

  • 00:15:00 In questa sezione, il relatore spiega tre diversi tipi di tecnologie di sequenziamento dell'RNA a cellula singola. Il primo è Well Sequencing, in cui ogni singola cella viene ordinata in un pozzetto o gocciolina e ogni pozzetto è etichettato con un codice a barre univoco per distinguere le celle l'una dall'altra. Il secondo è 10X Genomics, che prevede la combinazione di tutto l'RNA marcato di cellule diverse in un'unica reazione di sequenziamento. La terza tecnologia è Split-Seq, in cui le cellule vengono mescolate tra diversi pozzetti con diversi codici a barre aggiunti a ogni iterazione, risultando in una combinazione unica di codici a barre per l'RNA di ciascuna cellula. Ciò consente un milione di indirizzi univoci per ogni molecola di RNA, indicando da quale cellula proviene.

  • 00:20:00 In questa sezione, il docente discute le tecnologie di sequenziamento di cellule singole, comprese le cellule nei pozzetti, le goccioline e l'indicizzazione combinatoria. È possibile utilizzare vari tipi di analisi, come la profilazione della metilazione del DNA a cellula singola, il sequenziamento del genoma a cellula singola e l'accessibilità del DNA a cellula singola. Un altro test ampiamente utilizzato è ATAC-seq a cella singola, che esamina l'accessibilità della cromatina nelle singole cellule. Tuttavia, i dati delle singole celle possono essere scarsi e l'aggregazione dei dati in più posizioni è necessaria per parlare di fattori di trascrizione. Il docente menziona anche il crescente emergere di metodi multi-omici a cella singola, ma mette in guardia sulle sfide computazionali nel trattare il rumore e gli artefatti. La sezione si conclude con un'introduzione a due conferenze ospiti dall'Europa e dalla costa occidentale, rispettivamente, che discuteranno dell'apprendimento della rappresentazione profonda nella genomica unicellulare.

  • 00:25:00 In questa sezione della conferenza sulla genomica unicellulare, il relatore ha discusso il processo di analisi dei trascrittomi unicellulari, che comporta varie fasi di preelaborazione, visualizzazione, raggruppamento e annotazione. Il processo non è supervisionato, poiché le informazioni sono disponibili solo sugli insiemi di celle, non sulle singole celle. Il laboratorio del relatore ha contribuito con strumenti e framework per aiutare in questo processo, inclusa la riuscita analisi scanpy di una singola cella in Python, che fornisce una libreria di strumenti e moduli per eseguire questi passaggi. La visualizzazione e l'analisi a valle implicano l'apprendimento dello spazio latente, con il metodo più comunemente utilizzato come akn graph. Il laboratorio del relatore ha anche investito nello studio delle informazioni sulle serie temporali nei trascrittomi delle singole cellule per comprendere i processi di differenziazione cellulare.

  • 00:30:00 In questa sezione, il relatore discute l'uso dell'architettura dell'autoencoder nel clustering di comunità utilizzando reti neurali profonde. Questo approccio viene utilizzato per gestire le dimensioni crescenti dei set di dati e il rumore nelle matrici geniche volte cellulari. Il livello del collo di bottiglia dell'architettura dell'autocodificatore è risultato significativo e può conoscere i processi biologici. Il team del relatore ha sfruttato queste informazioni per sviluppare un codificatore automatico di conteggio profondo, che si adatta alla funzione del rumore sostituendo l'errore quadratico medio con una distribuzione binomiale negativa. Un grafico bidimensionale di questo approccio su un set di dati PBMC mostra che lo strato del collo di bottiglia riconosce i gruppi di tipo cellulare senza alcuna conoscenza preliminare, il che potrebbe aiutare a sfruttare le conoscenze biologiche. Anche il comportamento di ridimensionamento di questo metodo di rete neurale è identificato come un vantaggio significativo rispetto all'algoritmo Kn.

  • 00:35:00 In questa sezione, il relatore discute il potenziale del deep learning nella genomica e nei dati a singola cellula per sviluppare la prossima generazione di filtri convoluzionali. Cita un progetto incentrato sull'adattamento del dominio che mira a trasferire determinate impostazioni in una nuova, come perturbazioni e stimoli farmacologici nelle cellule. Chiamano questo progetto "scgen", che modella gli effetti di perturbazione delle cellule e cerca di prevedere come si comporterebbe un nuovo tipo di cellula. Codificando tutti i set di dati, sperano di ottenere uno spazio latente linearizzato in cui poter eseguire calcoli aritmetici e previsioni fuori campione. Hanno anche esteso questo modello per una decomposizione più complessa.

  • 00:40:00 In questa sezione, il relatore discute la capacità di ricostruire un tipo cellulare utilizzando il deep learning nella genomica unicellulare. L'obiettivo è ricostruire un tipo di cellula, come le cellule T CD4 positive, in modo stimolato escludendole, essenzialmente facendo una previsione fuori campione. La previsione non si basa solo sulla media ma anche sulla distribuzione della varianza. Questa ricostruzione viene eseguita non solo per le cellule T CD4 positive, ma anche per tutti i diversi tipi di cellule e viene appresa la risposta cellula-specifica, rendendola un potente strumento per la genomica. Il relatore parla anche di SCGen, un semplice modello generativo che è stato esteso con l'apprendimento dello spazio latente. Può essere utilizzato per eseguire il trasferimento dello stile impacchettando tutte le informazioni sul campione grande nel modello. Infine, il relatore discute l'apprendimento del trasferimento, che è essenziale per gestire i dati distribuiti e rendere queste mappe di facile accesso.

  • 00:45:00 In questa sezione, il relatore discute l'applicazione della modellazione bayesiana e degli autocodificatori variazionali (VAE) ai dati di una singola cellula, che mira a comprendere le funzioni distinte delle cellule in un tessuto. Il processo prevede la dissociazione di un tessuto in singole cellule e l'esecuzione di una singola pipeline di sequenziamento dell'RNA, risultante in una matrice che mostra il numero di volte in cui una trascrizione si allinea con un gene per ciascuna cellula. Il relatore sottolinea l'importanza della collaborazione nel loro lavoro con studenti e professori laureati e magistrali e presenta diversi argomenti che tratteranno durante la presentazione, dal significato dell'applicazione dei VAE ai dati a cella singola a una discussione sulle estensioni e sulle modalità di fallimento dei VAE .

  • 00:50:00 In questa sezione, il relatore discute i vari compiti e le sfide coinvolte nella genomica unicellulare, inclusa l'analisi delle query a livello cellulare e genico. Alcuni dei compiti riguardano la stratificazione cellulare, l'analisi della traiettoria, l'armonizzazione del set di dati, il trasferimento di annotazioni, la normalizzazione e il test dell'espressione differenziale. L'analisi può essere complessa a causa del rumore tecnico come la profondità di sequenziamento variabile e gli effetti batch, nonché la natura ad alta dimensione e non gaussiana dei dati. Per affrontare questi problemi, il relatore propone di utilizzare modelli di variabili latenti e metodi scalabili per analizzare i milioni di campioni coinvolti.

  • 00:55:00 In questa sezione, il relatore discute i limiti dell'applicazione di algoritmi ai dati genomici di una singola cellula e la necessità di un'ipotesi di modellazione unificante per l'intero processo. Presentano l'idea di un modello generativo, basato su tecniche di modellazione bayesiana, che può essere utilizzato per analizzare i dati di una singola cella in modo scalabile e coerente. Il relatore spiega come leggere un modello grafico e come i diversi nodi e bordi possono essere utilizzati per codificare proprietà probabilistiche, come la replica indipendente e la condizionalità. L'obiettivo è calcolare la distribuzione a posteriori, che può essere raggiunta utilizzando la regola di Bayes, ma la verosimiglianza marginale è spesso intrattabile, tranne quando si utilizza la PCA probabilistica.

  • 01:00:00 In questa sezione, il relatore discute il concetto di inferenza variazionale, che viene utilizzato in scVI per approssimare la distribuzione di probabilità a posteriori delle osservazioni. Il metodo prevede l'inserimento di una famiglia di distribuzioni e la ricerca del punto q che minimizza la K-divergenza a posteriori, che è essenzialmente un problema di ottimizzazione. Utilizzando la definizione di una densità condizionale, il problema di ottimizzazione diventa trattabile e l'inferenza variazionale diventa un metodo interessante. Il relatore presenta anche un'estensione della PCA probabilistica, in cui è possibile utilizzare una rete neurale per specificare la media e la varianza della distribuzione gaussiana. Tuttavia, l'utilizzo dell'inferenza variazionale nei VAE richiede l'apprendimento dei parametri del modello massimizzando l'evidenza, che può essere ottenuta legando tutti i parametri del posteriore variazionale utilizzando due reti neurali. Infine, il relatore discute scVI, che incorpora effetti tecnici in un modello grafico per generare conteggi di espressione genica per una data cellula e gene.

  • 01:05:00 In questa sezione, il relatore fornisce una spiegazione dettagliata del processo generativo per i dati di sequenziamento dell'RNA a singola cellula utilizzando un codificatore automatico variazionale condizionale (CVA) e spiega ulteriormente come questo modello può essere utilizzato per vari compiti come la stratificazione, l'armonizzazione, normalizzazione, imputazione ed espressione differenziale. Il relatore sottolinea come questo approccio possa gestire gli effetti batch e migliorare la scalabilità. Il relatore dimostra anche l'utilità del modello mostrando che può recuperare cluster gerarchici e gradienti di sviluppo negli incorporamenti e può gestire effetti batch in casi con gravi effetti batch e molti batch.

  • 01:10:00 In questa sezione, il relatore discute la sfida di mescolare set di dati sui tipi di cellule pur essendo in grado di distinguere i tipi di cellule. Presentano il modello SCVI che può mescolare set di dati senza perdere la capacità di vedere i tipi di cellule. Il presentatore parla anche dell'interessante uso della variabile latente Rao per l'analisi dell'espressione differenziale. Il team ha confrontato la classificazione dei geni con SCVI e altri metodi per la tecnologia dei microarray e ha scoperto che SCVI aveva prestazioni simili o anche leggermente migliori. Infine, il relatore introduce il modello SCVI++, che è un'estensione di SCVI utilizzata per scopi di annotazione, consentendo il trasferimento di etichette da un set di dati a un altro. Il modello SCVI++ si basa su un modello misto e modifica il precedente in z e utilizza una rete neurale per l'assegnazione del tipo di cella.

  • 01:15:00 In questa sezione, il relatore discute l'uso di un framework chiamato CanVAE in un caso d'uso in cui è presente un sottoinsieme di cellule T ma i loro tipi di sottocellule non possono essere identificati sulla base di alcuni geni marcatori che sono poco espressi . Utilizzando CanVAE per propagare le etichette, diventa un metodo di apprendimento semi-supervisionato, che funziona meglio del semplice raggruppamento o classificazione perché utilizza la conoscenza di tutte le celle. Inoltre, l'oratore presenta un problema di fattorizzazione di informazioni continue o covariate dallo spazio latente, che è difficile da gestire con le reti neurali utilizzate nella parametrizzazione della distribuzione variazionale. Introducono il vincolo HC VAES, un metodo che applica dichiarazioni di indipendenza nel posteriore aggregato, risultando in limiti inferiori più flessibili con proprietà più adatte. Infine, discutono dell'espressione differenziale e di come possa essere considerata un problema di selezione del modello bayesiano, in cui i rapporti di verosimiglianza possono essere utilizzati come soglia per determinare l'espressione differenziale utilizzando il framework CanVAE.

  • 01:20:00 In questa sezione, il relatore discute le sfide ei limiti associati all'utilizzo delle probabilità a posteriori per calcolare le misure dell'espressione genica. L'approccio può essere distorto se il posteriore non è corretto e molte persone preferiscono controllare la misura del tasso di false scoperte rispetto ai fattori di base. Per risolvere questo problema, il relatore propone un metodo per calcolare accuratamente le aspettative a posteriori utilizzando campioni dalla distribuzione variazionale. Introducono diversi limiti superiori che sovrastimano la varianza, il che è più utile per un campionamento importante che per sottovalutarlo. Inoltre, il relatore presenta una procedura per combinare più proposte insieme per controllare l'intero tasso di scoperta con il CVI. Il documento associato a questo lavoro include anche analisi teoriche che quantificano l'errore per campionamenti importanti utilizzando limiti di concentrazione.

  • 01:25:00 In questa sezione, il relatore discute l'implementazione di vari algoritmi di deep learning su un'unica base di codice chiamata strumenti CVI, che contiene strumenti per l'analisi dei dati omici di una singola cella e un'interfaccia per i linguaggi di programmazione probabilistici. La base di codice contiene l'implementazione di circa 10-13 modelli generativi e gli utenti possono facilmente modificare un codificatore automatico variazionale condizionale in una riga di codice o crearne uno nuovo. Il relatore cita anche un documento di revisione che discute l'impatto degli autocodificatori variazionali e delle reti generative avversarie nella biologia molecolare.
Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Spring 2021)
Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.03.28
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecturers: Fabian Theis, Romain LopezDeep Learning in the Life Sciences / Computa...
 

Riduzione della dimensionalità - Lezione 11



Riduzione della dimensionalità - Lezione 11 - Apprendimento approfondito nelle scienze della vita (primavera 2021)

Le lezioni video sull'apprendimento profondo nelle scienze della vita esplorano le tecniche di riduzione della dimensionalità per il raggruppamento e la classificazione nell'analisi dei dati a cella singola. Le lezioni distinguono tra apprendimento supervisionato e non supervisionato ed esplorano l'uso di quadri di verifica di ipotesi statistiche per valutare le espressioni differenziali dei geni. La conferenza introduce il concetto di apprendimento multiplo utilizzando l'analisi delle componenti principali, la decomposizione dell'auto e la decomposizione del valore singolare per la riduzione della dimensionalità lineare e discute i metodi dell'incorporamento del vicino stocastico distribuito in t e dell'incorporamento del vicino stocastico distribuito per la conservazione dei dati in cluster. Il relatore discute anche l'applicazione della fattorizzazione della matrice non negativa ai dati genomici e l'integrazione di set di dati a cella singola e multi-omica. L'obiettivo finale di queste tecniche è ridefinire i tipi e l'identità delle cellule in modo imparziale e quantitativo.

La seconda parte discute diversi argomenti relativi alla riduzione della dimensionalità, in particolare la sua applicazione nelle scienze della vita. La fattorizzazione integrativa della matrice non negativa (iNMF) viene utilizzata per collegare i profili trascrittomici ed epigenomici per comprendere meglio l'identità cellulare in vari contesti. La conferenza discute anche i vantaggi dell'utilizzo di un approccio mini-batch nel deep learning, in particolare per set di dati più grandi, e come gli algoritmi online possono essere sfruttati per migliorare i metodi di riduzione della dimensionalità per l'analisi di set di dati di grandi dimensioni. Inoltre, l'algoritmo viene introdotto per integrare diversi tipi di dati, come i dati RNA-seq e ATAC-seq. Infine, il relatore esprime la volontà di fungere da mentore per gli studenti interessati al campo. Nel complesso, la conferenza è stata istruttiva e ben accolta.

  • 00:00:00 In questa sezione, le video lezioni continuano la discussione sull'analisi dei dati a cella singola e si concentrano sulle tecniche di riduzione della dimensionalità per il raggruppamento e la classificazione. Le matrici di espressione genica che misurano migliaia di geni in migliaia di esperimenti possono essere utilizzate per raggruppare geni o cellule o per la classificazione di tipi di cellule in base alle loro espressioni geniche. Le lezioni distinguono tra apprendimento supervisionato e non supervisionato ed esplorano l'uso di quadri di verifica di ipotesi statistiche per valutare la probabilità di espressioni differenziali di geni. Il video menziona anche la necessità di considerare la distribuzione sottostante dei dati e trovare l'adattamento più appropriato per la distribuzione osservata nel set di dati.

  • 00:05:00 In questa sezione, il docente discute i vari motivi della riduzione dimensionale nelle applicazioni di apprendimento supervisionato e non supervisionato. Questi includono la visualizzazione dei dati, la riduzione dei dati, la classificazione dei dati e la riduzione del rumore nei set di dati. Il docente spiega che la riduzione della dimensionalità può aiutare a comprendere i fattori che guidano la variazione, distinguere tra diverse classi e identificare sottoinsiemi di dati interessanti. Inoltre, il docente descrive come la riduzione della dimensionalità implichi la mappatura di dati ad alta dimensione su una varietà di dimensioni inferiori.

  • 00:10:00 In questa sezione della lezione, viene introdotto il concetto di apprendimento molteplice come un modo per comprendere la vera dimensionalità dei dati ad alta dimensione, che consente una rappresentazione a dimensione inferiore. L'apprendimento multiplo implica l'acquisizione di dati ad alta dimensione e la comprensione della vera dimensionalità dei dati, che potrebbe non essere esplorata dal set di dati. La riduzione della dimensionalità lineare utilizzando l'analisi delle componenti principali (PCA) è discussa come uno dei modi più comuni per apprendere queste varietà. PCA comporta la proiezione dei dati in un insieme di coordinate lineari, che è una trasformazione dello spazio originale. Gli autovettori dei dati originali vengono utilizzati in PCA per trovare i vettori che sono invarianti alle trasformazioni.

  • 00:15:00 In questa sezione della lezione sul deep learning nelle scienze della vita, viene introdotto il concetto di decomposizione dell'auto come un modo per scomporre una grande matrice di dati nei suoi principali vettori di variazione. Per matrici simmetriche, gli autovettori sono ortogonali e per matrici simmetriche reali, gli autovettori sono sia ortogonali che reali. La decomposizione di Eigen cattura la riduzione della dimensionalità lineare più naturale di un set di dati e la matrice diagonale rappresenta gli effetti delle componenti principali indipendenti. Per le matrici non simmetriche, la decomposizione del valore singolare viene utilizzata per trovare gli autovettori dei geni e delle condizioni e le loro combinazioni che meglio spiegano i dati.

  • 00:20:00 In questa sezione, il docente discute il concetto di decomposizione del valore singolare (SVD) e come può essere utilizzato per la riduzione della dimensionalità lineare. SVD è un modo per scomporre una matrice in una serie di operazioni, tra cui due rotazioni e un ridimensionamento, al fine di trovare le dimensioni più importanti della variazione nei dati. La matrice risultante può essere utilizzata per calcolare un'approssimazione ottimale di basso rango dei dati originali, consentendo la rappresentazione dei dati in uno spazio dimensionale inferiore. Ciò è utile per la riduzione della dimensionalità lineare, che è limitata nelle sue capacità, ma la riduzione della dimensionalità non lineare può eliminare alcuni di questi vincoli. L'analisi delle componenti principali è un metodo di riduzione della dimensionalità lineare che cattura le principali dimensioni lineari della variazione nei dati.

  • 00:25:00 In questa sezione, viene discusso il metodo dell'incorporamento dei vicini stocastici con distribuzione t (t-SNE) come tecnica di raggruppamento dei dati per la riduzione dimensionale preservando le distanze a scale variabili. Invece di fare affidamento su PCA che tratta tutte le distanze allo stesso modo, t-SNE mappa uno spazio ad alta dimensione su una dimensione inferiore preservando la vicinanza di punti dati simili all'interno del nuovo spazio. Applicando una larghezza di banda specifica, le singole cellule con modelli di espressione simili in uno spazio dimensionale elevato possono essere rese prossimali l'una all'altra in uno spazio dimensionale inferiore, riducendo al minimo la divergenza KL tra entrambi gli spazi. I metodi graduali possono essere utilizzati per trovare un'inclusione che minimizzi la funzione di costo della divergenza KL tra i due spazi.

  • 00:30:00 In questa sezione, il relatore discute di come l'incorporamento stocastico distribuito dei vicini (d-SNE) preservi la struttura di somiglianza locale dei dati attraverso la ricerca attraverso il gradiente e l'ottimizzazione delle coordinate di uno spazio di dimensione inferiore. L'approccio è un'incorporamento non lineare che preserva le distanze locali anziché le distanze globali e penalizza quando i punti sono distanti ma i punti vicini sono più vicini. Questo metodo è comunemente utilizzato per le visualizzazioni che circondano set di dati a cella singola e il numero di vicini considerati e la dimensione dei cluster originali possono influire sulla qualità dell'incorporamento.

  • 00:35:00 in questa sezione, il relatore discute il concetto di una proiezione dimensionale inferiore dei dati con particolare attenzione all'apprendimento di gruppi specifici di tipi di cellule per l'analisi dei dati di una singola cella. Parlano di un metodo che consente la proiezione congiunta di più tipi di dati omici in un set di dati dimensionale inferiore all'interno del quale possono essere abbinati tra loro. Il relatore presenta diversi approcci che ha sviluppato, incluso l'approccio LIGER, che utilizza la fattorizzazione integrativa della matrice non negativa e un metodo per aumentare l'algoritmo INMF utilizzando l'apprendimento online. Il discorso si conclude discutendo i progetti in corso per l'integrazione di set di dati con caratteristiche parzialmente sovrapposte e la combinazione di autocodificatori variazionali e reti generative contraddittorie per generare profili di RNA a singola cellula.

  • 00:40:00 In questa sezione, il relatore discute i vari tipi di misurazioni che possono essere eseguite in singole cellule, tra cui l'espressione genica, la modifica dell'istone, il legame del fattore di trascrizione, l'accessibilità della cromatina, la metilazione del DNA e la conformazione della cromatina. Evidenziano anche l'importanza di conoscere le coordinate spaziali e mappare le informazioni molecolari nel contesto dei tessuti. Il relatore menziona la sfida di muoversi verso una definizione quantitativa dell'identità cellulare, in cui le informazioni molecolari e di altro tipo con risoluzione a singola cellula vengono utilizzate per ridefinire i tipi di cellule in modo imparziale. Per affrontare queste sfide, il relatore ha sviluppato uno strumento chiamato liger, basato sulla fattorizzazione integrativa della matrice non negativa per eseguire l'analisi integrativa di una singola cella attraverso set di dati di diverse misurazioni. Discutono anche dei vantaggi dell'approccio della "decomposizione basata su parti" della fattorizzazione di matrici non negative.

  • 00:45:00 In questa sezione, la trascrizione discute l'applicazione della fattorizzazione di matrice non negativa (NMF) ai dati genomici, consentendo l'interpretazione dei fattori NMF come metageni che raggruppano geni co-espressi o co-regolati. Questi fattori possono rappresentare percorsi biologici o geni specifici del tipo di cellula, nonché catturare fattori tecnici. Raggruppando i geni in metageni e riassumendo l'espressione cellulare utilizzando questi metageni, NMF consente una definizione quantitativa dell'identità cellulare e l'identificazione di tipi e stati cellulari su più set di dati. L'interpretabilità dei metageni consente anche l'identificazione di segnali tecnici e la loro deconvoluzione dai segnali biologici nei set di dati.

  • 00:50:00 In questa sezione, il relatore discute come hanno risolto matematicamente il problema di ottimizzazione dell'articolo f e derivato un nuovo algoritmo basato sulla discesa delle coordinate del blocco, che presenta alcuni vantaggi significativi e fornisce una garanzia di convergenza. Usano un algoritmo efficiente per risolvere il problema dei minimi quadrati non negativi ed eseguono passaggi a valle per aumentare la robustezza complessiva dell'analisi. Il relatore fornisce quindi un esempio di come hanno integrato i dati RNA-seq di una singola cellula tra i donatori umani per raggruppare le cellule per tipo di cellula piuttosto che per donatore, identificando i principali tipi di cellule della substantia e approfondimenti su come le cellule sono simili e diverse tra loro donatori umani.

  • 00:55:00 In questa sezione, il relatore discute diverse applicazioni dell'integrazione dei dati a cella singola. Un esempio è l'integrazione di set di dati spaziali e di cellule singole, che possono aiutare a identificare le posizioni spaziali dei tipi di cellule all'interno di un tessuto e fornire informazioni sull'architettura del tessuto. Il relatore fornisce un esempio utilizzando un set di dati dal cervello di topo per identificare due sottotipi di astrociti con diverse posizioni spaziali, che fornisce informazioni su come i circuiti neurali lavorano insieme. Un'altra importante applicazione è l'integrazione di set di dati multi-omici da singole celle, il che è impegnativo perché i set di dati non condividono né istanze né funzionalità. Il relatore spiega una strategia per collegare questi set di dati trasformando i dati dell'epigenoma in caratteristiche a livello di gene e correlandoli con l'espressione genica.

  • 01:00:00 In questa sezione, il relatore discute come la fattorizzazione integrativa della matrice non negativa (iNMF) può essere utilizzata per collegare i profili trascrittomici ed epigenomici al fine di comprendere meglio l'identità cellulare in diversi contesti. Utilizzando i dati della corteccia del topo e del midollo osseo umano, il relatore dimostra come il collegamento dei dati sull'espressione genica e sulla metilazione possa fornire una comprensione più chiara dei tipi di cellule e persino identificare i tipi di cellule con etichette ambigue. Inoltre, il relatore spiega come utilizzare un algoritmo di apprendimento online per risolvere il problema iNMF in set di dati sempre più grandi, aggiornando in modo incrementale i calcoli man mano che i nuovi dati arrivano in streaming.

  • 01:05:00 In questa sezione, il docente discute i vantaggi dell'utilizzo di un approccio mini batch nel deep learning, in particolare per set di dati di grandi dimensioni. Questo approccio consente un aggiornamento iterativo dei pesi ed evita di dover archiviare l'intero set di dati in memoria, determinando una convergenza più rapida. Il docente delinea tre scenari in cui il mini batch è particolarmente utile, con il vantaggio principale di poter incorporare nuovi set di dati man mano che arrivano senza dover analizzare nuovamente i set di dati precedenti. Il docente discute anche l'informatica alla base di questo approccio, sfruttando la teoria esistente da un documento sul dizionario online imparando a ottimizzare una funzione surrogata che converge asintoticamente alla stessa soluzione in termini di parametri. In definitiva, questo approccio funziona bene nella pratica e converge molto più rapidamente grazie alla ridondanza di ogni cella aggiuntiva in un set di dati più ampio.

  • 01:10:00 In questa sezione, il relatore discute i vantaggi dell'utilizzo di algoritmi online nei metodi di riduzione della dimensionalità per l'analisi di grandi set di dati. L'oratore presenta un punto di riferimento del loro approccio rispetto ad altri metodi ampiamente utilizzati, dimostrando che ha un utilizzo della memoria significativamente inferiore ed è più efficiente in termini di tempo. Dimostrano la capacità di perfezionamento iterativo del metodo utilizzando i dati generati dal Brain Initiative Cell Census Network, dove incorporano nuovi set di dati nella fattorizzazione utilizzando l'algoritmo online. Mostrano anche come l'algoritmo inmf può essere esteso a un caso in cui le funzionalità si sovrappongono parzialmente, consentendo di sfruttare funzionalità condivise e non condivise tra set di dati, che è un approccio più soddisfacente rispetto ai metodi utilizzati in precedenza che costringono le funzionalità ad allinearsi.

  • 01:15:00 In questa sezione, il relatore spiega come utilizzare un algoritmo per sfruttare tutte le funzionalità presenti in un set di dati, anche se alcune funzionalità sono presenti solo in una delle origini dati. L'algoritmo può essere utilizzato per integrare diversi tipi di dati, come i dati RNA-seq e ATAC-seq, per fornire un quadro più completo dell'espressione genica, che può migliorare la capacità di risolvere cluster o profili cellulari. Il relatore introduce anche un nuovo approccio, chiamato Michigan, che combina i punti di forza degli autocodificatori variazionali (VAE) e delle reti generative avversarie (GAN) per generare profili cellulari realistici dai dati di espressione di una singola cellula. L'algoritmo utilizza le prestazioni di districamento del VAE e le prestazioni di generazione del GAN per creare un potente approccio per manipolare e prevedere i cambiamenti nell'identità cellulare.

  • 01:20:00 In questa sezione, il relatore esprime la sua disponibilità a fungere da mentore per gli studenti interessati al campo e ringrazia il pubblico per aver partecipato alla conferenza. Il moderatore conduce un rapido sondaggio per verificare se gli ascoltatori hanno imparato qualcosa e il pubblico risponde positivamente. Nel complesso, la conferenza è stata ben accolta e istruttiva.
Dimensionality Reduction - Lecture 11 - Deep Learning in Life Sciences (Spring 2021)
Dimensionality Reduction - Lecture 11 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.03.31
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest Lecture: Joshua WelchDeep Learning in the Life Sciences / Computational Systems B...
 

Dissezione dei circuiti della malattia GWAS - Lezione 12


Dissezione dei circuiti delle malattie GWAS - Lezione 12 - Apprendimento approfondito nelle scienze della vita (primavera 2021)

Questo video sulla dissezione dei circuiti della malattia GWAS copre le basi della genetica umana, le sfide computazionali per l'interpretazione e i vari tipi di variazioni genetiche esaminate negli studi di associazione sull'intero genoma (GWAS). Il video esplora anche metodologie come la mappatura mendeliana, l'analisi del linkage e l'identificazione di polimorfismi a singolo nucleotide (SNP) associati a malattie. Inoltre, il relatore discute l'uso delle statistiche chi-quadrato, dei grafici di Manhattan e dei grafici QQ per visualizzare le regioni genomiche significativamente associate ai fenotipi della malattia. Il video include anche un caso di studio sul gene FTO e su come è stato analizzato in modo completo per le sue implicazioni meccanicistiche nell'obesità. Vengono inoltre discusse le sfide della comprensione dell'associazione genetica con l'obesità e i passaggi per affrontare questo problema.

La conferenza discute la sfida di studiare l'impatto delle variazioni genomiche sulla salute umana e l'importanza di comprendere come le mutazioni influenzano i diversi tipi di cellule. Il relatore delinea il loro approccio di apprendimento profondo per prevedere l'effetto della sequenza e delle variazioni genomiche, in particolare in relazione alla previsione del legame dei fattori di trascrizione e dell'organizzazione della cromatina. Descrivono anche la loro valutazione di queste previsioni utilizzando set di dati genomici profondamente sequenziati per prevedere la sensibilità del DNA e i QTL del segno istonico, nonché il loro uso dell'apprendimento profondo per prevedere l'effetto delle mutazioni sull'espressione genica e sulle malattie umane come l'autismo. Infine, discutono la loro analisi imparziale di insiemi di geni precedentemente noti e l'uso di una libreria di modelli di sequenza di apprendimento profondo.

  • 00:00:00 In questa sezione del video, il relatore discute i fondamenti della genetica umana e le sfide computazionali nell'interpretazione. Spiegano come le variazioni genetiche vengono identificate attraverso studi di associazione sull'intero genoma (GWAS) e come vengono trovate le varianti genetiche individuali che contribuiscono alle malattie. La conferenza copre anche la caccia genetica ai geni e l'uso del collegamento e del GWAS per riconoscere le posizioni associate alle malattie. Vengono inoltre discusse le sfide della mappatura fine, dei casi di studio e degli strumenti di apprendimento automatico per l'interpretazione delle varianti, comprese le varianti profonde e le acque profonde. Viene brevemente trattata la storia della genetica umana e dei modelli di ereditarietà, partendo dall'antica Grecia e proseguendo fino allo sviluppo del concetto di trasmutazione e selezione naturale da parte di Darwin.

  • 00:05:00 In questa sezione, il relatore discute la riconciliazione tra l'eredità discreta di Mendel e la variazione continua osservata nei tratti fenotipici. Il concetto di ereditarietà particellare introdotto da Mendel ha mostrato che esistevano unità discrete di ereditarietà denominate geni che erano dominanti o recessive. Tuttavia, la biometria della variazione continua osservata negli esseri umani non può essere spiegata dall'eredità mendeliana. Ciò è cambiato con il lavoro degli statistici all'inizio del 1900 che hanno dimostrato che la variazione continua potrebbe essere spiegata da più loci mendeliani. Questa divenne la base per la mappatura dei tratti mendeliani che alla fine portò alla comprensione che i cromosomi e il DNA trasportano il materiale genetico. Inoltre, il relatore discute di come la deviazione dalla regola dell'assortimento indipendente sia diventata il cavallo di battaglia della genetica umana e di come i tratti che sono fisicamente vicini nel cromosoma tendano ad essere co-ereditati.

  • 00:10:00 In questa sezione, il relatore discute l'approccio tradizionale della mappatura genetica noto come mappatura mendeliana, che utilizza il collegamento e la frequenza di segregazione di tratti diversi per tracciare le regioni del genoma umano in cui sono codificati tratti diversi. Tuttavia, questo approccio è efficace solo per i tratti con un forte effetto. Il relatore parla poi della rivoluzione degli anni 2000 che ha portato alla capacità di mappare variazioni di effetti deboli, che in precedenza era impermeabile all'analisi utilizzando i tradizionali metodi di collegamento. Ciò è stato ottenuto attraverso studi di associazione su tutto il genoma (GWAS), che esaminano ogni singolo SNP nel genoma e come variano a seconda delle diverse malattie. Il relatore prosegue spiegando i tipi di variazioni esaminate in GWAS, inclusi SNP, indel, SDR, varianti strutturali e varianti del numero di copie, e in che modo queste variazioni possono influire sulla funzionalità del genoma.

  • 00:15:00 In questa sezione, il relatore introduce il cavallo di battaglia degli studi di associazione su tutto il genoma (GWAS), vale a dire i polimorfismi a singolo nucleotide (SNP), che sono il tipo più comune di variazione genetica. Gli SNP hanno due alleli e ogni variante è stata raggruppata e incorporata in un database chiamato dbSNP. L'oratore discute anche altri tipi di variazioni, come stenografia e ripetizioni, inserimenti e cancellazioni e altro ancora. Inoltre, viene spiegata la differenza tra varianti comuni e rare, poiché le varianti rare consentono l'esame di una forte variazione dell'effetto. Viene evidenziata la sfida di trovare i geni della malattia, dato che gli esseri umani hanno due copie del loro genoma che consistono di 23 cromosomi, 20.000 geni, 3 miliardi di lettere di DNA e milioni di siti polimorfici.

  • 00:20:00 In questa sezione, il docente spiega la differenza tra varianti comuni e rare nella genetica e la loro relazione con gli studi di associazione genome-wide e l'analisi mendeliana. Le varianti rare hanno un grande effetto e si trovano principalmente nell'analisi mendeliana, mentre le varianti comuni hanno un piccolo effetto e possono essere catturate da studi di associazione sull'intero genoma. Inoltre, l'analisi del linkage può aiutare a individuare la posizione di un gene che causa un disturbo studiando i marcatori attraverso i cromosomi e vedendo quali co-ereditano con il fenotipo in una popolazione.

  • 00:25:00 In questa sezione, il relatore introduce gli studi di associazione sull'intero genoma, che raccolgono migliaia di individui, circa il 50% di casi e il 50% di controlli, per studiare condizioni come la schizofrenia, l'obesità o il diabete. Questi studi in genere sovrarappresentano i casi per guadagnare potere e la tecnologia di genotipizzazione viene utilizzata a causa del suo costo economico rispetto al sequenziamento. Il relatore sottolinea l'importanza del controllo di qualità sia nei campioni che negli SNP per garantire l'accuratezza dei risultati. Inoltre, il relatore spiega il concetto di certificazione della popolazione e la necessità di eliminare la parentela tra gli individui nello studio.

  • 00:30:00 In questa sezione, il relatore spiega come utilizzare una statistica chi-quadrato e una distribuzione del valore p per rilevare i segnali effettivi della malattia in uno studio di associazione su tutto il genoma (GWAS). Utilizzando una tabella di contingenza che mostra quanti casi e controlli portano l'allele di ciascun SNP, il relatore cerca deviazioni nella frequenza degli alleli tra casi e controlli. La statistica chi-quadrato misura l'entità della deviazione e il valore p viene utilizzato per rifiutare l'ipotesi che l'allele non abbia alcun effetto sul fenotipo. Il relatore spiega quindi come tracciare i valori p in un diagramma di Manhattan per visualizzare le regioni genomiche che sono significativamente associate al fenotipo della malattia.

  • 00:35:00 In questa sezione, il relatore discute l'uso del grafico di Manhattan, che mostra il valore meno log 10 p della probabilità associata casualmente di un SNP con una malattia, così come il grafico QQ, che confronta i valori p di milioni di SNP che sono stati testati. Questi sono seguiti da un'analisi funzionale per esaminare il ruolo degli SNP in altri modi. Il livello di significatività dell'intero genoma è fissato a 5 volte 10 alla potenza di meno 8, che è stato stabilito sulla base di un calcolo retrospettivo 20 anni fa. Tuttavia, la mappatura fine può essere difficile a causa della limitata variazione genetica nella popolazione umana, che non ha avuto abbastanza tempo perché tutti gli SNP si separassero in modo indipendente.

  • 00:40:00 In questa sezione, il docente discute di come le varianti vengono ereditate in blocchi piuttosto che isolate, il che significa che se una variante in un blocco ha un certo allele, allora ogni variante in quel blocco ha lo stesso allele. Dopo aver trovato un'associazione in una regione, il passo successivo è identificare quale polimorfismo a singolo nucleotide (SNP) è responsabile dell'associazione. Uno studio sulla malattia di Crohn ha trovato una regione che è stata rilevata sia dall'analisi di collegamento che da studi di associazione sull'intero genoma, mentre un'altra regione è stata trovata solo da quest'ultimo. Il docente spiega la frequenza e la dimensione dell'effetto dell'allele di rischio di ciascuna regione.

  • 00:45:00 In questa sezione, il relatore discute la rarità degli alleli protettivi e le difficoltà nel scoprirli attraverso studi caso controllo e di coorte. Spiegano che gli alleli più rari che riducono il rischio hanno meno probabilità di essere trovati in studi che arricchiscono notevolmente i casi e che i pedigree familiari richiesti per tali studi non sono fattibili. L'oratore spiega anche la differenza tra varianti comuni catturate da GWAS e alleli con effetti rari e forti catturati dall'analisi di linkage. La sezione si conclude con una breve panoramica degli aplotipi e degli hotspot di ricombinazione, inclusa la loro variazione tra le popolazioni e l'importanza di prdm9 nel guidare gli eventi di ricombinazione. Infine, il relatore introduce uno studio sul gene FTO, che è stato il più forte successo GWAS per l'obesità o l'indice di massa corporea ed è stato analizzato in modo completo per le sue implicazioni meccanicistiche.

  • 00:50:00 In questa sezione della conferenza, il relatore discute le sfide della comprensione dell'associazione genetica con l'obesità e delinea i passaggi per affrontare questo problema. Il primo passo consiste nell'identificare il tipo di tessuto e cellula pertinente, che si ottiene esaminando le annotazioni epigenomiche di vari tessuti. Il secondo passo è trovare il gene bersaglio a valle, che è complicato dal collegamento e dal looping a lungo raggio. Il relatore spiega che la misurazione dell'espressione di diversi geni in individui omozigoti a rischio e non a rischio rivela che il gene FTO stesso non mostra alcun cambiamento nell'espressione, ma piuttosto i geni IRX3 e IRX5, situati lontano dall'FTO, sono probabilmente i geni bersaglio.

  • 00:55:00 In questa sezione, il relatore descrive come sono stati in grado di identificare i geni bersaglio per i loci non codificanti correlati all'obesità e comprendere l'SNP causale utilizzando l'analisi del motivo normativo e la conservazione evolutiva. Interrompendo il regolatore a monte e l'SNP, sono stati in grado di mostrare l'epistasi tra i due e come influenza la repressione e la de-repressione. L'oratore spiega che l'interruzione del motivo diminuisce la repressione e gli esaltatori si attivano eccessivamente, portando all'attivazione eccessiva di rx3 e rx5 a livello di espressione genica, provocando uno spostamento dalla dissipazione di energia all'immagazzinamento. Costruendo un modello e con l'editing del genoma, sono stati in grado di passare da una regione di associazione in cui non sapevano nulla alla comprensione del processo biologico e dei geni bersaglio, e intervenire per modificare i circuiti.

  • 01:00:00 In questa sezione della conferenza, il relatore discute la sfida di studiare l'impatto delle numerose variazioni del genoma che esistono negli individui e l'importanza di ottenere una migliore comprensione di come la sequenza genomica e le mutazioni influenzano i diversi tipi di cellule e salute umana. Il relatore spiega che adottano un approccio di apprendimento automatico per utilizzare la sequenza genomica e grandi quantità di dati genomici funzionali per costruire modelli in grado di prevedere l'effetto della sequenza e delle variazioni genomiche. In particolare, il relatore discute il loro lavoro sulla previsione del legame dei singoli fattori di trascrizione e l'organizzazione della cromatina basata su sequenze genomiche. Mirano a sviluppare un metodo sistematico per prevedere l'impatto di 120.000 variazioni del genoma alla volta utilizzando tecniche di deep learning.

  • 01:05:00 In questa sezione, il relatore discute la sua decisione di utilizzare un modello di rete convoluzionale profondo per costruire un modello di sequenza regolatoria che soddisfi i suoi tre requisiti: la capacità di utilizzare sequenze di grandi dimensioni e un contesto di sequenza lungo, la capacità di modellare il contesto non lineare interazioni tra diverse regioni della sequenza e la possibilità di condividere le caratteristiche della sequenza apprese in tutte le diverse attività. Il relatore spiega che il modello apprende diversi livelli di caratteristiche della sequenza ai livelli inferiori e apprende modelli di sequenza di ordine superiore ai livelli superiori. Sottolineano inoltre l'importanza di preservare le informazioni spaziali quando si effettuano previsioni specifiche della posizione. Il modello può essere utilizzato per prevedere l'effetto di qualsiasi variante genomica fornendo al modello due sequenze che differiscono solo per una variante e confrontando le previsioni per ciascun allele.

  • 01:10:00 In questa sezione, il relatore descrive come hanno valutato l'accuratezza delle loro previsioni per le varianti che influenzano la sensibilità del DNA a livello della cromatina. Hanno analizzato set di dati genomici profondamente sequenziati e hanno cercato varianti eterozigoti in cui un allele era significativamente più rappresentato dell'altro, indicando potenziali differenze di sensibilità del DNA. Hanno addestrato un modello per prevedere la sensibilità del DNA sia per gli alleli di riferimento che per quelli alternativi e hanno confrontato le previsioni con i risultati sperimentali. Hanno scoperto che il modello aveva una maggiore precisione nella previsione delle varianti con differenze più forti tra gli alleli di riferimento e quelli alternativi e le varianti previste con maggiore sicurezza. La valutazione è stata robusta rispetto ai falsi positivi, consentendo loro di filtrare i veri positivi. Hanno anche applicato questo approccio ai QTL del segno dell'istone e hanno scoperto di poter prevedere l'allele collegato ai segni dell'istone più alti.

  • 01:15:00 In questa sezione, il relatore discute di come utilizzare il deep learning per prevedere gli effetti a livello molecolare delle varianti sull'espressione genica. Devono affrontare sfide come la necessità di considerare sequenze normative più ampie e la disponibilità di un minor numero di campioni di addestramento. Affrontano queste sfide esaminando un'ampia regione di 40 kilobyte e applicando un modello pre-addestrato per prevedere in diverse posizioni. Quindi addestrano un modello regolare di contributi da ogni previsione del profilo di espressione genica all'espressione genica utilizzando un modello lineare regolarizzato. Attraverso questo approccio, possono prevedere l'effetto di diverse mutazioni e come potrebbero causare la stessa malattia attraverso un meccanismo simile. Sebbene il problema della previsione dell'espressione genica sia lungi dall'essere risolto, hanno fatto un primo tentativo per affrontarlo.

  • 01:20:00 In questa sezione, il relatore discute l'uso del deep learning per prevedere l'effetto delle varianti genomiche su malattie umane come l'autismo. Spiegano che le mutazioni non codificanti sono state difficili da rilevare e attribuire alla malattia. Tuttavia, utilizzando modelli per prevedere l'impatto delle mutazioni sui profili della cromatina e sui profili di legame alle proteine, sono stati in grado di confrontare le mutazioni degli individui con autismo con i loro fratelli non affetti. I ricercatori hanno scoperto che c'era un effetto più forte sui geni associati all'autismo negli individui con autismo rispetto ai loro fratelli non affetti, confermando così il contributo delle mutazioni non codificanti alla malattia.

  • 01:25:00 In questa sezione, il relatore discute un'analisi imparziale utilizzando set di geni precedentemente noti per determinare il contributo delle mutazioni non codificanti. Usano un'analisi basata sul quartiere di rete per cercare effetti più forti nelle mutazioni problematiche rispetto alle mutazioni di pari livello all'interno di una rete genetica. Questa analisi mostra una convergenza di meccanismi indicati da mutazioni codificanti e non codificanti, con geni raggruppati in gruppi correlati alla sinapsi e alla regolazione della cromatina che erano stati precedentemente indicati nelle mutazioni codificanti scoperte negli individui con autismo. Il relatore menziona anche brevemente una libreria di modelli di sequenza di deep learning che può essere utilizzata per addestrare e valutare modelli di sequenza.
Disease Circuitry Dissection GWAS - Lecture 12 - Deep Learning in Life Science (Spring 2021)
Disease Circuitry Dissection GWAS - Lecture 12 - Deep Learning in Life Science (Spring 2021)
  • 2021.04.08
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...
 

Meccanismo GWAS - Lezione 13



Meccanismo GWAS - Lezione 13 - Apprendimento approfondito nelle scienze della vita (primavera 2021)

La conferenza sul meccanismo GWAS nella serie Deep Learning in Life Sciences esamina vari metodi per comprendere la funzione delle varianti genetiche non codificanti coinvolte in tratti complessi. La conferenza discute l'uso di annotazioni epigenomiche e modelli di apprendimento approfondito per identificare proprietà globali attraverso regioni geneticamente associate per una particolare malattia. Copre anche gli arricchimenti attraverso diversi tessuti e potenziatori e spiega come questi possono essere trasformati in priori empirici per prevedere l'SNP causale all'interno di un locus. La conferenza discute anche l'uso di fenotipi molecolari intermedi come l'espressione genica e la metilazione per studiare la causalità negli studi di associazione genome-wide e come combinare il genotipo e le componenti personali dell'espressione per spiegare la variabile fenotipica dell'espressione. Infine, la conferenza esamina l'uso di metodi di inferenza causale per determinare l'effetto del cambiamento di una variabile sulle variabili di risultato per identificare percorsi causali contro anti-causali.

Il docente in questo video discute varie tecniche per inferire effetti causali nella ricerca genomica. Coprono il concetto di separazione d e utilizzano la randomizzazione naturale nella genetica come un modo per stabilire relazioni causali. Il docente discute anche della randomizzazione mendeliana e del modello di quasi inferenza di Rubin, insieme al metodo del risultato potenziale per l'inferenza causale. Toccano le sfide dell'imputazione e dell'adattamento ai pregiudizi negli studi osservazionali. Il relatore sottolinea anche l'importanza di utilizzare più prove ortogonali per sviluppare un robusto algoritmo causale. Inoltre, spiegano l'uso della genetica per perturbare le espressioni geniche e apprendere le reti e introducono la condizione di invarianza come un modo per identificare le strutture causali nei dati. La conferenza fornisce una panoramica completa di varie tecniche e strumenti utilizzati nella ricerca genomica per l'inferenza causale.

  • 00:00:00 In questa sezione, la conferenza si concentra sull'espansione della discussione della sessione precedente alla comprensione di variabili globali come gli arricchimenti epigenomici, gli eQTL e lo studio della mediazione e della causalità con il professore ospite Yong Jin Park dell'Università di British Colombia. La conferenza prevede di rivedere brevemente la mappatura fine e la dissezione meccanicistica del locus, seguita da diversi metodi per l'analisi dell'arricchimento globale utilizzando l'epigenomica, per dedurre i tessuti dei regolatori di azione, i tipi di cellule e i geni bersaglio. Inoltre, la conferenza esaminerà i modelli misti lineari e i punteggi di rischio poligenico utilizzati negli studi di associazione sull'intero genoma per prevedere i fenotipi e l'ereditarietà per la transizione agli argomenti rimanenti nella conferenza di giovedì. L'obiettivo finale è comprendere simultaneamente i driver funzionali e le basi meccanicistiche dietro ogni picco nelle trame di Manhattan attraverso migliaia di loci genetici.

  • 00:05:00 In questa sezione della lezione, l'istruttore discute la sfida dell'utilizzo della genetica per comprendere i meccanismi patologici per tratti complessi, che sono principalmente governati da varianti non codificanti. Per affrontare questa sfida, l'istruttore propone di utilizzare annotazioni epigenomiche di circuiti cellulari e modelli di apprendimento profondo per identificare le proprietà globali in tutte le regioni geneticamente associate per un particolare tratto. Confrontando le differenze negli arricchimenti tra diversi tratti, come l'altezza e il diabete di tipo 1, l'istruttore suggerisce che possono apprendere proprietà che attraversano tutte le regioni e usarle per dedurre le proprietà dei singoli loci. Questo approccio può fornire una visione imparziale della malattia e aiutare a prevedere i geni bersaglio, le terapie e la medicina personalizzata.

  • 00:10:00 In questa sezione, il relatore spiega il processo di valutazione della sovrapposizione tra varianti genetiche e potenziatori tessuto-specifici per cercare un arricchimento significativo utilizzando un test statistico ipergeometrico o binomiale. Hanno scoperto che le varianti genetiche associate a tratti diversi mostrano un arricchimento tessuto-specifico attraverso potenziatori attivi in quei tessuti. Ad esempio, le varianti genetiche associate all'altezza sono state arricchite in potenziatori di cellule staminali embrionali, mentre le varianti genetiche associate alla pressione sanguigna sono state arricchite in potenziatori che agiscono nel ventricolo sinistro. Hanno anche scoperto che il morbo di Alzheimer non era globalmente arricchito di potenziatori attivi nel cervello, ma invece arricchito di potenziatori attivi nelle cellule immunitarie del cervello, in particolare le cellule CD14+. Ciò li ha portati a postulare che le varianti genetiche associate all'Alzheimer agiscano principalmente nelle cellule immunitarie del cervello. Ora possono utilizzare queste informazioni in un quadro bayesiano per determinare quali varianti genetiche associate alla malattia hanno maggiori probabilità di essere funzionali.

  • 00:15:00 In questa sezione della conferenza, il relatore discute su come trasformare gli arricchimenti osservati in priori empirici che possono essere utilizzati in GWAS. Usando l'esempio della malattia di Crohn e dell'Alzheimer, il relatore spiega che le varianti genetiche associate a una malattia che si arricchisce in determinate regioni possono essere utilizzate come prima per prevedere l'SNP causale all'interno di un dato locus. Quindi spiegano come questo precedente può essere combinato con le prove delle statistiche riassuntive GWAS al fine di costruire una probabilità posteriore per ciascuna variante. L'efficacia di questo metodo, chiamato RIVIERA, è dimostrata dal fatto che gli SNP a cui dà la priorità hanno maggiori probabilità di essere conservati evolutivamente e trovati negli eQTL e nelle impronte del genoma digitale.

  • 00:20:00 In questa sezione della conferenza, il relatore discute l'uso di potenziatori arricchiti per creare associazioni altamente specifiche tra varianti genetiche e tratti. Associando questi tratti agli esaltatori con cui si sovrappongono, il relatore discute la suddivisione dei loci genetici in tessuti specifici per comprendere meglio le funzioni biologiche associate a questi loci. Il relatore sottolinea come questo possa essere utilizzato per suddividere tratti complessi in componenti più semplici e dare priorità ai loci in base alla loro vicinanza ai potenziatori in tessuti specifici. Il relatore fornisce anche diversi esempi di loci associati alla malattia coronarica che si sovrappongono a diversi tessuti e geni bersaglio. Inoltre, il relatore discute di come i nuovi loci che non raggiungono un significato a livello del genoma possano essere studiati e mappati anche su tessuti specifici.

  • 00:25:00 In questa sezione, il docente spiega come utilizza un approccio di apprendimento automatico per dare la priorità ai loci sottosoglia, che sono meno significativi del significato a livello del genoma, e scoprire nuovi loci imparando le caratteristiche in quelli significativi a livello del genoma . Hanno scoperto molti loci associati alla ripolarizzazione del cuore e hanno utilizzato le loro caratteristiche come predittori per dare la priorità alle varianti al di sotto della soglia con ulteriori linee di evidenza dai test sperimentali. Hanno scoperto che i geni a cui è stata assegnata la priorità utilizzando questo approccio sono stati fortemente arricchiti per gli studi di associazione del genoma correlati e collegati a geni bersaglio che hanno un senso, con una forte correlazione con i fenotipi di conduzione cardiaca e contrattilità. Hanno anche discusso di come usano i loci dei tratti quantitativi di espressione per colmare il divario tra la variazione genetica e la malattia osservando i fenotipi molecolari intermedi.

  • 00:30:00 In questa sezione, il relatore discute l'uso di tratti molecolari intermedi, in particolare il livello di espressione di un gene o il livello di metilazione di un sito specifico, come un modo per studiare la causalità negli studi di associazione genome-wide. L'obiettivo è concentrarsi su tessuti specifici, meccanismi genomici, cambiamenti di espressione genica ed endofenotipi per identificare quali tratti sono una conseguenza della genetica rispetto a quelli che sono una conseguenza della malattia. La base del loci del tratto quantitativo della metilazione e del loci del tratto quantitativo dell'espressione è misurare tratti quantitativi come l'altezza e correlare il numero di alleli alternativi con il livello di metilazione o il livello di espressione di un gene vicino. Questo approccio ha portato alla scoperta di decine di migliaia di qtl di metilazione e l'imputazione di questi fenotipi molecolari intermedi può aiutare a prevedere la metilazione e correlarla con la malattia.

  • 00:35:00 In questa sezione, il video illustra come la metilazione imputata può essere utilizzata per coorti più ampie per scoprire correlazioni tra metilazione guidata dal genotipo e fenotipi come il morbo di Alzheimer. La metilazione imputata è la componente genetica della metilazione e, imputandola, i ricercatori possono utilizzare un minor numero di individui e cercare la metilazione guidata dal genotipo, aumentando la potenza e osservando specificamente la componente genetica. Il video mostra anche esempi di come, in alcuni casi, quando si utilizzano più SNP insieme, molti SNP che non erano genomicamente significativi sono diventati significativi, il che consente ai ricercatori di combinare i loro effetti per prevedere la metilazione.

  • 00:40:00 In questa sezione della conferenza sull'apprendimento profondo nelle scienze della vita, il relatore discute una metodologia per identificare i fattori di mediazione del fenotipo della malattia attraverso la genetica, la metilazione, la trascrizione e gli studi sui fattori di confondimento. Spiegano il processo di utilizzo dei modelli di regressione lineare per prevedere la relazione tra questi vari fattori e l'espressione genica, correggendo variabili come gli effetti della popolazione e gli effetti batch e, infine, identificando i fattori genetici dei fenotipi molecolari intermedi come la metilazione e l'espressione. La metodologia prevede un grafico QQ per valutare la calibrazione delle statistiche e l'uso di covariate come età, sesso e componenti principali per i genotipi e l'espressione per interpretare i risultati.

  • 00:45:00 In questa sezione della conferenza, l'attenzione si concentra sulla combinazione di componenti personali del genotipo e dell'espressione per determinare se un modello che include covarianza e genotipo aggiuntivi è in grado di spiegare meglio la variabile fenotipica dell'espressione rispetto al semplice modello di base. Questa è la base di uno studio del locus del tratto quantitativo dell'espressione (eQTL) che può essere integrato con l'analisi allelica. L'analisi allelica implica la suddivisione delle letture di individui eterozigoti in quelle contenenti un allele con una A e quelle contenenti un altro allele con una C dalla stessa cellula della stessa persona. Associando il genotipo A con l'espressione allele-specifica di questo allele che sembra avere un'espressione più alta di quella dell'allele C, si può osservare l'effetto allele-specifico di una particolare regione che viene testata dato un particolare SNP. La conferenza copre anche i QTL di risposta e il loro ruolo nella determinazione dei QTL in risposta a una particolare condizione ambientale.

  • 00:50:00 In questa sezione, il docente discute il concetto di loci del tratto quantitativo di espressione (eQTL), che sono loci genomici che regolano i livelli di espressione genica. Il docente spiega che gli eQTL possono essere presenti tutto il tempo o diventare presenti solo in risposta a un particolare stimolo. La trascrizione passa quindi all'argomento dell'inferenza di causalità, che il docente spiega è un modo per determinare quali loci svolgono un ruolo causale in una malattia rispetto a quali sono semplicemente correlati ai fenotipi della malattia. Il docente spiega che il campo dell'inferenza causale è diviso in due categorie: effetto causale e scoperta causale. La conferenza si concentrerà principalmente sull'influenza dell'effetto causale.

  • 00:55:00 In questa sezione, il relatore discute l'uso dei metodi di inferenza causale nello studio dell'analisi genetica. L'inferenza causale implica interventi sperimentali per determinare l'effetto della modifica di una variabile x sulla variabile risultato y. L'obiettivo è garantire che la probabilità condizionale sia quasi equivalente alla probabilità interventistica. Il relatore spiega anche i concetti di raggiungibilità, condizionamento, regolazione e separazione. Utilizzando un linguaggio grafico causale, i ricercatori possono porre domande causali e identificare percorsi causali contro percorsi anti-causali. La presenza di un percorso backdoor può influenzare l'interpretazione della probabilità condizionale e creare l'idea sbagliata che correlazione sia uguale a causalità.

  • 01:00:00 In questa sezione, il docente discute il concetto di bloccare il percorso backdoor tra variabili vettoriali per identificare l'effetto causale nella ricerca genomica. Introducono l'idea della separazione d e la creazione di modelli di collisione condizionando determinate variabili. Il docente spiega che se una variabile è abbastanza semplice, i ricercatori possono effettuare interventi e assegnare casualmente variabili per rompere la dipendenza tra fattori confondenti e la variabile di interesse. Il docente sottolinea che la genetica è una variabile importante nella ricerca genomica in quanto non è influenzata da fattori ambientali e impostarla su un certo valore è come un naturale processo di controllo randomizzato.

  • 01:05:00 In questa sezione, il docente discute il concetto di randomizzazione mendeliana e come può essere utilizzato per comprendere la relazione tra genotipi, fenotipi intermedi e fenotipi di malattia. I genotipi sono splendidamente randomizzati, rendendo più facile stimare il vero effetto causale. Sebbene questo metodo si basi fortemente su ipotesi, è stato applicato con successo negli studi di interazione genica eQTL e gene-ambiente. Inoltre, il docente spiega che un altro modo per stimare il parametro di regressione beta e gli effetti di mediazione è attraverso la combinazione della regressione y su ge un'altra regressione x su g. In definitiva, la randomizzazione mendeliana offre un'opportunità unica per comprendere relazioni complesse tra variabili difficili da manipolare nella vita reale.

  • 01:10:00 In questa sezione, il docente discute due approcci per dedurre gli effetti causali nella ricerca genomica: la randomizzazione mendeliana (MR) e il modello di quasi inferenza di Rubin. MR è uno studio di controllo randomizzato che fa uso di genotipi per perturbare in modo casuale le variabili intermedie per uno studio controllato randomizzato sull'esito di una malattia. Tuttavia, la RM può essere difficile quando si tratta di elementi confondenti sconosciuti o se esistono percorsi alternativi. Il modello di quasi inferenza di Rubin è un approccio di ragionamento controfattuale che misura gli effetti causali quando l'assegnazione è una variabile discreta. Questo approccio crea un problema di imputazione poiché il risultato potenziale per un'unità manca se non è stato osservato.

  • 01:15:00 In questa sezione della conferenza sull'apprendimento profondo nelle scienze della vita, il relatore discute il potenziale metodo di esito per l'inferenza causale negli studi genetici. Presupposti come indipendenza, forte ignorabilità e sovrapposizione sono necessari per stimare accuratamente i singoli effetti causali. Il relatore fornisce anche un esempio giocattolo che coinvolge un farmaco per il morbo di Alzheimer e discute di come l'adattamento di una funzione di propensione e l'utilizzo dei punteggi di propensione possono aiutare a correggere i pregiudizi e produrre confronti equi tra i gruppi di trattamento e di controllo. Il metodo del risultato potenziale consente ai ricercatori di porre domande interessanti sugli effetti di diversi trattamenti e interventi.

  • 01:20:00 In questa sezione, il relatore discute l'inferenza causale attraverso il potenziale quadro dei risultati e le tecniche di inferenza controfattuale all'avanguardia. Spiegano in che modo la ponderazione dei gruppi trattati può spiegare la differenza nei risultati e come l'imputazione può essere utilizzata per stimare i potenziali risultati. Discutono anche di un recente documento che propone di utilizzare una matrice di taglio per acquisire più fattori di confusione e di utilizzare il PC della popolazione per adattarsi a questi effetti di confusione, nonché una strategia per imputare i dati mancanti utilizzando alberi di regressione bayesiana. Attraverso questo, gli effetti causali individuali possono essere misurati per determinare l'efficacia dei trattamenti.

  • 01:25:00 In questa sezione, il relatore discute l'aspetto della scoperta causale dell'apprendimento profondo nelle scienze della vita. Spiegano che l'apprendimento della struttura del grafico causale da matrici di dati ad alta dimensione è un problema complesso e impegnativo. Tuttavia, notano che la svolta in quest'area è venuta dall'uso della genetica per perturbare i geni e misurare le espressioni geniche per apprendere le reti. Spiegano che invece di utilizzare una probabilità basata sul punteggio, i ricercatori ora si affidano alla condizione di invarianza che presuppone un singolo modello causale che genera i dati e utilizzano questa ipotesi per identificare la struttura causale dei dati. L'oratore fornisce anche un esempio giocattolo che dimostra questo approccio.

  • 01:30:00 In questa sezione della conferenza, il relatore discute l'idea di condizione di invarianza e la sua applicazione nel determinare se un modello può spiegare in modo coerente i dati sperimentali. Il relatore usa l'esempio degli esperimenti di gene knockout e mostra come l'inclusione di un predittore sbagliato può portare al rifiuto dei risultati sperimentali. L'idea della triangolazione causale è anche menzionata come un modo per migliorare la riproducibilità degli esperimenti scientifici. Il relatore conclude sottolineando l'importanza di molteplici prove ortogonali per sviluppare un algoritmo causale.
GWAS mechanism - Lecture 13 - Deep Learning in Life Sciences (Spring 2021)
GWAS mechanism - Lecture 13 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.04.08
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...
 

Genetica dei sistemi - Lezione 14



Genetica dei sistemi - Lezione 14 - Apprendimento approfondito nelle scienze della vita (primavera 2021)

In questa conferenza sulla genetica dei sistemi e l'apprendimento profondo, il relatore tratta diversi argomenti, tra cui l'ereditarietà SNP, l'ereditarietà del partizionamento, la regressione del punteggio LD stratificato e l'apprendimento profondo nella fenotipizzazione molecolare. Esplorano anche l'uso di cartelle cliniche elettroniche, studi di associazione genomica e genomica per analizzare un set di dati di una biobanca britannica di circa 500.000 individui con migliaia di fenotipi. Il docente discute come utilizzare i modelli di deep learning per la previsione della funzione di sequenza per comprendere i circuiti dei loci della malattia e l'uso di modelli misti lineari per la chiamata GWAS ed EQTL. Toccano anche i pregiudizi e le violazioni dei presupposti del modello nell'apprendimento profondo e sottolineano l'importanza delle annotazioni normative specifiche del tipo di cellula nell'inferire i tipi di cellule critiche per la malattia. Infine, il docente discute la complessità dei risultati relativi alla selezione negativa e alle dimensioni degli effetti causali e introduce il professor Manuel Rivas della Stanford University per discutere la scomposizione delle associazioni genetiche.

La lezione approfondisce l'applicazione dei dati genetici in varie aree, compresa la quantificazione della composizione e dei componenti del contributo dei tratti, l'identificazione delle varianti genetiche che contribuiscono all'adipogenesi o alla lipolisi, l'identificazione delle mutazioni con forti effetti sulla funzione genica e un minor rischio di malattia e lo sviluppo di modelli di previsione del rischio che utilizzano l'analisi multivariata. Inoltre, la conferenza discute l'applicazione dei modelli di punteggio di rischio poligenico in vari biomarcatori e sottolinea la necessità di condividere i dati tra diverse popolazioni per migliorare l'accuratezza predittiva, in particolare nel caso di popolazioni non europee. La conferenza si conclude esprimendo la volontà di supervisionare gli studenti interessati a progetti di ricerca relativi ai punteggi poligenici della UK Biobank e agli effetti biotropici.

  • 00:00:00 In questa sezione il relatore introduce il tema della genetica dei sistemi e del fascicolo sanitario elettronico. Esaminano brevemente i concetti trattati nelle lezioni precedenti, comprese le varianti comuni e rare, i punteggi di rischio poligenico, il linkage disequilibrium e le varianti di mappatura fine. Il relatore discute le sfide nell'interpretazione degli studi di associazione sull'intero genoma a causa della stragrande maggioranza delle associazioni non codificanti con più SNP. Introducono quindi l'uso di informazioni genomiche, RNA e di variazione, nonché modelli di apprendimento profondo per la funzione di sequenza per prevedere geni guida, regioni e tipi di cellule per comprendere i circuiti alla base dei loci della malattia. Il relatore introduce anche l'uso di modelli misti lineari per le chiamate sia GWAS che EQTL, che prevedono gli effetti fissi e casuali sui fenotipi di interesse utilizzando genotipi e covariate.

  • 00:05:00 In questa sezione, il docente spiega le basi di base per prevedere il fenotipo di una persona in base alle sue varianti genetiche e alla dimensione dell'effetto di ciascun allele alternativo in tutti gli SNP nel genoma e in tutti gli individui nella coorte. Il rumore è distribuito tra gli individui con un valore centrato a zero e una matrice di covarianza al quadrato. Inoltre, gli effetti casuali vengono contabilizzati utilizzando una matrice di parentela che misura la condivisione genetica tra gli individui. Viene utilizzato un approccio bayesiano per integrare tutte le incognite e determinare la probabilità di effetti fenotipici guidati dalla matrice di covarianza. I modelli misti lineari sono costruiti per stimare l'ereditabilità totale di un particolare tratto, che si basa sull'ipotesi infinitesimale ed è stimata utilizzando un modello di massima verosimiglianza ristretta. Questo modello a effetti casuali cattura le trasformazioni dei dati e funziona nonostante la mancanza di conoscenza dell'effettiva varianza causale.

  • 00:10:00 In questa sezione, il relatore discute l'uso del deep learning per catturare ulteriori variazioni attraverso la previsione dell'effetto dei fenotipi molecolari intermedi e della relazione lineare tra SNP ed espressione. Il relatore spiega che ciò può essere fatto utilizzando distribuzioni precedenti che corrispondono al potenziale rumore che circonda la stima, il che consente di dedurre il risultato più preferito. Menzionano anche l'influenza delle differenze di popolazione, dove gli effetti più forti che guidano le matrici genetiche derivano direttamente dalle differenze di popolazione. Infine, il relatore spiega il concetto di ereditabilità e come la suddivisione della parentela genetica in sottoinsiemi del genoma possa essere un potente approccio per calcolare l'ereditabilità, suggerendo che più lunghi sono i cromosomi, più varianti spiegano per molti tratti complessi.

  • 00:15:00 In questa sezione, Alkes Price della Harvard School of Public Health spiega il concetto di ereditabilità SNP, che è un parametro definito come il valore massimo raggiungibile nell'intera popolazione per quanto riguarda il rapporto tra fenotipo e genotipo. Discute l'idea di suddividere l'ereditabilità tra diverse categorie funzionali di SNP, come la codifica rispetto a non codificare, e come ciò potrebbe portare a conclusioni su quali SNP sono arricchiti per l'ereditabilità in malattie e tessuti specifici. Price introduce anche il concetto di regressione del punteggio LD stratificato come strumento per studiare i tipi di cellule critiche per la malattia e i processi cellulari in tutto il corpo umano.

  • 00:20:00 In questa sezione, il relatore introduce l'idea di analizzare statistiche riassuntive di associazione da grandi insiemi di dati in genetica statistica. Questo metodo è utile quando si analizzano malattie come la schizofrenia, l'artrite reumatoide e il morbo di Crohn in cui sono disponibili campioni di grandi dimensioni utilizzando dati statistici riassuntivi piuttosto che genotipi e fenotipi a livello individuale. Il relatore spiega il metodo di regressione del punteggio ld stratificato, che viene utilizzato per regredire le statistiche di associazione chi-quadrato dalla malattia GWAS attraverso SNP con LD da diverse categorie funzionali. Il metodo si basa sull'idea che un chi quadrato medio maggiore di uno non implica confusione e si basa sul punteggio LD medio tra gli SNP.

  • 00:25:00 In questa sezione, il relatore spiega il concetto di segnale di tagging e segnale biologicamente causale in relazione agli SNP (polimorfismi a singolo nucleotide) e ai loro punteggi LD (linkage disequilibrium). Discutono di come il metodo di regressione del punteggio LD (linkage disequilibrium) stratificato possa aiutare a rilevare la confusione in questi punteggi, con un punteggio chi quadrato medio più alto che indica la presenza di confusione. Toccano anche la questione del LD genomico (linkage disequilibrium) e come varia in base alla popolazione e alla frequenza degli SNP. L'oratore presenta quindi dati reali sotto forma di un set di dati sulla schizofrenia per illustrare ulteriormente questo metodo.

  • 00:30:00 In questa sezione della lezione, viene introdotta un'equazione di regressione per stimare l'ereditabilità SNP utilizzando i punteggi LD. L'intercetta dell'equazione di regressione riflette il confondimento mentre la pendenza riflette la correlazione tra la statistica chi-quadrato e il punteggio LD. Questa pendenza può essere utilizzata per stimare l'ereditabilità SNP e le rispettive pendenze della regressione multilineare possono dirci l'ereditabilità causale SNP di diverse categorie funzionali. L'arricchimento quantitativo può misurare la percentuale di ereditabilità SNP spiegata da una specifica categoria funzionale rispetto alla percentuale di SNP che fanno parte di quella categoria. L'interpretazione funzionale della pendenza dipende dal fatto che le categorie funzionali siano sovrapposte o meno.

  • 00:35:00 In questa sezione, il relatore discute la regressione del punteggio LD stratificato, che viene utilizzata per valutare l'arricchimento in varie annotazioni funzionali. Il metodo viene applicato alla codifica di SNP, potenziatori, marcatori istonici e altro. Il relatore osserva che il metodo produce stime imparziali se le categorie causali sono incluse nel modello, ma diventa distorto se le categorie causali non sono nel modello. Tuttavia, anche se mancano alcune categorie, il modello può comunque fornire una ricchezza sufficiente per produrre stime quasi imparziali per le restanti categorie. Il relatore sottolinea che i metodi di dati a livello individuale non sono attualmente progettati per funzionare su un gran numero di categorie funzionali sovrapposte o con valore continuo.

  • 00:40:00 In questa sezione, il relatore spiega che ci sono potenziali violazioni dei presupposti del modello nell'apprendimento profondo se non si fa attenzione, citando un esempio con top qtl nei dati di espressione genica che non soddisfa il presupposto fondamentale del modello. Il relatore passa quindi a discutere le applicazioni del metodo del deep learning ai dati reali sulla cromatina e sull'espressione genica. Utilizzando statistiche riassuntive pubblicamente disponibili di 17 tratti, il relatore ha scoperto che gli SNP codificanti sono arricchiti per malattie e tratti complessi, in particolare per malattie autoimmuni e altezza, mentre si è scoperto che anche gli SNP conservati in 29 mammiferi hanno un impatto sostanziale sulla malattia. Inoltre, è stato scoperto che i cinque potenziatori fantasma hanno un arricchimento significativo per le malattie autoimmuni. La discussione si sposta quindi sull'interpretazione di questi risultati in relazione a come alcuni tratti possono avere un accoppiamento maggiore o minore con l'idoneità riproduttiva.

  • 00:45:00 In questa sezione, il docente spiega i motivi per cui alcune categorie funzionali sono arricchite per ereditabilità, che non sono dovute a maggiori dimensioni dell'effetto causale. Le cesoie comuni hanno un limite superiore morbido sulle dimensioni dell'effetto a causa della selezione negativa, quindi si tratta più del numero di cesoie nella categoria funzionale che fanno qualcosa, ciascuna con dimensioni dell'effetto causale medie o da piccole a medie. Il docente discute anche l'importanza delle annotazioni normative specifiche del tipo di cellula nell'inferire tipi di cellule critiche per la malattia. Le annotazioni regolatorie cerebrali sono più arricchite per la schizofrenia, gli adattamenti regolatori ossei connessi sono più arricchiti per l'altezza e i tipi di cellule immunitarie sono più arricchiti per l'artrite reumatoide. Un approccio poligenico a livello di genoma può produrre maggiori intuizioni biologiche per tratti altamente poligenici rispetto agli approcci tradizionali che si concentrano su tagli significativi a livello di genoma, che possono essere in numero molto basso per questi tratti.

  • 00:50:00 In questa sezione della conferenza, il relatore discute l'utilizzo dei dati di espressione genica per studiare geni specifici correlati a determinate malattie, tra cui la schizofrenia e l'artrite reumatoide. Menzionano anche il concetto di architetture dipendenti da ld, in cui la dimensione degli effetti causali dipende dal livello di ld, e come le cesoie con livelli inferiori di ld abbiano dimensioni degli effetti causali maggiori in 56 tratti diversi. L'oratore menziona la complessità di questi risultati, che sono correlati alla selezione negativa, ma non c'è più tempo per discutere i dati di sequenziamento dell'RNA a singola cellula e i tipi di cellule critiche per la malattia. Presentano quindi il professor Manuel Rivas della Stanford University, che discute il processo di combinazione di cartelle cliniche elettroniche, studi di associazione genomica e genomica per analizzare un set di dati di una biobanca britannica basato sulla popolazione di circa 500.000 individui con migliaia di fenotipi.

  • 00:55:00 In questa sezione, il relatore discute un approccio chiamato decomposizione delle associazioni genetiche, che comporta il districare le mappature molti-a-molti in meno componenti per rappresentare gli studi di associazione genetica. Il relatore ha utilizzato un approccio di decomposizione del valore singolare troncato per rappresentare una matrice composta da dati di livello sommario per migliaia di tratti e varianza genetica, risultando in una componente di rango inferiore di circa 100 componenti, ciascuna delle quali è un prodotto di elementi ortogonali in tre matrici . I primi due componenti sono stati caratterizzati da fenotipi antropometrici e il relatore ha proiettato il modo in cui ogni variante si carica sui due componenti per vedere come influenzano i diversi fenotipi.

  • 01:00:00 In questa sezione, il relatore spiega come quantificare le componenti di composizione e contributo per un determinato tratto, come l'indice di massa corporea (BMI), che è costituito da una componente grassa e una componente di massa magra . Il rischio genetico di BMI sarebbe contribuito anche da una componente grassa, tra le altre componenti. Il relatore spiega che sono interessati a identificare varianti genetiche che possono contribuire all'adipogenesi o agli effetti della lipolisi piuttosto che avere solo un effetto senza grasso sull'indice di massa corporea studiando specifiche varianti proteiche troncanti (PTV) e identificando forti dimensioni dell'effetto. Attraverso questo processo, il relatore identifica il gene pde3b che ha un alto contributo di massa magra di colesterolo al BMI e GPR 151 che ha conseguenze funzionali sull'idiprogenesi. Le associazioni genetiche per 2000 fenotipi sono disponibili online su biobank engine.com.edu, con l'idea che diventi un portale di ricerca per chiunque possa cercare il proprio gene, variante o fenotipo preferito e sfogliare l'insieme di associazioni disponibili in diversi popolari biobanche.

  • 01:05:00 In questa sezione, il relatore discute l'identificazione di mutazioni che hanno forti effetti sulla funzione genica e riducono il rischio di malattia, che possono portare a nuove ipotesi terapeutiche e guidare la selezione di bersagli per la scoperta di farmaci. Spiegano il processo di identificazione di varianti genetiche specifiche con forti effetti sulla funzione genica e sul fenotipo combinando dati a livello di sintesi provenienti da più biobanche. Stimando parametri genetici come l'ereditabilità della poligenicità e la correlazione degli effetti genetici, mirano a visualizzare la relazione tra genetica e tratti/malattie per migliorare l'inferenza e guidare lo sviluppo terapeutico. Vengono inoltre forniti esempi di mutazioni ad effetto forte e dei loro effetti sulla protezione contro malattie come l'asma e il diabete di tipo 1.

  • 01:10:00 In questa sezione, il relatore discute l'applicazione dei dati genetici nei modelli di previsione del rischio. Gli esseri umani hanno un gran numero di varianti genetiche legate a centinaia di fenotipi, quindi un approccio per esplorare questi collegamenti sta adattando milioni di modelli univariati. Tuttavia, questo approccio ha proprietà deboli per la previsione a causa della correlazione tra varianti genetiche, che rende difficile distinguere la variante rilevante dalle altre. Pertanto, un modello multivariato viene sviluppato adattando grandi modelli di regressione a milioni di variabili. Il pacchetto sviluppato per il montaggio di questi modelli si chiama S-LDSC. Il modello utilizza l'algoritmo Lasso, che è un framework di regressione penalizzato che consente la selezione delle variabili per migliorare le prestazioni predittive.

  • 01:15:00 In questa sezione, il relatore discute l'applicazione di modelli di punteggio di rischio poligenico per 35 biomarcatori, inclusi biomarcatori cardiovascolari, renali ed epatici. Lo studio ha creato un set di dati di addestramento di 70, un set di convalida di 10 e una suddivisione del test di 20 per valutare le prestazioni del modello. Le prestazioni dei modelli sono state misurate in diverse popolazioni e i risultati hanno mostrato limitazioni associate al trasferimento di questi modelli predittivi da una popolazione che utilizza varianti causali per le previsioni ad altre popolazioni. Lo studio ha dimostrato che la struttura di correlazione variava tra le diverse popolazioni, influenzando le prestazioni predittive dei modelli. Inoltre, diversi insiemi di varianti genetiche possono spiegare l'ereditabilità del fenotipo e il trasferimento su modelli predittivi da una popolazione potrebbe non funzionare altrettanto bene in altre popolazioni, interrompendo la relazione della struttura di correlazione tra le varianti genetiche. Ciò richiede la necessità di condividere i dati tra diverse popolazioni per migliorare l'accuratezza predittiva.

  • 01:20:00 In questa sezione, il relatore spiega che quando si studiano le varianti genetiche in diverse popolazioni, l'assenza di alcune varianti nelle popolazioni non europee può contribuire all'eterogeneità nelle dimensioni dell'effetto. Tuttavia, quando una variante è presente in più popolazioni, le dimensioni dell'effetto tendono ad essere più omogenee. Viene fornito l'esempio della lipoproteina a, con la spiegazione che le varianti genetiche che contribuiscono alla varianza nella popolazione europea non esistono nella popolazione africana, portando a scarse prestazioni nelle popolazioni africane. Il relatore esprime inoltre la volontà di supervisionare gli studenti interessati a progetti di ricerca relativi ai punteggi poligenici della UK Biobank e agli effetti biotropici.
Systems Genetics - Lecture 14 - Deep Learning in Life Sciences (Spring 2021)
Systems Genetics - Lecture 14 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.04.08
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...
 

Reti neurali a grafo - Lezione 15



Graph Neural Networks - Lezione 15 - Learning in Life Sciences (Primavera 2021)

In questa conferenza su YouTube sulle reti neurali a grafo, il relatore copre un'ampia gamma di argomenti, tra cui le basi delle reti a grafo, le rappresentazioni spettrali, la classificazione semi-supervisionata e la modellazione dei dati multirelazionale. C'è anche un focus sull'intersezione delle reti di grafi e l'elaborazione del linguaggio naturale e su come generare grafici per la scoperta di farmaci. Il docente spiega vari metodi per propagare le informazioni attraverso i grafici per ottenere utili incorporamenti di nodi che possono essere utilizzati per attività di previsione. La conferenza sottolinea anche l'importanza dell'apprendimento contrastivo per i GNN, i potenziali benefici della combinazione di rappresentazioni basate su patch e metodi basati sull'attenzione e l'uso dell'approccio del trasformatore nella PNL. La seconda metà della conferenza si concentra sulla discussione di documenti che mostrano gli usi pratici dei GNN nella scoperta di farmaci e su come codificare e decodificare la struttura delle molecole utilizzando un albero di giunzione.

Questo video discute molteplici applicazioni delle reti neurali a grafo (GNN) nelle scienze della vita, tra cui la scoperta di farmaci e l'inferenza di grafi latenti. Il relatore evidenzia i problemi e le potenziali strade nei GNN, come la mancanza di località spaziale e ordinamento fisso, e la configurazione considerata prevede la previsione del tipo di un dato nodo, la previsione di un collegamento tra due nodi, la misurazione della somiglianza tra due nodi o due reti e clustering dei nodi eseguendo il rilevamento della comunità nella rete. Il docente spiega anche come i GNN possono addestrare e incorporare in modo efficiente grafici, trasformare e aggregare informazioni e gestire gli effetti collaterali della polifarmacia. Inoltre, la conferenza copre due metodi per l'apprendimento automatico delle rappresentazioni nelle scienze della vita, con modelli di meta-apprendimento come MARS sfruttati per generalizzare a nuovi tipi di cellule. Infine, la conferenza discute come i GNN possono apprendere rappresentazioni di cellule latenti su più set di dati per catturare l'eterogeneità del tipo di cellula.

  • 00:00:00 In questa sezione, il relatore introduce il quarto modulo su grafi e proteine e le prossime lezioni su reti neurali a grafo, struttura proteica e progettazione di farmaci. Il relatore sottolinea l'importanza di rivedere il materiale attraverso compiti a casa, ripetizioni e documenti per prepararsi a un prossimo quiz in classe. L'obiettivo non è ingannare o sorprendere gli studenti, ma aiutarli ad abbracciare il campo e ad acquisirne una profonda comprensione. Il relatore informa anche gli studenti di una prossima conferenza del team AlphaFold sul ripiegamento delle proteine, che rappresenta un progresso rivoluzionario nel campo.

  • 00:05:00 In questa sezione, il docente introduce il concetto di reti e come sono pervasive in vari aspetti della società, comprese le reti biologiche. Le reti biologiche includono reti di regolazione, reti di segnalazione e reti metaboliche che operano a diversi livelli della cellula. C'è bisogno di metodi di analisi di rete per comprendere le proprietà di queste reti che interagiscono tra loro. Inoltre, si fa menzione di reti probabilistiche che utilizzano nodi e spigoli per rappresentare oggetti probabilistici. Le rappresentazioni a matrice di queste reti consentono di scomporle, di apprendere comunità e di identificare moduli attraverso approcci di algebra lineare.

  • 00:10:00 In questa sezione della conferenza, il relatore fornisce una panoramica dell'ampio corpus di lavori sull'analisi di rete e le sue rappresentazioni spettrali. I metodi discussi includono l'identificazione della separabilità dei componenti utilizzando i tagli massimi attraverso reti basate sul primo e sul secondo autovalore della matrice laplaciana, nonché l'uso di nuclei di diffusione per comprendere il flusso di informazioni tra i diversi bordi. Il relatore sottolinea l'importanza di non dimenticare questa letteratura consolidata in quanto può essere utilizzata in combinazione con metodi di apprendimento profondo come le reti neurali a grafo che saranno discusse durante la lezione. Il relatore introduce quindi il docente ospite, Neil Band, che fornirà un aggiornamento sulle reti neurali a grafo e discuterà domini problematici come l'apprendimento semi-supervisionato, i dati multirelazionali e l'elaborazione del linguaggio naturale.

  • 00:15:00 In questa sezione impareremo come propagare efficacemente le informazioni sui grafi per calcolare le caratteristiche dei nodi o molti grafi ed eseguire operazioni a valle utilizzando reti convoluzionali di grafi. Questa rete può aggregare le informazioni sulle caratteristiche e aggiornare il particolare nodo ricevendo e attingendo informazioni future dai vicini. L'obiettivo finale di GNNS è produrre un vettore di incorporamento che può essere utilizzato per prevedere la proprietà di un intero grafico o prevedere il tipo di ogni singolo nodo. La regola di aggiornamento si basa sulla propagazione delle informazioni dalla rappresentazione nascosta del nodo e sugli aggiornamenti ricevuti dalle immediate vicinanze. Inoltre, per ridurre il numero dei parametri del modello, le stesse matrici di peso vengono applicate con parametri condivisi a tutti i vicini invece di applicarne di diversi.

  • 00:20:00 In questa sezione, il docente descrive il processo di utilizzo delle reti neurali a grafo per eseguire un'attività di classificazione su reti di citazioni con documenti come nodi e collegamenti di citazioni come bordi. Viene applicata la rete convoluzionale del grafo a due strati, che comporta l'aggiornamento di ciascun nodo nel grafo per assorbire le informazioni dalle sue immediate vicinanze e quindi ottenere gli output. Il docente menziona il potenziale svantaggio dell'eccessivo livellamento con reti profonde e suggerisce di utilizzare unità ricorrenti recintate per preservare la memoria dello stato iniziale. Inoltre, il docente discute la possibilità di combinare metodi basati sull'attenzione e rappresentazioni basate su patch per apprendere rappresentazioni di ordine superiore nelle reti neurali a grafo.

  • 00:25:00 In questa sezione, il docente discute diversi paradigmi nelle reti neurali a grafo, comprese le reti convoluzionali a grafo, gli aggiornamenti dell'attenzione e le tecniche di passaggio dei messaggi. Sottolineano i potenziali problemi di memoria che sorgono quando i grafici diventano troppo densi nel passaggio dei messaggi, ma sottolineano che questi paradigmi sono utili per diversi tipi di compiti di apprendimento. Si tuffano quindi nella classificazione semi-supervisionata sui grafici, in cui l'impostazione trasduttiva può consentire ai modelli di apprendere rapidamente, anche senza caratteristiche esplicite dei nodi. Infine, il docente tocca le reti convoluzionali di grafi relazionali, che possono essere utilizzate per modellare dati multirelazionali, come nell'elaborazione del linguaggio naturale.

  • 00:30:00 In questa sezione, il docente discute la connessione tra le reti grafiche e l'elaborazione del linguaggio naturale, in particolare l'uso del modello del trasformatore nella PNL. Il modello del trasformatore è comunemente usato per attività come la traduzione linguistica e l'apprendimento della comprensione concettuale generale delle parole. L'approccio del trasformatore parte da un grafo completamente connesso, a differenza delle reti biologiche in cui mancano molti bordi, e utilizza l'auto-attenzione per aggiornare l'incorporamento dei nodi prima di emettere una versione aggiornata. Anche se l'approccio del trasformatore potrebbe non avvantaggiare necessariamente le reti biologiche, esiste il potenziale per l'impollinazione incrociata delle strategie e l'ottimizzazione tra i due campi.

  • 00:35:00 In questa sezione, impareremo come eseguire un aggiornamento dell'incorporamento di parole per una frase di due parole e come eseguire una ricerca di una parola particolare per tutte le altre parole. Le reti di attenzione del grafico utilizzano lo stesso metodo, tranne per il fatto che presuppongono che l'intero quartiere sia il grafico e che vi siano incorporamenti posizionali. Il relatore spiega come incorporare le informazioni sulla connettività del grafico nell'architettura e come mascherare parti del grafico per utilizzare solo parole che sono state menzionate in precedenza. Ci sono molte opportunità per applicare in modo incrociato questi metodi.

  • 00:40:00 In questa sezione, il docente discute l'impostazione di apprendimento senza supervisione dell'incorporamento dei nodi di apprendimento per le attività a valle, come la classificazione dei nodi o la classificazione dei grafici. Per migliorare la capacità delle reti neurali di diventare ben specificate, il docente spiega il concetto di aumento dei dati e descrive come viene utilizzato negli approcci di apprendimento contrastivo. La lezione copre anche parametri di progettazione, come strategie di campionamento, diversi tipi di rappresentazioni dei nodi e diversi tipi di funzioni di punteggio. Un approccio consiste nell'utilizzare la funzione di punteggio per massimizzare le informazioni reciproche tra le rappresentazioni locali e globali di una particolare classe. Ciò incoraggia la rete a estrarre informazioni relative alla classe da diversi sottoinsiemi di informazioni dal grafico, portando a incorporamenti di nodi più robusti e migliori prestazioni a valle.

  • 00:45:00 In questa sezione, il relatore discute la dimensionalità dell'incorporamento dei nodi nelle reti neurali a grafo (GNN) e l'uso dell'apprendimento contrastivo per le GNN. L'oratore spiega che in pratica le proprietà dei nodi nei GNN potrebbero vivere in uno spazio ad alta dimensione, come 256 o 512 dimensioni per un singolo nodo in un grande grafico. Il relatore osserva inoltre che l'apprendimento contrastivo, che prevede l'uso di esempi positivi e negativi per codificare la struttura del grafo, potrebbe essere utilizzato al posto della classificazione per migliorare la codifica della struttura del grafo. Infine, il relatore riassume i punti salienti delle decisioni di progettazione nei GNN, evidenziando l'efficacia del punteggio basato sui vicini per la previsione dei collegamenti e la classificazione dei nodi e l'importanza di considerare sia le caratteristiche dei nodi che la struttura del grafo quando si sceglie il tipo di rappresentazione del nodo .

  • 00:50:00 In questa sezione, il relatore discute due modi per generare un grafico, il primo dei quali prevede nuovi collegamenti tra entità note utilizzando una rete neurale a grafo standard o una rete convoluzionale a grafo come codificatore e una funzione degli incorporamenti come un decodificatore. La probabilità dell'esistenza di un dato arco è basata sui nodi che lo riguardano ed è indipendente da tutti gli altri archi. Il secondo modo genera un grafico con un singolo vettore di incorporamento per l'intero grafico, utilizzando uno stato particolare, che viene decodificato utilizzando un Graph RNN che effettua una serie di previsioni durante l'aggiunta su ciascun nodo specifico. Questo metodo tenta di introdurre il minor numero possibile di pregiudizi induttivi su come generare un grafico. Quest'ultimo approccio viene utilizzato per la scoperta di farmaci, in particolare nel documento su Junction Tree Variational Autoencoder per generare molecole de novo con elevata potenza, indipendentemente dal fatto che siano state sintetizzate o caratterizzate in precedenza.

  • 00:55:00 In questa sezione viene descritto l'approccio del documento alla codifica e alla decodifica della struttura delle molecole utilizzando reti neurali a grafo. L'approccio utilizza un grafico molecolare a grana fine per codificare uno stato e una decomposizione ad albero per decodificare la struttura di livello superiore del grafico. Utilizzando un albero di giunzione per rimuovere i cicli nel grafico, gli autori sono in grado di semplificare il processo di decodifica e prevedere solo l'etichetta di un nodo e se aggiungere o meno un nodo figlio, risultando in una valida struttura di livello superiore della molecola. Gli autori utilizzano un'unità ricorrente gated per coinvolgere tutto lo stato del sottoalbero che è stato costruito finora e ottenere un'alta percentuale di ricostruzione in termini di validità molecolare. L'ottimizzazione bayesiana viene utilizzata per valutare la navigabilità dello spazio latente per la generazione di nuovi farmaci.

  • 01:00:00 In questa sezione, il relatore discute due applicazioni delle reti neurali a grafo (GNN) nelle scienze della vita. La prima applicazione è nel campo della scoperta di farmaci, dove il GNN viene utilizzato per dedurre la variabile latente di una molecola e prevederne la proprietà chimica. Il modello viene addestrato utilizzando un framework codificatore-decodificatore e ottimizzato utilizzando l'ottimizzazione bayesiana. La seconda applicazione è l'inferenza del grafo latente, in cui i GNN vengono utilizzati per modellare strutture nascoste in un problema codificando l'insieme di dinamiche che si verificano nel tempo. Il modello può essere utilizzato per prevedere i risultati futuri e può essere applicato alla scoperta causale. Il relatore presenta dati sui giocattoli e dati di motion capture del mondo reale per mostrare l'efficacia dei GNN in queste applicazioni.

  • 01:05:00 In questa sezione, il relatore discute i problemi e le potenziali strade nelle reti neurali a grafo. Sono stati menzionati alcuni problemi tra cui il potere limitato e la relazione teorica con i test di isomorfismo nel passaggio di messaggi e nell'aggregazione di vicinato, le sfide dei grafici di calcolo strutturati ad albero nella ricerca di cicli nei grafici e il problema dell'eccessivo livellamento. Tuttavia, il relatore vede anche la promessa nel ridimensionamento di queste reti, nell'apprendimento su grandi set di dati e nel provare l'apprendimento multimodale e intermodale tra sequenze e grafici. Successivamente, un postdoc della Stanford University discute l'apprendimento profondo nelle reti biologiche e come per i dati rappresentati come un grafico, sono necessari framework di reti neurali profonde più ampiamente applicabili. Viene spiegato che mentre il deep learning ha trasformato il modo in cui pensiamo al ciclo di vita del machine learning oggi, non è chiaro come utilizzare e applicare il deep learning per dati complessi rappresentati come un grafico.

  • 01:10:00 In questa sezione vengono discusse le complessità dell'apprendimento sui dati dei grafici, inclusa la mancanza di località spaziale e di un ordinamento fisso, l'inesistenza di punti di riferimento e la natura dinamica dei grafici. L'obiettivo dell'apprendimento della rappresentazione sui grafici è trovare un modo per apprendere una funzione di mappatura che prenda il grafico come input per mappare i nodi in uno spazio di incorporamento a bassa dimensione. L'efficiente apprendimento delle funzionalità indipendente dalle attività è un obiettivo cruciale di questo processo per l'apprendimento automatico sulle reti. La configurazione considerata presuppone un grafico con una matrice di adiacenza e caratteristiche dei nodi associate a ciascun nodo, da cui l'obiettivo è prevedere un tipo di un dato nodo, prevedere un collegamento tra due nodi, misurare la somiglianza tra due nodi o due reti e raggruppare nodi eseguendo il rilevamento della comunità nella rete. Viene presentato l'approccio più ingenuo di applicare le reti neurali profonde ai grafici, ma vengono evidenziati i suoi limiti, tra cui l'aumento del numero di parametri nella rete a seconda del numero di nodi, l'instabilità dell'addestramento e la maggiore probabilità di overfitting.

  • 01:15:00 In questa sezione, il relatore spiega come le reti neurali a grafo possono addestrare e incorporare in modo efficiente i grafi utilizzando idee prese in prestito dalle reti neurali convoluzionali. L'intorno di un nodo definisce la struttura della rete neurale e l'idea chiave è generare incorporamenti di nodi basati sull'intorno della rete locale. Il relatore illustra questo concetto mostrando come aggregare e trasformare le informazioni per produrre la trasformazione del messaggio e gli operatori di aggregazione, che sono invarianti di permutazione. Questi operatori possono essere appresi per trasformare le informazioni sui nodi e prevedere la proprietà di interesse.

  • 01:20:00 In questa sezione, il relatore spiega il processo di trasformazione e aggregazione delle reti neurali a grafo. L'approccio di base consiste nel mediare le informazioni dai nodi e applicare le reti neurali per le trasformazioni lineari seguite dalla non linearità. Il relatore presenta l'esempio dell'algoritmo GraphSAGE, in cui viene introdotta una funzione aggregatrice generalizzata per combinare le caratteristiche del vicinato locale di un nodo. Le funzioni di aggregazione differenziabili, come la media, il raggruppamento o le celle LSTM, possono essere utilizzate per aggregare le informazioni tra i vicini. Il relatore discute anche dell'uso delle reti neurali a grafo in biologia e di come possono essere utilizzate per prevedere determinati comportamenti o risultati.

  • 01:25:00 In questa sezione, il docente discute il concetto di effetti collaterali della polifarmacia, che sono effetti collaterali derivanti dalla combinazione di farmaci. Il docente spiega che l'obiettivo è stimare la probabilità di effetti collaterali dalla combinazione di due farmaci modellandoli come nodi in una rete eterogenea. Il docente mostra un esempio di come i farmaci e le proteine possono essere modellati in una rete per catturare i meccanismi di azione dei farmaci ei meccanismi biologici sottostanti. Il docente spiega quindi come le reti neurali a grafo (GNN) possono essere estese per incorporare reti eterogenee, in cui l'intorno deve essere separato da un tipo di bordo e come trasformare e propagare le informazioni attraverso il grafo definito dall'intorno della rete dei nodi in ciascun bordo tipo.

  • 01:30:00 In questa sezione, il docente discute due metodi per l'apprendimento automatico delle rappresentazioni nelle scienze della vita. Il primo metodo si basa su reti neurali a grafo relazionale, che possono essere utilizzate per prevedere se due farmaci provocheranno effetti collaterali imparando l'incorporamento di vettori d-dimensionali per ciascun nodo nel grafico. Il secondo metodo è un modello di meta apprendimento chiamato MARS, che sfrutta la conoscenza precedente di dati annotati in precedenza per generalizzare a nuovi tipi di cellule mai visti prima. Ottimizzando l'esperimento non annotato e il set di metadati, MARS può annotare automaticamente le cellule in tipi di cellule ed evitare il noioso sforzo manuale di annotare le cellule in base ai loro profili di espressione genica.

  • 01:35:00 In questa sezione della conferenza, il relatore discute l'utilizzo di reti neurali a grafo per apprendere rappresentazioni di cellule latenti su più set di dati al fine di catturare l'eterogeneità dei tipi di cellule. L'approccio prevede la proiezione congiunta di cellule da esperimenti annotati e non annotati in uno spazio di incorporamento a bassa dimensione, dove tipi di cellule simili sono incorporati vicini e diversi tipi di cellule sono incorporati lontano. Per raggiungere questo obiettivo, il metodo apprende i punti di riferimento del tipo di cellula come rappresentanti del tipo di cellula e una funzione di mappatura non lineare utilizzando reti neurali profonde. L'approccio è convalidato su dati di atlante di cellule di topo su larga scala con oltre 100.000 cellule provenienti da più di 20 tessuti e raggiunge prestazioni migliori del 45% rispetto ai metodi esistenti in termini di Adjusted Rand Index.
Graph Neural Networks - Lecture 15 - Learning in Life Sciences (Spring 2021)
Graph Neural Networks - Lecture 15 - Learning in Life Sciences (Spring 2021)
  • 2021.04.19
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecturers: Neil Band, Maria Brbic / Jure LeskovecDeep Learning in the Life Scienc...
 

AI for Drug Design - Lezione 16


AI for Drug Design - Lezione 16 - Apprendimento approfondito nelle scienze della vita (primavera 2021)

Questa conferenza discute l'uso del deep learning per la progettazione di farmaci. Spiega come il deep learning può essere utilizzato per trovare nuovi composti con resistenza agli antibiotici. Discute anche di come i modelli di deep learning possono essere migliorati incorporando la conoscenza biologica.

Questa seconda parte della conferenza fornisce una panoramica di come il deep learning può essere utilizzato nella progettazione di farmaci, in particolare per prevedere l'attività antivirale delle combinazioni di farmaci. Il modello è stato testato in vivo utilizzando saggi cellulari e sono state identificate due nuove combinazioni sinergiche di farmaci.

  • 00:00:00 Il relatore introdurrà il deep learning per la progettazione di farmaci e le sue sfide. Discuterà dello spazio funzionale e dello spazio chimico e spiegherà come il deep learning può essere utilizzato per trovare automaticamente le droghe.

  • 00:05:00 I tre approcci alla progettazione di farmaci si basano su principi primi, simulazione e screening virtuale. I primi due sono utili per trovare composti con proprietà specifiche, ma l'ultimo è più ambizioso e cerca di trovare il composto giusto osservando proprietà indipendenti l'una dall'altra. La simulazione è spesso troppo lenta e lo screening virtuale è costoso. Denoble drug design è l'approccio più ambizioso e cerca di risolvere il problema inverso di trovare un composto osservando una serie di criteri.

  • 00:10:00 In questa conferenza, il relatore discute due metodi per la scoperta di farmaci, lo screening virtuale e la progettazione di farmaci nobili. Entrambi i metodi hanno i loro vantaggi e svantaggi, con lo screening virtuale che è più veloce ed economico ma ha una copertura inferiore rispetto ai metodi tradizionali, mentre la progettazione di farmaci nobili è più lenta ma può trovare più nuovi composti. Gli algoritmi genetici sono un modo efficace per esplorare lo spazio chimico, ma c'è ancora spazio per miglioramenti negli algoritmi per questo compito.

  • 00:15:00 In questa conferenza, il professore spiega come il deep learning viene utilizzato nella progettazione di farmaci e come può essere più efficiente delle tecniche tradizionali. Cita anche un documento chiamato "Dolly", che mostra come il deep learning può essere utilizzato per generare immagini realistiche di oggetti.

  • 00:20:00 In questa conferenza, il professore discute le tecniche di deep learning utilizzate nella scoperta di farmaci e fornisce esempi di come queste tecniche hanno aiutato i ricercatori a trovare nuovi antibiotici.

  • 00:25:00 Le reti neurali a grafo sono un tipo di intelligenza artificiale utilizzata per cercare nuovi composti in grado di uccidere i batteri. L'obiettivo dell'utilizzo di questo tipo di intelligenza artificiale è trovare composti che non vengono scoperti con metodi tradizionali, poiché questi metodi possono perdere modelli antibatterici sconosciuti.

  • 00:30:00 Questa conferenza discute come utilizzare il deep learning per identificare modelli nei dati relativi alla resistenza agli antibiotici. Il modello è in grado di prevedere se una molecola sarà efficace contro i batteri, con una precisione di circa 9,0 auc.

  • 00:35:00 Il video discute di come gli antibiotici esistenti non siano più efficaci contro alcuni ceppi batterici e di come un nuovo composto, chiamato "allucina", sia nuovo ed efficace contro questi ceppi. Discute anche di come il composto sia efficace contro le infezioni nei topi.

  • 00:40:00 Il video discute il successo dei modelli di deep learning rispetto ai metodi tradizionali nella scoperta di nuovi composti con resistenza agli antibiotici. Il video mostra anche come un metodo tradizionale, il disegno a mano, non sia in grado di scoprire determinati composti con resistenza agli antibiotici. I modelli di deep learning sono in grado di catturare diverse parti dello spazio e sono altamente classificati dai modelli.

  • 00:45:00 Il relatore descrive i modelli di deep learning utilizzati per la progettazione di farmaci e spiega come i modelli possono essere migliorati incorporando la conoscenza biologica. Presenta un caso di studio di una combinazione di farmaci che si è rivelata più efficace di un singolo farmaco.

  • 00:50:00 Il video discute l'intelligenza artificiale per la progettazione di farmaci, con particolare attenzione all'uso del deep learning per identificare composti sinergici. L'obiettivo è trovare farmaci sinergici e meno tossici e incorporare la conoscenza del ciclo di replicazione virale nel modello.

  • 00:55:00 La conferenza discute i metodi di deep learning per la progettazione di farmaci, concentrandosi su come può essere utilizzato per prevedere l'attività antivirale di un farmaco contro una varietà di bersagli. Il primo passo è prevedere l'interazione con il bersaglio del farmaco, utilizzando un set di dati di Campbell e del National Institute of Health. Quindi, viene utilizzata una rete neurale per apprendere la rappresentazione della struttura della molecola, necessaria per la seconda fase del processo di progettazione del farmaco: prevedere l'attività antivirale del farmaco contro una varietà di bersagli. Utilizzando una combinazione di deep learning e completamento della matrice, viene evidenziato il potenziale per migliorare la progettazione di farmaci.

  • 01:00:00 Questa conferenza discute come il deep learning può essere utilizzato nella progettazione di farmaci, in particolare per prevedere l'attività antivirale delle combinazioni di farmaci. Il modello è stato testato in vivo utilizzando saggi cellulari e sono state identificate due nuove combinazioni sinergiche di farmaci.

  • 01:05:00 Questa conferenza si concentra sul Deep Learning nelle scienze della vita e sulla sua importanza per la progettazione di farmaci. La conferenza copre due approcci precedenti alla progettazione di farmaci, uno che utilizza sequenze e l'altro che utilizza reti neurali ricorrenti. La conferenza rileva che la rappresentazione del flusso del sorriso delle molecole è piuttosto fragile e le tecniche hanno scarse prestazioni quando applicate alla scoperta di farmaci. La conferenza rileva che un modo migliore per rappresentare le molecole è con i grafici, che possono essere generati in modo efficiente con reti neurali ricorrenti.

  • 01:10:00 La conferenza discute l'apprendimento profondo nelle scienze della vita, in particolare per quanto riguarda la progettazione di farmaci. La conferenza rileva che l'apprendimento profondo può essere utilizzato per generare molecole, ma che ha problemi con molecole sparse e motivi di onde ad albero basso. Come soluzione è stata proposta una rete neurale ricorrente, che si è rivelata più efficace con le molecole che hanno motivi di onde ad albero basso.

  • 01:15:00 Questa conferenza discute l'apprendimento profondo nelle scienze della vita, concentrandosi su un codificatore automatico di apprendimento profondo in grado di codificare le molecole in un vettore a bassa dimensione. Ciò riduce il numero di motivi che possono essere generati, nonché la complessità temporale del processo.

  • 01:20:00 In questa conferenza, il professore spiega come il deep learning può essere utilizzato per migliorare l'accuratezza della ricostruzione del motivo nella progettazione di farmaci. I modelli di generazione di motivi sfaccettati sono vantaggiosi perché consentono la cattura di grandi cicli nelle molecole. Il tasso di successo della generazione del motivo utilizzando un approccio nodo per nodo è basso a causa della rappresentazione errata dello spazio della sequenza. Tuttavia, l'utilizzo di un approccio motivo per motivo migliora significativamente il tasso di successo. Questo perché il modello è in grado di imparare a modificare le molecole esistenti per migliorare le loro somiglianze farmacologiche.

  • 01:25:00 Il relatore fornisce una breve panoramica del deep learning nelle scienze della vita, evidenziando le sfide e le opportunità di ciascuna area. Conclude con una discussione sulla chimica e sulla progettazione di farmaci.

  • 01:30:00 In questa conferenza, il docente ospite fornisce consulenza agli studenti interessati a perseguire progetti nel campo dell'intelligenza artificiale per la progettazione di farmaci. Dichiarano che gli studenti possono ricevere tutoraggio da loro se lo desiderano.
AI for Drug Design - Lecture 16 - Deep Learning in the Life Sciences (Spring 2021)
AI for Drug Design - Lecture 16 - Deep Learning in the Life Sciences (Spring 2021)
  • 2021.04.21
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecture: Wengong JinDeep Learning in the Life Sciences / Computational Systems Bi...
 

Deep Learning per il ripiegamento delle proteine - Lezione 17



Deep Learning for Protein Folding - Lezione 17 - MIT Deep Learning in Life Sciences (primavera 2021)

Questo video discute l'uso del deep learning nel campo del ripiegamento delle proteine, e in particolare come il deep learning geometrico può essere utilizzato per studiare le strutture proteiche e prevedere cose come i siti di legame dei ligandi e le interazioni proteina-proteina. Il video copre anche i metodi di modellazione basati su modello rispetto a quelli senza modello, vari approcci per la previsione del contatto nel ripiegamento delle proteine e l'uso di reti neurali residue per la modellazione dell'immagine nella previsione della struttura delle proteine. Nel complesso, il relatore sottolinea la promessa del deep learning nel far progredire la nostra comprensione delle strutture proteiche e delle loro funzioni, e fornisce esempi e risultati dettagliati a sostegno di questa affermazione.

Il video discute vari approcci al deep learning per il ripiegamento delle proteine, incluso l'uso di previsioni e modelli di coevoluzione per una modellazione accurata, l'importanza di trovare omologhi migliori e il potenziale del deep learning per ottenere risultati comparabili senza fare affidamento sulla fisica tradizionale metodi. I relatori approfondiscono anche l'uso di output differenziabili e l'importanza dell'accuratezza globale, nonché l'evoluzione dello spazio degli algoritmi e il potenziale dell'apprendimento profondo per prevedere conferme proteiche basate su fattori come variazione genetica o piccole molecole. Nel complesso, il video evidenzia l'entusiasmante potenziale del deep learning per rivoluzionare la previsione della struttura delle proteine e le sue numerose applicazioni.

  • 00:00:00 In questa sezione del video, Bruno Correa introduce il concetto di deep learning geometrico e come si applica allo studio delle strutture proteiche. Spiega come il deep learning abbia avuto successo nella classificazione delle immagini, ma che i set di dati in biologia sono generalmente molto più ricchi e ad alta dimensione, con vari tempi e altre dimensioni, rendendo il deep learning geometrico un approccio prezioso. Correa discute l'importanza delle strutture proteiche nelle loro funzioni, dalle funzioni meccaniche e chimiche al legame e al riconoscimento, e presenta esempi come anticorpi, pompe ioniche e proteine di comunicazione e rigidità. Affronta anche la questione se il lavoro di studio delle superfici proteiche sia stato affrontato da AlphaFold, spiegando che AlphaFold ha risolto le strutture proteiche ma non specificamente lo studio delle superfici proteiche.

  • 00:05:00 In questa sezione, il relatore discute le sfide della previsione della funzione proteica dalla sua struttura, che è importante per capire come le proteine interagiscono tra loro e con altri metaboliti nelle cellule. Il relatore presenta vari modi per rappresentare le strutture proteiche, con particolare attenzione alle rappresentazioni di superficie che possono avere funzioni simili pur avendo sequenze e architetture diverse. Per analogia con lo studio dei volti delle persone, il relatore sostiene che lo studio dei modelli nelle superfici proteiche può rivelare informazioni importanti sulle loro funzioni. Il relatore introduce quindi un approccio di apprendimento approfondito per prevedere i siti di legame del ligando proteico utilizzando rappresentazioni di superficie molecolare 3D.

  • 00:10:00 In questa sezione del video, il relatore discute l'uso del deep learning geometrico per il problema del ripiegamento delle proteine. Spiegano che gli oggetti prototipici per il deep learning geometrico sono grafici o superfici e il loro team ha utilizzato rappresentazioni mesh di proteine per studiarli. Quindi spiegano l'uso delle "patch", che sono sottoinsiemi della mesh con diverse caratteristiche vettoriali su ciascun nodo, e come vengono loro assegnati i pesi locali. L'oratore descrive i diversi tipi di caratteristiche che sono state codificate in ciascun nodo, inclusi l'indice di forma, la curvatura dipendente dalla distanza, l'idrofobicità e le caratteristiche elettrostatiche. Queste informazioni sono state poi riproposte in un vettore per ulteriori analisi.

  • 00:15:00 In questa sezione, il relatore discute di come l'approccio geometrico del deep learning può codificare la superficie di una molecola indipendentemente dalla sua sequenza, consentendo lo studio di modelli di atomi e proprietà chimiche. Il relatore rileva le potenziali applicazioni di questo approccio, come la classificazione delle tasche proteiche in base alle caratteristiche di particolari ligandi e la previsione delle configurazioni di aggancio di due proteine utilizzando le impronte digitali superficiali. Sono stati condotti studi di ablazione per capire quali fattori contribuiscono maggiormente alla previsione della specificità, con la chimica e la geometria entrambe ritenute importanti. Nel complesso, l'approccio si mostra promettente nel far progredire la comprensione delle strutture proteiche e delle loro funzioni.

  • 00:20:00 In questa sezione, il relatore descrive una rete chiamata sito massiccio che può prevedere quali siti in una data superficie proteica hanno maggiori probabilità di interagire con altre proteine. Discutono anche di una tecnica di scansione delle impronte digitali utilizzata per l'aggancio e delle percentuali di successo di questo approccio rispetto ad altri programmi di ancoraggio. Il relatore introduce la prossima generazione di massivi chiamati D massivi, che utilizza una rete completamente differenziabile per creare una nuvola di punti che descrive la superficie della proteina e il calcolo delle caratteristiche geometriche e chimiche, comprese le proprietà elettrostatiche. Infine, il relatore accenna brevemente all'interessante aspetto progettuale del progetto e discute un obiettivo importante per il controllo dell'attività delle cellule T nel trattamento del cancro.

  • 00:25:00 In questa sezione, il relatore discute di come hanno utilizzato il deep learning per progettare molecole mirate alle proteine. Hanno usato il massiccio per prevedere il sito che sarebbe stato più incline a essere preso di mira dalle molecole di progettazione ed hanno estratto l'impronta digitale della superficie bersaglio. Hanno poi inserito i motivi in questo sito e previsto le interazioni con la proteina di interesse. Il risultato è stato un nuovo motivo che non era precedentemente noto in natura e ha abbinato con successo strutture sperimentali con una deviazione quadratica media della radice di circa un angstrom, indicando un legante ad alta affinità che si lega alla proteina. Il relatore si offre di consigliare potenzialmente gli studenti interessati ad esplorare quest'area di ricerca.

  • 00:30:00 In questa sezione della conferenza, il relatore discute le due principali categorie di metodi di previsione della struttura delle proteine: modellazione basata su modelli e modellazione senza modelli. Mentre la modellazione basata su modelli si basa sull'utilizzo di strutture proteiche esistenti nel database PDB come modelli per prevedere nuove strutture, la modellazione senza modelli è un metodo più recente che coinvolge la ricerca di omologia e l'apprendimento automatico per prevedere strutture senza fare affidamento su modelli. Il relatore si concentra su quest'ultimo metodo e descrive un approccio più recente che utilizza la ricerca di omologia di sequenza, la profilazione del segnale e l'apprendimento automatico per prevedere le strutture proteiche senza fare affidamento su modelli, che ha mostrato una migliore precisione per molte proteine rispetto ai metodi basati su modelli. Il relatore discute anche del metodo di assemblaggio dei frammenti, un popolare approccio di modellazione basato su modelli utilizzato in passato.

  • 00:35:00 In questa sezione della conferenza, il relatore discute la pipeline utilizzata per la modellazione senza modelli nel ripiegamento delle proteine. Le informazioni predittive sulla distanza tra due atomi o residui qualsiasi nella proteina vengono inserite in un motore di ottimizzazione per costruire la struttura. Il relatore discute anche diverse strategie per allineamenti di sequenze multiple, incluso l'utilizzo di un valore limite per il numero di copertura o residui di carbonio necessari. La componente cruciale di questa modellazione è la previsione della matrice di induzione, modellando le misure di interiezione utilizzando misure di contenuto o metriche di distanza. Il relatore presenta alcune idee efficaci per la previsione della posizione di contatto, che hanno reso la previsione molto più semplice e le collaborazioni molto più efficaci negli ultimi anni.

  • 00:40:00 In questa sezione, il relatore discute tre diversi approcci per la previsione del contatto nel ripiegamento delle proteine. Il primo approccio è un metodo statistico globale per l'analisi di coalizione, ma richiede un gran numero di omologhi di sequenza per essere efficace. Il secondo approccio utilizza reti neurali residue convoluzionali profonde per la previsione della distanza di contatto, e il terzo è una rete trasformativa per la previsione del contatto che tiene conto sia della sequenza che delle informazioni strutturali dalla banca dati delle proteine. Il relatore spiega anche le sfide affrontate dai precedenti metodi di apprendimento supervisionato per la previsione dei contatti e come possono essere migliorati utilizzando modelli di apprendimento automatico più avanzati.

  • 00:45:00 In questa sezione, il relatore discute i limiti dei precedenti metodi di previsione del contatto per il ripiegamento delle proteine, che consideravano solo due residui alla volta e quindi ignoravano le relazioni più ampie all'interno dell'intera proteina. Per affrontare questi problemi, il relatore propone un nuovo metodo che utilizza il deep learning per prevedere simultaneamente tutti i contatti in una proteina. Questo metodo si basa sul trattamento di ogni coppia di atomi come un pixel in un'immagine, che può essere utilizzato per formulare il problema come un'attività di segmentazione dell'immagine. Utilizzando una rete neurale residua completamente convoluzionale, il relatore mostra che il loro metodo può migliorare significativamente la precisione della predizione dei contatti e consentire il ripiegamento di proteine più grandi e più dure. Inoltre, il metodo funziona bene sia per le proteine a catena singola che per quelle di membrana e può essere utilizzato per la previsione di contatti complessi senza modificare il modello.

  • 00:50:00 In questa sezione, il relatore discute l'uso di reti neurali residue per prevedere la struttura delle proteine attraverso la modellazione di immagini utilizzando reti neurali convoluzionali. Spiegano che l'utilizzo di connessioni residue consente l'uso di reti molto più profonde, il che porta a una migliore precisione senza overfitting. Il relatore mostra alcuni risultati delle prestazioni del proprio metodo in classifica e accuratezza rispetto ad altri metodi, dimostrando il successo dell'approccio di deep learning. La precisione è migliorata negli ultimi otto anni e ora può arrivare fino all'80 percento.

  • 00:55:00 In questa sezione, il relatore discute i progressi sulla posizione di contatto e sulla posizione di progettazione utilizzando modelli di deep learning per il ripiegamento delle proteine. La precisione del contatto è migliorata in modo significativo con una precisione attuale dell'80%, che è molto più utile rispetto all'esame precedente. Il relatore spiega il processo di utilizzo di una rete digitale per la posizione del progetto e come può migliorare significativamente la modellazione temporanea. Il relatore discute anche l'importanza delle informazioni codificate in russo e mostra che anche per alcune proteine fermentate è ancora possibile ottenere una buona previsione senza utilizzarle. I risultati suggeriscono che il deep learning può generare nuove strutture e che per previsioni accurate è necessario un piccolo numero di ormoni di sequenza.

  • 01:00:00 In questa sezione, i relatori discutono dell'uso delle informazioni sulla sequenza e sulla struttura per migliorare la modellazione delle proteine. Esplorano l'idea di utilizzare le previsioni esistenti come feedback in un set di addestramento per migliorare le previsioni di coevoluzione e portare a migliori predittori basati sulla sequenza. Discutono anche dell'utilizzo delle informazioni sui modelli e dell'importanza di trovare buoni modelli per una modellazione accurata. Inoltre, mettono in discussione il ruolo della fisica nella modellazione delle proteine e suggeriscono che, mentre i metodi basati sulla fisica possono aiutare a perfezionare i modelli, l'apprendimento profondo può anche ottenere risultati comparabili senza l'uso della fisica.

  • 01:05:00 In questa sezione, il video illustra come modellare proteine molto grandi senza utilizzare modelli. La proteina di esempio ha oltre 13.000 residui, rendendo difficile modellare accuratamente con mezzi tradizionali. Tuttavia, combinando diversi metodi di assemblaggio e utilizzando il flusso di lavoro di iPhone2, la proteina viene modellata con elevata precisione. Il video rileva inoltre che l'utilizzo di un trasformatore richiede una grande quantità di potenza e memoria della GPU, rendendo difficile l'utilizzo per la maggior parte delle persone. Tuttavia, il modello di apprendimento automatico è ancora fattibile con un set più piccolo di dati di addestramento. Inoltre, trovare omologhi migliori su cui basare il modello è un potenziale collo di bottiglia che può essere migliorato attraverso ulteriori ricerche. Infine, viene mostrato un grafico di avanzamento per la modellazione 3D di obiettivi impegnativi, con punteggi più alti che indicano una migliore qualità dei modelli previsti.

  • 01:10:00 In questa sezione, Muhammad Al-Qaraghuli parla dell'evoluzione dello spazio dell'algoritmo per la previsione della struttura delle proteine negli ultimi due decenni. Discute di come i metodi precedenti si concentrassero sull'utilizzo di un modello basato sulla fisica e di una funzione energetica per ottenere lo stato energetico più basso di una proteina, mentre i metodi più recenti hanno utilizzato la coevoluzione per estrarre informazioni utilizzando varie tecniche di inferenza probabilistica. Al-Qaraghuli osserva che l'accuratezza di questi metodi rimane limitata senza ulteriori informazioni sulla sequenza e discute di come il deep learning sia diventato un punto di svolta per la previsione della struttura delle proteine, in particolare per le proteine di membrana e transmembrana.

  • 01:15:00 In questa sezione, il relatore discute l'evoluzione degli approcci di deep learning per il ripiegamento delle proteine, a partire dall'uso di metodi non supervisionati nei primi anni 2010 e dall'introduzione del deep learning attraverso approcci unici basati sulla rete come il lavoro di Jim Wazoo con RaptorX nel 2016 e l'utilizzo di un'architettura di rete residua da X maiuscola 18. Il relatore descrive lo sviluppo della prima serie di approcci differenziabili end-to-end nel 2018, che non erano necessariamente competitivi con i metodi esistenti ma erano in grado di generare previsioni molto più veloci. L'ultimo sviluppo, AlphaFold 2, tratta gli oggetti di allineamento di sequenze multiple (MSA) come oggetti di legge per catturare potenzialmente correlazioni di ordine superiore e aspetti globali di sequenza e filogenesi. Infine, il relatore descrive il Santo Graal del ripiegamento proteico - la capacità di funzionare come AlphaFold 2 da singole sequenze proteiche - che il loro ultimo lavoro mira a raggiungere.

  • 01:20:00 In questa sezione, i relatori discutono della capacità delle proteine di ripiegarsi in vitro e della misura in cui gli chaperoni all'interno della cellula guidano questo processo. Esaminano anche la quantità di informazioni presenti nella sequenza primaria delle proteine e se è sufficiente per prevedere l'impatto di una mutazione che altera le proteine. Discutono le previsioni della proteina A2, che mostrano che potrebbe essere ancora possibile prevedere da singole sequenze senza richiedere la presenza di tutti gli aspetti fisici. Infine, viene introdotto l'algoritmo dello spazio, che coinvolge l'input, un torso di rete neurale, e l'output, che di solito è un oggetto proxy correlato alla struttura, e quindi inviato attraverso una pipeline di post-elaborazione per generare il tridimensionale finale struttura.

  • 01:25:00 In questa sezione, il relatore discute l'importanza della differenziabilità per l'output generato da un modello di deep learning. Se l'output è distale rispetto all'obiettivo effettivo, si verifica una perdita di potenziale ottimizzazione. Il relatore discute anche dell'uso della post-elaborazione, che può portare a previsioni autoincoerenti, e di come la loro implementazione di un modello di deep learning predice la struttura di frequenza finale senza la necessità di quantità proxy. Nel loro approccio, parametrizzano la geometria locale usando un alfabeto discreto di angoli di torsione e prevedono una distribuzione di probabilità su quell'alfabeto. In tal modo, possono mantenere la differenziabilità del motore, che consente un'efficiente ottimizzazione della struttura finale.

  • 01:30:00 In questa sezione, il relatore spiega il loro approccio alla costruzione della struttura di una proteina utilizzando angoli di torsione liberi per ciascun residuo e un processo iterativo. La funzione di perdita è definita in termini di accuratezza globale, non solo di accuratezza locale, per tenere conto delle interazioni tra i residui nel modellare la struttura originale. L'oratore riconosce che mentre il loro approccio è limitato, credono che ci sia un'implicita omogeneizzazione della struttura che avviene internamente nella rete neurale, portando a previsioni migliori nel tempo. Il relatore discute anche di come parametrizzano l'output utilizzando matrici di punteggio specifiche per posizione (PSSM) e un'architettura ricorrente. Infine, il relatore presenta alcune delle loro previsioni fatte utilizzando questo approccio e osserva che mentre alcuni aspetti della struttura erano ben previsti, altri no.

  • 01:35:00 In questa sezione, l'oratore discute di come si è evoluta l'idea della parametrizzazione della torsione usando la costruzione frenesia, che semplifica la matematica e semplifica il processo di formulazione. Ora si concentrano solo su C alfa e parametrizzano utilizzando matrici di rotazione, che risolvono il problema delle strutture secondarie patologiche. Il cambiamento fondamentale è che sono tornati all'idea di un'unica sequenza, che alimentano attraverso un modello linguistico. Usano trasformatori per incorporare ogni residuo in uno spazio latente e lo usano come input per fare previsioni, con l'ulteriore sfida di adattare frammenti e unire due diverse proteine per migliorare le prestazioni di allenamento. Il relatore mostra i risultati che confrontano RGN1 e RGN2 nella previsione di una sequenza di cast target, con RGN2 che ottiene risultati significativamente migliori grazie a una fase di perfezionamento post-elaborazione. È importante notare che questo si basa su un singolo input di sequenza che è passato attraverso un modello di linguaggio.

  • 01:40:00 In questa sezione del video, l'oratore discute l'accuratezza del loro metodo per prevedere le strutture proteiche. Mostrano esempi allineati rispetto all'alfa 2 e, sebbene l'accuratezza non sia buona quanto lo stato dell'arte, utilizzano molte meno informazioni per fare la previsione. Mostrano anche esempi di proteine singleton, che si trovano essenzialmente nella zona crepuscolare dello spazio delle sequenze e non hanno omologhi di sequenza, dove il loro approccio sta facendo una differenza significativa rispetto al sistema allo stato dell'arte pubblicamente disponibile. Inoltre, il relatore discute le proteine de novo e le proteine progettate su cui funzionano bene in modo sistematico, il che ha senso poiché questi tipi di approcci basati sulla sequenza sarebbero utili nella progettazione delle proteine. Infine, il relatore spiega che la significativa accelerazione del loro metodo potrebbe essere utile per una varietà di applicazioni.

  • 01:45:00 In questa sezione, i relatori discutono del potenziale dell'utilizzo del deep learning per prevedere diverse conferme proteiche basate su diversi fattori, come variazioni genetiche o piccole molecole. Anche se avere un singolo metodo di spazio del segnale potrebbe funzionare meglio in teoria, non c'è modo di saperlo fino a quando non possono effettivamente confrontare diverse versioni testa a testa, come quando viene rilasciata alpha 2. Vengono anche menzionati problemi di perfezionamento, come prevedere l'errore generale utilizzando un MSA e quindi perfezionarlo nella struttura effettiva utilizzando un'altra fase. I virus in rapida evoluzione sono menzionati come un'altra area in cui il deep learning potrebbe essere utile. In definitiva, i relatori esprimono il loro entusiasmo per le potenziali future opportunità di collaborazione e il privilegio di poter entrare in contatto con persone provenienti da diverse parti del mondo.
Deep Learning for Protein Folding - Lecture 17 - MIT Deep Learning in Life Sciences (Spring 2021)
Deep Learning for Protein Folding - Lecture 17 - MIT Deep Learning in Life Sciences (Spring 2021)
  • 2021.04.26
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecturers: Bruno Correia, Jinbo Xu, Mohammed AlQuraishiDeep Learning in the Life ...