Maschinelles Lernen und neuronale Netze - Seite 21

 

MIT Deep Learning in den Biowissenschaften – Frühjahr 2021



MIT Deep Learning in den Biowissenschaften – Frühjahr 2021

Der Kurs "Deep Learning in Life Sciences" wendet maschinelles Lernen auf verschiedene Aufgaben der Biowissenschaften an und wird von einem Forscher für maschinelles Lernen und Genomik mit einem Lehrkörper aus Doktoranden und Studenten des MIT unterrichtet. Der Kurs behandelt die Grundlagen des maschinellen Lernens, genregulatorische Schaltkreise, Krankheitsvariationen, Proteininteraktionen und -faltung sowie Bildgebung mit TensorFlow über Python in einer Google Cloud-Plattform. Der Kurs wird aus vier Problemstellungen, einem Quiz und einem Teamprojekt bestehen, wobei Mentoring-Sitzungen eingestreut sind, um den Studenten bei der Entwicklung ihrer eigenen Projekte zu helfen. Der Ausbilder betont die Bedeutung des Aufbaus eines Teams mit komplementären Fähigkeiten und Interessen und bietet während des gesamten Semesters verschiedene Meilensteine und Ergebnisse. Der Kurs zielt darauf ab, praktische Erfahrungen zu vermitteln, einschließlich des Verfassens von Stipendien- und Stipendienanträgen, Peer-Review, Jahresberichte und die Entwicklung von Kommunikations- und Kollaborationsfähigkeiten. Der Referent diskutiert die Unterschiede zwischen traditioneller KI und Deep Learning, das eine interne Darstellung einer Szene basierend auf beobachtbaren Stimuli erstellt, und betont die Bedeutung von Deep Learning in den Biowissenschaften aufgrund der Konvergenz von Trainingsdaten, Rechenleistung und neuen Algorithmen .

Das Video ist ein Einführungsvortrag zum Thema Deep Learning in den Lebenswissenschaften und erklärt die Bedeutung von maschinellem Lernen und Deep Learning bei der Erforschung der Komplexität der Welt. Der Vortrag konzentriert sich auf das Konzept der Bayes'schen Inferenz und wie es eine entscheidende Rolle beim klassischen und tiefen maschinellen Lernen spielt, sowie auf die Unterschiede zwischen generativen und diskriminativen Lernansätzen. Der Vortrag beleuchtet auch die Leistungsfähigkeit von Support-Vektor-Maschinen, Klassifikationsleistung und linearer Algebra zum Verständnis von Netzwerken über biologische Systeme hinweg. Der Referent merkt an, dass der Kurs verschiedene Themen des Deep Learning abdecken wird, darunter Regularisierung, Vermeidung von Overfitting und Trainingssets. Die Vorlesung schließt mit Fragen zur Interpretierbarkeit von künstlichen Neuronen und tiefen Netzwerken für zukünftige Vorlesungen.

  • 00:00:00 In diesem Abschnitt stellt der Referent den Kurs „Deep Learning in Life Sciences“ vor und erklärt seinen Schwerpunkt auf der Anwendung des maschinellen Lernens auf Aufgaben in den Biowissenschaften, einschließlich Genregulation, Krankheit, therapeutisches Design, medizinische Bildgebung und Computer Biologie. Der Kurs findet zweimal pro Woche mit optionalen Mentoring-Sitzungen freitags statt und wird vom Referenten, einem Forscher im Bereich maschinelles Lernen und Genomik, und einem Lehrkörper, bestehend aus Doktoranden und Studenten des MIT, unterrichtet. Der Referent bietet auch Links zu den Kursarbeitsseiten des letzten Jahres mit Aufzeichnungen aller Vorlesungen.

  • 00:05:00 In diesem Abschnitt des Transkripts stellt der Kursleiter die Grundlagen vor, auf denen der Kurs aufbaut, wie z. B. Analysis, lineare Algebra, Wahrscheinlichkeit und Statistik sowie Programmierung. Der Kurs wird auch eine einführende Biologiegrundlage haben, auf der die Studenten aufbauen können. Der Kursleiter erläutert dann die Benotungsaufschlüsselung für den Kurs, der Problemsätze, ein Quiz, ein Abschlussprojekt und die Teilnahme umfasst. Der Abschnitt schließt mit einer Erklärung, warum Deep Learning in den Biowissenschaften aufgrund der Konvergenz kostengünstiger großer Datensätze, grundlegender Fortschritte bei maschinellen Lernmethoden und Hochleistungsrechnen, das das wissenschaftliche Feld vollständig verändert hat, wichtig ist.

  • 00:10:00 In diesem Abschnitt erörtert der Referent die Bedeutung und den Nutzen der Computerbiologie. Die Schüler geben Antworten auf die Frage, warum Computerbiologie wichtig ist, einschließlich der Handhabung großer Datenmengen, der Fähigkeit, die Entdeckung zu beschleunigen, der Erstellung mathematischer Modelle für komplexe Prozesse, des Verständnisses von Mustern aus biologischen Daten und der Verwendung von Visualisierung, um aussagekräftige Daten zu extrahieren Muster. Der Referent betont die Existenz zugrunde liegender Muster und Prinzipien in der Biologie, die durch Berechnungen verstanden werden können, und ermutigt die Studierenden, die verschiedenen Kurse zu erkunden, die in der Abteilung und abteilungsübergreifend angeboten werden.

  • 00:15:00 In diesem Abschnitt diskutiert der Referent, wie Computermethoden nicht nur in der angewandten Forschung helfen können, sondern auch bei der Generierung neuer grundlegender Erkenntnisse in der biologischen Grundlagenforschung. Sie betonen, dass die verwendeten Berechnungsmethoden zwar nicht immer perfekte Ergebnisse liefern, aber wichtige Annäherungen liefern können, die noch interessanter sein können. Darüber hinaus zeigt der Referent, wie die Computerbiologie die Integration verschiedener Forschungsbereiche zu einem umfassenderen Verständnis komplexer Krankheiten ermöglicht, die mehrere Organe betreffen. Schließlich erwähnen sie die Verwendung von Computerwerkzeugen zur Simulation langfristiger zeitlicher Prozesse wie Krankheitsübertragung und Krankheitsverlauf.

  • 00:20:00 In diesem Abschnitt des Videos erörtert der Sprecher die Rolle der Computertechnik in den Biowissenschaften, insbesondere wie sie den Ablauf von Prozessen im Laufe der Zeit simulieren und so die Entdeckungs- und Entwicklungszeit für Medikamente und Behandlungen verkürzen kann. Der Einsatz von Deep Learning wird auch immer häufiger für die Entwicklung von Medikamenten und die Erstellung synthetischer Testdaten. Der Redner betont auch die Bedeutung der Untersuchung der genetischen Diversität über Demografien hinweg für echte Gerechtigkeit in genetischen Datensätzen. Das Leben selbst ist digital und die Herausforderung beim Verständnis der Biologie besteht darin, Signale aus Rauschen zu extrahieren und sinnvolle Muster in Datensätzen zu erkennen.

  • 00:25:00 In diesem Abschnitt skizziert der Kursleiter die wichtigsten Aufgaben und Herausforderungen, die im Kurs behandelt werden, einschließlich der Grundlagen des maschinellen Lernens, genregulatorischer Schaltkreise, Krankheitsvariationen, Proteininteraktionen und -faltung sowie Bildgebung. Der Kurs wird Problemstellungen verwenden, um die Studenten mit jeder dieser Grenzen vertraut zu machen, und die Studenten werden TensorFlow über Python in einer Programmierumgebung innerhalb der Google Cloud-Plattform verwenden. Der erste Problemsatz konzentriert sich auf die Zeichenerkennung, gefolgt von der Verwendung dieser Techniken zur Analyse genomischer Daten und zur Erkennung von Sequenzmustern, die mit genregulatorischen Ereignissen verbunden sind.

  • 00:30:00 In diesem Abschnitt erläutert der Kursleiter den Aufbau und die Ziele des Kurses, der während der gesamten Dauer des Kurses aus vier Aufgabenstellungen, einem Quiz und einem Teamprojekt besteht. Die Dozenten betonen, dass der Kurs interaktiv sein wird, und ermutigen die Studenten, sich als Schreiber für Vorlesungen ihres Interesses anzumelden, damit sie in diesem speziellen Bereich investieren können. Die Studierenden haben auch die Möglichkeit, mit Gastdozenten zu interagieren, die auf dem Gebiet des Deep Learning in den Biowissenschaften tätig sind, und Teamprojekte werden auf Diskussionen für die Ausrichtung von Forschungsprojekten aufgebaut, wodurch die Studierenden die Möglichkeit haben, ihre neuen Fähigkeiten anzuwenden, um praktische Probleme zu lösen . Darüber hinaus erwähnen die Dozenten, dass das Gebiet des Deep Learning in den Biowissenschaften erst zehn Jahre alt ist, und Gastdozenten werden Schlüsselpapiere auf diesem Gebiet vorstellen, was den Kurs für Studenten sehr spannend und interaktiv macht.

  • 00:35:00 In diesem Abschnitt erläutert der Kursleiter, wie der Kurs Mentoring-Sitzungen zwischen den Modulen anbieten wird, um den Studenten dabei zu helfen, ihre eigenen Projekte zu entwerfen, Ideen zu entwickeln und sie mit ihren Partnern und Mentoren abzustimmen. An diesen Mentoring-Sitzungen werden Mitarbeiter oder Forscher teilnehmen, die in den relevanten Bereichen aktiv sind, sodass die Studenten Ideen daraus ableiten und sich darauf vorbereiten können, aktive Forscher in der Computerbiologie zu werden. Der Kursleiter betont auch die immateriellen Aspekte der Ausbildung, bei denen der Kurs helfen wird, einschließlich der Erstellung eines Forschungsvorschlags, der Arbeit in ergänzenden Fähigkeiten, dem Erhalt von Peer-Feedback und der Identifizierung potenzieller Mängel in den Vorschlägen der Peers. Der Kurs wird ein Semesterprojekt haben, das diese immateriellen Aufgaben im wirklichen Leben widerspiegelt. Die Studierenden werden auch ermutigt, ihre Kommilitonen zu treffen, frühzeitig Teams mit komplementären Fachkenntnissen zu bilden und ein Profil und eine Videoeinführung einzureichen.

  • 00:40:00 In diesem Abschnitt erörtert der Kursleiter die verschiedenen Meilensteine, die für den Kurs festgelegt wurden, um eine ausreichende Planung, Rückmeldung und Suche nach Projekten zu gewährleisten, die den Fähigkeiten und Interessen der Schüler entsprechen. Er erwähnt die Bedeutung des Aufbaus eines Teams mit komplementären Fähigkeiten und Interessen, das Bereitstellen von Links zu den Projekten des letzten Jahres und neueren Papieren zur Inspiration sowie die Einrichtung regelmäßiger Mentoring-Sitzungen mit älteren Studenten, Postdocs und Kursmitarbeitern. Der Kurs umfasst auch Gruppendiskussionen zu verschiedenen Themen und Aspekten der Peer-Review, um das kritische Nachdenken über Vorschläge zu fördern und Feedback und Vorschläge zu geben. Der Ausbilder betont die realen Erfahrungen, die durch diesen Kurs gewonnen werden, einschließlich des Verfassens von Förder- und Stipendienanträgen, Peer-Review, Jahresberichte und die Entwicklung von Kommunikations- und Kollaborationsfähigkeiten. Der Dozent lädt die Studenten ein, sich während verschiedener Breakout-Sessions während des Kurses zu treffen, und gibt einen Überblick über die Meilensteine und Ergebnisse, die während des Semesters fällig sind.

  • 00:45:00 Struktur des Kurses und der Projekte, der Dozent gibt einen Überblick über die verschiedenen Module und Arbeiten, die für jedes Thema verfügbar sind. Darüber hinaus wird der Zeitplan für den Kurs skizziert, einschließlich des Fälligkeitsdatums für Projektvorschläge und End-to-End-Pipeline-Demos. Der Kursleiter betont, wie wichtig es ist, schon früh im Kurs über Daten und Tools zu verfügen, um spätere Probleme zu vermeiden. Zwischenberichte und ein Vortrag zum Präsentieren werden ebenso erwähnt wie die Fälligkeitstermine für Abschlussarbeiten und Präsentationen. Gastdozenten, die einige der Beiträge verfasst haben, können ebenfalls eingeladen werden.

  • 00:50:00 In diesem Abschnitt stellt der Referent die Ressourcen und die Unterstützung vor, die für den Kurs verfügbar sind, einschließlich Mentoring und Feedback-Labs. Sie teilen auch die Ergebnisse einer einführenden Umfrage, die die unterschiedlichen Hintergründe der Studenten aufzeigt, die den Kurs belegen, wobei die Mehrheit aus den Hauptfächern 6 und 20 stammt. Der Sprecher verbringt etwa 10 Minuten damit, einige der Themen des maschinellen Lernens und der Biologie vorzustellen, die im behandelt werden Kurs, der die Bedeutung von Deep Learning und seine verschiedenen Anwendungen hervorhebt. Sie erklären auch den Unterschied zwischen künstlicher Intelligenz, tiefem Lernen und maschinellem Lernen.

  • 00:55:00 In diesem Abschnitt diskutiert der Dozent die Unterschiede zwischen traditionellen Ansätzen der künstlichen Intelligenz (KI) und Deep Learning. Während traditionelle KI auf menschliche Experten angewiesen ist, um Regeln und Bewertungsfunktionen zu programmieren, zielt Deep Learning darauf ab, Intuition und Regeln selbst zu lernen, ohne explizite menschliche Anleitung. Der Dozent veranschaulicht diese Unterschiede am Beispiel Schach und stellt fest, dass Deep Learning die KI revolutioniert hat, indem es Maschinen ermöglicht, sich in komplexen Umgebungen wie natürlichen Szenen und realen Situationen zurechtzufinden. Der Dozent identifiziert die Konvergenz von Trainingsdaten, Rechenleistung und neuen Algorithmen als die drei wichtigsten Säulen des Deep Learning und erklärt, dass Maschinen eine interne Darstellung einer Szene basierend auf beobachtbaren Stimuli erstellen.

  • 01:00:00 In diesem Abschnitt erklärt der Referent, dass maschinelles Lernen und Deep Learning das Erstellen von Darstellungen der Komplexität der Welt durch die Analyse von Beobachtungen und Daten beinhalten. Herkömmliches maschinelles Lernen verwendet einfache Darstellungen, während Deep Learning hierarchische Darstellungen verwendet. Generative Modelle ermöglichen es einem, die Vorwärtswahrscheinlichkeit eines Ereignisses angesichts des verborgenen Zustands der Welt auszudrücken, während die Bayes-Regel es einem ermöglicht, die spätere Wahrscheinlichkeit zu schätzen, dass es sich angesichts der Beobachtung um eine bestimmte Jahreszeit handelt. Dies beinhaltet den Übergang von der Wahrscheinlichkeit von Daten bei gegebener Hypothese zu der Wahrscheinlichkeit einer Hypothese bei gegebenen Daten durch ein Produkt aus Wahrscheinlichkeit und früheren Wahrscheinlichkeiten. Die Randwahrscheinlichkeit von Daten wird verwendet, um alle Hypothesen zu summieren, um die Gesamtwahrscheinlichkeit der Daten zu erhalten.

  • 01:05:00 In diesem Abschnitt erläutert der Referent das Konzept der Bayesschen Inferenz und ihre Rolle beim klassischen und tiefen maschinellen Lernen. Die bayessche Inferenz beinhaltet, ein generatives Modell für die Welt zu haben und dann etwas über dieses Modell abzuleiten, was besonders hilfreich beim überwachten Lernen ist, wo Beschriftungen für einige Punkte vorhanden sind und eine Klassifizierung von Objekten basierend auf Merkmalen erreicht werden kann. Beim traditionellen maschinellen Lernen bestand eine Hauptaufgabe darin, Features zu entwickeln oder die richtigen Features aus einem Datensatz auszuwählen, während beim Deep Learning Features automatisch gelernt werden. Clustering ist eine Form des unüberwachten Lernens, bei der Datensätze erlernt und dargestellt werden können, und Bayes'sche Inferenz kann verwendet werden, um die Parameter eines generativen Modells für den Datensatz iterativ zu schätzen, um die Merkmale der Daten zu verbessern.

  • 01:10:00 In diesem Abschnitt des Videos erörtert der Kursleiter die Unterschiede zwischen generativen und diskriminativen Lernansätzen und hebt hervor, wie sich diskriminatives Lernen darauf konzentriert, das beste Trennzeichen zwischen Datenelementen zu lernen, anstatt zu versuchen, die gesamte Verteilung von Daten zu erfassen. Der Vortrag berührt auch die Leistungsfähigkeit von Support Vector Machines, Klassifikationsleistung und linearer Algebra zum Verständnis von Netzwerken über biologische Systeme hinweg. Der Kursleiter merkt an, dass sich der Kurs auf Deep Learning konzentrieren wird, insbesondere auf das Erstellen einfacher und abstrakterer Merkmale durch Schichten, um verschiedene Objekte und Konzepte über die Welt zu klassifizieren. Abschließend betont der Vortrag, dass nicht alles Lernen tief ist und gibt einen Überblick über die historischen Ansätze zu künstlicher Intelligenz und maschinellem Lernen.

  • 01:15:00 In diesem Abschnitt erörtert der Redner, wie das menschliche Gehirn Bilder verarbeitet und Objekte erkennt, indem es Schichten von Neuronen verwendet, die abstrakte Schichten von Schlussfolgerungen lernen. Er vergleicht diesen Prozess mit der Architektur neuronaler Netze, die in Deep Learning und KI verwendet werden und aus dem biologischen Raum in den Computerraum portiert wurden. Der Kurs behandelt verschiedene Themen des Deep Learning, darunter Regularisierung, Vermeidung von Overfitting, Trainingssets und Testsets. Der Redner erwähnt auch Autoencoder zum Herunterdrücken von Darstellungen auf einfachere und überwachte Algorithmen, die als unüberwachte Verfahren funktionieren. Darüber hinaus heißt er die Teilnehmer des Kurses willkommen und betont die Bedeutung der biologischen Aspekte des Kurses.

  • 01:20:00 In diesem Abschnitt geht der Referent auf mehrere Fragen zur Interpretierbarkeit von künstlichen Neuronen und tiefen Netzwerken ein, die in einem zukünftigen Vortrag ausführlich behandelt werden. Sie erinnern die Schüler auch daran, ihre Profile auszufüllen und ihre Videovorstellungen hochzuladen.
 

Machine Learning Foundations - Vorlesung 02 (Frühjahr 2021)



Machine Learning Foundations - Deep Learning in Life Sciences Vorlesung 02 (Frühjahr 2021)

Diese Vorlesung behandelt die Grundlagen des maschinellen Lernens und stellt Konzepte wie Trainings- und Testsets, Modelltypen wie diskriminativ und generativ, die Bewertung von Verlustfunktionen, Regularisierung und Überanpassung sowie neuronale Netze vor. Anschließend erläutert der Dozent die Bedeutung von Hyperparametern, die Bewertung der Genauigkeit in den Lebenswissenschaften, Korrelationstests und Wahrscheinlichkeitsrechnungen für Modelltests. Abschließend werden die Grundlagen tiefer neuronaler Netze und die Struktur eines Neurons diskutiert, wobei die Rolle der Nichtlinearität beim Lernen komplexer Funktionen hervorgehoben wird.

Im zweiten Abschnitt der Vorlesung wird das Konzept der Aktivierungsfunktionen im Deep Learning erklärt, sowie der Lernprozess der Anpassung von Gewichtungen an die Ausgabefunktion unter Verwendung partieller Ableitungen bei der Optimierung von Gewichtsaktualisierungen zur Minimierung von Fehlern, was die Grundlage des Gradienten darstellt -basiertes Lernen. Das Konzept der Backpropagation wird als Verfahren zum Propagieren von Ableitungen durch ein neuronales Netzwerk eingeführt, um Gewichte anzupassen. Die verschiedenen Methoden zur Optimierung von Gewichten in mehreren Schichten von Deep-Learning-Modellen werden diskutiert, einschließlich des stochastischen Gradientenabstiegs und des Konzepts der Modellkapazität und der VC-Dimension. Die Effektivität der Kapazität eines Modells in einem Diagramm und die Verzerrung und Varianz werden ebenfalls diskutiert, zusammen mit verschiedenen Regularisierungstechniken wie frühem Stoppen und Gewichtsverlust. Es wird betont, wie wichtig es ist, das richtige Gleichgewicht zwischen Komplexität zu finden, und die Schüler werden ermutigt, sich ihren Klassenkameraden positiv vorzustellen.

  • 00:00:00 In diesem Abschnitt führt der Dozent in die Grundlagen des maschinellen Lernens und dessen Definition ein. Maschinelles Lernen ist der Prozess der Umwandlung von Erfahrung in Fachwissen oder Wissen und verwendet Computermethoden, um zukünftige Ergebnisse anhand der aufgedeckten Muster in Daten genau vorherzusagen. Das Ziel des maschinellen Lernens ist es, Methoden zu entwickeln, die automatisch Muster in Daten erkennen und diese verwenden können, um gute Vorhersagen über die Ausgabe zu treffen. Der Dozent erläutert auch das Konzept des Trainingssets, das zum Anpassen der Modellparameter und -architektur verwendet wird, und des Testsets, das die Leistung und Generalisierungsfähigkeit des Modells bewertet. Abschließend geht der Dozent auf die Bedeutung der Regularisierung bei der Kontrolle der Parameter und der Modellkomplexität ein, um Overfitting zu vermeiden.

  • 00:05:00 In diesem Abschnitt der Vorlesung stellt der Kursleiter die verschiedenen Arten von Objekten vor, die beim maschinellen Lernen verwendet werden, wie Skalare, Vektoren, Matrizen und Tensoren. Der Eingaberaum ist als einzelne Beispiele dieser Objekte definiert, wobei ein bestimmter Datensatz mit bestimmten Indizes und Merkmalen verwendet wird. Der Beschriftungsraum wird ebenfalls eingeführt, wobei die vorhergesagte Beschriftung als y hat bezeichnet wird. Das Ziel des maschinellen Lernens besteht darin, aus Eingabedaten extrahierte Merkmale auszuwerten und mithilfe einer Funktion, die die Eingabe in die Ausgabe übersetzt, ein Ausgabeergebnis zu berechnen. Der Kursleiter erklärt auch den Unterschied zwischen Trainings- und Testsätzen und wie die Funktion Eingabeparameter aufnimmt und eine Ausgabe unter Verwendung von Gewichtungsvektoren und Bias berechnet.

  • 00:10:00 In diesem Abschnitt erklärt der Sprecher, wie Gewichtungen und Bias verwendet werden, um die Ausgabe einer linearen Funktion zu optimieren, wenn keine Achse vorhanden ist. Die Transformationsfunktion kann als Modell der Welt angesehen werden, das Rückschlüsse und Klassifikationen über die Welt macht. Es gibt zwei Arten von Modellen – diskriminative Modelle, die zwischen zwei Klassen unterscheiden, und generative Modelle, die versuchen, die gemeinsame Verteilung mehrerer Klassen zu modellieren. Die lineare Regression ist nur eine Art des maschinellen Lernens, wobei die Regression neben der Klassifizierung eine häufige Aufgabe ist.

  • 00:15:00 In diesem Abschnitt erörtert der Dozent die verschiedenen Arten des maschinellen Lernens, darunter überwachtes, halbüberwachtes, unüberwachtes und bestärkendes Lernen. Der Fokus liegt auf überwachtem Lernen und den verschiedenen Arten von Outputs, wie multivariate Regression, binäre und mehrklassige Klassifikation und Multi-Label-Klassifikation. Der Dozent spricht auch über Zielfunktionen, die zur Optimierung von Machine-Learning-Modellen während des Trainings verwendet werden und in Form von Verlust-, Kosten- oder Fehlerfunktionen vorliegen können. Es werden verschiedene Arten von Verlustfunktionen vorgestellt, darunter Null-Eins-Verlust, Kreuzentropieverlust und Scharnierverlust, und der Vortrag schließt mit einer Diskussion des mittleren quadratischen Fehlers und des mittleren absoluten Fehlers für die Regression.

  • 00:20:00 In diesem Abschnitt stellt der Dozent die Konzepte der L1- und L2-Regularisierung vor, bei denen es sich um lineare bzw. quadratische Strafen für die Abweichung von einem vorhergesagten Wert handelt. Sie diskutieren, wie diese verwendet werden können, um weit entfernte Ausreißer zu bestrafen und eine Überanpassung zu vermeiden, indem den Parametern Einschränkungen zugewiesen werden. Der Dozent untersucht dann verschiedene Verlustfunktionen für Klassifizierungsaufgaben wie den binären Kreuzentropieverlust, der alles nach der Wahrscheinlichkeit des Auftretens eines Werts gewichtet, und den kategorialen Kreuzentropieverlust, der einen informationsbasierten Ansatz verwendet. Darüber hinaus berühren sie die Soft-Max-Funktion zum Zuordnen von Daten zu einem Bereich von 0 bis 1. Diese Konzepte berücksichtigen alle den Maximum-Likelihood-Schätzer und die späteren Wahrscheinlichkeiten in einer Bayes'schen Umgebung.

  • 00:25:00 In diesem Abschnitt erläutert die Vorlesung das Ergebnis der Verwendung einer bestimmten Formel in der gesamten Klasse, die eins ist, wenn sie zu einer bestimmten Klasse gehört, und ansonsten null. Die Vorlesung behandelt auch die Struktur des Problems, einschließlich Eingabedaten, Gewichte und einen Bias-Term. Der Optimierer wird basierend auf Diskrepanzen zwischen den Gewichtungen erstellt, und diese Gewichtungen werden unter Verwendung einer Verlustfunktion, wie z. B. mittlerer quadratischer Fehler oder mittlerer absoluter Fehler, trainiert. Die Vorlesung führt auch in die Idee des Risikos ein, das die mit bestimmten Vorhersagen verbundenen Kosten berücksichtigt, und erklärt, wie Risiken zur Optimierung der Zielfunktion eingesetzt werden können. Die Vorlesung beschreibt dann, wie man Gewichte basierend auf der Verlustfunktion aktualisiert und wie man Trainings- und Testsätze verwendet, um das Modell zu evaluieren.

  • 00:30:00 In diesem Abschnitt erläutert der Kursleiter das Konzept der Überanpassung und Unteranpassung beim maschinellen Lernen. Er beschreibt, wie das Modell mit zunehmender Verbesserung des Trainingssets auch Daten im Validierungsset besser vorhersagen kann. Ab einem bestimmten Punkt beginnt das Modell jedoch, den Trainingssatz zu überanpassen, und der Fehler im Validierungssatz beginnt zu steigen. Daher betont der Ausbilder, wie wichtig es ist, die Daten in Trainings-, Validierungs- und Testsätze aufzuteilen, sodass der Validierungssatz verwendet wird, um die Hyperparameter abzustimmen, und der Testsatz, um die Leistung des vollständig trainierten Modells zu bewerten.

  • 00:35:00 In diesem Abschnitt erörtert der Referent, wie die Genauigkeit von maschinellen Lernmodellen im Kontext der Biowissenschaften bewertet werden kann. Sie erklären verschiedene Bewertungsmethoden wie True Positive Power, die sich auf True Positives und True Negatives konzentriert, sowie False Positives und False Negatives. Der Referent erörtert auch andere Bewertungstechniken wie Präzision, Spezifität, Erinnerung und Genauigkeit sowie die Bedeutung der Berücksichtigung der Ausgewogenheit des Datensatzes. Anschließend stellen sie die ROC-Kurve (Receiver Operating Characteristic) vor und wie sie dabei hilft, den Kompromiss zwischen Empfindlichkeit und Spezifität eines Klassifikators zu bewerten. Darüber hinaus wird die Präzisions-Recall-Kurve als bessere Option für sehr unausgeglichene Datensätze für bestimmte Regressionseinstellungen erwähnt. Beide Kurven sind komplementär und erfassen verschiedene Aspekte der Leistung eines Modells.

  • 00:40:00 In diesem Abschnitt erörtert der Referent das Konzept der Korrelation und wie es zur Bewertung von Regressionsprädiktoren verwendet werden kann. Sie erklären, dass die Korrelation die Beziehung zwischen den vorhergesagten Werten und den tatsächlichen Werten misst und dass es verschiedene Arten von Korrelationstests gibt, wie z. B. die Pearson-Korrelation und die Spearman-Rangkorrelation. Der Referent erwähnt auch die Bedeutung von Korrelationstests und wie sie verwendet werden können, um die Genauigkeit des Prädiktors zu bewerten. Sie erklären die Verwendung statistischer Tests wie der Student-t-Verteilung und Binomialtests, um die Wahrscheinlichkeit zu bestimmen, einen bestimmten Korrelationswert zu erhalten und ob er signifikant vom erwarteten Wert abweicht.

  • 00:45:00 In diesem Abschnitt diskutiert der Sprecher die Wahrscheinlichkeit, dass der Klassifikator zufällig die richtige Wahl trifft, indem er die Wahrscheinlichkeit berechnet, dass k Beobachtungen nur zufällig unter Verwendung der hypergeometrischen Verteilung richtig klassifiziert werden. Er betont auch, dass Sie beim Testen mehrerer Hypothesen die Wahrscheinlichkeit der Null anpassen müssen und eine strenge Bonferroni-Korrektur oder eine weniger strenge Benjamin-Hofberg-Korrektur verwenden können, um Ihren Schwellenwert anzupassen. Der Referent warnt vor den Gefahren, Korrelationen fast überall mit genügend Daten zu finden, und betont, dass fehlende Korrelationen nicht zwangsläufig fehlende Beziehungen bedeuten. Der Abschnitt endet mit einer Dehnungspause, bevor der Sprecher mit der Diskussion neuronaler Netze fortfährt.

  • 00:50:00 In diesem Abschnitt der Vorlesung stellt der Dozent das Konzept tiefer neuronaler Netze und ihre Wurzeln in der Abstraktionshierarchie beim Lernen vor. Der Kursleiter beschreibt die Schichten des Netzwerks, beginnend mit der Eingabeschicht und fortschreitend durch mehrere verborgene Schichten, die immer komplexere Merkmale lernen. Das Konzept der Faltungsfilter wird kurz erwähnt, wird aber in einer späteren Vorlesung eingehender behandelt. Der Dozent merkt auch an, dass diese Netzwerke von der biologischen Struktur von Neuronen im menschlichen Gehirn inspiriert sind.

  • 00:55:00 In diesem Abschnitt erklärt der Dozent die Grundlagen eines neuronalen Deep-Learning-Netzes. Er beschreibt die Struktur eines Neurons als ein Rechenkonstrukt, das gewichtete Eingaben empfängt, einen Schwellenwert überschreitet und dann identische Ausgaben an seine Nachkommen sendet. Das Lernen in einem neuronalen Netzwerk ist in diese Gewichtungen eingebettet, und die berechnete Funktion ist eine transformierte Wahrscheinlichkeit basierend auf den empfangenen Eingaben. Der Dozent betont, dass neuronale Netze mächtig wurden, als sie über lineare Funktionen hinausgingen und eine Nichtlinearität einführten, die fast jede Funktion lernen kann. Die ursprüngliche Nichtlinearität war die Sigmoid-Einheit, die ein Neuron darstellt, das entweder bei Eins feuert oder bei Null bleibt, bis ein Schwellenwert überschritten wird. Darüber hinaus wurde die Soft-Plus-Einheit eingeführt, um komplexere Funktionen zu approximieren.

  • 01:00:00 In diesem Abschnitt des Vortrags erklärt der Referent das Konzept der Aktivierungsfunktionen beim Deep Learning und wie sie Neuronen helfen, als Reaktion auf Eingaben zu feuern. Er stellt unter anderem verschiedene Aktivierungsfunktionen wie das weiche Plus, das Sigmoid und die gleichgerichtete lineare Einheit (ReLU) vor. Der Referent erörtert auch den Lernprozess zum Anpassen der Gewichte an die Ausgangsfunktion und die Rolle partieller Ableitungen beim Abstimmen von Gewichtsaktualisierungen zur Minimierung von Fehlern. Dies, erklärt er, ist die Grundlage des Gradienten-basierten Lernens.

  • 01:05:00 In diesem Abschnitt der Vorlesung wird das Konzept der Backpropagation als Methode zum Propagieren von Ableitungen durch ein neuronales Netzwerk eingeführt, um Gewichte anzupassen. Die Kettenregel wird verwendet, um die Ableitung jeder Schicht als Funktion der vorherigen Schicht zu berechnen, wodurch Anpassungen auf jeder Ebene vorgenommen werden können. Dieser Prozess kann um zusätzlichen Schnickschnack ergänzt werden, wie z. B. eine Lernrate zum Skalieren des Gradienten, eine Gewichtsabnahme zur Vermeidung großer Gewichte und die Berücksichtigung des Deltas im vorherigen Zeitschritt, um die Richtung und das Ausmaß der erforderlichen Änderung zu bestimmen.

  • 01:10:00 In diesem Abschnitt erläutert der Referent die verschiedenen Methoden zur Optimierung von Gewichtungen in mehreren Schichten von Deep-Learning-Modellen. Diese Verfahren umfassen die Verwendung der Kettenregel, um die Ableitungen der Ausgabe in Bezug auf jedes Gewicht zu berechnen, sowie den stochastischen Gradientenabstieg, der zufällig eine Teilmenge von Trainingsdaten abtastet, um die Gewichte zu aktualisieren. Darüber hinaus erörtert der Referent das Konzept der Modellkapazität und der VC-Dimension, die die allgemeine Modellierungsfähigkeit eines Deep-Learning-Modells basierend auf seinen Parametern und den Arten von Funktionen, die es berechnen kann, beschreibt. Die Kapazität eines nichtparametrischen Modells wird durch die Größe des Trainingssatzes definiert.

  • 01:15:00 In diesem Abschnitt werden das Konzept des k-nächsten Nachbarn und seine Verallgemeinerbarkeit eingeführt. Während der k-nächste Nachbar eine gute Basislinienmethode ist, kann es eine schlechte Verallgemeinerungsleistung haben, da es die Funktion nicht lernt, die Datensätze trennt, was es schwierig macht, bei zuvor nicht sichtbaren Eingaben eine gute Leistung zu erbringen. Die Effektivität der Kapazität eines Modells in einem Diagramm wird ebenfalls diskutiert, wobei die x-Achse die effektive Anzahl von Parametern oder Dimensionen anzeigt und eine Erhöhung dieser Anzahl zu besseren Übereinstimmungen mit den Daten führen kann, jedoch mit einem höheren Generalisierungsfehler. Die Voreingenommenheit oder wie gut man bestimmte Daten abgleicht, und die Varianz oder wie gut man zukünftige Datensätze abgleichen kann, werden ebenfalls eingeführt. Schließlich können Modelle durch Abwägung zwischen Parameterregularisierung und Modellkomplexitätsregularisierung regularisiert werden, was durch den Vergleich von Datensätzen mit unterschiedlichen Ebenen der Neuronenkomplexität demonstriert werden kann.

  • 01:20:00 In diesem Abschnitt der Vorlesung erörtert der Kursleiter verschiedene Techniken, um neuronale Netze zu regularisieren, wie z. Auch der Kapazitätsbegriff wird diskutiert, der von den Aktivierungsfunktionen und der Anzahl der Gewichte abhängt. Der Kursleiter betont, dass der Kompromiss zwischen mehr Schichten, breiteren Schichten und mehr Verbindungen eher eine Kunst als eine Theorie ist und dass es wichtig ist, das richtige Gleichgewicht zwischen Komplexität zu finden. Der Lehrer ermutigt die Schüler, sich ihren Klassenkameraden positiv vorzustellen und sich die Zeit zu nehmen, sich zu treffen und mehr über ihre Profile und Videos zu erfahren.
 

CNNs Convolutional Neural Networks - Vorlesung 03 (Frühjahr 2021)



CNNs Convolutional Neural Networks - Deep Learning in Life Sciences - Vorlesung 03 (Frühjahr 2021)

Dieser Videovortrag behandelt das Thema Convolutional Neural Networks (CNNs) im Deep Learning für Life Sciences. Der Referent erörtert die Prinzipien des visuellen Kortex und ihre Beziehung zu CNNs, einschließlich der Bausteine des menschlichen und tierischen visuellen Systems, wie die grundlegenden Bausteine des Summierens und Wiegens und die Bias-Aktivierungsschwelle eines Neurons. Sie erklären, dass CNNs spezialisierte Neuronen für Erkennungsoperationen auf niedriger Ebene und Schichten versteckter Einheiten für das Lernen abstrakter Konzepte verwenden. Die Vorlesung behandelt auch die Rolle von Faltungs- und Pooling-Layern, die Verwendung mehrerer Filter zum Extrahieren mehrerer Merkmale und das Konzept des Transfer Learning. Schließlich werden auch Nichtlinearitäten und die Verwendung von Padding zur Adressierung von Randfällen bei der Faltung diskutiert. Insgesamt beleuchtet der Vortrag die Leistungsfähigkeit und das Potenzial von CNNs in einer Vielzahl von Life-Science-Anwendungen.

Der zweite Teil der Vorlesung behandelt verschiedene Konzepte im Zusammenhang mit Convolutional Neural Networks (CNNs). Im Vortrag spricht der Referent über die Bedeutung der Beibehaltung der Eingabegröße in CNNs, Datenaugmentation als Mittel zur Erzielung von Invarianz gegenüber Transformationen sowie verschiedene CNN-Architekturen und deren Anwendungen. Der Vortrag behandelt auch Herausforderungen im Zusammenhang mit dem Lernen in tiefen CNNs, Hyperparameter und deren Auswirkungen auf die Gesamtleistung sowie Ansätze zum Hyperparameter-Tuning. Der Redner betont, wie wichtig es ist, die grundlegenden Prinzipien hinter CNNs zu verstehen, und hebt ihre Vielseitigkeit als Technik hervor, die in mehreren Umgebungen anwendbar ist.

  • 00:00:00 In diesem Abschnitt führt der Referent in das Thema Convolutional Neural Networks (CNNs) ein und hebt deren Bedeutung für Deep Learning in verschiedenen Bereichen hervor. Der Sprecher bezeichnet den 6s191-Kurs und die Coursera-Notizen von Tess Fernandez als großartige Ressourcen für das Studium von CNNs. Der Referent erklärt, wie CNNs in den 50er und 60er Jahren von den neuronalen Netzwerken des menschlichen Gehirns und den Erkenntnissen neurowissenschaftlicher Studien zum tierischen visuellen Kortex inspiriert wurden. Der Referent erläutert einige der Schlüsselprinzipien, die in Grundlagenstudien der Neurowissenschaften entdeckt wurden, einschließlich des Konzepts, nur begrenzte rezeptive Felder und Zellen zu haben, die auf Kanten im rechten Winkel reagieren. Diese Konzepte bilden die Grundlage für Faltungsfilter und die heute verwendeten CNNs.

  • 00:05:00 In diesem Abschnitt erörtert der Referent die Prinzipien des visuellen Kortex und ihre Beziehung zu Convolutional Neural Networks (CNNs). Der visuelle Kortex enthält einfache primitive Operationen wie Kantenerkennung, die aus einzelnen Neuronen aufgebaut sind, die an verschiedenen Stellen hell und dunkel erkennen und dieses Signal mit einem Schwellenwert versehen. Es gibt Neuronen höherer Ordnung, die invariant gegenüber der Position der erkannten Kante oder des Objekts sind, was zum Konzept der Positionsinvarianz in den Pooling-Schichten von CNNs führte. Der Referent erörtert auch die Bausteine der menschlichen und tierischen visuellen Systeme, die ähnliche Prinzipien enthalten, die in neuronalen Netzwerken zu finden sind, wie die grundlegenden Bausteine des Summierens und Wägens und die Bias-Aktivierungsschwelle eines Neurons.

  • 00:10:00 In diesem Abschnitt des Vortrags diskutiert der Referent Aktivierungsfunktionen in Neuronen, die bestimmen, ob ein Neuron feuert oder nicht, basierend auf Eingaben über einem bestimmten Schwellenwert. Die Nichtlinearität dieses Prozesses ermöglicht das Erlernen komplexerer Funktionen, da lineare Transformationen linearer Informationen immer noch lineare Transformationen sind. Neuronen sind zu Netzwerken verbunden, die emergente Eigenschaften haben und Lernen und Gedächtnis ermöglichen. Das menschliche Gehirn ist extrem leistungsfähig und enthält 86 Milliarden Neuronen und Billiarden von Verbindungen, die in einfachen, großen und tiefen Netzwerken organisiert sind, die die Abstraktion und Erkennung komplexer Konzepte wie Kanten und Linien ermöglichen. Es wird ein Beispiel gegeben, wie ein Kantendetektor auf einer niedrigeren Ebene von Neuronen basierend auf positiver und negativer Signalisierung als Antwort auf helle und dunkle Bereiche erzeugt werden kann.

  • 00:15:00 In diesem Abschnitt erklärt der Referent, wie die neuronalen Verbindungen im Gehirn sehr einfache lineare und kreisförmige Grundelemente wie Kanten und Balken erkennen und sie verwenden, um komplexere Merkmale wie Farbe, Krümmung und Ausrichtung zu erfassen. Die höheren Schichten des visuellen Kortex des Gehirns entsprechen den Abstraktionsschichten beim Deep Learning, die komplexe Konzepte aus einfacheren Teilen aufbauen. Die Formbarkeit des Gehirns ermöglicht es ihm auch, verschiedene Teile des Gehirns zu nutzen, um entsprechende Signale zu erfassen, und Tierversuche haben gezeigt, dass Schaltkreise im Gehirn austauschbar sind und bei Verletzungen neu verdrahtet werden können. Darüber hinaus weist der Referent auf den enormen Größenunterschied zwischen den Gehirnen von Menschen und Mäusen hin und wie die Erweiterung des Neocortex bei Säugetieren, insbesondere bei Primaten, zu höheren Abstraktionsebenen und sozialer Intelligenz geführt hat.

  • 00:20:00 In diesem Abschnitt erklärt der Dozent, wie neuronale Netze eine immense Bandbreite an Funktionen erlernen können, die für die physische Welt, in der wir leben, gut geeignet sind, obwohl sie nicht in der Lage sind, jede mathematische Funktion zu lernen. Der Vortrag untersucht auch, wie visuelle Illusionen die Grundelemente und Bausteine der Berechnungen im Gehirn enthüllen können, die durch Deep Learning genutzt werden können, um Erfahrungen zu schaffen, wie zum Beispiel zu sehen, wie sich eine Person in eine monströse Kombination von Tieren verwandelt. Der Vortrag fährt dann fort, um die Schlüsselbestandteile von Convolutional Neural Networks zu diskutieren, wie z. B. Lokalität und die Berechnung von Convolutional Filters, die lokal und nicht in einem vollständig verbundenen Netzwerk berechnet werden.

  • 00:25:00 In diesem Abschnitt der Vorlesung über CNNs und Deep Learning in den Lebenswissenschaften diskutiert der Referent mehrere Schlüsselmerkmale von Convolutional Neural Networks. Dazu gehören die Verwendung spezialisierter Neuronen, die Erkennungsoperationen auf niedriger Ebene ausführen, Schichten versteckter Einheiten, in denen abstrakte Konzepte aus einfacheren Teilen gelernt werden, Aktivierungsfunktionen, die Nichtlinearitäten einführen, Pooling-Schichten für Positionsinvarianz und reduzierte Rechenzeit, mehrere Filter, die Erfassen Sie verschiedene Aspekte des Originalbildes und Möglichkeiten, das Gewicht einzelner verborgener Einheiten für die Regularisierung zu begrenzen. Diese Funktionen sind alle wichtig für den Aufbau effektiver CNNs, die lernen und Muster in komplexen Bildern oder genomischen Daten erkennen können.

  • 00:30:00 In diesem Abschnitt erklärt der Dozent, dass das menschliche Gehirn auch verschiedene Mechanismen verwendet, um nützliche Verbindungen zu stärken und gleichzeitig die übermäßige Abhängigkeit von einer einzelnen Verbindung für eine bestimmte Aufgabe zu begrenzen. Er erwähnt die Beispiele für die Verringerung des Feuerns von Neuronen im Laufe der Zeit und die Verwendung von Verstärkungslernen zur Verbesserung motorischer Aufgaben. Er zieht auch Parallelen zwischen diesen primitiven Lernmechanismen im menschlichen Gehirn und dem Backpropagation-Algorithmus, der in Convolutional Neural Networks verwendet wird. Der Dozent ermutigt die Studierenden, über aktuelle Architekturen hinauszudenken und neue Computerarchitekturen in Betracht zu ziehen, die von einzelnen Primitiven abgeleitet werden könnten. Abschließend spricht er eine Frage aus dem Chat an, wie man über Anwendungen denken sollte, die Lokalität innerhalb eines vollständig verbundenen Netzwerks benötigen oder nicht.

  • 00:35:00 In diesem Abschnitt erörtert der Referent die beiden Teile tiefer neuronaler Netze: Repräsentationslernen und Klassifikation. Durch hierarchische Lernebenen verwandeln sich Kombinationen von Pixeln in eine Merkmalsextraktion, und die Erkennung von Merkmalen folgt. Dadurch kann das Netzwerk durch die Kopplung der beiden Aufgaben Backpropagation und Merkmalsextraktion eine komplexe nichtlineare Funktion lernen. Der Redner erwähnt, dass dieses Paradigma sehr leistungsfähig und über verschiedene Anwendungsdomänen hinweg verallgemeinerbar ist. Das Gebiet steckt noch in den Kinderschuhen, und es gibt viel Raum für Kreativität und Erforschung, insbesondere in den Bereichen Genomik, Biologie, Neurowissenschaften, Bildgebung und elektronische Patientenakten. Daher können diese Anwendungsdomänen die Entwicklung neuer Architekturen vorantreiben, die eine breite Anwendbarkeit auf die Datenwissenschaft in verschiedenen Bereichen haben könnten.

  • 00:40:00 In diesem Abschnitt erläutert der Referent das Konzept von Convolutional Neural Networks und die Rolle von Convolutions bei der Nutzung räumlicher Strukturen, der Durchführung lokaler Berechnungen und der gemeinsamen Nutzung von Parametern über das gesamte Bild. Durch Anwenden eines Filters oder Kernels auf jeden einzelnen Patch eines Bildes wird Faltung verwendet, um eine Feature-Map zu berechnen, die uns sagt, wie viel ein Feature in jedem Patch des Bildes vorhanden war, wodurch eine Feature-Extraktion effektiv durchgeführt wird. Der Sprecher betont die Verwendung mehrerer Filter zum Extrahieren mehrerer Merkmale wie Kanten und Schnurrhaare und die räumliche gemeinsame Nutzung der Parameter jedes Filters, um aus weniger Parametern zu lernen.

  • 00:45:00 In diesem Abschnitt über CNNs erklärt der Sprecher, dass die Parameter für jeden Merkmalsextraktionsprozess, wie z. B. die Kantenerkennung, gemeinsam genutzt und auf das gesamte Bild auf einmal angewendet werden. Jedes Neuron in einer verborgenen Schicht erhält Eingaben von einem Patch, berechnet eine gewichtete Summe und wendet eine Vorspannung an, um mit einer nichtlinearen Funktion zu aktivieren. Die Faltungsfilter werden verwendet, um Merkmale aus dem Bild zu extrahieren und Repräsentationen zu lernen, die durch aufgabenspezifische Filter gelernt werden können. Verschiedene Arten haben von Geburt an fest codierte Faltungsfilter entwickelt, die für die hilfreichsten Aufgaben wiederverwendet werden können.

  • 00:50:00 In diesem Abschnitt spricht der Dozent über den Prozess des Lernens von Filtern durch konvolutionelle neuronale Netze, die gemeinsame Merkmale aus Bildern extrahieren und spezifische Merkmale für verschiedene Aufgaben identifizieren. Während bestimmte Filter hartcodiert sind, wie z. B. solche, die für eine bestimmte Art spezifisch sind, sind andere, wie Kanten- und Gesichtserkennung, für verschiedene Anwendungen hilfreich. Das Konzept des Transferlernens wird diskutiert, bei dem frühere Faltungsfilter auf neue Daten angewendet werden können, um Repräsentationen auf mittlerer und hoher Ebene vorab zu lernen, bevor sie für neue Funktionen neu trainiert werden. Die Merkmalshierarchie von Low-Level bis High-Level ist auf die jeweilige Klassifikationsaufgabe abgestimmt. Der Dozent erklärt auch, dass Faltung sich auf den Effekt bezieht, eine Sache in eine andere zu verdrehen, wonach die Erkennung mit der Verwendung von Nichtlinearitäten ins Spiel kommt.

  • 00:55:00 In diesem Abschnitt erörtert der Sprecher das Konzept der Nichtlinearitäten und wie sie eine Erkennung ermöglichen, indem Stille eingeführt wird, bis ein bestimmtes Merkmal beobachtet wird. Sie diskutieren auch die Verwendung von Pooling-Layern, die den Maximalwert innerhalb eines bestimmten Abschnitts finden und die Größe der Darstellung reduzieren, wodurch einige erkannte Merkmale robuster werden. Die vollständig verbundene Schicht lernt dann viel komplexere Funktionen und erfasst Kombinationen der aus dem Netzwerk extrahierten Merkmale, was letztendlich eine Klassifizierung ermöglicht. Der Redner geht auch auf die Randfälle bei der Faltung ein und wie das Auffüllen der Bilder mit Nullen vor der Faltung dieses Problem löst.

  • 01:00:00 In diesem Abschnitt erörtert der Referent die Bedeutung der Beibehaltung der Eingabegröße in neuronalen Faltungsnetzen und die verschiedenen Möglichkeiten, dies zu erreichen, einschließlich Nullauffüllung und erweiterter Faltung. Das Konzept der Datenerweiterung wird eingeführt, um eine Invarianz gegenüber Transformationen in der realen Welt, wie z. B. Änderungen der Ausrichtung oder Form, zu erreichen. Indem die Bilder überhaupt transformiert werden, kann das Netzwerk lernen, Objekte unabhängig von ihrem Standort oder ihrer Ausrichtung zu erkennen. Der Redner betont, wie wichtig es ist, Millionen von Merkmalen von unten nach oben zu lernen und Bilder zu transformieren, um Invarianz zu erreichen.

  • 01:05:00 In diesem Abschnitt fasst der Referent die Konzepte zusammen, die in den vorherigen Abschnitten der Vorlesung besprochen wurden, einschließlich Lokalität, Filter und Features, Aktivierungsfunktionen, Pooling und Multimodalität. Anschließend zeigt er ein Beispiel für ein Deep Convolutional Neural Network, das aus einem Eingangsvolumen eines RGB-Bildes besteht, gefolgt von 20 Filtern mit einer Schrittweite von 2, was ein Volumen von 10 erzeugt. Der Sprecher betont, dass die Anzahl der berechneten Filter a erzeugt entsprechendes Volumen, das sich auf jeder Ebene des Netzwerks ändert. Er demonstriert auch, wie man diese Konzepte in TensorFlow mit der Keras-Engine für Deep Learning implementiert, einschließlich verschiedener Filtergrößen, Aktivierungsfunktionen, Pooling und Stride-Größe.

  • 01:10:00 In diesem Abschnitt erörtert der Referent verschiedene Architekturen von Convolutional Neural Networks und deren Anwendungen, beginnend mit LeNet-5 für die Dokumentenerkennung, das dazu beigetragen hat, die Reihe von Convolutional Filters, Subsampling und vollständig verbundenen Schichten zu etablieren, aus denen sie bestehen CNN heute. Der Referent erklärt, dass das Training von CNNs eine Kunst ist, da es aufgrund der höheren Anzahl an Parametern und Layern deutlich mehr Trainingsdaten benötigt. Die Bedeutung der Normalisierung im Training wird ebenfalls betont, da asymmetrische Daten die Leistung des Modells beeinträchtigen können. Insgesamt hebt der Redner die natürliche und effektive Art und Weise hervor, wie CNNs Klassifizierungsaufgaben erfüllen können.

  • 01:15:00 In diesem Abschnitt diskutiert der Dozent verschiedene Herausforderungen, die mit dem Lernen in Deep Convolutional Neural Networks verbunden sind. Eine der Herausforderungen sind die verschwindenden oder explodierenden Gradienten, die durch sorgfältige Auswahl der Anfangswerte und Normalisierung der Daten gemildert werden können. Der Dozent erklärt auch, wie man die Batch-Größe wählt, wo man auf dem gesamten Datensatz trainieren oder Mini-Batches verwenden kann, und spricht über verschiedene Techniken für das Training, wie RMS-Prop und Simulated Annealing. Der Vortrag behandelt auch Hyperparameter, also die Architektur- und Trainingsparameter, und deren Einfluss auf die Gesamtleistung. Abschließend stellt der Dozent zwei Ansätze zum Hyperparameter-Tuning vor, Grid Search und Random Search, und diskutiert deren Vor- und Nachteile.

  • 01:20:00 In diesem Abschnitt betont der Referent die Bedeutung der Grundprinzipien hinter Convolutional Neural Networks, anstatt sich auf Logistik und traditionelle Ansätze zu konzentrieren. Die Vorlesung behandelt die Schlüsselfunktionen von CNNs, darunter Faltungen, lernende Repräsentationen, Erkennung, Nichtlinearitäten und Pooling-Layer. Der Redner hebt auch die praktischen Probleme hervor, das Training gegenüber kleinen Störungen invariant zu machen und unterschiedliche Arten von Architekturen zu adressieren. Darüber hinaus wird die Klasse in zukünftigen Sitzungen die Kunst des Trainierens von Modellen diskutieren. Insgesamt präsentiert die Vorlesung CNNs als eine äußerst vielseitige Technik, die in mehreren Umgebungen anwendbar ist.
 

Recurrent Neural Networks RNNs, Graph Neural Networks GNNs, Long Short Term Memory LSTMs - Vorlesung 04 (Frühjahr 2021)



Recurrent Neural Networks RNNs, Graph Neural Networks GNNs, Long Short Term Memory LSTMs

Dieses Video behandelt eine Reihe von Themen, beginnend mit rekurrenten neuronalen Netzen (RNNs) und ihrer Fähigkeit, den zeitlichen Kontext zu codieren, was für das Sequenzlernen von entscheidender Bedeutung ist. Der Referent stellt das Konzept der Hidden-Markov-Modelle und ihre Grenzen vor, was zur Diskussion von Long-Short-Term-Memory-Modulen (LSTM) als leistungsfähigem Ansatz für den Umgang mit langen Sequenzen führt. Das Video behandelt auch das Transformer-Modul, das zeitliche Beziehungen lernt, ohne RNNs aufzurollen oder zu verwenden. Graphische neuronale Netze werden vorgestellt und ihre möglichen Anwendungen bei der Lösung klassischer Netzwerkprobleme und in der Computerbiologie. Der Vortrag schließt mit einer Diskussion über Forschungsgrenzen in neuronalen Graphennetzen, wie z. B. ihre Anwendung in degenerativen Graphenmodellen und latenter Grapheninferenz.

In diesem zweiten Teil des Videos werden Recurrent Neural Networks (RNNs), Graph Neural Networks (GNNs) und Long Short Term Memory (LSTM)-Module behandelt. Es erklärt, wie traditionelle neuronale Feedforward-Netze beim Umgang mit graphbasierten Daten Einschränkungen haben, GNNs jedoch mit einer Vielzahl von Invarianzen umgehen und Informationen über den Graphen verbreiten können. Die Referenten diskutieren auch Graph Convolutional Networks (GCNs) und ihre Vorteile und Herausforderungen. Darüber hinaus beschreibt das Video die Bedeutung von Aufmerksamkeitsfunktionen, um GNNs leistungsfähiger und flexibler zu machen.

  • 00:00:00 In diesem Abschnitt stellt der Dozent die Themen vor, die in der Klasse behandelt werden, einschließlich rekurrenter neuronaler Netze und Langzeit-Kurzzeitgedächtnismodule. Der Dozent diskutiert, wie Maschinen mithilfe von Hidden-Markov-Modellen und rekurrenten neuronalen Netzen Kontext und Aufmerksamkeit verstehen und zeitlichen Kontext kodieren können. Die Vorlesung behandelt auch die Vermeidung verschwindender Gradienten durch die Verwendung von Speichermodulen und stellt das Transformer-Modul vor, das zeitliche Beziehungen lernen kann, ohne die Sequenz aufzurollen. Der Vortrag berührt auch neuronale Graphnetzwerke und wie sie Graph-Konnektivitätsmuster verwenden, um das Training zu leiten. Der Dozent erörtert dann die Fähigkeit des menschlichen Gehirns, Kontext zu lesen und zu verstehen, und führt Beispiele für die phonemische Wiederherstellung und das Ergänzen fehlender Wörter basierend auf dem Kontext ein.

  • 00:05:00 In diesem Abschnitt des Videos erörtert der Sprecher, wie das Gehirn Sprache und Geräusche verarbeitet, indem es voraussagt, was als Nächstes kommt, was die Wurzel des Verstehens ist. Rekurrente neuronale Netze werden verwendet, um den zeitlichen Kontext zu codieren, wenn maschinelles Lernen auf Sequenzen angewendet wird, um eine Eingabesequenz in eine Ausgabesequenz umzuwandeln, die in einer anderen Domäne lebt, z. B. um eine Sequenz von Schalldrücken in eine Sequenz von Wortidentitäten umzuwandeln. Der Referent gibt auch Beispiele für kognitive Effekte im Zusammenhang mit auditiven und visuellen Kontextinformationen, wie den McGurk-Effekt und verzögertes auditives Feedback, und erklärt, wie sie funktionieren.

  • 00:10:00 In diesem Abschnitt des Videos erörtert der Sprecher die Leistungsfähigkeit der Verwendung eines Sequenzvorhersagemodells, um mehr über die Welt zu erfahren. Durch die Vorhersage des nächsten Begriffs in einer Sequenz kann der unüberwachte Lernprozess in einen überwachten Lernprozess umgewandelt werden. Dies ermöglicht die Verwendung von Methoden, die für überwachtes Lernen entwickelt wurden, ohne dass eine Annotation erforderlich ist. Der Referent erklärt, dass eine einzige gemeinsame Funktion erlernt und auf die gesamte Sequenz angewendet werden kann, was die Vorhersage zukünftiger Ereignisse ermöglicht. Durch die Einbeziehung versteckter Knoten und interner Dynamik können komplexere Modelle erstellt und Informationen für lange Zeit gespeichert werden. Der Sprecher beschreibt, wie Wahrscheinlichkeitsverteilungen über verborgene Zustandsvektoren abgeleitet werden können und wie die Eingabe verwendet werden kann, um entweder die verborgenen Knoten direkt oder indirekt anzusteuern, indem Informationen an den aktuellen verborgenen Knoten gegeben werden.

  • 00:15:00 In diesem Abschnitt erörtert der Referent Hidden-Markov-Modelle (HMM) und ihre Grenzen. HMMs haben zwei Arten von Parametern: eine Emissionsmatrix, die die Wahrscheinlichkeit des Beobachtens jeder Ausgabe angesichts des verborgenen Zustands darstellt, und eine Übergangsmatrix, die die Wahrscheinlichkeit des Übergangs in einen anderen verborgenen Zustand angesichts des aktuellen darstellt. Jedoch kann bei jedem Zeitschritt nur einer der verborgenen Zustände ausgewählt werden, und bei n Zuständen können nur log n Informationsbits erinnert werden. Um mehr frühere Informationen zu codieren, wäre eine enorme Anzahl von Zuständen erforderlich. Diese Einschränkung wird durch rekurrente neuronale Netze (RNNs) angegangen, die eine explizite Codierung von Informationen ermöglichen.

  • 00:20:00 In diesem Abschnitt lernen wir die Eigenschaften rekurrenter neuronaler Netze (RNNs) kennen, die es uns ermöglichen, viele Informationen effizient unter Verwendung eines verteilten verborgenen Zustands zu speichern, der auf kompliziertere Weise mit nichtlinearer Dynamik aktualisiert wird. Während die A-Posteriori-Wahrscheinlichkeitsverteilung verborgener Zustände in einem linearen dynamischen System oder Hidden-Markov-Modell (HMM) stochastisch ist, ist der verborgene Zustand eines RNN deterministisch. Im Gegensatz zu HMMs oder linearen dynamischen Systemen, die von Natur aus stochastisch sind, können RNNs alle möglichen Verhaltensweisen aufweisen, wie z. B. Oszillation oder chaotisches Verhalten, was unvorhersehbare Entscheidungen ermöglicht. Feedforward-Netzwerke und RNNs sind gleich, wenn die Zeit entrollt wird, wodurch sie einem Feedforward-Netzwerk mit einer unendlichen Anzahl von Stapeln entsprechen, wobei dieselben gemeinsamen Gewichtungen verwendet werden, um jedes Zeichen im Netzwerk zu berechnen.

  • 00:25:00 In diesem Abschnitt erklärt der Referent die spezifischen Architekturen, die für rekurrente neuronale Netze (RNNs) verwendet werden können, und wie sie mit Backpropagation trainiert werden können. Eine Möglichkeit besteht darin, Eingaben in verborgene Einheiten einzuspeisen und dann nach der gesamten Sequenz einen einzigen Ausgang zu haben. Eine andere Möglichkeit besteht darin, für jeden Zeitschritt eine Ausgabevorhersage zu haben, die den Informationsfluss zwischen verborgenen Einheiten ermöglicht und die Vorhersage von Ausgabevariablen ermöglicht. Derselbe Backpropagation-Algorithmus kann verwendet werden, um die Gewichtungen dieser Architekturen zu aktualisieren. Der Referent betont, dass die Gewichtungen auf verschiedenen Ebenen des Netzwerks geteilt werden, was ein effizienteres Lernen ermöglicht.

  • 00:30:00 In diesem Abschnitt erörtert der Referent das Konzept der Rückwärtsausbreitung durch die Zeit in rekurrenten neuronalen Netzen (RNNs) und wie es die Codierung von Erinnerungen aus früheren Zeitschritten ermöglicht. Sie erklären, dass dies erreicht werden kann, indem die Ausgabe des vorherigen Zeitschritts in die aktuelle verborgene Einheit geleitet wird oder indem dem aktuellen Modell während des Trainings das korrekte Ausgabelabel für die vorherige Äußerung zugeführt wird. Der Trainingsprozess beinhaltet die Ableitung der Verlustfunktion gegen jedes Gewicht und die Verwendung dieser, um die Gewichte unter linearen Beschränkungen zu aktualisieren. Der Referent merkt an, dass RNNs zwar komplex erscheinen mögen, aber mit den gleichen Verfahren wie andere neuronale Netze trainiert werden können.

  • 00:35:00 In diesem Abschnitt erörtert der Referent das Konzept der Modellierung von Sequenzen mit maschinellen Lernwerkzeugen und den Umgang mit langen Sequenzen. Er erklärt, dass in Fällen wie der Übersetzung von Sätzen oder der Transkription gesprochener Wörter Eingabesequenzen in Ausgabesequenzen umgewandelt werden müssen. Wenn es jedoch keine separate Zielsequenz gibt, kann ein Lehrsignal erhalten werden, indem versucht wird, den nächsten Term der Eingabesequenz vorherzusagen. Die Herausforderung bei diesem Ansatz entsteht, wenn es um sehr lange Sequenzen geht, bei denen der Einfluss eines bestimmten Wortes mit der Zeit abnimmt. Dazu erläutert der Referent verschiedene Methoden wie Echo-State-Networks und die Nutzung von Momentum, hebt aber lange Kurzzeitgedächtnismodule als den mächtigsten Ansatz hervor. Diese Module verwenden logistische und lineare Einheiten mit multiplikativen Interaktionen, um eine Speicherzelle zu entwerfen, die sich Werte für Hunderte von Zeitschritten merken kann.

  • 00:40:00 In diesem Abschnitt erläutert der Referent das Konzept einer analogen Speicherzelle in neuronalen Netzwerken mit langem Kurzzeitgedächtnis (LSTM). Die Speicherzelle ist eine lineare Einheit mit einer Selbstverknüpfung, die ein Gewicht von eins hat, wodurch sichergestellt wird, dass Informationen unverändert und unverwässert durch jegliche Art von Gewichtsverlust bleiben. Die Zelle wird durch Tore gesteuert, die eine Echokammer aufrechterhalten, in der die Informationen ständig wiederholt werden, bis sie benötigt werden, und das Netzwerk entscheidet, wann es sich an eine Information erinnert oder sie vergisst. Die Aktivierung der Lese- und Haltegatter ermöglicht das Abrufen bzw. Aufrechterhalten der Informationen. Dem Netzwerk werden Fähigkeiten zum Erinnern, Vergessen, Speichern und Abrufen einer Erinnerung gegeben, und es entscheidet, wann es hilfreich ist, sich an eine bestimmte Information zu erinnern oder sie zu vergessen. Die Implementierung dieser Gatter ermöglicht die Langzeitarchivierung von Informationen in rekurrenten neuronalen Netzen.

  • 00:45:00 In diesem Abschnitt erörtert der Referent die Anwendung rekurrenter neuronaler Netze (RNNs) beim Lesen kursiver Handschrift. RNNs mit langen Kurzzeitspeichermodulen erwiesen sich 2009 als das beste System für diese Aufgabe. Als Ersatz für Stiftkoordinaten wurde eine Sequenz kleiner Bilder verwendet, um das Netzwerk zu trainieren. Der Referent zeigt eine Demo der Online-Handschrifterkennung, bei der die Zeichen im Laufe der Zeit aus der Handschrift abgeleitet werden und auf die späteren Wahrscheinlichkeiten für jedes dieser Zeichen zugegriffen wird. Der Zustand des Systems wird beibehalten und unterschiedliche Punkte erhalten unterschiedliche Gewichtungen. Der Referent erklärt, wie Zeichen gelernt werden und welche Teile des Systems wichtig sind. Der Referent erörtert auch die Initialisierung von versteckten und Ausgabeeinheiten von RNNs und wie ihr Anfangszustand als Lernparameter behandelt werden kann, anstatt sie explizit zu codieren.

  • 00:50:00 In diesem Abschnitt beschreibt das Video eine neue Entwicklung in neuronalen Netzwerken, das Transformer-Modul, das zeitliche Beziehungen lernt, ohne sich abzuwickeln und ohne wiederkehrende neuronale Netzwerke zu verwenden. Das Transformatormodul verwendet einen Eingang mit einer Positionscodierung, um anzugeben, wo sich das Netzwerk in der Sequenz befindet, ohne dass das Netzwerk im Laufe der Zeit abgerollt werden muss. Der Encoder verschiebt die Ausgabeeinbettung um eins relativ zur Eingabe, um das nächste Element im Satz vorherzusagen, während die Aufmerksamkeitsmodule die wichtigsten Punkte im Satz bestimmen. Das Modul verwendet eine Abfragedarstellung eines Wortes in der Folge, Schlüsseldarstellungen aller Wörter in der Folge und Wertdarstellungen aller Wörter in der Folge, um die zeitlichen Beziehungen zu erreichen.

  • 00:55:00 In diesem Abschnitt erörtert der Sprecher den Transformer, eine Art neuronales Netzwerk, das für die Sequenzübersetzung oder jede Art von sequentiellen Aufgaben nützlich ist. Es codiert die Kontextinformationen des gesamten Satzes jedes Mal bei der Erzeugung jedes Wortes, und die Beziehungen zwischen aufeinanderfolgenden Wörtern werden in dieser Eingabe-Ausgabe-Beziehung codiert, die um eins verschoben ist. Der Referent stellt außerdem graphische neuronale Netze vor und beschreibt, wie sie zur Lösung klassischer Netzwerkprobleme eingesetzt werden können, sowie die mögliche Anwendung in der Computational Biology. Der Vortrag schließt mit einer Diskussion der Forschungsgrenzen von Graphen neuronalen Netzen, wie z. B. ihre Anwendung in degenerativen Graphenmodellen und latenter Grapheninferenz.

  • 01:00:00 In diesem Abschnitt spricht der Referent über die Vorteile der Verwendung von Convolutional Neural Networks (CNNs) für gitterstrukturierte Daten wie Bilder und das Potenzial der Verwendung von Graph Neural Networks (GNNs) für Nicht-Grid-Daten wie soziale Netzwerke. Gehirnkonnektivitätskarten und chemische Moleküle. Der Referent erörtert auch die drei verschiedenen Arten von Merkmalen, die in GNNs vorhanden sein können: Knotenmerkmale, Kantenmerkmale und Merkmale auf Diagrammebene. Darüber hinaus hebt der Redner die Probleme bei der Verwendung eines vollständig verbundenen Netzwerks für Graphvorhersagen hervor, einschließlich der Anzahl der Parameter, die mit der Anzahl der Knoten skaliert werden, was es für viele Situationen unpraktisch macht.

  • 01:05:00 In diesem Abschnitt erörtert der Referent einige der Einschränkungen bei der Verwendung herkömmlicher neuronaler Feedforward-Netze für graphenbasierte Daten, einschließlich der Frage der Graphengröße und der fehlenden Invarianz der Knotenreihenfolge. Anschließend führen sie Graph Neural Networks (GNNs) ein, die eine breite Klasse von Invarianzen verarbeiten und Informationen über einen Graphen verbreiten können, um Knotenmerkmale zu berechnen und nachgelagerte Vorhersagen zu treffen. Die Grundformel für GNNs umfasst das Abtasten von Informationen aus der Umgebung des Knotens und das Aktualisieren der Darstellung des Knotens auf der Grundlage dieser Informationen. Der Referent weist darauf hin, dass dieser Prozess dem Prozess ähnelt, der in Convolutional Neural Networks (CNNs) für Bilddaten verwendet wird.

  • 01:10:00 In diesem Abschnitt erörtert der Referent das Konzept von neuronalen Netzwerken mit zwei Schichten von Graphen und wie sie für verschiedene Knoten in einem Graphen aktualisiert werden. Sie erklären, dass neuronale Netzwerke von Graphen sich von anderen Arten von Netzwerken unterscheiden, weil sie insgesamt mehr Informationen ermöglichen, anstatt nur Interaktionen höherer Ordnung zwischen verschiedenen Teilen des Eingaberaums. Der Redner spricht auch über die Graph Convolutional Networks (GCNs) und wie sie ungerichtete Graphen berücksichtigen, mit einer Aktualisierungsregel, die eine Gewichtsmatrix auf jede verborgene Darstellung von den Nachbarn eines Knotens anwendet. Die Skalierbarkeit von neuronalen Graphnetzwerken wird ebenfalls diskutiert, mit dem Vorschlag, die Anzahl der Mitwirkenden an Knotenaktualisierungen zu unterabtasten, um zu verhindern, dass das Netzwerk explodiert.

  • 01:15:00 In diesem Abschnitt erklärt der Referent Graph Neural Networks (GNNs), eine Art neuronales Netzwerk, das für Graphdaten verwendet wird. GNNs sind weniger gewichtsabhängig als vollständig verbundene Netzwerke und sind unveränderlich gegenüber Permutationen, was eine Klassifizierung in großen Diagrammen ermöglicht. GNNs haben indirekte Unterstützung für Edge-Features, und eine Anpassung besteht darin, Edge-Einbettungen zu verwenden, um Nachrichten vollständig durch das Netzwerk zu leiten. Der Referent verwendet Zitationsnetzwerke als Beispiel und erklärt, wie der Aktualisierungsmechanismus in GNNs funktioniert.

  • 01:20:00 In diesem Abschnitt des Videos erklärt der Sprecher, wie ein neuronales Graph-Netzwerk für die Aktualisierung von Kante zu Vertex funktioniert und wie die Aufmerksamkeitsfunktion eine entscheidende Rolle dabei spielt, das Netzwerk flexibel und leistungsstark zu machen. Das Ziel der GNN-Kante-zu-Vertex-Aktualisierung besteht darin, den Zustand einer der Kanten zu erhalten, was erreicht werden kann, indem eine Aggregation der Darstellungen von den einfallenden Knoten genommen und eine nichtlineare Funktion angewendet wird, die für die Kantenaktualisierungen spezifisch ist. In ähnlicher Weise beinhalten die Scheitelpunktaktualisierungen Informationen von den einfallenden Kanten eines Knotens. Edge-basierte Aktivierungen werden jedoch riesig, was es schwierig macht, große Graphen zu handhaben. Die Aufmerksamkeitsfunktion bietet eine explizite Vektordarstellung ohne Einbeziehung aller Kanteninformationen, wodurch die Rechenanforderungen der Modelle reduziert werden, während ihre Flexibilität und Leistungsfähigkeit erhalten bleiben. Der Sprecher beschreibt, wie Aufmerksamkeitswerte zeigen können, wie viel jeder Nachbar zur Aktualisierung des zentralen Knotens beiträgt, wodurch es möglich wird, auf eine Beziehung zu schließen oder Eigenschaften beizutragen.

  • 01:25:00 In diesem Abschnitt diskutieren die Referenten Graph Convolutional Networks (GCNs) und ihre Vorteile und Herausforderungen. GCNs ermöglichen die Anwendung mehrerer Ebenen im gesamten Diagramm, und jede Aktualisierung hat dieselbe Form. Sie sind nützlich für die Knotenklassifizierung, Diagrammklassifizierung und Linkvorhersage. Aufgrund der parallelen Aktualisierungen im gesamten Diagramm gibt es jedoch immer noch Optimierungsprobleme, und Normalisierungskonstanten müssen möglicherweise korrigiert werden, um eine Destabilisierung zu vermeiden. Darüber hinaus können GCNs im Vergleich zu anderen Methoden wie Graph Attention Networks (GATs) unter Expressivitätsproblemen leiden. Nichtsdestotrotz sind GCNs immer noch schneller als Methoden, die Kanteneinbettungen oder neuronale Nachrichtenweitergabe erfordern.

  • 01:30:00 In diesem Abschnitt erörtert der Redner Graph Neural Networks (GNNs), eine Art Modell, das auf Graphen oder Datennetzwerke angewendet werden kann. Bei GNNs wird das Punktprodukt zwischen den Darstellungen zweier beliebiger Knoten im Diagramm genommen, eine nichtlineare Funktion wie eine Sigmoidfunktion angewendet und dann eine Wahrscheinlichkeit für die Existenz dieser Kante erzeugt. GNNs ermöglichen auch die Vorhersagemodellierung in Bereichen wie der Geninteraktion in der Biologie. Der Redner schließt mit einer Zusammenfassung der verschiedenen besprochenen Arten von Netzwerken, darunter Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), Long Short-Term Memory-Module und Transformer-Module.
 

Interpretierbares Deep Learning - Deep Learning in Life Sciences - Vorlesung 05 (Frühjahr 2021)



Interpretierbares Deep Learning - Deep Learning in Life Sciences - Vorlesung 05 (Frühjahr 2021)

Dieses Video diskutiert die Bedeutung der Interpretierbarkeit in Deep-Learning-Modellen, insbesondere im Bereich der Biowissenschaften, wo Entscheidungen schwerwiegende Folgen haben können. Der Referent erläutert zwei Arten der Interpretierbarkeit: sie von Anfang an in das Design des Modells einzubauen und Post-hoc-Interpretierbarkeitsmethoden für bereits gebaute Modelle zu entwickeln. Anschließend untersuchen sie verschiedene Techniken zur Interpretation von Modellen, einschließlich Gewichtsvisualisierung, Erstellung von Ersatzmodellen und Aktivierungsmaximierung, und diskutieren die Bedeutung des Verständnisses der internen Repräsentationen des Modells. Der Dozent erläutert auch einige Methoden zur Interpretation individueller Entscheidungen, wie z. B. beispielbasierte und Attributionsmethoden. Darüber hinaus erörtert der Referent die Herausforderung bei der Interpretation komplexer Konzepte und die Grenzen der Interpretation von neuronalen Netzwerkmodellen sowie die Erforschung von Hypothesen im Zusammenhang mit der Diskontinuität von Gradienten in neuronalen Deep-Learning-Netzwerken.

Im zweiten Teil des Vortrags ging der Referent auf die Herausforderungen diskontinuierlicher Gradienten und gesättigter Funktionen in Deep-Learning-Modellen im Bereich Life Sciences ein. Sie schlugen Methoden wie die Mittelung kleiner Eingabestörungen über mehrere Stichproben vor, um einen glatteren Gradienten zu erhalten, die Verwendung von Zufallsrauschen zur Hervorhebung der hervorstechenden Merkmale bei der Bildklassifizierung und Backpropagation-Techniken wie deconvolutional neuronale Netze und geführte Backpropagation zur Interpretation von Genregulationsmodellen. Der Referent erörterte auch die quantitative Bewertung von Attributionsmethoden, einschließlich des Pixel-Flipping-Verfahrens und des Remove-and-Replace-Score-Ansatzes. Schließlich betonten sie die Notwendigkeit der Interpretierbarkeit in Deep-Learning-Modellen und die verschiedenen Techniken, um dies zu erreichen.

  • 00:00:00 In diesem Abschnitt erörtert der Moderator die Bedeutung der Interpretierbarkeit beim Deep Learning und die verschiedenen Methoden, um dies zu erreichen. Sie erklären, dass Deep-Learning-Modelle zwar Menschen übertreffen können, es aber wichtig ist zu verstehen, wie sie Entscheidungen treffen und ob diesen Entscheidungen vertraut werden kann. Interpretierbarkeit kann beim Debuggen, Entdecken und Bereitstellen von Erklärungen für Entscheidungen helfen. Der Referent fährt fort, Anti-Hawk- und Post-hoc-Methoden zur Interpretation zu diskutieren, sowie Interpretationsmodelle versus Entscheidungen. Anschließend vertiefen sie sich in spezifische Methoden zur Interpretation von Modellen, wie z. B. Gewichtsvisualisierung, Erstellung von Ersatzmodellen, Aktivierungsmaximierung und beispielbasierte Modelle. Abschließend erörtert der Referent Zuordnungsmethoden und die Bewertung der Wirksamkeit dieser Methoden durch qualitative und quantitative Maßnahmen.

  • 00:05:00 In diesem Abschnitt wird die Bedeutung der Interpretierbarkeit beim maschinellen Lernen betont, insbesondere im Bereich der Biowissenschaften, wo falsche Entscheidungen kostspielige Folgen haben können. Der traditionelle Ansatz, ein riesiges Modell zu bauen, ohne zu verstehen, wie und warum es funktioniert, reicht nicht mehr aus, stattdessen müssen interpretierbare Informationen aus Black-Box-Modellen extrahiert werden. Interpretierbares maschinelles Lernen liefert verifizierte Vorhersagen, die nicht nur für den Generalisierungsfehler, sondern auch für die menschliche Erfahrung optimiert sind. Es ist wichtig, die physikalischen, biologischen und chemischen Mechanismen von Krankheiten zu verstehen, um Ärzte besser auszubilden und Einblicke in die Funktionsweise des menschlichen Gehirns zu gewinnen. Darüber hinaus ist das Recht auf Erklärung von entscheidender Bedeutung bei der Bekämpfung von Verzerrungen, die Trainingsdatensätzen aufgrund jahrhundertelanger Diskriminierung inhärent sein können.

  • 00:10:00 In diesem Abschnitt des Videos erörtert der Sprecher zwei Arten von Interpretierbarkeit beim Deep Learning: Integrieren von Interpretierbarkeit in das Design des Modells und Aufbauen von Post-hoc-Interpretierbarkeit durch Entwicklung spezieller Techniken zum Interpretieren komplexer Modelle, nachdem sie erstellt wurden . Sie erklären, dass Deep Learning Millionen von Parametern hat, was es unmöglich macht, zunächst interpretierbare Modelle zu erstellen. Daher liegt der Fokus auf der Entwicklung von Techniken zur Post-Hoc-Interpretierbarkeit basierend auf ihrem Lokalitätsgrad. Der Referent erörtert auch Wege zum Aufbau interpretierbarer neuronaler Netze sowohl auf der Modell- als auch auf der Entscheidungsebene.

  • 00:15:00 In diesem Abschnitt erörtert der Referent die zwei Arten von interpretierbaren Modellen für Deep Learning: diejenigen, die das Modell selbst interpretieren, und diejenigen, die die Entscheidungen interpretieren. Die Entscheidungen können entweder auf Attributionsmethoden oder beispielbasierten Methoden basieren. Der Referent spricht auch über die Analyse der Repräsentationen selbst und die Generierung von Daten aus dem Modell. Sie stellen vier Arten von Ansätzen zur Analyse von Darstellungen vor, darunter Gewichtsvisualisierung, Erstellung von Ersatzmodellen und das Verständnis der Eingaben, die Aktivierungseinheiten maximieren. Abschließend betont der Redner, wie wichtig es ist, die internen Repräsentationen des Modells zu verstehen, insbesondere die hierarchischen Merkmale, die aus der linken Hälfte des Modells extrahiert wurden und einen Einblick geben können, wie Deep-Learning-Modelle Schlussfolgerungen ziehen.

  • 00:20:00 In diesem Abschnitt diskutiert der Dozent die Idee, Deep Learning zu interpretieren, indem er die interne Funktionsweise des neuronalen Netzwerks betrachtet. Er erklärt, dass wir genau wie Wissenschaftler den visuellen Kortex von Katzen und Affen untersucht haben, um zu verstehen, wie einzelne Neuronen in unterschiedlichen Ausrichtungen feuern, die Neuronen in einem neuronalen Netzwerk betrachten können, um die Primitiven oder Merkmale zu verstehen, die das Netzwerk zu erkennen gelernt hat. Bei Millionen von Parametern und Tausenden von internen Knoten ist es jedoch nicht möglich, jeden von ihnen zu visualisieren. Daher führt der Dozent die Idee von Ersatzmodellen oder Näherungsmodellen ein, die einfacher und besser interpretierbar sind. Die Vorlesung behandelt auch die Aktivierungsmaximierung, bei der das Ziel darin besteht, Daten zu generieren, die die Aktivierung eines bestimmten Neurons maximieren.

  • 00:25:00 In diesem Abschnitt erörtert der Referent ein Optimierungsproblem, das die Maximierung der Class-Aposteriori-Wahrscheinlichkeit für eine gegebene Eingabe beinhaltet, während gleichzeitig ein Regularisierungsterm verwendet wird, um sicherzustellen, dass die Ausgabe von Menschen interpretierbar ist. Sie erklären, dass eine einfache Maximierung basierend auf der Klassenwahrscheinlichkeit zu Bildern führen kann, die nicht viel Sinn ergeben, sodass der zusätzliche Regularisierungsterm erforderlich ist, um die Ausgabe so zu beschränken, dass sie interpretierbar ist. Sie berühren auch das Konzept latenter Variablen und Parameter, die helfen können, verrauschte Vektoren zu parametrisieren und die Qualität von Interpretationen zu verbessern. Ziel ist es, Daten zu generieren, die besser mit den Trainingsdaten übereinstimmen, sodass die Ausgabe den klassenbezogenen Mustern ähnelt und für Menschen einfacher zu interpretieren ist.

  • 00:30:00 Das Ziel besteht darin, bestimmte Features zu maximieren oder zu minimieren und diese Instanzen dann zu verwenden, um zu verstehen, wie das Modell seine Entscheidungen trifft. Dies kann durch Aktivierungsmaximierung innerhalb des Raums möglicher Eingaben erfolgen, wobei die Eingabe darauf beschränkt ist, aus einer menschenähnlichen Verteilung von Daten zu stammen. Alternativ kann ein generatives Modell verwendet werden, um Stichproben aus der Wahrscheinlichkeitsdichtefunktion dieser Verteilung zu ziehen. Indem die Darstellung innerhalb des Coderaums erzwungen wird, sind die resultierenden Bilder besser interpretierbar und können verwendet werden, um besser interpretierbare Modelle zu erstellen. Andere Techniken zum Erstellen interpretierbarer Modelle umfassen Gewichtsvisualisierung, Erstellen von Ersatzmodellen, die sich der Ausgabe annähern, und beispielbasierte Interpretation, bei der Instanzen verwendet werden, die bestimmte Merkmale entweder maximieren oder minimieren, um den Entscheidungsprozess des Modells zu verstehen.

  • 00:35:00 In diesem Abschnitt diskutiert der Referent vier verschiedene Arten der Interpretation von Entscheidungen des Modells, insbesondere im Hinblick auf praktische Anwendungen. Die erste Methode ist beispielbasiert, bei der Beispiele ausgewählt werden, die falsch klassifiziert sind und der jeweiligen Eingabe nahe kommen, um dem Modell beizubringen, wie es sich verbessern kann. Die zweite Methode ist die aktive Zuordnung, bei der untersucht wird, warum ein bestimmter Gradient verrauscht ist. Das dritte Verfahren ist eine Gradienten-basierte Zuordnung mit glatten Gradienten oder inneren Gradienten, und das letzte Verfahren ist eine Back-Prop-basierte Zuordnung mit Faltung und geführter Schwarzausbreitung. Die Einschränkungen der Interpretation auf Modellebene werden ebenfalls erwähnt, insbesondere wenn es darum geht, das beste Bild zur Interpretation der Klassifizierung zu bestimmen.

  • 00:40:00 In diesem Abschnitt erörtert der Referent die Herausforderung bei der Interpretation von Deep-Learning-Modellen im Hinblick auf die Suche nach einem Prototyp oder einem typischen Bild, das ein komplexes Konzept darstellt, z. B. ein Motorrad oder eine Sonnenblume. Die beispielbasierte Methode wird eingeführt, um zu identifizieren, welche Trainingsinstanz eine Entscheidung am meisten beeinflusst, ohne die wichtigen Merkmale dieser Bilder besonders hervorzuheben. Das Verfahren zielt darauf ab, die nächstgelegenen Trainingsbilder auf der Grundlage ihres Einflusses auf die Klassifizierung eines bestimmten Bildes und nicht auf Pixelnähe zu bestimmen. Der Referent spricht auch über die Fragilität von Interpretationen neuronaler Netzwerkmodelle und die Verwendung von Einflussfunktionen zum Verständnis des zugrunde liegenden Lernprozesses.

  • 00:45:00 In diesem Abschnitt stellt der Referent zwei Methoden zur Interpretation von Deep-Learning-Modellen vor. Die erste ist die beispielbasierte Interpretation, die einzelne Beispiele im Trainingssatz betrachtet, um den Entscheidungsprozess des neuronalen Netzwerks zu verstehen. Die zweite sind Attributionsmethoden, die jedem Pixel in einem Bild einen Attributwert zuweisen, um zu bestimmen, wie viel es zur Klassifizierungsentscheidung beiträgt. Ziel beider Methoden ist es, maschinelles Lernen für den Menschen interpretierbar und verständlich zu machen und die markantesten Merkmale eines Bildes zu identifizieren. Durch die Visualisierung der Attributwerte als Heatmaps können Forscher ein besseres Verständnis dafür entwickeln, wie tiefe neuronale Netzwerke Entscheidungen treffen und welche Pixel in einem Bild am meisten für diese Entscheidung verantwortlich sind.

  • 00:50:00 In diesem Abschnitt erklärt der Referent, wie man die Hervorhebung eines Bildes mit der gleichen Methodik wie die Rückwärtsausbreitung während des Trainings berechnet. Anstatt Ableitungen relativ zu Gewichten zu betrachten, betrachten sie Ableitungen relativ zu Pixeln. Die Ausprägungskarte wird dann berechnet, indem diese Pixel visuell wieder dem Bild zugeordnet werden. Diese Ausprägungskarten neigen jedoch dazu, verrauscht und ungenau zu sein. Der Referent erläutert zwei Hypothesen, um zu erklären, warum dies der Fall ist: Entweder sind die verstreuten Pixel für den Entscheidungsprozess des neuronalen Netzwerks wichtig, oder die Gradienten könnten diskontinuierlich sein. Der Referent erklärt dann, wie diese Hypothesen die Entwicklung von Methoden zur Behandlung der verrauschten Salienzkarten geleitet haben.

  • 00:55:00 In diesem Abschnitt des Vortrags diskutiert der Referent drei Hypothesen im Zusammenhang mit der Diskontinuität von Gradienten in neuronalen Deep-Learning-Netzen. Die erste Hypothese ist, dass die zu lernende Funktion nicht glatt ist, und wenn mehr Schichten hinzugefügt werden, wird das Brennen extrem diskontinuierlich, was zu Fehlklassifizierungen führt. Zweitens sind Gradienten aufgrund der Anzahl von Schichten und nicht abgeleiteten Funktionen diskontinuierlich, was Rauschen verursacht und Tricks bei Klassifizierungsfunktionen ermöglicht. Die dritte Hypothese legt nahe, dass die Funktion gesättigt ist und die Fähigkeit verhindert wird, etwas Glatteres zu lernen. Um diese partiellen Ableitungen in Bezug auf die Eingabe zu verbessern, besteht eine erörterte Möglichkeit darin, Rauschen hinzuzufügen, um die Eingabe zu stören, und den Gradienten an der gestörten Eingabe zu verwenden oder den Durchschnitt über mehrere Störungen zu nehmen, um den verrauschten Gradienten zu glätten.

  • 01:00:00 In diesem Abschnitt diskutierte der Referent Lösungen für Deep-Learning-Herausforderungen, die durch diskontinuierliche Gradienten oder gesättigte Funktionen verursacht werden. Dazu gehörten Methoden zum Ändern der Gradienten oder Backpropagation und zum Verwenden mehrerer Bilder mit zusätzlichem Rauschen. Der Referent diskutierte auch verschiedene Attributionsmethoden wie Layer-Wise Relevance Propagation und Deep Lift zur Interpretation genregulatorischer Modelle. Um die Diskontinuität von Gradienten zu beheben, schlugen sie vor, eine glatte Gradientenfunktion zu definieren, indem kleine Störungen der Eingabe über viele Samples gemittelt werden, wodurch die Gradientenfunktion effektiv geglättet wird, damit sie wie ein flaches Netzwerk und nicht wie ein tiefes Netzwerk funktioniert. Darüber hinaus erklärte der Referent, wie das Hinzufügen von zufälligem Rauschen zu Bildern dazu beitragen könnte, die Robustheit des Modells zu demonstrieren und die hervorstechenden Merkmale hervorzuheben, die immer wieder bei der Bildklassifizierung verwendet werden.

  • 01:05:00 In diesem Abschnitt diskutiert der Dozent drei Hypothesen zur Interpretation von Deep-Learning-Modellen im Bereich Life Sciences. Die zweite Hypothese legt nahe, dass die Gradienten bei jedem bestimmten Bild diskontinuierlich sind, aber indem eine Probe von mehreren Bildern genommen wird, die dieses Bild umgeben, kann ein glatterer Gradient erhalten werden. Die dritte Hypothese legt nahe, dass die Funktion gesättigt ist, was zu extremen Aktivierungen führt. Um dem entgegenzuwirken, schlägt der Dozent vor, die Bilder zu verkleinern, um sie den verteilbaren Funktionen näher zu bringen. Dies geschieht durch innere Gradienten, die verwendet werden, um die Pixel des Bildes neu zu skalieren. Hintergrundbasierte Methoden werden ebenfalls untersucht, wie z. B. dekonvolutionäre neuronale Netze und geführte Rückausbreitung aufgrund der Herausforderung von auf Null gesetzten Werten in der gleichgerichteten linearen Einheit.

  • 01:10:00 In diesem Abschnitt erörtert der Referent die Herausforderungen der Backpropagation beim Deep Learning und wie sie mithilfe dekonvolutioneller neuronaler Netze angegangen werden können. Durch die Abbildung von Merkmalsmustern auf den Eingaberaum und die Rekonstruktion des Bildes können entfaltende neuronale Netze eine gültige Merkmalsrekonstruktion erhalten und Rauschen entfernen, indem negative Gradienten entfernt werden. Der Referent erklärt auch, wie geführte Backpropagation verwendet werden kann, um Informationen aus den Vorwärts- und Rückwärtsdurchläufen zu kombinieren, um Bilder zu erzeugen, die repräsentativ für das Originalbild sind. Darüber hinaus diskutiert der Referent Methoden zur Bewertung dieser Attributionsmethoden, einschließlich qualitativer und quantitativer Ansätze auf der Grundlage von Kohärenz und Klassensensitivität. Schließlich untersucht der Referent verschiedene Attributionsmethoden wie Deep Lift, Salienzkarten und Smooth Grad und ihre Wirksamkeit bei der Erfassung bestimmter Pixel, die für eine bestimmte Klassifizierung verantwortlich sind.

  • 01:15:00 In diesem Abschnitt geht der Referent auf die quantitative Bewertung von Attributionsmethoden im Deep Learning ein. Das Ziel besteht darin, zu bewerten, ob diese Methoden das beabsichtigte Objekt von Interesse richtig erfassen und verschiedene Objektklassen unterscheiden. Der Referent stellt das Pixel-Flipping-Verfahren zur Entfernung einzelner Merkmale mit hohen Attributwerten vor und wertet die Klassifikationsfunktion aus, um die Sensitivität des Verfahrens zu messen. Die Genauigkeit von Hervorhebungszuschreibungen und Klassifizierungszuschreibungen kann mithilfe einer Kurve gemessen werden, und der Sprecher schlägt vor, sie zu entfernen und neu zu trainieren, um eine bessere Genauigkeit zu erreichen. Insgesamt diskutiert der Abschnitt quantitative Methoden zur Bewertung der Effektivität von Deep-Learning-Attributionsmethoden.

  • 01:20:00 In diesem Abschnitt erklärt der Referent, wie die Leistung eines Klassifikators gemessen werden kann, indem spezifische Merkmale basierend auf der Attributionsmethode entfernt werden. Der Ansatz „Score entfernen und ersetzen“ beinhaltet das Ersetzen eines bestimmten Prozentsatzes der wichtigsten oder am wenigsten wichtigen Pixel und das erneute Trainieren des tiefen neuronalen Netzwerks, um die Änderung der Genauigkeit zu messen. Dies stellt eine quantitative Metrik zur Bewertung der Genauigkeit von Interpretationsentscheidungen bereit. Der Referent fasst auch die Bedeutung der Interpretierbarkeit und verschiedener Techniken zum Interpretieren von Deep-Learning-Modellen unter Verwendung von Attributionsmethoden und Aktivierungsmaximierung sowie die Herausforderungen von Post-hoc-Methoden zusammen.

  • 01:25:00 In diesem Abschnitt erörtert der Dozent, wie Deep-Learning-Modelle eingeschränkt werden können, und erläutert die wichtigsten Merkmale, die mithilfe von Backpropagation, Dekonvolution und geführter Backpropagation gefunden werden können. Verschiedene Methoden zur Bewertung dieser Teilungsmethoden wurden ebenfalls hervorgehoben, darunter Kohärenz, Klassensensitivität und quantitative Metriken zum Entfernen von Merkmalen mit hoher Zuordnung. Anschließend stellte der Dozent Methoden zum Entfernen und Neutrainieren vor, bei denen einzelne Pixel entfernt, neu trainiert und der Genauigkeitsabfall gemessen werden können. Der Vortrag wurde mit einem Rückblick auf die behandelten Themen abgeschlossen und kommende Vorträge wurden angekündigt.
 

Generative Models, Adversarial Networks GANs, Variational Autoencoders VAEs, Representation Learning - Vorlesung 06 (Frühjahr 2021)



Generative Models, Adversarial Networks GANs, Variational Autoencoders VAEs, Representation Learning - Vorlesung 06 (Frühjahr 2021)

Dieses Video diskutiert das Konzept des Repräsentationslernens beim maschinellen Lernen und betont dessen Bedeutung bei Klassifizierungsaufgaben und Innovationspotenzial bei der Entwicklung neuer Architekturen. Durch Techniken wie Autoencoder und Variations-Autoencoder (VAEs) werden selbstüberwachte Aufgaben und Vorwandaufgaben eingeführt, um Repräsentationen zu lernen, ohne dass beschriftete Daten erforderlich sind. Der Referent diskutiert auch generative Modelle wie VAEs und Generative Adversarial Networks (GANs), die durch Manipulation der latenten Raumrepräsentation neue Daten generieren können. Die Vor- und Nachteile jeder Methode werden diskutiert und ihre Wirksamkeit, aber auch ihre Grenzen hervorgehoben. Insgesamt bietet das Video einen umfassenden Überblick über verschiedene Ansätze zum Repräsentationslernen und zu generativen Modellen im maschinellen Lernen.

Das Video untersucht die Konzepte von Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs) und Repräsentationslernen in generativen Modellen. Bei GANs haben der Generator und der Diskriminator entgegengesetzte Ziele, und der Trainingsprozess ist für gefälschte Proben langsam, aber Verbesserungen der Auflösung und der Objektivfunktion können zu realistisch aussehenden Bildern führen. Der Referent demonstriert, wie GANs architektonisch plausible Räume generieren und einen Raum in einen anderen übertragen können. VAEs modellieren explizit Dichtefunktionen und erfassen die Vielfalt realer Bilder durch aussagekräftige latente Raumparameter. Der Referent fördert Kreativität und Experimente mit offenen Architekturen und Modellen, und die Anwendung generativer Modelle und Repräsentationslernen in verschiedenen Bereichen ist ein schnell wachsendes Feld mit unbegrenzten Möglichkeiten.

  • 00:00:00 In diesem Abschnitt erörtert der Referent das Konzept des Repräsentationslernens beim maschinellen Lernen und wie es in Convolutional Neural Networks (CNNs) verwendet wurde, um etwas über die Welt zu lernen. Sie betonen, dass der wahre Fortschritt des Deep Learning von der Fähigkeit von CNN herrührt, Nichtlinearitäten und Darstellungen über die Welt durch Merkmalsextraktion zu lernen. Der Referent argumentiert, dass Klassifikationsaufgaben die Merkmalsextraktion vorantreiben und dass hieraus die gesamte Wissensrepräsentation der Welt stammt. Sie weisen auch darauf hin, dass es Potenzial für Innovation bei der Entwicklung neuer Architekturen für das Repräsentationslernen in verschiedenen Bereichen gibt, die über bestehende Architekturen hinausgehen. Schließlich behaupten sie, dass der aufregendste Teil generativer Modelle eher die latente Raumdarstellung als die Etiketten sind und dass solche Modelle verwendet werden können, um ein Modell der Welt zu lernen, ohne sich auf Etiketten zu verlassen.

  • 00:05:00 In diesem Abschnitt erörtert der Referent das Repräsentationslernen und die Verwendung von selbstüberwachtem Lernen für diesen Zweck. Selbstüberwachtes Lernen beinhaltet die Verwendung eines Teils der Daten, um einen anderen Teil der Daten zu trainieren und die Daten dazu zu bringen, ihr eigener Supervisor zu sein. Dies ermöglicht das Erlernen von coolen Darstellungen, mit denen sich Weltbilder generieren lassen. Generative Modelle funktionieren, indem sie das Modell rückwärts laufen lassen und von der komprimierten Darstellung der Welt zu weiteren Beispielen davon gehen. Ein weiterer Ansatz zum Repräsentationslernen sind Pre-Text-Aufgaben, bei denen die vorliegende Aufgabe lediglich eine Entschuldigung zum Erlernen von Repräsentationen ist. Das gegebene Beispiel ist die Selbstvorhersage, worum es bei Auto-Encodern geht. Das Konzept, eine komprimierte Repräsentation zu durchlaufen und sie durch eine Klemme wieder in das Bild selbst zu expandieren, ist sinnvoll genug, dass eine der Welt zugrunde liegende Repräsentation erlernt werden kann. Variations-Autoencoder modellieren explizit die Varianz und die Verteilungen.

  • 00:10:00 In diesem Abschnitt erörtert der Redner das Konzept der Scheinaufgaben, das sich auf die Verarbeitung von Eingangssignalen durch ein Netzwerk bezieht, um Repräsentationen des Netzwerks zu lernen, und die Verwendung des Eingangssignals, um ein Trainingssignal zu erzeugen, das eine Aufgabe ist, die man erledigt ist mir eigentlich egal. Beispiele für Vorwandaufgaben sind das Vorhersagen von Vorher- und Nachher-Bildern, das Vorhersagen der verbleibenden Pixel eines Bildes nach dem Entfernen eines Patches und das Kolorieren von Schwarzweißbildern. Das Ziel von Vorwandsaufgaben ist es, sich selbst dazu zu zwingen, Darstellungen der Welt zu lernen, was zu effektiven überwachten Lernaufgaben führt. Es ist wichtig, dieses Konzept zu verstehen, da es zu den nachfolgenden Diskussionsthemen wie Autoencodern, Variations-Autoencodern und generativen kontradiktorischen Netzwerken führt.

  • 00:15:00 In diesem Abschnitt wird das Konzept des selbstüberwachten Lernens eingeführt, um gute Darstellungen zu lernen, indem Vorwandsaufgaben erstellt werden, die das Lernen ermöglichen, ohne dass beschriftete Daten erforderlich sind. Vorwandaufgaben umfassen unter anderem das Ableiten der Struktur eines Bildes, das Transformieren von Bildern oder das Verwenden mehrerer Bilder. Ein Beispiel für eine Vorwandaufgabe ist das Ableiten der relativen Ausrichtung von Bildflecken, während ein anderes eine Puzzleaufgabe ist, bei der das Originalbild rekonstruiert werden muss. Die Vor- und Nachteile der einzelnen selbstüberwachten Methoden werden diskutiert, wobei ihre Wirksamkeit, aber auch ihre Grenzen hervorgehoben werden, wie z. B. die Annahme fotografischer kanonischer Orientierungen in Trainingsbildern oder begrenzter Außenraum.

  • 00:20:00 In diesem Abschnitt erklärt der Sprecher das Konzept von Vorwandaufgaben, indem er das gleiche Konzept von Vorwandaufgaben aufbaut und sie auf verschiedene Beispiele anwendet, um eine Repräsentation der Welt zu lernen, die uns dazu bringt, scheinbar komplexe Aufgaben tatsächlich zu lösen etwas Interessantes über die Welt lernen. Eines der Beispiele umfasst das Erstellen einer Codierer- und Decodiererdarstellung, um niederdimensionale Merkmalsdarstellungen aus unbeschrifteten Daten zu lernen, wodurch eine nicht überwachte Lernaufgabe in eine überwachte Lernaufgabe trainiert wird. Das Ziel besteht darin, aussagekräftige Darstellungen von Datenvariationen zu erzwingen und Funktionen zu verwenden, um die decodierte Version Ihres codierten Originalbilds zu erstellen, und die Verlustfunktion ist die Differenz zwischen dem Original und dem vorhergesagten.

  • 00:25:00 In diesem Abschnitt erklärt der Referent, wie Autoencoder verwendet werden können, um Darstellungen der Welt zu erstellen und Bilder über eine Generatorfunktion zu erzeugen. Der z-Vektor in Autoencodern kann aussagekräftige Informationen über die relativen Merkmale und das Vorhandensein verschiedener Merkmale in der Welt liefern, die zum Generieren zusätzlicher Bilder verwendet werden können. Der Codierer und der Decodierer können separat für verschiedene Aufgaben verwendet werden, wie zum Beispiel die Verwendung des Decodierers als generatives Modell und des Codierers als Merkmalsraumvektor für das Repräsentationslernen. Der Referent stellt dann das Konzept der Variations-Autoencoder (VAEs) vor, bei dem es sich um eine probabilistische Variante von Autoencodern handelt, mit der wir Stichproben aus dem Modell ziehen können, um zusätzliche Daten zu generieren. VAEs lernen aus einer mehrdimensionalen Darstellung eines Satzes von Skalaren und zugehörigen Varianzen für jeden Skalar. Durch Abtasten des wahren Priors des latenten Raumvektors können wir Bilder basierend auf verschiedenen Attributen des Bildes erzeugen.

  • 00:30:00 In diesem Abschnitt erörtert der Referent generative Modelle und ihr Ziel, die Welt durch Abstimmung verschiedener Vektoren im Autoencoder zu erfassen. Diese Vektoren sind letztendlich aussagekräftige Darstellungen der Welt, die das Sampling verschiedener Bilder durch Variieren der Parameter ermöglichen. Die Strategie zum Trainieren der generativen Modelle besteht darin, die Wahrscheinlichkeit der Trainingsdaten durch Lernen der Modellparameter zu maximieren. Der Referent stellt dann Variations-Autoencoder vor, die wahrscheinlichkeitstheoretisch Modelle generieren, indem sie den Mittelwert und die Varianz der Daten explizit modellieren. Indem der Encoder sowohl ein einzelnes z als auch eine Varianz des z bereitstellt, kann der Sprecher beide Normalverteilungen abtasten und verschiedene Variationen von Objekten, wie z. B. Booten, erkennen.

  • 00:35:00 In diesem Abschnitt erklärt der Referent das Konzept von Variational Autoencodern (VAEs) und wie sie funktionieren. VAEs bestehen aus einem Encoder-Netzwerk, das Eingabedaten auf einen latenten Raum abbildet, einem Decoder-Netzwerk, das Ausgabedaten aus dem latenten Raum generiert, und einem Erzeugungsnetzwerk, das Bilder aus der durch das Encoder-Netzwerk erlernten Darstellung generiert. Der Referent erklärt, dass die VAE-Verlustfunktion eine variierende untere Grenze ist, die die Rekonstruktion der Eingabedaten und die Annäherung der vorherigen Verteilung von Bildern unter Verwendung des Decodernetzwerks maximiert. Der Sprecher erwähnt auch, dass der Term der KL-Divergenz hartnäckig ist, aber als Untergrenze für die Optimierung durch Gradientenabstieg behandelt werden kann.

  • 00:40:00 In diesem Abschnitt erläutert der Referent, wie generative Modelle wie beispielsweise Variations-Autoencoder (VAEs) verwendet werden können, um eine Repräsentation der Welt mit aussagekräftigen Merkmalen zu konstruieren. Durch die Codierung von Bildern mit nur zwei Dimensionen kann das VAE den Raum aller möglichen Zeichen erfassen und jede Art von Zeichen erzeugen, die mit nur einer zweidimensionalen Koordinate dargestellt werden kann. Durch Diagonalisieren des Priors auf z lernt das Netzwerk unabhängige latente Variablen, und die unterschiedlichen Dimensionen von z codieren interpretierbare Variationsfaktoren in einer guten Merkmalsdarstellung. Dieses Encoder-Netzwerk ermöglicht es Benutzern, Daten zu generieren und den latenten Raum durch die vorherige Verteilung von z zu decodieren, was VAEs zu einem nützlichen Werkzeug für das Repräsentationslernen macht.

  • 00:45:00 In diesem Abschnitt diskutiert das Video die Verwendung von Variations-Autoencodern (VAEs) als prinzipieller Ansatz für generative Modelle, der die Ableitung des latenten Raums bei gegebenem x ermöglicht, was eine nützliche Darstellung für andere Aufgaben sein kann. VAEs haben jedoch einige Nachteile, wie z. B. die Maximierung der Untergrenze der Wahrscheinlichkeit, was nicht so gut ist wie die explizite Bewertung der Wahrscheinlichkeit. Die generierten Samples von VAEs sind auch unschärfer und von geringerer Qualität im Vergleich zu denen von Generative Adversarial Networks (GANs). Es wird laufend geforscht, um die Qualität von Proben aus VAEs zu verbessern, z. B. die Verwendung flexiblerer Näherungen für reichhaltigere Posterior-Verteilungen und die Einbeziehung von Strukturen in die latenten Variablen. Das Video fasst auch die wichtigsten Erkenntnisse aus den vorherigen Abschnitten zu Generierung, unüberwachtem Lernen und latenten Raumparametern zusammen.

  • 00:50:00 In diesem Abschnitt wird das Konzept der Generative Adversarial Networks (GANs) diskutiert. GANs sind so konzipiert, dass sie komplexe hochdimensionale Bilder erzeugen, indem sie aus einer einfachen Verteilung, wie z. B. zufälligem Rauschen, abtasten und Transformationen lernen, um Bilder aus einem Trainingssatz zu erstellen. Das System besteht aus einem Generatornetzwerk zum Erstellen gefälschter Bilder und einem Diskriminatornetzwerk zum Unterscheiden zwischen echten und gefälschten Bildern. Ziel ist es, den Generator zu trainieren, realistischere Bilder zu erzeugen, indem der Diskriminator, der dabei zum Gegner wird, getäuscht wird. Das System ist selbstüberwachend, d. h. es ist keine manuelle Kennzeichnung erforderlich, und ersetzt die Notwendigkeit menschlicher Bewerter.

  • 00:55:00 In diesem Abschnitt erläutert der Referent das Konzept der Generative Adversarial Networks (GANs), die einen Mini-Max-Game-Ansatz verwenden, um einen Generator und ein Diskriminator-Netzwerk zu trainieren. Der Diskriminator wird darauf trainiert, zu bestimmen, ob die erzeugten Bilder echt oder falsch sind, während der Generator darauf trainiert ist, Bilder zu erzeugen, die den Diskriminator dazu bringen können, zu glauben, dass sie echt sind. Durch diese gemeinsame Likelihood-Funktion werden die Gewichte und Parameter beider Netzwerke gleichzeitig trainiert, mit dem Ziel, dass der Diskriminator eine Punktzahl von 1 für echte Bilder und 0 für gefälschte Bilder ausgibt. Der Generator hingegen zielt darauf ab, diese Punktzahl zu minimieren, indem Bilder erzeugt werden, die von echten nicht zu unterscheiden sind.

  • 01:00:00 In diesem Abschnitt wird das Konzept der Generative Adversarial Networks (GANs) erklärt, bei denen ein Generator und ein Diskriminator in einem spielähnlichen Szenario gegensätzliche Ziele haben. Der Generator versucht, gefälschte Daten zu erzeugen, die den Diskriminator täuschen, der gelernt hat, echte Daten korrekt zu klassifizieren. Das Training ist jedoch langsam, wenn die Probe gefälscht ist, daher wird ein Trick verwendet, bei dem das Ziel des Generators geändert wird, um die Wahrscheinlichkeit zu maximieren, dass der Diskriminator für die gefälschten Daten falsch ist. Das gemeinsame Training der beiden Netzwerke kann eine Herausforderung sein, aber die schrittweise Erhöhung der Auflösung der Bilder kann die Stabilität verbessern. Der GAN-Trainingsalgorithmus umfasst das Wechseln zwischen dem Aktualisieren des Diskriminators durch Erhöhen des stochastischen Gradienten und dem Aktualisieren des Generators unter Verwendung der verbesserten Zielfunktion.

  • 01:05:00 In diesem Abschnitt behandelt das Video das Konzept von Generative Adversarial Networks (GANs) und den Trainingsprozess, der mit dem Aufbau eines Generatornetzwerks zur Erstellung realistischer Bilder verbunden ist. Das Video erklärt, wie das Diskriminatornetzwerk trainiert wird, um zwischen den generierten Bildern und tatsächlichen Bildern zu unterscheiden, und wie das Generatornetzwerk trainiert wird, um die Qualität der generierten Bilder so weit zu verbessern, dass sie die menschliche Leistung übertreffen. Das Video erklärt außerdem, wie man tiefe Faltungsarchitekturen mit fraktioniert gestreiften Faltungen erstellt und ReLU- und Leaky-ReLU-Aktivierungsfunktionen verwendet, um realistisch aussehende Bilder zu erhalten. Das Video demonstriert das Potenzial der Verwendung von GANs zur Erzeugung architektonisch plausibler Räume und zeigt, wie ein Raum in einen anderen übertragen werden kann, indem zwischen latenten Raumkoordinaten interpoliert wird.

  • 01:10:00 In diesem Abschnitt erörtert der Referent generative Modelle wie GANs, Variational Autoencoders (VAEs) und Repräsentationslernen. Das Ziel dieser Modelle ist es, vielfältige und realistische Beispiele zu generieren, indem die zugrunde liegenden Muster und Stile der realen Welt erlernt werden. Der Referent präsentiert Beispiele dafür, wie diese Modelle in der Lage sind, verschiedene Bildbearbeitungsaufgaben durchzuführen, wie z. B. Hochskalierung, Übertragung von Domänenwissen und Textursynthese. Der Redner hebt auch die Fortschritte hervor, die in diesen Modellen gemacht wurden, wie Progressive GANs, die das Generieren hochauflösender Bilder ermöglichen, und Nvidias „This person does not exist“-Website, die eine große Anzahl von Parameterräumen verwendet, um orthogonale Parameter zu lernen, die dies ermöglichen die Zerlegung verschiedener Bildkomponenten.

  • 01:15:00 In diesem Abschnitt erläutert der Referent eine Taxonomie generativer Modelle, die die Modellierung expliziter oder impliziter Dichtefunktionen umfassen kann. Generative Adversarial Networks (GANs) modellieren Dichtefunktionen implizit durch Kopplungsgenerator- und Diskriminatornetzwerke, während Variational Autoencoder (VAEs) Dichtefunktionen explizit modellieren. Die Kraft des Deep Learning liegt im Repräsentationslernen, und der Redner fördert Kreativität und Experimente mit den vielen offenen Architekturen und Modellen des jungen Felds. Die Verwendung von Vorwandsaufgaben, wie z. B. Selbstvorhersage oder Ausfüllen fehlender Flecken, kann helfen, sinnvolle latente Repräsentationen der Welt zu lernen und sich zu wirklich generativen Modellen zu bewegen, die aus einer echten Verteilung latenter Raumparameter abtasten können.

  • 01:20:00 In diesem Abschnitt erörtert der Referent das Konzept der Erfassung der Vielfalt realer Bilder durch aussagekräftige Parameter des latenten Raums in Variations-Autoencodern (VAEs). Indem die latenten Raumparameter so eingeschränkt werden, dass sie orthogonal und voneinander verschieden sind, können die resultierenden Bilder von echten Menschen nicht zu unterscheiden sein. Darüber hinaus stellt der Referent fest, dass die Anwendung generativer Modelle und des Repräsentationslernens ein schnell wachsendes Gebiet mit unbegrenzten Möglichkeiten in verschiedenen Bereichen ist.
 

Regulatorische Genomik - Deep Learning in Life Sciences - Vorlesung 07 (Frühjahr 2021)



Regulatorische Genomik - Deep Learning in Life Sciences - Vorlesung 07 (Frühjahr 2021)

Die Vorlesung behandelt das Gebiet der regulatorischen Genomik, einschließlich der biologischen Grundlagen der Genregulation, klassischer Methoden der regulatorischen Genomik, der Motiventdeckung mit Hilfe von Convolutional Neural Networks und der Verwendung von Modellen des maschinellen Lernens, um zu verstehen, wie Sequenzen Genregulationseigenschaften kodieren. Der Referent erklärt die Bedeutung regulatorischer Motive in der Genregulation und wie Störungen dieser Motive zu Krankheiten führen können. Sie führen ein neues Modell ein, das ein konvolutionelles neuronales Netzwerk verwendet, das Sequenzierungs-Reads auf das Genom abbildet und zählt, wie viele Fünf-Prime-Enden jedes Basenpaar auf den beiden Strängen hat. Das Modell kann für mehrere Auslesungen verschiedener Proteine verwendet werden und kann separat oder gleichzeitig mit einem Multitask-Modell angepasst werden. Der Referent zeigt auch, wie das Modell jede Art von Assay analysieren kann, einschließlich genomischer Daten, indem es Interpretationsrahmen verwendet, die biologische Geschichten darüber aufdecken, wie die Syntax die TF-Kooperativität beeinflusst. Die Modelle können Vorhersagen treffen, die durch hochauflösende CRISPR-Experimente validiert werden.

Das Video erläutert, wie Deep Learning die Qualität von ATAC-seq-Daten mit geringer Abdeckung verbessern kann, indem Signalspitzen verstärkt und entrauscht werden. AttackWorks ist ein Deep-Learning-Modell, das Abdeckungsdaten aufnimmt und eine verbleibende neuronale Netzwerkarchitektur verwendet, um die Signalgenauigkeit zu verbessern und zugängliche Chromatinstellen zu identifizieren. Der Referent demonstriert, wie AttackWorks verwendet werden kann, um Daten mit geringer Qualität zu verarbeiten und die Auflösung der Untersuchung der Chromatin-Zugänglichkeit von Einzelzellen zu erhöhen. Sie beschreiben auch ein spezielles Experiment mit hämatopoetischen Stammzellen, bei dem ATAC-seq verwendet wurde, um spezifische regulatorische Elemente zu identifizieren, die am Lineage Priming beteiligt sind. Der Referent lädt Studierende ein, Praktika oder Kooperationen anzustreben.

  • 00:00:00 In diesem Abschnitt stellt der Dozent das Gebiet der regulatorischen Genomik vor und lädt Gastredner ein, um einflussreiche Papiere zu diskutieren und Möglichkeiten für Zusammenarbeit und Praktika für die Studenten zu bieten. Die Vorlesung bildet den Auftakt zu Modul 2 zur Genregulation und behandelt die biologischen Grundlagen der Genregulation, klassische Methoden der regulatorischen Genomik und Motiventdeckung mit Convolutional Neural Networks. Der Vortrag betont die Komplexität des genetischen Codes, der den Aufbau und die Entwicklung eines selbstheilenden Organismus mit komplizierten Verbindungen über jeden Aspekt des Körpers, von Kopf bis Fuß, ermöglicht.

  • 00:05:00 In diesem Abschnitt wird die Komplexität von Zellen diskutiert und wie sie sich an ihre Identität erinnern, obwohl sie keine Kontextinformationen haben. Der regulatorische Schaltkreis von Zellen wird ebenfalls hervorgehoben, der auf einer Reihe von Grundelementen und Konstrukten basiert, die es Zellen ermöglichen, sich an den Zustand jedes Teils des Genoms zu erinnern. Die Verpackung von DNA sowohl in strukturelle als auch in funktionelle Konstrukte ist ein wesentlicher Bestandteil dieses Prozesses, wodurch Zellen in der Lage sind, so viel DNA in sich zu komprimieren. Diese Verpackung erfolgt durch Nukleosomen, kleine Kügelchen in einer Fadenansicht von DNA, die aus vier Histonproteinen bestehen, von denen jedes einen langen Aminosäureschwanz hat, der posttranslational mit verschiedenen Histonmodifikationen modifiziert werden kann. Diese Modifikationen arbeiten mit zusätzlichen epigenomischen Markierungen wie CPG-Dinukleotiden direkt auf der DNA, damit sich Zellen an ihre Identität erinnern können.

  • 00:10:00 In diesem Abschnitt erörtert der Referent die drei Arten von Modifikationen in der Epigenomik: DNA-Zugänglichkeit, Histonmodifikationen und DNA-Methylierung. Er erklärt, wie diese Modifikationen die Genregulation und die Bindung von Transkriptionsfaktoren beeinflussen können. Durch die Verwendung der Sprache der Epigenomik kann man jeden Zelltyp im Körper programmieren, indem man die Verdichtung der DNA auf spezifische Signaturen von Promotorregionen abstimmt. Promotoren, transkribierte Regionen, reprimierte Regionen und Enhancer-Regionen sind alle durch verschiedene Sätze von Markierungen markiert, die identifiziert und untersucht werden können. Insbesondere Enhancer sind extrem dynamisch und durch H3K4-Monomethylierung, H3K27-Acetylierung und DNA-Zugänglichkeit gekennzeichnet.

  • 00:15:00 In diesem Abschnitt erklärt der Sprecher das Konzept der „Chromatin-Zustände“, die verschiedene Zustände des Chromatins sind, die unter anderem Enhancern, Promotoren, transkribierten und reprimierten Regionen entsprechen. Ein multivariates Hidden-Markov-Modell wird verwendet, um diese Chromatinzustände zu entdecken, und dies wird verwendet, um Enhancer-Regionen, Promotorregionen und transkribierte Regionen in verschiedenen Zelltypen des Körpers zu lokalisieren. Die Art und Weise, wie Proteine DNA erkennen, wird ebenfalls erklärt, wobei Transkriptionsfaktoren DNA-Bindungsdomänen verwenden, um spezifische DNA-Sequenzen im Genom zu erkennen. Der Referent spricht auch über DNA-Motive und Positionsgewichtsmatrizen, die es ermöglichen, die Spezifität einer DNA-Sequenz zu erkennen, und informationstheoretische Maßnahmen, die Bindungsstellen für Regulatoren unterscheiden.

  • 00:20:00 In diesem Abschnitt des Vortrags diskutiert der Referent die Bedeutung regulatorischer Motive in der Genregulation und wie Störungen dieser Motive zu Krankheiten führen können. Anschließend erläutert der Referent drei Technologien zur Untersuchung der Genregulation: Chromatin-Immunpräzipitation, DNA-Zugänglichkeit und ATAC-seq. Diese Technologien können verwendet werden, um die Standorte von Enhancern zu kartieren und die Sprache der DNA zu entdecken, indem Motive verwendet und Deep-Learning-Modelle erstellt werden.

  • 00:25:00 In diesem Abschnitt des Videos erörtert der Sprecher die Verwendung von maschinellen Lernmodellen, um zu verstehen, wie Sequenzen Genregulationseigenschaften kodieren. Sie stellt verschiedene Experimente vor, die regulatorische DNA profilieren, und betont die Notwendigkeit, die komplexe Syntax regulatorischer Elemente zu verstehen, um spezifische Reaktionen voranzutreiben. Das Problem wird als maschinelle Lernaufgabe modelliert, bei der jedes Genom in kleine Stücke von tausend Basenpaaren aufgeteilt wird und jedes dieser Basenpaare mit einem Signal aus dem Experiment verknüpft ist.

  • 00:30:00 In diesem Abschnitt erörtert der Referent den traditionellen Ansatz, genetische Informationen zusammenzufassen, indem er mithilfe verschiedener maschineller Lernmodelle Sequenzen auf Skalare abbildet. Dieser Ansatz führt jedoch zu einem Informationsverlust, da Leseabdeckungsprofile bei Einzelnukleotidauflösung Geometrien enthalten, die die Protein-DNA-Interaktion widerspiegeln, was zu hochauflösenden Footprints führt. Diese komplizierten Details gehen verloren, wenn Informationen in einem Skalar zusammengefasst werden. Um dieses Problem zu beheben, betont der Redner die Notwendigkeit, ein neues Modell zu erstellen, das die Daten in ihrer grundlegendsten Auflösung modellieren kann, was mit einem konvolutionellen neuronalen Netzwerk erreicht wird, das Sequenzierungs-Reads auf das Genom abbildet und zählt, wie viele Five-Prime-Ends jeweils Basenpaar auf den beiden Strängen hat. Sie verwenden dann ein neuronales Netzwerk, das diese Übersetzung, beginnend mit der Sequenz, in reellwertige Anzeigen durchführt, die sich in Richtung des Profils bewegen, was zu einer direkten Sequenz zum Profilmodell führt.

  • 00:35:00 In diesem Abschnitt erläutert der Referent die Verwendung von Verlustfunktionen zur Modellierung von Zählungen von Reads, die auf eine Sequenz fallen, und wie diese Reads über Basenpaare verteilt werden. Sie verwenden eine Kombination aus mittlerem quadratischem Fehler für Gesamtzählungen und multinomialer negativer Log-Likelihood für die genaue Verteilung von Reads an jedem Basenpaar. Das Modell kann für mehrere Auslesungen verschiedener Proteine verwendet werden und kann separat oder gleichzeitig mit einem Multitask-Modell angepasst werden. Der Referent wendet dieses Modell auf vier bekannte Pluripotenz-Transkriptionsfaktoren in embryonalen Stammzellen der Maus an, indem er Chip-Nexus-Experimente mit hochauflösenden Footprints verwendet.

  • 00:40:00 In diesem Abschnitt konzentriert sich der Referent auf die Genauigkeit der Modelle bei der Erstellung von Vorhersagen über Enhancer im Genom, die trotz einiger Störungen oder Unterschiede zu den beobachteten Daten aufgrund von Denoising, Imputation und anderen Faktoren sehr genau sind. Um die genomweite Leistung der Modelle zu bewerten, verwenden sie zwei Metriken: die Jensen-Shannon-Divergenz und die Ähnlichkeit zwischen Wiederholungsexperimenten, wobei erstere eine bessere Leistung zeigt als letztere, die berechnet wird, um Ober- und Untergrenzen bereitzustellen. Der Referent erläutert dann ihren Interpretationsansatz, bei dem der DeepLift-Algorithmus verwendet wird, um die Beiträge von Neuronen über Schichten und Nukleotide hinweg rekursiv zu zerlegen, und liefert hochauflösende Interpretationen dessen, welche Teile der Sequenz die Bindung durch jeden der vier Transkriptionsfaktoren steuern, was eine kombinatorische Syntax offenbart.

  • 00:45:00 In diesem Abschnitt diskutiert der Referent zwei Methoden, die verwendet werden, um die vom Modell gelernten Muster über das gesamte Genom zusammenzufassen. Die erste Methode, Modisco, nimmt alle Sequenzen, die von einem interessierenden Protein gebunden sind, und leitet Deep-Lift-Scores für jedes Nukleotid in jeder Sequenz ab. Die Sequenzen werden dann basierend auf Ähnlichkeit geclustert und in nicht-redundante Motive kollabiert. Die zweite Methode konzentriert sich auf die Syntax oder die Anordnungen höherer Ordnung von Motiven, die die kooperative Bindung antreiben. Am Beispiel des Nano-Motivs ist das neuronale Netzwerk in der Lage, wichtige Nukleotide zu erkennen, die die Kernstelle flankieren, und periodische Muster genau bei zehneinhalb Basenpaaren zu identifizieren, was darauf hinweist, dass Nano DNA so bindet, dass etwas auf derselben Seite passiert der DNA-Helix.

  • 00:50:00 In diesem Abschnitt diskutiert der Sprecher eine weiche Syntaxpräferenz in der DNA, die durch einen bevorzugten Abstand von Vielfachen von zehneinhalb Basenpaaren demonstriert wird. Der Referent zeigt, wie das Modell diese Syntax durch das Vorhandensein subtiler Signalspitzen im Genom lernen kann, wodurch es sich mit bestimmten Stellen kolokalisieren und die Syntax lernen kann, die die Bindung antreibt. Der Referent beschreibt auch Experimente, die in silico durchgeführt wurden, um Einblicke zu gewinnen, wie die Syntax die Bindung verschiedener Proteine antreibt, einschließlich eines synthetischen Experiments, bei dem zwei Motive in eine zufällige Sequenz eingebettet und der Abstand zwischen ihnen geändert wird, um die Bindung von Proteinen vorherzusagen, sowie a in silico CRISPR-Experiment, bei dem tatsächliche Enhancer mutiert werden und die Auswirkungen der Bindung von vier Proteinen durch das Modell vorhergesagt werden. Der Sprecher stellt fest, dass die Syntax in höheren Schichten des Modells gelernt wird und zeigt, dass ihre Entfernung dazu führt, dass die Syntax vollständig verschwindet.

  • 00:55:00 In diesem Abschnitt erklärt der Sprecher ein synthetisches Experiment mit einem Enhancer, der von OP4 und Nano gebunden wird, um die Auswirkungen des Löschens bestimmter Motive zu zeigen. Das Modell sagt die Wirkungen des Löschens der Motive voraus, und die Experimente zeigen die gleiche Wirkung, wodurch die Vorhersagen des Modells validiert werden. Der Referent stellt BPNet vor, ein Modell, das jede Art von Assay analysieren kann, einschließlich genomischer Daten, indem es Interpretationsrahmen verwendet, die biologische Geschichten darüber aufdecken, wie die Syntax die TF-Kooperativität beeinflusst. Die Modelle können Vorhersagen treffen, die durch hochauflösende CRISPR-Experimente validiert werden. Der Vortrag endet mit einer Diskussion eines kürzlich erschienenen Papiers zur Deep-Learning-basierten Verbesserung epigenomischer Daten mit ATAC-seq, das eine Zusammenarbeit zwischen dem Team des Sprechers und dem Bowing Rosenthal-Labor ist.

  • 01:00:00 In diesem Abschnitt wird das Konzept der Chromatin-Zugänglichkeit durch Sequenzierung erklärt. Die Spitzen in der Abdeckungsspur stellen die aktiven regulatorischen Regionen des Genoms dar, was die Identifizierung aktiver regulatorischer Elemente in verschiedenen Arten von Zellen oder Geweben ermöglicht. Ataxi kann auch auf Einzelzellebene durchgeführt werden und bietet eine höhere Auflösung in die Biologie. Die Datenqualität kann jedoch ein Problem darstellen, da Sequenzierungstiefe, Probenvorbereitung und die Anzahl der Zellen in einem Einzelzell-Ataxi-Experiment die Ergebnisse beeinflussen können. Attack funktioniert als Deep-Learning-Modell, das entwickelt wurde, um einige dieser Probleme anzugehen.

  • 01:05:00 In diesem Abschnitt erörtert der Redner das AttackWorks-Tool, das die Abdeckungsspur eines verrauschten Experiments aufnimmt und eine neuronale Restnetzarchitektur verwendet, um das ataktische Signal zu entrauschen und zu verstärken sowie Orte von Spitzen oder zugänglichen zu identifizieren Chromatinstellen. Das Modell verwendet eindimensionale Faltungsschichten und erweiterte Faltungen und enthält eine mehrteilige Verlustfunktion, die die Genauigkeit der entrauschten Abdeckungsspur und die Klassifizierungsgenauigkeit von Spitzenpositionen misst. Im Gegensatz zu anderen Modellen nimmt AttackWorks nur Abdeckungsdaten und keine Genomsequenz auf, um besser auf verschiedene Zelltypen übertragbar zu sein. Der Referent erklärt die einfache Trainingsstrategie, mit der das Modell trainiert wird, und zeigt beispielhafte Ergebnisse seiner Anwendung an verschiedenen menschlichen Zelltypen.

  • 01:10:00 In diesem Abschnitt erklärt der Referent, wie Deep Learning verwendet werden kann, um die Qualität von ATAC-seq-Daten mit geringer Abdeckung zu verbessern, indem das Signal entrauscht und Peaks verstärkt werden, die zuvor schwer zu identifizieren waren. Sie zeigen Beispiele dafür, wie Attack funktioniert, ein Deep-Learning-Modell, das in der Lage ist, Spitzen von nahegelegenem Rauschen zu unterscheiden und die Position von zugänglichem Chromatin in verschiedenen Zelltypen genau zu identifizieren, selbst in neuen Daten, die in den Trainingsdaten nicht vorhanden waren. Sie diskutieren auch, wie die Angriffsfunktion die Kosten von Experimenten senken kann, indem sie die gleiche Qualität für weniger Sequenzierung liefert. Darüber hinaus demonstrieren sie, wie Angriffsfunktionen ATAC-seq-Daten geringer Qualität handhaben können, indem sie Hintergrundrauschen bereinigen und Spitzen identifizieren, die eng mit qualitativ hochwertigen Daten übereinstimmen. Schließlich messen sie die Leistung von Angriffsarbeiten, indem sie die Bereicherung der Abdeckung um Transkriptionsstartstellen betrachten.

  • 01:15:00 In diesem Abschnitt erörtert der Referent, wie Deep Learning angewendet werden kann, um das Problem der begrenzten Fähigkeit zur Untersuchung kleiner Zellpopulationen in ataktischen Einzelzelldaten anzugehen. Sie können zufällig eine Untergruppe von Zellen aus einem reichlich vorhandenen Zelltyp auswählen und diese verwenden, um ein verrauschtes Signal zu erhalten. Sie können dann ein Angriffsmodell trainieren, um das Signal von einigen wenigen Zellen zu nehmen und es zu entrauschen, um vorherzusagen, was das Signal von vielen Zellen tun würde
    aussehen. Sobald sie dieses trainierte Modell haben, können sie es auf kleine Populationen von sehr wenigen Zellen anwenden, um vorherzusagen, wie die Daten ausgesehen hätten, wenn sie mehr Zellen zum Sequenzieren gehabt hätten. Dieser Ansatz erhöht die Auflösung, mit der sie die Chromatin-Zugänglichkeit von Einzelzellen untersuchen können, erheblich, und sie zeigen, dass die Modelle über Experimente, Zelltypen und sogar Arten hinweg übertragbar sind.

  • 01:20:00 In diesem Abschnitt diskutiert der Referent ein Einzelzell-Sequenzierungsexperiment an hämatopoetischen Stammzellen, die sich entweder in die lymphoide oder in die erythroide Zelllinie differenzieren können. Das Experiment zeigte Heterogenität über die einzelne Zellpopulation hinweg und identifizierte Subpopulationen von Zellen, die darauf vorbereitet sind, sich in eine der beiden Linien zu differenzieren. Das Team verwendete ATAC-seq, um das Signal zu entrauschen und spezifische regulatorische Elemente zu identifizieren, die den Prozess des Primings der Abstammungslinie steuern. Sie würdigen das am Projekt beteiligte Team und laden die Studierenden ein, sich um Praktika oder Kooperationen zu bemühen.
 

Deep Learning for Regulatory Genomics - Regulator Binding, Transcription Factors TFs - Vorlesung 08 (Frühjahr 2021)



Deep Learning for Regulatory Genomics - Regulator Binding, Transcription Factors TFs - Vorlesung 08 (Frühjahr 2021)

Das Video diskutiert die Verwendung von Deep Learning für die regulatorische Genomik und konzentriert sich darauf, wie die DNA-Sequenz verschiedene Motive aufdecken kann, die in Enhancer- und Promotorregionen vorhanden sind, sowie deren 3D-Looping. Das Video erklärt, wie die Chromosomenbestätigungs-Capture-Technologie (3C) die chromosomale Organisation untersuchen kann und die Hi-C-Technologie topologisch assoziierte Domänen (TADs), die miteinander interagieren, und das Kompartimentmuster im Genom identifizieren kann. Faltungsfilter werden an jeder Position der DNA-Sequenz angewendet, um unterschiedliche Merkmale oder Motive zu erkennen, und das Deep-Learning-Framework kann gemeinsame Eigenschaften, Filter und Motive der DNA-Sequenz lernen, wodurch verschiedene Vorhersageaufgaben durchgeführt werden können. Das Video erwähnt auch, wie vorteilhaft Multitasking-Lernen ist, und dass die Verwendung zusätzlicher Schichten im Deep-Learning-Netzwerk zum Erkennen und Kombinieren mehrerer Bausteindarstellungen von Transkriptionsfaktormotiven eine effizientere Erkennung komplexer Motive ermöglichen könnte.

Der Sprecher in diesem Video erörtert die Verwendung von Deep Learning für die regulatorische Genomik mit Schwerpunkt auf der Bindung von Transkriptionsfaktoren und der Vorhersage der Genexpression. Sie untersuchen die Verwendung von Faltungsstrukturen und erweiterten Faltungen, um große DNA-Regionen einzubringen und Vorhersagen in einem Multi-Task-Framework für Chromatindaten und Genexpression zu treffen. Der Referent behandelt auch die Verwendung von Restverbindungen zum Trainieren tiefer neuronaler Netze und erklärt, wie das Modell 3D-Kontakte anhand von IC-Daten und -Modellen vorhersagen kann. Insgesamt kann Deep Learning ein leistungsstarkes Werkzeug sein, um Genomdaten zu analysieren und Vorhersagen auf der Grundlage von DNA-Sequenzen mit genügend Daten und den richtigen Transformationen zu treffen.

  • 00:00:00 In diesem Abschnitt erörtert der Referent die Verwendung von DNA-Sequenzen und Deep Learning zur Vorhersage von Merkmalen des genregulatorischen Genoms, wobei er sich auf die Unterscheidung verschiedener Motive konzentriert, aus denen Enhancer- und Promotorregionen und deren 3D-Looping bestehen. Der Referent beschreibt die Verwendung von Positionsgewichtungsmatrizen (PWMs) zur Bestimmung der Bindungsspezifität jedes Transkriptionsfaktors, die dann zur Vorhersage der genregulatorischen Funktion verwendet wird. Chromatin-Immunpräzipitation wird auch als eine Technologie erwähnt, die verwendet wird, um regulatorische Regionen im Genom zu profilieren.

  • 00:05:00 In diesem Abschnitt erklärt der Referent, wie das Verständnis der dreidimensionalen Chromatinstruktur zeigen kann, wo verschiedene Transkriptionsfaktoren gebunden sind. Der Kern enthält die gesamte DNA in einer Zelle und ist räumlich organisiert, wobei aktive Regionen von der Kernlamina weggeschoben und näher an das Zentrum des Kerns herangeführt werden. Chromosomenbestätigungserfassung (3C) ist eine Technik, die verwendet wird, um die chromosomale Organisation zu untersuchen, indem DNA-Stränge zufällig geschnitten und dann wieder zusammengeklebt werden, um zu sehen, wo verschiedene DNA-Abschnitte miteinander in Kontakt stehen könnten. Diese Technik kann zeigen, wie sich Chromosomen tatsächlich umeinander schleifen.

  • 00:10:00 In diesem Abschnitt erklärt der Referent, wie verschiedene DNA-Fragmente geschnitten und ligiert werden können, um chimäre Moleküle zu erzeugen, die zeigen, wo Teile der DNA im Genom binden und kartieren. Durch die Sequenzierung und Analyse dieser chimären Regionen können Forscher einen Einblick in die dreidimensionale Verpackung des Genoms gewinnen und wie verschiedene Regionen miteinander interagieren. Der Referent diskutiert verschiedene Techniken wie 3C, 4C, 5C und ChIA-PET, die die Analyse von Wechselwirkungen zwischen genomischen Regionen und die Verwendung von Antikörper-basierten Methoden zur selektiven Untersuchung von Regionen ermöglichen, die an spezifische Regulatoren gebunden sind.

  • 00:15:00 In diesem Abschnitt erklärt der Referent, wie die Hi-C-Technologie funktioniert und wie sie Einblicke in die Art und Weise liefert, wie das Genom organisiert ist. Die Hi-C-Technologie beinhaltet das Hinzufügen von Biotinylierungsmarkierungen zu Genomregionen und das anschließende Herunterziehen dieser Markierungen, um sie zu sequenzieren, wodurch Wissenschaftler bestimmen können, wie zwei Regionen des Genoms miteinander interagieren. Die resultierenden Bilder zeigen Schleifeninformationen und zeigen, dass Regionen nahe der Diagonale am stärksten interagieren. Die Hi-C-Technologie identifiziert auch topologisch assoziierte Domänen (TADs), die mehr miteinander als mit der Außenseite der Domäne interagieren, sowie hierarchische Interaktionsmuster innerhalb dieser. Darüber hinaus zeigt die Technologie ein Schachbrettmuster, bei dem Regionen dazu neigen, stärker mit Regionen des gleichen Typs zu interagieren, wodurch Wissenschaftler die Verdichtung und Organisation des Genoms visualisieren können.

  • 00:20:00 In diesem Abschnitt diskutiert der Redner die Territorialität verschiedener Chromosomen innerhalb des Zellkerns und das a- versus b-Kompartimentmuster im Genom, was darauf hindeutet, dass ein Teil des Genoms inaktiv und näher an der Peripherie ist, während der aktive Teil ist näher am Zentrum. Der Redner erwähnt auch topologisch verbundene Domänen, das sind Gruppen von Regionen, die innerhalb, aber nicht zwischen ihnen stark interagieren. Das vorherrschende Modell für die Eckspitzen in diesen Domänen ist, dass sie durch einen Prozess der Schleifenextrusion erzeugt werden, bei dem Bindungsstellen für den Regulator CTFC und Kohäsin eine DNA-Schleife durchschieben.

  • 00:25:00 In diesem Abschnitt erklärt das Video das Schleifenextrusionsmodell der Chromatininterpretation auf hoher Ebene und die dreidimensionale Chromatinfaltung, bei der Bindungsstellen näher zusammengebracht werden und die DNA durch das effektive Wachsen einer Schleife geschoben wird. Anschließend diskutiert das Video die Computeranalyse regulatorischer Motive unter Verwendung traditioneller Ansätze vor dem Deep Learning und wie dieselbe Deep-Learning-Methodik für die Bildanalyse und die regulatorische Genomik mit der One-Hot-Codierung von DNA verwendet werden kann. Diese Methodik beinhaltet das Verfeinern eines Motivlogos durch Iterieren zwischen dem Erkennen eines gemeinsamen Sequenzmusters und dem Entdecken von Instanzen dieses Motivs.

  • 00:30:00 In diesem Abschnitt erklärt der Referent, wie Faltungsfilter beim repräsentationalen Lernen in der Deep-Learning-Architektur verwendet werden. Die DNA-Sequenz wird in eine One-Hot-Kodierungsdarstellung mit vier verschiedenen Eingangskanälen für jeden Buchstaben umgewandelt. Faltungsfilter werden an jeder Position der DNA-Sequenz angewendet, um verschiedene Merkmale oder Motive zu erkennen. Diese Motive werden dann gelernt und können angewendet werden, um eine bestimmte Aufgabe auszuführen, beispielsweise um festzustellen, ob ein Transkriptionsfaktor binär ist oder nicht. Der Referent betont, dass das Deep-Learning-Framework all diese Faltungsfilter lernen und unter anderem die Anzahl der Schichten, Vorhersageaufgaben, Input-Output-Beziehungen variieren kann. Letztendlich kann die Architektur gemeinsame Eigenschaften, Filter und Motive der DNA-Sequenz extrahieren und diese verwenden, um eine Repräsentation der Sequenz zu lernen, wodurch verschiedene Vorhersageaufgaben durchgeführt werden können.

  • 00:35:00 In diesem Abschnitt gibt der Referent eine Einführung in die Anwendung des maschinellen Lernens auf Nukleinsäuresequenzen in der Biologie. Er erörtert die Mängel früherer erfolgreicher Anwendungen des maschinellen Lernens, wie z. B. String-Kernel, und wie sie die räumliche Positionierung von k-mers oder irgendwelche Beziehungen zwischen ihnen nicht berücksichtigen konnten. Der Referent schlägt dann vor, dass Deep-Learning-Methoden diese Einschränkungen möglicherweise überwinden und eine bessere Darstellung von DNA-Sequenzen für maschinelles Lernen ermöglichen könnten.

  • 00:40:00 In diesem Abschnitt des Videos erklärt der Sprecher den Prozess der Verwendung von Faltungsfiltern beim Deep Learning für regulatorische Genomik, der dem Prozess ähnelt, der bei der Bildanalyse verwendet wird. Die erste Schicht der Faltungsfilter erkennt Positionsgewichtungsmatrizen, die über die Sequenz gescannt werden, wodurch eine numerische Darstellung erstellt wird, und dann wird eine Batch-Normalisierungsoperation angewendet, gefolgt von einer nichtlinearen Funktion, die negative Werte auf Null setzt. Als nächstes wird die Max-Pooling-Operation verwendet, um den Maximalwert benachbarter Positionen für jeden Filterkanal zu nehmen. Faltungsschichten werden dann mehrfach auf das Modell angewendet, mit Pooling-Operationen dazwischen, um Beziehungen zwischen Transkriptionsfaktoren und Bindungsstellen zu lernen.

  • 00:45:00 In diesem Abschnitt erörtert der Redner das Erstellen von Vorhersagen im Deep Learning für die regulatorische Genomik. Sie reduzieren das Objekt über die Längsachse und führen eine vollständig verbundene Ebene aus, um Vorhersagen zu treffen. Der Referent gibt dann ein Beispiel für DNA-Überempfindlichkeit und wie es viele Stellen gibt, die über Zelltypen hinweg zugänglich sind, aber auch viele zelltypspezifische Spitzen, die erlernt werden müssen. Die Trainings-, Validierungs- und Testsätze bestehen aus zwei Millionen Stellen, die in 164 binäre Aufrufe unterteilt sind, um festzustellen, ob es ein signifikantes Signal von diesem DNA-Überempfindlichkeitstest gibt. Der Referent erörtert die Vorteile des Multitask-Lernens, bei dem alle Faltungen und vollständig verbundenen Schichten von allen Aufgaben mit Ausnahme der abschließenden linearen Transformation gemeinsam genutzt werden. Sie erklären, dass diese gemeinsame Darstellung bessere Ergebnisse liefert, als separate Modelle für jede Aufgabe zu trainieren.

  • 00:50:00 In diesem Abschnitt erörtern die Referenten die Aufgaben ihres Deep-Learning-Modells für regulatorische Genomik, das verschiedene Zelltypen und Assays wie Transkriptionsfaktor-Chip-Seq und Histon-Modifikations-Chip-Seq umfasst. Sie erklären, dass das Modell Convolutional Neural Networks verwendet, die flexibler als k-mer SVMs sind und mehr Dinge darstellen können. Um zu verstehen, was das Modell tut, analysieren sie aus den Faltungsfiltern erhaltene Positionsgewichtungsmatrizen und vergleichen sie mit der cisBP-Datenbank der Transkriptionsfaktor-Bindungsstellen. Sie stellen fest, dass die Filter größtenteils Sequenzen erkennen, die den Datenbankmotiven ähneln, und stellen fest, dass die Verwendung mehrerer Filter für wichtige Transkriptionsfaktoren wie CTCF entscheidend für die Vorhersage der Zugänglichkeit ist.

  • 00:55:00 In diesem Abschnitt erörtert der Referent das Potenzial der Verwendung zusätzlicher Schichten in einem Deep-Learning-Netzwerk, um mehrere Bausteindarstellungen von Transkriptionsfaktormotiven wie CTCF zu erkennen und zu kombinieren. Dies könnte eine effizientere Erkennung komplexer Motive ermöglichen, obwohl es auch schwierig werden könnte, die genaue Position und den Beitrag jedes einzelnen Filters zu bestimmen. Der Referent erwähnt auch mehrere Analysen, die sie durchgeführt haben, um Einblicke in den Informationsgehalt und den Einfluss verschiedener Filter im Modell zu gewinnen, die helfen könnten, die Ergebnisse eines Deep-Learning-Ansatzes für die regulatorische Genomik besser zu interpretieren.

  • 01:00:00 In diesem Abschnitt des Videos erörtert der Sprecher die Verwendung eines bekannten Motivs zur Erstellung von Vorhersagen und die Untersuchung von Bindungsstellen für Transkriptionsfaktoren durch Mutation jedes einzelnen Nukleotids in der Sequenz. Der Sprecher fährt dann fort, ein neues Problem der Vorhersage von Transkription und Genexpression durch Berechnung einer Funktion aller Elemente in einer langen DNA-Region zu diskutieren. Die Lösung beinhaltet die Verwendung von Faltungsstrukturen und das Einbringen einer großen Sequenzregion, etwa 100.000 Nukleotide für das Modell, und das anschließende maximale Pooling, um die Sequenz auf eine Auflösung von etwa 128 Basenpaaren zu bringen. Die Herausforderung besteht darin, Informationen über das Genom hinweg auszutauschen, und dafür können verschiedene Module verwendet werden. Es wurde die Hypothese aufgestellt, dass rekurrente neuronale Netze das beste Werkzeug für diesen Job sind.

  • 01:05:00 In diesem Abschnitt spricht der Sprecher über ein Werkzeug namens dilatierte Faltung, das anstelle eines rekurrenten neuronalen Netzwerks verwendet wurde, um das Problem des langsamen Trainings bei langen Sequenzen zu vermeiden. Bei der erweiterten Faltung werden Lücken in die Faltung eingefügt und diese erweitert, wodurch das rezeptive Feld exponentiell wachsen kann, was zu einer sehr parametereffizienten Methode zum Abdecken eines Bildes führt. Der Referent diskutiert dann, wie sie erweiterte Faltungen verwendet haben, um Vorhersagen in einem Multi-Task-Framework für Chromatindaten und Genexpression zu treffen. Sie erwähnen auch eine zusätzliche Technik namens Residual Connections oder Skip Connections, die beim Training tiefer neuronaler Netze hilfreich sein kann.

  • 01:10:00 In diesem Abschnitt erörtert der Referent die Verwendung von Restnetzwerken, um es jeder Schicht zu erleichtern, neue Informationen zu lernen, ohne alles davor neu lernen zu müssen. Dies ist besonders nützlich für geweitete Windungen, die auf verschiedene weiter entfernte Positionen blicken. Indem sie das bereits Gelernte direkt mit der Restverbindung weitergeben, können sie dem Vektor jeder Position neue Informationen hinzufügen und ihn normalisieren oder eine Faltung darüber werfen. Die Anzahl der Restverbindungen hängt von der Länge der Sequenz ab, mit der gearbeitet wird, da sie in der Lage sein sollten, weit genug zu schauen, ohne die Sequenzgrenzen zu überschreiten.

  • 01:15:00 In diesem Abschnitt des Videos erörtert der Sprecher die Verwendung von 5 bis 10 dilatierten Faltungsschichten für eine Eingabesequenz von 100.000, weist jedoch darauf hin, dass sich dies je nach Skalierung der Sequenz oder Bin-Größe ändern kann. Die Eingabe ist in diesem Fall das kontinuierliche Signal aus verschiedenen Datensätzen, und der Sprecher merkt an, dass es nicht einfach wie die Genexpression binarisiert werden kann. Der Referent weist darauf hin, dass eine Plus-Loss-Funktion für die Daten besser funktioniert, und stellt fest, dass die Qualität des Modells von der Qualität der Daten beeinflusst wird, die erheblich variieren kann. Der Referent erwähnt kurz die Verwendung des Modells, um Vorhersagen für Mutationen in krankheitsassoziierten SNPs zu treffen, und die Bedeutung der Verbindung von rechnergestützter biologischer Forschung mit Krankheitsassoziationen. Abschließend geht der Referent kurz auf die Vorhersage von 3D-Kontakten anhand von IC-Daten und -Modellen ein.

  • 01:20:00 In diesem Abschnitt erklärt der Sprecher, wie sie die High-C-Daten verwenden, um Vorhersagen zu treffen. Die Daten sind zweidimensional, mit Nukleotiden auf der x- und y-Achse, die die Kontakthäufigkeit zwischen diesem Teil des Genoms und einem anderen Bin im Genom darstellen. Unter Verwendung des mittleren quadratischen Fehlers und des Multitask-Lernens kann das Modell die Daten vorhersagen. Mit einer Million eingehender Nukleotide werden GPU-Speicherbeschränkungen jedoch zu einem Problem. Die Lösung besteht darin, die Position i und die Position j zu mitteln, was zu einer 2D-Matrix führt, die Deep-Learning-Tools analysieren können. Unter Verwendung von 2D-Faltungen, dilatierten Faltungen und Resymmetrierung der Matrix nach jeder Schicht kann das Modell Vorhersagen treffen, wobei ctcf der Hauptlernfaktor ist.

  • 01:25:00 In diesem Abschnitt erörtert David Kelley, wie Deep Learning in der regulatorischen Genomik verwendet werden kann, um grundlegende Eingaben wie die DNA-Sequenz zu analysieren und die Bindung von Transkriptionsfaktoren vorherzusagen, am Beispiel von CTCF. Mit genügend Daten und den richtigen Transformationen können neuronale Netzwerkarchitekturen erfolgreich lernen und Vorhersagen auf der Grundlage von Genomdaten treffen. Während derzeit synthetische Daten im Vordergrund stehen, bietet diese Präsentation einen Überblick über die Anwendungsmöglichkeiten von Deep Learning in Biologie und Genomik.
 

Genexpressionsvorhersage - Vorlesung 09 - Deep Learning in Life Sciences (Frühjahr 2021)



Genexpressionsvorhersage - Vorlesung 09 - Deep Learning in Life Sciences (Frühjahr 2021)

Das Video diskutiert die Verwendung von Deep Learning bei der Vorhersage der Genexpression und die Herausforderungen bei der Analyse biologischer Datensätze, einschließlich hoher Dimensionalität und Rauschen. Die Vorlesung behandelt Methoden wie Clusteranalyse, Low-Rank-Approximationen von Matrizen und Compressive Sensing. Der Referent spricht auch über die Verwendung von Deep Learning zur Genexpressionsvorhersage und Chromatin sowie über schwach überwachtes Lernen zur Vorhersage von Enhancer-Aktivitätsstellen. Der Vortrag behandelt mehrere Tools, die hauptsächlich mit Deep-Learning-Methoden entwickelt wurden, darunter danq, djgx, factory mat und sc fin. Der Referent spricht auch über die Verwendung generativer Modelle zur Untersuchung von Genomdatensätzen und stellt die Idee der ungefähren Inferenzmethodik vor, insbesondere die populäre Variationsinferenz.

Im zweiten Teil des Vortrags diskutiert der Referent die Anwendung von Deep Learning in den Lebenswissenschaften, insbesondere in der Genexpressionsvorhersage und Genominterpretation. Das erste Thema konzentriert sich auf die Anwendung von Variations-Autoencoder-Modellen auf die RNA-Expressionsanalyse für Asthma-Datensätze. Der Referent schlägt einen Rahmen vor, um experimentelle Artefakte mithilfe eines bedingten generativen Modells zu entfernen. Das zweite Thema behandelt die Investition von Illumina in Deep-Learning-Netzwerke zur Identifizierung der Sequenz-zu-Funktion-Modelle für die Genominterpretation, insbesondere für das Spleißen. Das Unternehmen hat SpliceAI entwickelt, ein Deep Convolutional Neural Network, das vorhersagt, ob ein Nukleotid ein Splice-Donor, -Akzeptor oder beides ist. Das dritte Thema befasst sich mit der Forschung des Referenten zur Vorhersage, ob bestimmte Mutationen eine kryptische Spleißfunktion haben werden, die zu Frameshifts und Krankheiten führen kann. Der Referent lädt auch zu Fragen und Bewerbungen für Forschungsstellen, Praktika und Postdocs ein.

  • 00:00:00 In diesem Abschnitt der Vorlesung stellen die Referenten die Genexpressionsanalyse und die beiden Methoden zur Messung der RNA-Expression vor: Hybridisierung und Genomsequenzierung. Letzteres ist aufgrund des drastischen Rückgangs der Kosten für die Genomsequenzierung in den letzten 20 Jahren immer beliebter geworden. Das Ergebnis ist eine Matrix, die zeigt, welches Gen unter Hunderten von Bedingungen auf welcher Ebene exprimiert wird. Diese Matrix kann vertikal oder horizontal betrachtet werden und ergibt einen 20.000 langen Vektor für jedes Gen im Genom über eine experimentelle Bedingung von Interesse oder für einen bestimmten Zelltyp, der sortiert wurde.

  • 00:05:00 In diesem Abschnitt erläutert der Kursleiter, wie Deep Learning bei der Vorhersage der Genexpression eingesetzt werden kann. Die grundlegenden Eingabematrizen umfassen das Profilieren jeder Zelle, um Vergleiche über mehrere Dimensionen hinweg anzustellen, z. B. die Ähnlichkeit von Expressionsvektoren für ein bestimmtes Gen über verschiedene Bedingungen, Gewebe, Zelltypen, Experimente, Alter und Geschlecht hinweg. Die Clusteranalyse kann verwendet werden, um ähnliche Bedingungen oder Gene zu finden, die über Spalten oder Zeilen hinweg ähnlich sind. Der Schuld-durch-Assoziations-Ansatz kann auch verwendet werden, um die Annotation von nicht annotierten Genen basierend auf der Ähnlichkeit der Expression zu vervollständigen. Darüber hinaus schlägt der Kursleiter vor, Deep-Learning-Ansätze wie selbstüberwachtes Lernen, Vorhersage unter Verwendung von Nichtlinearitäten und Merkmalen höherer Ordnung und Multitasking-Lernen zu verwenden, um die verschiedenen interessierenden Klassen gemeinsam vorherzusagen, und schließlich betont der Kursleiter, dass Deep Learning dies ist nicht der einzige Ansatz, und es gibt eine Reihe von Werkzeugen, die verwendet werden können, um biologische Fragen zu stellen und Darstellungen dieser Systeme zu lernen.

  • 00:10:00 In diesem Abschnitt diskutiert der Dozent Techniken zur Reduktion der Dimensionalität, die zur Analyse von Genexpressionsmustern verwendet werden können. Eine solche Technik ist die Hauptkomponentenanalyse (PCA), die verwendet werden kann, um die Hauptdimensionen der Variation in genetischen Druckmustern zu identifizieren. Annäherungen von Matrizen mit niedrigem Rang können auch verwendet werden, um effektiv eine optimale Annäherung mit niedrigem Rang der Daten zu erhalten. Andere Techniken wie t-SNE und Auto-Encoder können ebenfalls angewendet werden. Darüber hinaus erwähnt der Dozent die Verwendung von Compression Sensing, um zusammengesetzte Messungen unter Verwendung von Kombinationen von Sonden zu erstellen, die lineare Kombinationen der Genexpression erfassen. Abschließend diskutiert der Dozent das Potenzial der Verwendung von Chromatininformationen zur Vorhersage von Genexpressionsniveaus, die im ersten Gastvortrag diskutiert werden.

  • 00:15:00 In diesem Abschnitt erörtert der Referent die Verwendung von Deep Learning zur Vorhersage von Genexpression und Chromatin aus verschiedenen Merkmalen und kombiniert sie systematisch unter Verwendung von Aufmerksamkeitsmechanismen, ähnlich wie zuvor für das Transformatormodell und rekurrente neuronale Netze besprochen. Die Verwendung von Reporterkonstrukten und Hochdurchsatztests wird erklärt, zusammen mit der Fähigkeit, vorherzusagen, ob bestimmte Fragmente die Expression unter Verwendung eines maschinellen Lern- oder Deep-Learning-Ansatzes vorantreiben werden. Der Referent stellt auch das Konzept der Vorhersage des Spleißens direkt aus der Sequenz unter Verwendung eines neuronalen Netzwerks und spezifischer Merkmale in der Sequenz vor und hebt die Arbeit hervor, die sein Team zur Verwendung von Deep Learning zur Vorhersage von Enhancern im menschlichen Genom unter Verwendung eines wöchentlich überwachten Rahmens geleistet hat.

  • 00:20:00 In diesem Abschnitt des Videos diskutiert der Sprecher eine Methode zur Vorhersage der Genexpression unter Verwendung eines Reporter-Experiments und einer Reihe von Chromatin-Merkmalen. Die Eingabematrix, die aus den verschiedenen Markierungen an Tausenden von Stellen im Genom besteht, wird für jedes Gen konstruiert, und die Chromatinmerkmale in der Nähe werden mit dem Star-Seek-Ergebnis verglichen, um die Expression vorherzusagen. Die Ausgabeebene ist ein binärer Klassifikator, und die Zwischendarstellungen des Modells werden verwendet, um die spezifische Position in der Genomsequenz vorherzusagen. Diese höhere Auflösung ermöglicht eine effizientere Nutzung der Datenanalyse, die durch Anpassung bestimmter Kurven in das zusammenhängende Signal erreicht wird, um eine fortgeschrittenere Darstellung zu erhalten.

  • 00:25:00 In diesem Abschnitt erläutert der Sprecher die Idee des schwach überwachten Lernens zur Vorhersage von Enhancer-Aktivitätsstellen unter Verwendung einer Methode ähnlich der Objekterkennung. Indem das Originalbild in einen Faltungsfilter geleitet wird, werden die Aktivierungskarten generiert, die zum Erstellen einer Wärmekarte verwendet werden. Das Modell erforderte nur eine grobe Annotation der Existenz des Enhancers und sagte den genauen Ort unter Verwendung der gleichen Methode der Heatmap voraus. Die Ergebnisse der zelllinienübergreifenden und chromosomenübergreifenden Validierung haben gezeigt, dass das Modell Starseek-Enhancer genau vorhersagen kann. Der verfeinerte Satz, der durch das Abschneiden irrelevanter Regionen bei der Erstellung von Vorhersagen erhalten wird, weist einen höheren Anteil an Transkriptionsstartstellen auf und ist in hundert verschiedenen Arten stärker konserviert. Der Referent verglich das Modell mit dem vorherigen State-of-the-Art-Modell und führte eine Fallstudie in Neuro-Vorläuferzellen durch, um neurospezifische Enhancer zu entdecken.

  • 00:30:00 In diesem Abschnitt des YouTube-Videos „Gene Expression Prediction“ erörtert der Referent die Herausforderungen bei der Interpretation biologischer Datensätze und die Bedeutung der Entwicklung einer Methodik, die mehrere Faktoren wie hohe Dimensionalität und Rauschen berücksichtigt. Die Forschung des Referenten in seinem Labor konzentriert sich auf die Kombination verschiedener Arten von genomischen Techniken, einschließlich der Einzelzellgenomik, um Methoden zur Untersuchung der Genomik zu entwickeln. Der Referent geht auch auf sein Interesse ein, Deep Learning auf die Genexpressionsanalyse anzuwenden und damit Signale aus verrauschten Datensätzen zu extrahieren.

  • 00:35:00 In diesem Abschnitt erörtert der Referent die Entwicklung einer Methodik, die multimodale Datensätze kombiniert, um die Untersuchung der zugrunde liegenden Biologie zu ermöglichen. Sie heben aktuelle Vorschläge auf dem Gebiet des maschinellen Lernens hervor, die visuelle Signale mit der Verarbeitung natürlicher Sprache kombinieren, um Systeme besser zu verstehen. Der Redner fährt dann fort, einige Tools aufzulisten, die sein Labor hauptsächlich unter Verwendung von Deep-Learning-Methoden entwickelt hat, darunter danq, das die Funktion von DNA-Sequenzen quantifiziert, und djgx, das die Genexpression vorhersagt. Der Referent diskutiert auch kurz zwei weitere Tools, Factory Mat und Sc Fin, die die Bindung von Transkriptionsfaktoren vorhersagen, wobei Sc Fin eine Erweiterung von Factory Mat für die Einzelzellvorhersage ist.

  • 00:40:00 In diesem Abschnitt des Videos erörtert der Moderator mehrere Methoden im Zusammenhang mit der Verwendung von Deep-Learning-Modellen in den Biowissenschaften. Insbesondere behandelt die Diskussion die UFO-Methodik für RNA-Struktur-Sekundärstrukturvorhersagen, das DGX-Modell, das tiefe neuronale Netze zur Vorhersage von Expressionen verwendet, und die SAILOR-Methodik zur Verwendung von tiefen generativen Modellen zur Untersuchung von Einzelzell-Ataxie-Datensätzen, während sie sich auf die Idee der invarianten Darstellung konzentrieren Lernen. Die Diskussion umfasst auch die Verwendung von VAE-Modellen zur Untersuchung von Genomik- und RNA-Expressionsdaten, eine Erweiterung tiefer generativer Modelle für eine Taxianalyse und die Kombination von Datensätzen mit mehreren Modalitäten mit einem Modell zum Erlernen gemeinsamer Darstellungen. Der Moderator weist darauf hin, dass alle entwickelten Tools Open Source und auf Github verfügbar sind.

  • 00:45:00 In diesem Abschnitt diskutiert der Dozent eine Methode zur Genexpressionsvorhersage unter Verwendung einer Teilmenge von Genen. Durch die Profilierung einer kleinen Anzahl von Genen (1.000) mithilfe der Luminex-Technologieplattform können Forscher Profile mit Millionen von Proben erstellen, was zu einer kostengünstigen Methode zum Verständnis biologischer Prozesse und Arzneimittelentdeckungen führt. Die verbleibenden 20.000 Gene können mithilfe von Computertechniken wie Deep Neural Nets abgeleitet werden. Durch die Eingabe von 978 dimensionalen Vektoren in ein mehrschichtiges neuronales Feed-Forward-Netz für die Wahrnehmung können Forscher die 20.000 Ziele in einer Multitasking-Manier gemeinsam vorhersagen und das Modell durch Backpropagation trainieren, wodurch eine bessere Genauigkeit als durch lineare Regression erreicht wird. Zum Trainieren des Modells wird der Geodatensatz verwendet, der Expressionsprofile mit der gesamten Gensammlung enthält.

  • 00:50:00 In diesem Abschnitt der Vorlesung diskutiert der Dozent die Verwendung generativer Modelle zur Untersuchung von Genomdatensätzen. Da den meisten Genomdatensätzen keine Labels fehlen, ist unbeaufsichtigtes Lernen oft relevanter. Das Ziel ist es, hochdimensionale Datensätze in eine niedrigdimensionale Einbettung abzubilden, die bei der Identifizierung zugrunde liegender Muster hilfreicher sein kann. Die traditionelle Methode für diesen Zweck ist der Autoencoder, der durch Anpassen der Eingabe an die Ausgabe trainiert werden kann, aber Probleme wie die Anfälligkeit für Überanpassung und die Unfähigkeit, Samples zu generieren, hat. Als Lösung schlägt der Dozent tiefe generative Modelle vor, die Daten durch ein probabilistisches Framework mit latenten Variablen modellieren. Durch die Zuweisung von Prioritäten zur Verteilung der latenten Variablen kann das Modell sie marginalisieren, um die Randverteilungen der Eingabe zu erhalten.

  • 00:55:00 In diesem Abschnitt diskutiert der Professor die Probleme mit Lerndaten basierend auf einem generischen Rahmen und stellt die Idee der ungefähren Inferenzmethodik vor, insbesondere die populäre Variationsinferenz, die eine Hilfsverteilung für die gegebene Verteilung von z vorschlägt X. Die untere Grenze der Log-Wahrscheinlichkeitsgrenze mit der Hilfsverteilung wird dann durch ein Gleichgewicht zwischen den Daten und dem ko-Abstand zwischen den Verteilungen minimiert, wodurch sichergestellt wird, dass die spätere Verteilung nahe genug an der vorherigen Verteilung liegt und gleichzeitig genügend Power hat, um beobachtbare Datensätze zu modellieren . Dies führte zur Entwicklung des Variations-Autoencoders, der sowohl p(theta)x bei gegebenem z als auch Hilfsverteilung durch neuronale Netze modellieren kann, indem er sie trainiert, um die Variation der negativen Log-Wahrscheinlichkeit zu minimieren. Es gibt jedoch Probleme bei der Berechnung dieser Erwartungen, die mit dem Reparametrisierungstrick angegangen werden können, insbesondere wenn ein Gaußsches Produkt angewendet wird.

  • 01:00:00 In diesem Abschnitt erörtert der Referent die Anwendung von Variations-Autoencoder-Modellen auf die RNA-Expressionsanalyse, insbesondere für Asthma-Datensätze. Aufgrund der diskreten und quantitativen Natur von RNA-seq-Datensätzen verwenden Forscher Null-überhöhte negative Binomialverteilungen, um die Read-Zählungen zu modellieren. Dies führt zu der Idee, einen Autoencoder in Kombination mit diesem Modell zu verwenden, um ein tiefes Generierungsmodell zu erstellen. Die erlernten latenten Darstellungen können jedoch experimentelle Artefakte widerspiegeln, wie z. B. Stapeleffekte und Leseabdeckung. Um diese Effekte zu beseitigen, schlägt der Sprecher einen Rahmen vor, der ein bedingtes generatives Modell verwendet, das die gegenseitige Information zwischen den erlernten Darstellungen und ihren zugrunde liegenden Störfaktoren minimiert.

  • 01:05:00 In diesem Abschnitt spricht der Hauptforscher des KI-Labors von Illumina über das Ziel des Unternehmens, jede mögliche Variante des menschlichen Genoms zu verstehen und die Genomsequenzierung für alle nutzbar zu machen. Der Schwerpunkt liegt auf der Interpretation nicht-kodierender genetischer Variationen, die derzeit bei den meisten klinischen Sequenzierungen übersprungen werden. Aus diesem Grund investiert Illumina stark in Deep-Learning-Netzwerke, um die Sequenz-zu-Funktion-Modelle für die Genominterpretation zu identifizieren, insbesondere für das Spleißen. Sie haben SpliceAI entwickelt, ein Deep Convolutional Neural Network, das allein aus der Sequenz vorhersagt, ob ein Nukleotid ein Splice-Donor, -Akzeptor oder beides ist, und das Intron-Exon-Muster eines Gens aus einer Sequenz von Sequenzen rekonstruieren kann.

  • 01:10:00 In diesem Abschnitt erörtert der Moderator die Schwierigkeiten bei der Vorhersage von Exon-Splice-Verbindungen und wie ihr tief erlerntes Netzwerk alle 30 Exons des großen CFTR-Gens mit einer Genauigkeit auf Nukleotidebene vorhersagen konnte. Sie fanden heraus, dass langreichweitige Sequenzdeterminanten der Schlüssel zur Spleißregulierung sind, und das Netzwerk war in der Lage, diese Determinanten automatisch aus Sequenzdaten abzuleiten, einschließlich der Nukleosomenpositionierung und der Clusterbildung von Exons. Das Netzwerk verwendete eine Vielzahl von Merkmalen, darunter den Verzweigungspunkt, den Polyper-Mondtrakt, ag und gt, sowie intronische und exonische Splice-Enhancer und kompensierte die Redundanz lokaler Motive mit einem weiträumigen Kontext. Der Moderator zeigte auch, wie die Genauigkeit des Netzwerks mit größeren Kontextgrößen zunahm und dass es auch mit nicht-proteinkodierenden Sequenzen funktionierte.

  • 01:15:00 In diesem Abschnitt des Videos diskutiert der Sprecher die Anwendung von Spleiß-KI bei Patienten mit seltenen Krankheiten, insbesondere bei Patienten mit früh einsetzender Herzinsuffizienz, die durch eine einzelne Nukleotidmutation verursacht wird, die das Exon verlängert und das Protein rahmenverschoben hat. Das Modell wurde auch auf RNA-seq von GTEx validiert, und die Validierungsrate hing vom Spleiß-AI-Score ab. Der Redner hebt die Komplexität der Interpretation von Spleißvarianten mit niedriger Bewertung hervor, da sie das normale Spleißen beibehalten können, und es gibt eine abgestufte Interpretation der menschlichen Variation, die angegangen werden muss. Der Einfluss der natürlichen Selektion auf Varianten mit kryptischer Splice-Funktion wurde ebenfalls untersucht, und es wurde festgestellt, dass die natürliche Selektion zeigt, dass kryptische Splice-Mutationen, die von spicy i vorhergesagt werden, im Wesentlichen einer Frameshift- oder Nonsense-Protein-codierenden Mutation entsprechen. Schließlich wurde das Modell auf große klinische Datensätze von Patienten mit Autismus-Spektrum-Störungen und geistiger Behinderung angewendet.

  • 01:20:00 In diesem Abschnitt des Vortrags spricht der Referent über seine Forschung zur Vorhersage, ob bestimmte Mutationen eine kryptische Spleißfunktion haben oder nicht. Sie verwendeten RNA-Sequenzierung, um die vorhergesagte aberrante Spleißverbindung zu bestätigen, und zeigten Beispiele dafür, wie diese Varianten dazu führen, dass das Spleißen an der falschen Stelle auftritt, was zu Frameshifts und Krankheiten führt. Der Referent macht seine Tools Open Source und lädt zu Fragen sowie Bewerbungen für Forschungsstellen, Praktika und Postdocs ein. Der Vortrag endet mit einem Dank an den Referenten und einer Erinnerung, auf das Abschlussprojekt gespannt zu bleiben.
 

Einzelzellgenomik - Vorlesung 10



Single Cell Genomics - Vorlesung 10 - Deep Learning in Life Sciences (Frühjahr 2021)

In diesem Vortrag zur Einzelzellgenomik geht der Referent auf verschiedene Methoden und Technologien zur Profilierung einzelner Zellen ein, darunter Zellsortierung und Mikrofluidik. Der Fokus liegt auf drei spezifischen Einzelzell-Sequenzierungstechnologien – Smart-seq, drop-seq und gepoolte Ansätze. Der Referent behandelt auch den Prozess der Analyse von Einzelzell-Transkriptomen, einschließlich Vorverarbeitung, Visualisierung, Clustering und Annotation, sowie die Verwendung der Autoencoder-Architektur beim Community-Clustering. Deep-Learning-Methoden werden zur Domänenanpassung und zur stimulierten Rekonstruktion von Zelltypen eingesetzt. Der Vortrag diskutiert auch die Herausforderungen bei der Analyse von Einzelzellgenomdaten und schlägt die Verwendung eines generativen Modells vor, um diese Probleme auf skalierbare und konsistente Weise anzugehen.

Der zweite Teil des Videos behandelt verschiedene Themen rund um Einzelzellgenomik und Deep Learning. Zu den diskutierten Themen gehören Variationsinferenz, ein generativer Prozess für Einzelzell-RNA-Sequenzierungsdaten, das SCVI-Modell zum Mischen von Zelltyp-Datensätzen, CanVAE zum Verbreiten von Labels und die Implementierung verschiedener Deep-Learning-Algorithmen auf einer einzigen Codebasis, den so genannten CVI-Tools. Die Referenten gehen auch auf Herausforderungen bei der Verwendung von Posterior-Wahrscheinlichkeiten zur Berechnung von Maßen der Genexpression ein und stellen Methoden zur genauen Berechnung von Posterior-Erwartungen und zur Kontrolle der vollständigen Entdeckungsraten vor.

  • 00:00:00 In diesem Abschnitt des Transkripts von „Single Cell Genomics – Lecture 10 – Deep Learning in Life Sciences (Spring 2021)“ erklärt der Referent, warum Single Cell Profiling notwendig ist. Einzelne Zellen innerhalb des Körpers sind extrem unterschiedlich und können aufgrund von Umweltreizen, Wechselwirkungen, Zellzyklusphasen und Transkriptionsausbrüchen variieren. Die Einzelzellprofilierung erfasst auch individuelle Unterschiede in Zelltypen, Signalübertragung und Genotyp, die mit Massendaten oft nicht erfasst werden. Der Redner skizziert mehrere Technologien, die der aktuellen Explosion in der Einzelzelldatenanalyse vorausgegangen sind, betont jedoch die grundlegende Technologie der Amplifikation individueller RNAs zur Erfassung der Transkriptionsdiversität.

  • 00:05:00 In diesem Abschnitt erörtert der Referent die verschiedenen Technologien und Methoden, die zum Profilieren einzelner Zellen verwendet werden, darunter Zellsortierung, Mikrofluidik und Pipettieren. Durch die Betrachtung einzelner Zellen zu unterschiedlichen Zeitpunkten und von Genen über Zellen hinweg können die Forscher sehen, wie einzelne Gene ein- und ausgeschaltet werden und wie es selbst innerhalb bestimmter Zeitpunkte Heterogenität gibt. Die Einzelzellanalyse stellt eine Herausforderung bei der Unterscheidung von technischen und biologischen Nullwerten dar, aber die durch diese Techniken erhaltenen Daten können rekapitulieren, was in der Biologie gesehen wird. Der Vortrag behandelt auch Smartseek, das eine zellbasierte Technologie verwendet, Dropseek und 10x, die beide Tröpfchen verwenden, und Split-Seek, eine Methode zum Barcodieren einzelner Zellen, ohne sie zu trennen.

  • 00:10:00 In diesem Abschnitt erörtert der Referent die verschiedenen Methoden, die in der Einzelzellgenomik verwendet werden, einschließlich Mikrofluidik und Blutentnahme, und beschreibt die grundlegende Pipeline, die in dem Prozess verwendet wird. Der Fokus liegt auf drei spezifischen Technologien – Smart-seq, drop-seq und gepoolte Ansätze. Smart-seq verwendet Zellsortierung und erfasst bis zu 10.000 Gene pro Zelle, erfordert jedoch für jede Vertiefung eine separate Sequenzierungsreaktion, was es teuer macht. Drop-seq ersetzt Wells durch Tröpfchen, erfasst einzelne Zellen mit Barcodes in Kügelchen und ist kostengünstiger. Schließlich umfasst der gepoolte Ansatz das Einfangen aller einzelnen RNA-Moleküle in einem einzigen Röhrchen, das mit der entsprechenden Zellidentität gekennzeichnet ist.

  • 00:15:00 In diesem Abschnitt erläutert der Referent drei verschiedene Arten von Einzelzell-RNA-Sequenzierungstechnologien. Die erste ist die Well-Sequenzierung, bei der jede einzelne Zelle in ein Well oder Tröpfchen sortiert wird und jedes Well mit einem eindeutigen Barcode gekennzeichnet wird, um die Zellen voneinander zu unterscheiden. Das zweite ist 10X Genomics, bei dem die gesamte markierte RNA aus verschiedenen Zellen in einer einzigen Sequenzierungsreaktion kombiniert wird. Die dritte Technologie ist Split-Seq, bei der Zellen zwischen verschiedenen Vertiefungen gemischt werden, wobei bei jeder Iteration unterschiedliche Barcodes hinzugefügt werden, was zu einer einzigartigen Kombination von Barcodes für die RNA jeder Zelle führt. Dies ermöglicht eine Million eindeutige Adressen für jedes RNA-Molekül, die angeben, aus welcher Zelle es stammt.

  • 00:20:00 In diesem Abschnitt erörtert der Dozent Einzelzell-Sequenzierungstechnologien, einschließlich Zellen in Vertiefungen, Tröpfchen und kombinatorische Indizierung. Es können verschiedene Arten von Assays verwendet werden, z. B. Einzelzell-DNA-Methylierungsprofilierung, Einzelzell-Genomsequenzierung und Einzelzell-DNA-Zugänglichkeit. Ein weiterer weit verbreiteter Assay ist der Einzelzell-ATAC-seq, der die Zugänglichkeit von Chromatin in einzelnen Zellen untersucht. Die Daten aus einzelnen Zellen können jedoch spärlich sein, und die Aggregation von Daten über mehrere Standorte hinweg ist notwendig, um über Transkriptionsfaktoren zu sprechen. Der Dozent erwähnt auch das zunehmende Aufkommen von Single-Cell-Multi-Omics-Methoden, warnt jedoch vor den rechnerischen Herausforderungen im Umgang mit Rauschen und Artefakten. Der Abschnitt endet mit einer Einführung in zwei Gastvorträge aus Europa bzw. der Westküste, die Deep Representation Learning in der Einzelzellgenomik diskutieren werden.

  • 00:25:00 In diesem Abschnitt des Vortrags über Einzelzellgenomik erörterte der Referent den Prozess der Analyse von Einzelzelltranskriptomen, der verschiedene Schritte der Vorverarbeitung, Visualisierung, Clusterbildung und Annotation umfasst. Der Prozess ist unbeaufsichtigt, da Informationen nur über Zellensembles verfügbar sind, nicht über einzelne Zellen. Das Referentenlabor hat Tools und Frameworks zur Unterstützung dieses Prozesses beigesteuert, einschließlich der erfolgreichen Scanpy-Einzelzellanalyse in Python, die eine Bibliothek mit Tools und Modulen zur Durchführung dieser Schritte bereitstellt. Visualisierung und nachgelagerte Analyse beinhalten das Lernen des latenten Raums, wobei die am häufigsten verwendete Methode ein akn-Graph ist. Das Labor des Sprechers hat auch in die Untersuchung von Zeitreiheninformationen in Einzelzell-Transkriptomen investiert, um zelluläre Differenzierungsprozesse zu verstehen.

  • 00:30:00 In diesem Abschnitt erörtert der Referent die Verwendung der Autoencoder-Architektur beim Community-Clustering unter Verwendung tiefer neuronaler Netze. Dieser Ansatz wird verwendet, um mit der zunehmenden Größe von Datensätzen und dem Rauschen in Gen-mal-Zell-Matrizen umzugehen. Die Engpassschicht der Autoencoder-Architektur erweist sich als signifikant und kann etwas über biologische Prozesse lernen. Das Team des Sprechers hat diese Informationen genutzt, um einen Deep-Count-Autoencoder zu entwickeln, der sich an die Rauschfunktion anpasst, indem er den mittleren quadratischen Fehler durch eine negative Binomialverteilung ersetzt. Ein zweidimensionales Diagramm dieses Ansatzes auf einem PBMC-Datensatz zeigt, dass die Engpassschicht Zelltypgruppen ohne Vorkenntnisse erkennt, was dazu beitragen könnte, biologisches Wissen zu nutzen. Auch das Skalierungsverhalten dieses neuronalen Netzverfahrens wird als wesentlicher Vorteil gegenüber dem Kn-Algorithmus identifiziert.

  • 00:35:00 In diesem Abschnitt erörtert der Referent das Potenzial von Deep Learning in Genomik und Einzelzelldaten zur Entwicklung der nächsten Generation von Faltungsfiltern. Er erwähnt ein Projekt, das sich auf Domänenanpassung konzentriert und darauf abzielt, bestimmte Einstellungen auf eine neue zu übertragen, wie etwa Störungen und Arzneimittelreize in Zellen. Sie nennen dieses Projekt "scgen", das die Störungseffekte von Zellen modelliert und versucht vorherzusagen, wie sich ein neuer Zelltyp verhalten würde. Durch die Codierung aller Datensätze hoffen sie, einen linearisierten latenten Raum zu erreichen, in dem sie Arithmetik und Out-of-Sample-Vorhersagen durchführen können. Sie haben dieses Modell auch für komplexere Zerlegungen erweitert.

  • 00:40:00 In diesem Abschnitt erörtert der Referent die Fähigkeit, einen Zelltyp mithilfe von Deep Learning in der Einzelzellgenomik zu rekonstruieren. Das Ziel besteht darin, einen Zelltyp wie CD4-positive T-Zellen stimuliert zu rekonstruieren, indem man sie weglässt und im Wesentlichen eine Out-of-Sample-Vorhersage trifft. Die Vorhersage basiert nicht nur auf dem Mittelwert, sondern auch auf der Verteilung der Varianz. Diese Rekonstruktion wird nicht nur für CD4-positive T-Zellen, sondern für alle anderen Zelltypen durchgeführt, und die zellspezifische Antwort wird erlernt, was sie zu einem wirksamen Werkzeug für die Genomik macht. Der Referent spricht auch über SCGen, ein einfaches generatives Modell, das um latentes Raumlernen erweitert wurde. Es kann verwendet werden, um Stilübertragungen durchzuführen, indem alle Informationen über das große Muster in das Modell gepackt werden. Abschließend erörtert der Referent Transfer Learning, das für den Umgang mit verteilten Daten und den einfachen Zugriff auf diese Karten unerlässlich ist.

  • 00:45:00 In diesem Abschnitt erörtert der Referent die Anwendung von Bayes'scher Modellierung und Variations-Autoencodern (VAEs) auf Einzelzelldaten, die darauf abzielen, die unterschiedlichen Funktionen von Zellen in einem Gewebe zu verstehen. Der Prozess beinhaltet die Dissoziation eines Gewebes in einzelne Zellen und die Ausführung einer einzelnen RNA-Sequenzierungspipeline, was zu einer Matrix führt, die zeigt, wie oft ein Transkript mit einem Gen für jede Zelle ausgerichtet ist. Der Referent betont die Bedeutung der Zusammenarbeit in ihrer Arbeit mit Doktoranden und Masterstudenten sowie Professoren und stellt mehrere Themen vor, die sie während der gesamten Präsentation behandeln werden, von der Bedeutung der Anwendung von VAEs auf Einzelzelldaten bis hin zu einer Diskussion über Erweiterungen und Ausfallarten von VAEs .

  • 00:50:00 In diesem Abschnitt erörtert der Referent die verschiedenen Aufgaben und Herausforderungen der Einzelzellgenomik, einschließlich der Analyse von Abfragen auf Zell- und Genebene. Einige der Aufgaben umfassen Zellstratifizierung, Trajektorienanalyse, Datensatzharmonisierung, Annotationsübertragung, Normalisierung und differenzielle Expressionstests. Die Analyse kann aufgrund von technischem Rauschen wie variabler Sequenzierungstiefe und Stapeleffekten sowie der hochdimensionalen, nicht-Gaußschen Natur der Daten komplex sein. Um diese Probleme anzugehen, schlägt der Referent vor, Latent-Variablen-Modelle und skalierbare Methoden zu verwenden, um die Millionen von beteiligten Proben zu analysieren.

  • 00:55:00 In diesem Abschnitt erörtert der Referent die Grenzen der Anwendung von Algorithmen auf Einzelzell-Genomdaten und die Notwendigkeit einer einheitlichen Modellierungsannahme für den gesamten Prozess. Sie stellen die Idee eines generativen Modells vor, das auf Bayes'schen Modellierungstechniken aufbaut und zur skalierbaren und konsistenten Analyse von Einzelzelldaten verwendet werden kann. Der Referent erklärt, wie man ein grafisches Modell liest und wie die verschiedenen Knoten und Kanten verwendet werden können, um probabilistische Eigenschaften wie unabhängige Replikation und Konditionalität zu codieren. Das Ziel besteht darin, die Posterior-Verteilung zu berechnen, die mit der Bayes-Regel erreicht werden kann, aber die marginale Wahrscheinlichkeit ist oft schwer zu handhaben, außer wenn die probablistische PCA verwendet wird.

  • 01:00:00 In diesem Abschnitt erörtert der Referent das Konzept der Variationsinferenz, das in scVI verwendet wird, um die A-Posteriori-Wahrscheinlichkeitsverteilung von Beobachtungen zu approximieren. Das Verfahren beinhaltet das Platzieren einer Familie von Verteilungen und das Finden des Punktes q, der die K-Divergenz nach hinten minimiert, was im Wesentlichen ein Optimierungsproblem ist. Unter Verwendung der Definition einer bedingten Dichte wird das Optimierungsproblem handhabbar und die Variationsinferenz wird zu einer attraktiven Methode. Der Referent stellt auch eine Erweiterung der probabilistischen PCA vor, bei der ein neuronales Netzwerk verwendet werden kann, um den Mittelwert und die Varianz der Gaußschen Verteilung zu spezifizieren. Die Verwendung von Variationsinferenz in VAEs erfordert jedoch das Erlernen der Modellparameter durch Maximieren der Beweise, was erreicht werden kann, indem alle Parameter der Variationsrückseite mit zwei neuronalen Netzen verknüpft werden. Abschließend diskutiert der Referent scVI, das technische Effekte in ein grafisches Modell integriert, um Genexpressionszählungen für eine bestimmte Zelle und ein bestimmtes Gen zu generieren.

  • 01:05:00 In diesem Abschnitt gibt der Referent eine detaillierte Erläuterung des generativen Prozesses für Einzelzell-RNA-Sequenzierungsdaten unter Verwendung eines bedingten Variations-Autoencoders (CVA) und erläutert weiter, wie dieses Modell für verschiedene Aufgaben wie Schichtung, Harmonisierung, Normalisierung, Imputation und differentieller Ausdruck. Der Referent betont, wie dieser Ansatz mit Stapeleffekten umgehen kann und die Skalierbarkeit verbessert. Der Referent demonstriert auch die Nützlichkeit des Modells, indem er zeigt, dass es hierarchische Cluster und Entwicklungsgradienten in den Einbettungen wiederherstellen und Batch-Effekte in Fällen mit starken Batch-Effekten und vielen Batches handhaben kann.

  • 01:10:00 In diesem Abschnitt erörtert der Moderator die Herausforderung, Zelltyp-Datensätze zu mischen und gleichzeitig Zelltypen unterscheiden zu können. Sie präsentieren das SCVI-Modell, das Datensätze mischen kann, ohne die Fähigkeit zu verlieren, Zelltypen zu sehen. Der Moderator spricht auch über die aufregende Verwendung der latenten Variablen Rao für die differenzielle Expressionsanalyse. Das Team verglich das Ranking von Genen mit SCVI und anderen Methoden für die Microarray-Technologie und stellte fest, dass SCVI ähnlich oder sogar etwas besser abschneidet. Schließlich stellt der Referent das SCVI++-Modell vor, das eine Erweiterung von SCVI ist, das für Annotationszwecke verwendet wird und die Übertragung von Labels von einem Datensatz zu einem anderen ermöglicht. Das SCVI++-Modell basiert auf einem Mischungsmodell und ändert den Prior in z und verwendet ein neuronales Netz für die Zelltypzuordnung.

  • 01:15:00 In diesem Abschnitt erörtert der Referent die Verwendung eines Rahmens namens CanVAE in einem Anwendungsfall, bei dem es eine Untergruppe von T-Zellen gibt, deren Unterzelltypen jedoch nicht anhand einiger schwach exprimierter Markergene identifiziert werden können . Durch die Verwendung von CanVAE zur Weitergabe der Labels wird es zu einer semi-überwachten Lernmethode, die besser funktioniert als nur Clustering oder Klassifizierung, da sie das Wissen über alle Zellen nutzt. Außerdem stellt der Sprecher ein Problem dar, kontinuierliche Informationen oder Kovariaten aus dem latenten Raum herauszufiltern, was mit neuralen Netzen, die zum Parametrisieren der Variationsverteilung verwendet werden, schwierig zu handhaben ist. Sie führen HC Constraint VAES ein, eine Methode, die Unabhängigkeitsaussagen im aggregierten Posterior erzwingt, was zu lockereren unteren Grenzen mit geeigneteren Eigenschaften führt. Abschließend diskutieren sie den Differenzialausdruck und wie er als Bayes'sches Modellauswahlproblem betrachtet werden kann, bei dem Wahrscheinlichkeitsverhältnisse als Schwellenwert für die Bestimmung des Differenzialausdrucks unter Verwendung des CanVAE-Frameworks verwendet werden können.

  • 01:20:00 In diesem Abschnitt erörtert der Referent die Herausforderungen und Einschränkungen, die mit der Verwendung von Aposteriori-Wahrscheinlichkeiten zur Berechnung von Maßen der Genexpression verbunden sind. Der Ansatz kann verzerrt sein, wenn der Posterior falsch ist, und viele Menschen ziehen es vor, das Maß der Rate falscher Entdeckungen gegenüber Basisfaktoren zu kontrollieren. Um dieses Problem zu lösen, schlägt der Redner ein Verfahren zur genauen Berechnung der späteren Erwartungen unter Verwendung von Stichproben aus der Variationsverteilung vor. Sie führen unterschiedliche Obergrenzen ein, die die Varianz überschätzen, was für wichtige Stichproben nützlicher ist, als sie zu unterschätzen. Darüber hinaus stellt der Referent ein Verfahren zum Kombinieren mehrerer Vorschläge vor, um die volle Entdeckungsrate mit dem CVI zu kontrollieren. Das mit dieser Arbeit verbundene Papier enthält auch theoretische Analysen, die den Fehler für wichtige Probennahmen unter Verwendung von Konzentrationsgrenzen quantifizieren.

  • 01:25:00 In diesem Abschnitt erörtert der Referent die Implementierung verschiedener Deep-Learning-Algorithmen auf einer einzigen Codebasis namens CVI-Tools, die Tools zur Analyse von Einzelzell-Omics-Daten und eine Schnittstelle zu probabilistischen Programmiersprachen enthält. Die Codebasis enthält die Implementierung von etwa 10 bis 13 generativen Modellen, und Benutzer können einen bedingten Variations-Autoencoder problemlos in einer Codezeile ändern oder einen neuen erstellen. Der Referent erwähnt auch eine Übersichtsarbeit, die den Einfluss von Variational Autoencodern und Generative Adversarial Networks in der Molekularbiologie diskutiert.