Apprentissage Automatique et Réseaux Neuronaux - page 23

 

Réseaux de neurones de graphes - Conférence 15



Graph Neural Networks - Conférence 15 - Learning in Life Sciences (printemps 2021)

Dans cette conférence YouTube sur les réseaux de neurones de graphes, l'orateur couvre un large éventail de sujets, y compris les bases des réseaux de graphes, les représentations spectrales, la classification semi-supervisée et la modélisation de données multi-relationnelles. L'accent est également mis sur l'intersection des réseaux de graphes et du traitement du langage naturel et sur la manière de générer des graphes pour la découverte de médicaments. Le conférencier explique diverses méthodes pour propager l'information à travers les graphes afin d'obtenir des plongements de nœuds utiles qui peuvent être utilisés pour des tâches de prédiction. La conférence souligne également l'importance de l'apprentissage contrastif pour les GNN, les avantages potentiels de la combinaison de représentations basées sur des patchs et de méthodes basées sur l'attention, et l'utilisation de l'approche du transformateur dans la PNL. La seconde moitié de la conférence se concentre sur la discussion d'articles qui présentent les utilisations pratiques des GNN dans la découverte de médicaments et comment coder et décoder la structure des molécules à l'aide d'un arbre de jonction.

Cette vidéo traite des multiples applications des réseaux de neurones graphiques (GNN) dans les sciences de la vie, y compris la découverte de médicaments et l'inférence de graphes latents. L'orateur met en évidence les problèmes et les pistes potentielles dans les GNN, tels que le manque de localité spatiale et d'ordre fixe, et la configuration envisagée consiste à prédire le type d'un nœud donné, à prédire un lien entre deux nœuds, à mesurer la similarité entre deux nœuds ou deux réseaux , et regrouper les nœuds en effectuant une détection de communauté dans le réseau. Le conférencier explique également comment les GNN peuvent former et intégrer efficacement des graphiques, transformer et agréger des informations et gérer les effets secondaires de la polypharmacie. De plus, la conférence couvre deux méthodes d'apprentissage automatique des représentations dans les sciences de la vie, des modèles de méta-apprentissage comme MARS étant exploités pour se généraliser à de nouveaux types de cellules. Enfin, la conférence explique comment les GNN peuvent apprendre des représentations cellulaires latentes sur plusieurs ensembles de données pour capturer l'hétérogénéité des types de cellules.

  • 00:00:00 Dans cette section, le conférencier présente le quatrième module sur les graphes et les protéines et les conférences à venir sur les réseaux neuronaux de graphes, la structure des protéines et la conception de médicaments. L'orateur insiste sur l'importance de réviser le matériel par le biais de devoirs, de repos et de documents pour se préparer à un prochain quiz en classe. L'objectif n'est pas de tromper ou de surprendre les étudiants, mais de les aider à embrasser le domaine et à acquérir une compréhension approfondie de celui-ci. Le conférencier informe également les étudiants d'une prochaine conférence de l'équipe AlphaFold sur le repliement des protéines, qui est une avancée révolutionnaire dans le domaine.

  • 00:05:00 Dans cette section, le conférencier présente le concept de réseaux et comment ils sont omniprésents dans divers aspects de la société, y compris les réseaux biologiques. Les réseaux biologiques comprennent des réseaux de régulation, des réseaux de signalisation et des réseaux métaboliques opérant à différents niveaux de la cellule. Il existe un besoin de méthodes d'analyse de réseau pour comprendre les propriétés de ces réseaux qui interagissent les uns avec les autres. En outre, il est fait mention de réseaux probabilistes qui utilisent des nœuds et des arêtes pour représenter des objets probabilistes. Les représentations matricielles de ces réseaux permettent de les décomposer, d'apprendre des communautés et d'identifier des modules par des approches d'algèbre linéaire.

  • 00:10:00 Dans cette section de la conférence, l'orateur donne un aperçu du vaste corpus de travaux sur l'analyse des réseaux et ses représentations spectrales. Les méthodes discutées incluent l'identification de la séparabilité des composants à l'aide de coupes maximales à travers des réseaux basés sur les première et deuxième valeurs propres de la matrice laplacienne, ainsi que l'utilisation de noyaux de diffusion pour comprendre le flux d'informations entre différentes arêtes. L'orateur souligne l'importance de ne pas oublier cette littérature établie car elle peut être utilisée en combinaison avec des méthodes d'apprentissage en profondeur telles que les réseaux de neurones graphiques qui seront discutés dans la conférence. Le conférencier présente ensuite le conférencier invité, Neil Band, qui fournira un rappel sur les réseaux de neurones graphiques et discutera de domaines problématiques tels que l'apprentissage semi-supervisé, les données multi-relationnelles et le traitement du langage naturel.

  • 00: 15: 00 Dans cette section, nous apprenons à propager efficacement des informations sur des graphes pour calculer les caractéristiques des nœuds ou de nombreux graphes et effectuer des opérations en aval à l'aide de réseaux convolutifs de graphes. Ce réseau peut agréger les informations sur les caractéristiques et mettre à jour le nœud particulier en recevant et en tirant des informations futures des voisins. L'objectif final de GNNS est de produire un vecteur d'intégration qui peut être utilisé pour prédire la propriété d'un graphe entier ou prédire le type de chaque nœud individuel. La règle de mise à jour est basée sur la propagation des informations à partir de la représentation cachée du nœud et des mises à jour reçues du voisinage immédiat. De plus, pour réduire le nombre de paramètres du modèle, les mêmes matrices de pondération sont appliquées avec des paramètres partagés à tous les voisins au lieu d'en appliquer des différents.

  • 00: 20: 00 Dans cette section, le conférencier décrit le processus d'utilisation des réseaux de neurones graphiques pour effectuer une tâche de classification sur les réseaux de citations avec des articles comme nœuds et des liens de citation comme bords. Le réseau convolutif de graphe à deux couches est appliqué, ce qui implique de mettre à jour chaque nœud du graphe pour absorber les informations de son voisinage immédiat, puis d'obtenir les sorties. Le conférencier mentionne l'inconvénient potentiel d'un lissage excessif avec les réseaux profonds et suggère d'utiliser des unités récurrentes fermées pour préserver la mémoire de l'état initial. De plus, le conférencier discute de la possibilité de combiner des méthodes basées sur l'attention et des représentations basées sur des patchs pour apprendre des représentations d'ordre supérieur dans les réseaux de neurones de graphes.

  • 00: 25: 00 Dans cette section, le conférencier discute de différents paradigmes dans les réseaux de neurones de graphes, y compris les réseaux de convolution de graphes, les mises à jour attentionnelles et les techniques de transmission de messages. Ils mettent en évidence les problèmes de mémoire potentiels qui surviennent lorsque les graphes deviennent trop denses dans la transmission des messages, mais soulignent que ces paradigmes sont utiles pour différents types de tâches d'apprentissage. Ils plongent ensuite dans la classification semi-supervisée sur des graphes, dans laquelle le cadre transductif peut permettre aux modèles d'apprendre rapidement, même sans caractéristiques de nœud explicites. Enfin, l'enseignant aborde les réseaux convolutifs de graphes relationnels, qui peuvent être utilisés pour modéliser des données multi-relationnelles, comme dans le traitement du langage naturel.

  • 00:30:00 Dans cette section, le conférencier discute de la connexion entre les réseaux graphiques et le traitement du langage naturel, en particulier l'utilisation du modèle de transformateur en TAL. Le modèle de transformateur est couramment utilisé pour des tâches telles que la traduction de la langue et l'apprentissage de la compréhension conceptuelle générale des mots. L'approche du transformateur commence à partir d'un graphe entièrement connecté, contrairement aux réseaux biologiques où de nombreuses arêtes manquent, et utilise l'auto-attention pour mettre à jour les incorporations de nœuds avant de produire une version mise à jour. Bien que l'approche du transformateur ne profite pas nécessairement aux réseaux biologiques, il existe un potentiel de pollinisation croisée des stratégies et d'optimisation entre les deux domaines.

  • 00: 35: 00 Dans cette section, nous apprenons comment effectuer une mise à jour d'intégration de mots pour une phrase de deux mots et comment rechercher un mot particulier dans tous les autres mots. Les réseaux d'attention de graphe utilisent cette même méthode, sauf qu'ils supposent que tout le voisinage est le graphe et qu'il existe des intégrations positionnelles. L'orateur explique comment incorporer les informations de connectivité du graphe dans l'architecture et comment masquer des parties du graphe pour n'utiliser que les mots qui ont été mentionnés précédemment. Il existe de nombreuses possibilités d'appliquer ces méthodes de manière croisée.

  • 00: 40: 00 Dans cette section, le conférencier discute du cadre d'apprentissage non supervisé des incorporations de nœuds d'apprentissage pour les tâches en aval, telles que la classification des nœuds ou la classification des graphes. Pour améliorer la capacité des réseaux de neurones à devenir bien spécifiés, l'enseignant explique le concept d'augmentation de données et décrit comment il est utilisé dans les approches d'apprentissage contrastif. Le cours couvre également les paramètres de conception, tels que les stratégies d'échantillonnage, les différents types de représentations de nœuds et les différents types de fonctions de notation. Une approche consiste à utiliser la fonction de notation pour maximiser les informations mutuelles entre les représentations locales et globales d'une classe particulière. Cela encourage le réseau à extraire des informations liées aux classes de différents sous-ensembles d'informations du graphique, ce qui conduit à des incorporations de nœuds plus robustes et à de meilleures performances en aval.

  • 00: 45: 00 Dans cette section, l'orateur discute de la dimensionnalité des intégrations de nœuds dans les réseaux de neurones graphiques (GNN) et de l'utilisation de l'apprentissage contrastif pour les GNN. L'orateur explique qu'en pratique, les propriétés des nœuds dans les GNN pourraient vivre dans un espace de grande dimension, comme 256 ou 512 dimensions pour un seul nœud dans un grand graphe. L'orateur note également que l'apprentissage contrastif, qui consiste à utiliser des exemples positifs et négatifs pour encoder la structure du graphe, pourrait être utilisé à la place de la classification pour améliorer l'encodage de la structure du graphe. Enfin, l'orateur résume les points à retenir des décisions de conception dans les GNN, soulignant l'efficacité de la notation basée sur les voisins pour la prédiction des liens et la classification des nœuds et l'importance de prendre en compte à la fois les caractéristiques des nœuds et la structure du graphe lors du choix du type de représentation des nœuds. .

  • 00: 50: 00 Dans cette section, l'orateur discute de deux façons de générer un graphe, dont la première consiste à prédire de nouveaux liens entre des entités connues en utilisant un réseau neuronal de graphe standard ou un réseau convolutif de graphe comme encodeur et une fonction des incorporations comme un décodeur. La probabilité d'existence d'une arête donnée est basée sur les nœuds qui lui sont incidents et est indépendante de toutes les autres arêtes. La deuxième façon génère un graphe avec un seul vecteur d'intégration pour l'ensemble du graphe, en utilisant un état particulier, qui est décodé à l'aide d'un Graph RNN qui fait un ensemble de prédictions lors de l'ajout sur chaque nœud spécifique. Cette méthode tente d'introduire le moins de biais inductifs possible sur la façon de générer un graphe. Cette dernière approche est utilisée pour la découverte de médicaments, en particulier dans l'article sur Junction Tree Variational Autoencoder pour générer des molécules de novo à haute puissance, qu'elles aient été synthétisées ou caractérisées auparavant.

  • 00: 55: 00 Dans cette section, l'approche de l'article pour coder et décoder la structure des molécules à l'aide de réseaux de neurones graphiques est décrite. L'approche utilise un graphe moléculaire à grain fin pour coder un état et une décomposition arborescente pour décoder la structure de niveau supérieur du graphe. En utilisant un arbre de jonction pour supprimer les cycles dans le graphique, les auteurs sont en mesure de simplifier le processus de décodage et de prédire uniquement l'étiquette d'un nœud et d'ajouter ou non un nœud enfant, ce qui donne une structure de niveau supérieur valide de la molécule. Les auteurs utilisent une unité récurrente fermée pour impliquer tout l'état du sous-arbre qui a été construit jusqu'à présent et obtenir un pourcentage élevé de reconstruction en termes de validité moléculaire. L'optimisation bayésienne est utilisée pour évaluer la navigabilité de l'espace latent pour générer de nouveaux médicaments.

  • 01:00:00 Dans cette section, le conférencier discute de deux applications des réseaux de neurones à graphes (GNN) dans les sciences de la vie. La première application est dans le domaine de la découverte de médicaments, où le GNN est utilisé pour déduire la variable latente d'une molécule et prédire sa propriété chimique. Le modèle est formé à l'aide d'un cadre d'encodeur-décodeur et optimisé à l'aide de l'optimisation bayésienne. La deuxième application est l'inférence de graphe latent, où les GNN sont utilisés pour modéliser des structures cachées dans un problème en codant l'ensemble des dynamiques qui se produisent au fil du temps. Le modèle peut être utilisé pour prédire les résultats futurs et peut être appliqué à la découverte causale. L'orateur présente des données sur les jouets ainsi que des données de capture de mouvement dans le monde réel pour montrer l'efficacité des GNN dans ces applications.

  • 01:05:00 Dans cette section, le conférencier discute des enjeux et des pistes potentielles dans les réseaux de neurones à graphes. Quelques problèmes ont été mentionnés, notamment la puissance limitée et la relation théorique avec les tests d'isomorphisme dans la transmission de messages et l'agrégation de voisinage, les défis des graphes de calcul structurés en arbre pour trouver des cycles dans les graphes et la question du lissage excessif. Cependant, l'orateur voit également des promesses dans la mise à l'échelle de ces réseaux, l'apprentissage sur de grands ensembles de données et l'essai d'apprentissage multimodal et intermodal entre les séquences et les graphiques. Suite à cela, un post-doctorant de l'Université de Stanford discute de l'apprentissage en profondeur dans les réseaux biologiques et de la manière dont, pour les données représentées sous forme de graphique, des cadres de réseaux de neurones profonds plus largement applicables sont nécessaires. Il est expliqué que si l'apprentissage en profondeur a transformé la façon dont nous pensons au cycle de vie de l'apprentissage automatique aujourd'hui, il n'est pas clair comment utiliser et appliquer l'apprentissage en profondeur pour des données complexes représentées sous forme de graphique.

  • 01:10:00 Dans cette section, les complexités de l'apprentissage sur les données de graphes sont discutées, y compris le manque de localité spatiale et d'ordre fixe, l'inexistence de points de référence et la nature dynamique des graphes. Le but de l'apprentissage de la représentation sur les graphes est de trouver un moyen d'apprendre une fonction de mappage qui prend le graphe comme entrée pour mapper les nœuds sur un espace d'intégration de faible dimension. L'apprentissage efficace des caractéristiques indépendantes des tâches est un objectif crucial de ce processus pour l'apprentissage automatique sur les réseaux. La configuration considérée suppose un graphe avec une matrice d'adjacence et des caractéristiques de nœud associées à chaque nœud, à partir duquel le but est de prédire un type d'un nœud donné, de prédire un lien entre deux nœuds, de mesurer la similarité entre deux nœuds ou deux réseaux, et de regrouper nœuds en effectuant une détection de communauté dans le réseau. L'approche la plus naïve consistant à appliquer des réseaux de neurones profonds aux graphes est présentée, mais ses limites sont soulignées, notamment l'augmentation du nombre de paramètres dans le réseau en fonction du nombre de nœuds, l'instabilité de l'apprentissage et la probabilité accrue de surajustement.

  • 01:15:00 Dans cette section, le conférencier explique comment les réseaux de neurones de graphes peuvent former et intégrer efficacement des graphes en utilisant des idées empruntées aux réseaux de neurones convolutifs. Le voisinage d'un nœud définit la structure du réseau de neurones, et l'idée clé est de générer des intégrations de nœuds basées sur le voisinage du réseau local. L'orateur illustre ce concept en montrant comment agréger et transformer des informations pour produire des opérateurs de transformation et d'agrégation de messages, qui sont invariants par permutation. Ces opérateurs peuvent être appris pour transformer les informations de nœud et prédire la propriété d'intérêt.

  • 01:20:00 Dans cette section, le conférencier explique le processus de transformation et d'agrégation des réseaux de neurones de graphes. L'approche de base consiste à faire la moyenne des informations provenant des nœuds et à appliquer des réseaux de neurones pour des transformations linéaires suivies d'une non-linéarité. L'orateur présente l'exemple de l'algorithme GraphSAGE, où une fonction d'agrégation généralisée est introduite pour combiner les caractéristiques du voisinage local d'un nœud. Des fonctions d'agrégation différenciables, telles que la moyenne, le regroupement ou les cellules LSTM, peuvent être utilisées pour agréger les informations entre les voisins. Le conférencier discute également de l'utilisation des réseaux de neurones graphiques en biologie et de la manière dont ils peuvent être utilisés pour prédire certains comportements ou résultats.

  • 01:25:00 Dans cette section, le conférencier aborde le concept d'effets secondaires de la polymédication, qui sont des effets secondaires résultant de la combinaison de médicaments. Le conférencier explique que l'objectif est d'estimer la probabilité d'effets secondaires de la combinaison de deux médicaments en les modélisant comme des nœuds dans un réseau hétérogène. Le conférencier montre un exemple de la façon dont les médicaments et les protéines peuvent être modélisés dans un réseau pour capturer les mécanismes d'action des médicaments et les mécanismes biologiques sous-jacents. Le conférencier explique ensuite comment les réseaux de neurones graphiques (GNN) peuvent être étendus pour intégrer des réseaux hétérogènes, où le voisinage doit être séparé par un type d'arête, et comment transformer et propager les informations sur le graphe défini par le voisinage du réseau des nœuds dans chaque arête. taper.

  • 01:30:00 Dans cette section, le conférencier discute de deux méthodes d'apprentissage automatique des représentations en sciences de la vie. La première méthode est basée sur des réseaux de neurones de graphe relationnel, qui peuvent être utilisés pour prédire si deux médicaments entraîneront des effets secondaires en apprenant des intégrations vectorielles à d dimensions pour chaque nœud du graphe. La deuxième méthode est un modèle de méta-apprentissage appelé MARS, qui exploite les connaissances antérieures à partir de données précédemment annotées pour généraliser à de nouveaux types de cellules jamais vus auparavant. En optimisant l'expérience non annotée et l'ensemble de métadonnées, MARS peut annoter automatiquement les cellules en types de cellules et éviter l'effort manuel fastidieux d'annotation des cellules en fonction de leurs profils d'expression génique.

  • 01:35:00 Dans cette section de la conférence, l'orateur discute de l'utilisation des réseaux de neurones graphiques pour apprendre les représentations cellulaires latentes sur plusieurs ensembles de données afin de capturer l'hétérogénéité des types de cellules. L'approche implique la projection conjointe de cellules à partir d'expériences annotées et non annotées dans un espace d'intégration de faible dimension, où des types de cellules similaires sont intégrés à proximité et différents types de cellules sont intégrés à distance. Pour y parvenir, la méthode apprend des points de repère de type cellulaire en tant que représentants de type cellulaire et une fonction de cartographie non linéaire utilisant des réseaux de neurones profonds. L'approche est validée sur des données d'atlas de cellules de souris à grande échelle avec plus de 100 000 cellules provenant de plus de 20 tissus, et elle atteint des performances 45% meilleures que les méthodes existantes en termes d'indice Rand ajusté.
Graph Neural Networks - Lecture 15 - Learning in Life Sciences (Spring 2021)
Graph Neural Networks - Lecture 15 - Learning in Life Sciences (Spring 2021)
  • 2021.04.19
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecturers: Neil Band, Maria Brbic / Jure LeskovecDeep Learning in the Life Scienc...
 

L'IA pour la conception de médicaments - Conférence 16


AI for Drug Design - Conférence 16 - Apprentissage profond dans les sciences de la vie (printemps 2021)

Cette conférence traite de l'utilisation de l'apprentissage en profondeur pour la conception de médicaments. Il explique comment l'apprentissage en profondeur peut être utilisé pour trouver de nouveaux composés résistants aux antibiotiques. Il explique également comment les modèles d'apprentissage en profondeur peuvent être améliorés en incorporant des connaissances biologiques.

Cette deuxième partie de la conférence donne un aperçu de la façon dont l'apprentissage en profondeur peut être utilisé dans la conception de médicaments, en particulier pour prédire l'activité antivirale des combinaisons de médicaments. Le modèle a été testé in vivo à l'aide d'essais cellulaires et deux nouvelles combinaisons de médicaments synergiques ont été identifiées.

  • 00:00:00 Le conférencier présentera l'apprentissage en profondeur pour la conception de médicaments et ses défis. Il discutera de l'espace fonctionnel et de l'espace chimique, et expliquera comment l'apprentissage en profondeur peut être utilisé pour trouver automatiquement des médicaments.

  • 00:05:00 Les trois approches de la conception de médicaments sont basées sur les premiers principes, la simulation et le criblage virtuel. Les deux premiers sont bons pour trouver des composés avec des propriétés spécifiques, mais le dernier est plus ambitieux et essaie de trouver le bon composé en examinant des propriétés indépendantes les unes des autres. La simulation est souvent trop lente et le dépistage virtuel coûte cher. La conception de médicaments Denoble est l'approche la plus ambitieuse et tente de résoudre le problème inverse de trouver un composé en examinant un ensemble de critères.

  • 00:10:00 Dans cette conférence, l'orateur discute de deux méthodes pour la découverte de médicaments, le criblage virtuel et la conception de médicaments nobles. Les deux méthodes ont leurs propres avantages et inconvénients, le dépistage virtuel étant plus rapide et moins cher mais ayant une couverture moindre que les méthodes traditionnelles, tandis que la conception de médicaments nobles est plus lente mais peut trouver plus de nouveaux composés. Les algorithmes génétiques sont un moyen efficace d'explorer l'espace chimique, mais il y a encore place à l'amélioration des algorithmes pour cette tâche.

  • 00:15:00 Dans cette conférence, le professeur explique comment l'apprentissage en profondeur est utilisé dans la conception de médicaments et comment il peut être plus efficace que les techniques traditionnelles. Il mentionne également un article intitulé "Dolly", qui montre comment l'apprentissage en profondeur peut être utilisé pour générer des images réalistes d'objets.

  • 00: 20: 00 Dans cette conférence, le professeur discute des techniques d'apprentissage en profondeur utilisées dans la découverte de médicaments et donne des exemples de la façon dont ces techniques ont aidé les chercheurs à trouver de nouveaux antibiotiques.

  • 00: 25: 00 Les réseaux de neurones graphiques sont un type d'intelligence artificielle utilisé pour rechercher de nouveaux composés capables de tuer les bactéries. L'objectif de l'utilisation de ce type d'IA est de trouver des composés qui ne sont pas découverts par les méthodes traditionnelles, car ces méthodes peuvent manquer des modèles antibactériens inconnus.

  • 00:30:00 Cette conférence explique comment l'apprentissage en profondeur peut être utilisé pour identifier des modèles dans les données liées à la résistance aux antibiotiques. Le modèle est capable de prédire si une molécule sera efficace contre les bactéries, avec une précision d'environ 9,0 auc.

  • 00: 35: 00 La vidéo explique comment les antibiotiques existants ne sont plus efficaces contre certaines souches bactériennes et comment un nouveau composé, appelé "hallucination", est à la fois nouveau et efficace contre ces souches. Il explique également comment le composé est efficace contre les infections chez la souris.

  • 00: 40: 00 La vidéo discute du succès des modèles d'apprentissage en profondeur par rapport aux méthodes traditionnelles dans la découverte de nouveaux composés résistants aux antibiotiques. La vidéo montre également comment une méthode traditionnelle, la conception manuelle, n'est pas en mesure de découvrir certains composés résistants aux antibiotiques. Les modèles d'apprentissage en profondeur sont capables de capturer différentes parties de l'espace et sont très bien classés par les modèles.

  • 00:45:00 L'orateur décrit les modèles d'apprentissage en profondeur utilisés pour la conception de médicaments et explique comment les modèles peuvent être améliorés en incorporant des connaissances biologiques. Il présente une étude de cas d'une combinaison de médicaments qui s'est avérée plus efficace qu'un seul médicament.

  • 00: 50: 00 La vidéo traite de l'IA pour la conception de médicaments, avec un accent particulier sur l'utilisation de l'apprentissage en profondeur pour identifier des composés synergiques. L'objectif est de trouver des médicaments synergiques et moins toxiques, et d'intégrer la connaissance du cycle de réplication virale dans le modèle.

  • 00: 55: 00 La conférence discute des méthodes d'apprentissage en profondeur pour la conception de médicaments, en se concentrant sur la façon dont elles peuvent être utilisées pour prédire l'activité antivirale d'un médicament contre une variété de cibles. La première étape consiste à prédire l'interaction cible du médicament, en utilisant un ensemble de données de Campbell et du National Institute of Health. Ensuite, un réseau neuronal est utilisé pour apprendre la représentation de la structure de la molécule, qui est nécessaire pour la deuxième étape du processus de conception du médicament : prédire l'activité antivirale du médicament contre une variété de cibles. En utilisant une combinaison d'apprentissage en profondeur et de complétion de matrice, le potentiel d'amélioration de la conception des médicaments est mis en évidence.

  • 01:00:00 Cette conférence explique comment l'apprentissage en profondeur peut être utilisé dans la conception de médicaments, en particulier pour prédire l'activité antivirale des combinaisons de médicaments. Le modèle a été testé in vivo à l'aide d'essais cellulaires et deux nouvelles combinaisons de médicaments synergiques ont été identifiées.

  • 01:05:00 Cette conférence se concentre sur l'apprentissage en profondeur dans les sciences de la vie et son importance pour la conception de médicaments. La conférence couvre deux approches antérieures de la conception de médicaments, l'une utilisant des séquences et l'autre utilisant des réseaux de neurones récurrents. La conférence note que la représentation du flux de sourire des molécules est assez fragile et que les techniques ont de mauvaises performances lorsqu'elles sont appliquées à la découverte de médicaments. La conférence note qu'une meilleure façon de représenter les molécules consiste à utiliser des graphiques, qui peuvent être générés efficacement avec des réseaux de neurones récurrents.

  • 01:10:00 La conférence traite de l'apprentissage en profondeur dans les sciences de la vie, en particulier en ce qui concerne la conception de médicaments. La conférence note que l'apprentissage en profondeur peut être utilisé pour générer des molécules, mais qu'il a des problèmes avec les molécules clairsemées et les motifs d'ondes arborescentes basses. Un réseau neuronal récurrent a été proposé comme solution, et il s'est avéré plus efficace avec des molécules qui ont de faibles motifs d'ondes arborescentes.

  • 01:15:00 Cette conférence traite de l'apprentissage en profondeur dans les sciences de la vie, en se concentrant sur un auto-encodeur d'apprentissage en profondeur qui peut coder des molécules dans un vecteur de faible dimension. Cela réduit le nombre de motifs pouvant être générés, ainsi que la complexité temporelle du processus.

  • 01:20:00 Dans cette conférence, le professeur explique comment l'apprentissage en profondeur peut être utilisé pour améliorer la précision de la reconstruction des motifs dans la conception de médicaments. Les modèles de génération de motifs à multiples facettes sont avantageux car ils permettent la capture de grands cycles dans les molécules. Le taux de réussite de la génération de motifs à l'aide d'une approche nœud par nœud est faible en raison de la mauvaise représentation de l'espace de séquence. Cependant, l'utilisation d'une approche motif par motif améliore considérablement le taux de réussite. En effet, le modèle est capable d'apprendre à modifier des molécules existantes pour améliorer leurs ressemblances médicamenteuses.

  • 01:25:00 L'orateur donne un bref aperçu de l'apprentissage en profondeur dans les sciences de la vie, soulignant les défis et les opportunités de chaque domaine. Elle termine par une discussion sur la chimie et la conception de médicaments.

  • 01:30:00 Dans cette conférence, le conférencier invité prodigue des conseils aux étudiants intéressés par la poursuite de projets dans le domaine de l'intelligence artificielle pour la conception de médicaments. Ils déclarent que les étudiants peuvent recevoir un mentorat de leur part s'ils le souhaitent.
AI for Drug Design - Lecture 16 - Deep Learning in the Life Sciences (Spring 2021)
AI for Drug Design - Lecture 16 - Deep Learning in the Life Sciences (Spring 2021)
  • 2021.04.21
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecture: Wengong JinDeep Learning in the Life Sciences / Computational Systems Bi...
 

Deep Learning pour le repliement des protéines - Conférence 17



Deep Learning pour le repliement des protéines - Conférence 17 - MIT Deep Learning in Life Sciences (printemps 2021)

Cette vidéo traite de l'utilisation de l'apprentissage en profondeur dans le domaine du repliement des protéines, et plus particulièrement de la manière dont l'apprentissage en profondeur géométrique peut être utilisé pour étudier les structures des protéines et prédire des éléments tels que les sites de liaison des ligands et les interactions protéine-protéine. La vidéo couvre également les méthodes de modélisation basées sur des modèles ou sans modèle, diverses approches pour la prédiction de contact dans le repliement des protéines et l'utilisation de réseaux de neurones résiduels pour la modélisation d'images dans la prédiction de la structure des protéines. Dans l'ensemble, l'orateur met l'accent sur la promesse d'un apprentissage en profondeur pour faire progresser notre compréhension des structures des protéines et de leurs fonctions, et fournit des exemples et des résultats détaillés pour étayer cette affirmation.

La vidéo aborde diverses approches de l'apprentissage en profondeur pour le repliement des protéines, y compris l'utilisation de prédictions et de modèles de co-évolution pour une modélisation précise, l'importance de trouver de meilleurs homologues et le potentiel de l'apprentissage en profondeur pour obtenir des résultats comparables sans s'appuyer sur la physique traditionnelle. méthodes. Les conférenciers se penchent également sur l'utilisation de sorties différentiables et l'importance de la précision globale, ainsi que sur l'évolution de l'espace algorithmique et le potentiel d'apprentissage en profondeur pour prédire les confirmations de protéines en fonction de facteurs tels que la variation génétique ou les petites molécules. Dans l'ensemble, la vidéo met en évidence le potentiel passionnant de l'apprentissage en profondeur pour révolutionner la prédiction de la structure des protéines et ses nombreuses applications.

  • 00:00:00 Dans cette section de la vidéo, Bruno Correa présente le concept d'apprentissage profond géométrique et comment il s'applique à l'étude des structures protéiques. Il explique comment l'apprentissage en profondeur a réussi dans la classification des images, mais que les ensembles de données en biologie sont généralement beaucoup plus riches et de grande dimension, avec diverses dimensions temporelles et autres, faisant de l'apprentissage en profondeur géométrique une approche précieuse. Correa discute de l'importance des structures protéiques dans leurs fonctions, des fonctions mécaniques et chimiques à la liaison et à la reconnaissance, et présente des exemples tels que les anticorps, les pompes ioniques et les protéines de communication et de rigidité. Il aborde également la question de savoir si le travail d'étude des surfaces protéiques a été abordé par AlphaFold, expliquant qu'AlphaFold a résolu les structures protéiques mais pas spécifiquement l'étude des surfaces protéiques.

  • 00: 05: 00 Dans cette section, l'orateur discute des défis de la prédiction de la fonction des protéines à partir de sa structure, ce qui est important pour comprendre comment les protéines interagissent entre elles et avec d'autres métabolites dans les cellules. Le conférencier présente diverses façons de représenter les structures protéiques, en mettant l'accent sur les représentations de surface qui peuvent avoir des fonctions similaires malgré des séquences et des architectures différentes. Par analogie avec l'étude des visages des gens, l'orateur soutient que l'étude des modèles de surfaces protéiques peut révéler des informations importantes sur leurs fonctions. Le conférencier introduit ensuite une approche d'apprentissage en profondeur pour prédire les sites de liaison des ligands protéiques à l'aide de représentations de surface moléculaire en 3D.

  • 00: 10: 00 Dans cette section de la vidéo, l'orateur discute de l'utilisation de l'apprentissage profond géométrique pour le problème du repliement des protéines. Ils expliquent que les objets prototypiques pour l'apprentissage profond géométrique sont des graphes ou des surfaces, et leur équipe a utilisé des représentations maillées de protéines pour les étudier. Ils expliquent ensuite l'utilisation de "patchs", qui sont des sous-ensembles du maillage avec plusieurs caractéristiques vectorielles à chaque nœud, et comment les poids locaux leur sont attribués. L'orateur décrit les différents types de caractéristiques qui ont été codées dans chaque nœud, y compris l'indice de forme, la courbure dépendant de la distance, l'hydrophobicité et les caractéristiques électrostatiques. Ces informations ont ensuite été réutilisées dans un vecteur pour une analyse plus approfondie.

  • 00: 15: 00 Dans cette section, l'orateur explique comment l'approche d'apprentissage profond géométrique peut coder la surface d'une molécule indépendamment de sa séquence, permettant l'étude des modèles d'atomes et des propriétés chimiques. L'orateur note les applications potentielles de cette approche, telles que la classification des poches de protéines en fonction des caractéristiques de ligands particuliers et la prédiction des configurations d'amarrage de deux protéines à l'aide d'empreintes digitales de surface. Des études d'ablation ont été menées pour comprendre quels facteurs contribuent le plus à prédire la spécificité, la chimie et la géométrie étant toutes deux jugées importantes. Dans l'ensemble, l'approche semble prometteuse pour faire progresser la compréhension des structures des protéines et de leurs fonctions.

  • 00: 20: 00 Dans cette section, l'orateur décrit un réseau appelé site massif qui peut prédire quels sites d'une surface protéique donnée sont les plus susceptibles d'interagir avec d'autres protéines. Ils discutent également d'une technique de numérisation d'empreintes digitales utilisée pour l'amarrage et des taux de réussite de cette approche par rapport à d'autres programmes d'amarrage. Le conférencier présente la prochaine génération de massifs appelés massifs D, qui utilisent un réseau entièrement différentiable pour créer un nuage de points qui décrit la surface de la protéine et le calcul des caractéristiques géométriques et chimiques, y compris les propriétés électrostatiques. Enfin, le conférencier mentionne brièvement l'aspect de conception passionnant du projet et discute d'une cible importante pour contrôler l'activité des lymphocytes T dans le traitement du cancer.

  • 00: 25: 00 Dans cette section, l'orateur explique comment ils ont utilisé l'apprentissage en profondeur pour concevoir des molécules ciblant les protéines. Ils ont utilisé massivement pour prédire le site qui serait le plus susceptible d'être ciblé par des molécules de conception et ont extrait l'empreinte digitale de la surface cible. Ils ont ensuite ancré des motifs dans ce site et prédit les interactions avec la protéine d'intérêt. Le résultat était un nouveau motif qui n'était pas connu auparavant dans la nature et qui correspondait avec succès aux structures expérimentales avec un écart quadratique moyen d'environ un angström, indiquant un liant de haute affinité qui se lie à la protéine. Le conférencier propose de conseiller éventuellement les étudiants intéressés à explorer ce domaine de recherche.

  • 00:30:00 Dans cette section de la conférence, l'orateur aborde les deux principales catégories de méthodes de prédiction de la structure des protéines : la modélisation basée sur des modèles et la modélisation sans modèles. Alors que la modélisation basée sur des modèles repose sur l'utilisation de structures protéiques existantes dans la base de données PDB comme modèles pour prédire de nouvelles structures, la modélisation sans modèle est une méthode plus récente qui implique la recherche d'homologie et l'apprentissage automatique pour prédire les structures sans s'appuyer sur des modèles. L'orateur se concentre sur cette dernière méthode et décrit une approche plus récente qui utilise la recherche d'homologie de séquence, le profilage du signal et l'apprentissage automatique pour prédire les structures des protéines sans s'appuyer sur des modèles, qui a montré une meilleure précision pour de nombreuses protéines que les méthodes basées sur des modèles. L'orateur discute également de la méthode d'assemblage de fragments, une approche de modélisation populaire basée sur des modèles utilisée dans le passé.

  • 00: 35: 00 Dans cette section de la conférence, l'orateur discute du pipeline utilisé pour la modélisation sans modèle dans le repliement des protéines. Les informations prédictives sur la distance entre deux atomes ou résidus dans la protéine sont introduites dans un moteur d'optimisation pour construire la structure. Le conférencier discute également de différentes stratégies pour les alignements de séquences multiples, y compris l'utilisation d'une valeur seuil pour le nombre de résidus de couverture ou de carbone nécessaires. L'élément crucial de cette modélisation est la prédiction de la matrice d'induction, la modélisation des mesures d'interjection à l'aide de mesures de contenu ou de mesures de distance. L'orateur présente quelques idées efficaces pour la prédiction de la position des contacts, qui ont rendu la prédiction beaucoup plus facile et les collaborations beaucoup plus efficaces ces dernières années.

  • 00:40:00 Dans cette section, le conférencier discute de trois approches différentes pour la prédiction de contact dans le repliement des protéines. La première approche est une méthode statistique globale pour l'analyse de coalition, mais elle nécessite un grand nombre d'homologues de séquences pour être efficace. La deuxième approche utilise des réseaux de neurones résiduels à convolution profonde pour la prédiction de la distance de contact, et la troisième est un réseau transformateur pour la prédiction de contact qui prend en compte à la fois les informations de séquence et de structure de la banque de données sur les protéines. Le conférencier explique également les défis rencontrés par les méthodes d'apprentissage supervisées précédentes pour la prédiction des contacts et comment elles peuvent être améliorées en utilisant des modèles d'apprentissage automatique plus avancés.

  • 00: 45: 00 Dans cette section, l'orateur discute des limites des méthodes précédentes de prédiction de contact pour le repliement des protéines, qui ne considéraient que deux résidus à la fois et ignoraient donc les relations plus larges au sein de la protéine entière. Pour résoudre ces problèmes, le conférencier propose une nouvelle méthode qui utilise l'apprentissage en profondeur pour prédire simultanément tous les contacts dans une protéine. Cette méthode est basée sur le traitement de chaque paire d'atomes comme un pixel dans une image, qui peut être utilisée pour formuler le problème comme une tâche de segmentation d'image. En utilisant un réseau neuronal résiduel entièrement convolutif, l'orateur montre que leur méthode peut améliorer considérablement la précision de la prédiction des contacts et permettre le repliement de protéines plus grosses et plus dures. En outre, la méthode fonctionne bien pour les protéines à chaîne unique et membranaires, et peut être utilisée pour la prédiction de contact complexe sans changer le modèle.

  • 00: 50: 00 Dans cette section, le conférencier discute de l'utilisation des réseaux de neurones résiduels pour prédire la structure des protéines grâce à la modélisation d'images à l'aide de réseaux de neurones convolutifs. Ils expliquent que l'utilisation de connexions résiduelles permet d'utiliser des réseaux beaucoup plus profonds, ce qui conduit à une meilleure précision sans surajustement. L'orateur montre quelques résultats de la performance de leur méthode en termes de classement et de précision par rapport à d'autres méthodes, démontrant le succès de l'approche d'apprentissage en profondeur. La précision s'est améliorée au cours des huit dernières années, et maintenant la précision peut aller jusqu'à 80 %.

  • 00: 55: 00 Dans cette section, l'orateur discute des progrès de la position de contact et de la position de conception à l'aide de modèles d'apprentissage en profondeur pour le repliement des protéines. La précision du contact s'est nettement améliorée avec une précision actuelle de 80%, ce qui est bien plus utile que l'examen précédent. L'orateur explique le processus d'utilisation d'un réseau numérique pour le poste de conception et comment il peut améliorer considérablement la modélisation temporaire. L'orateur discute également de l'importance de l'information codée en russe et montre que même pour certaines protéines fermentées, une bonne prédiction peut toujours être obtenue sans l'utiliser. Les résultats suggèrent que l'apprentissage en profondeur peut générer de nouvelles structures et qu'un petit nombre d'hormones de séquence sont nécessaires pour des prédictions précises.

  • 01:00:00 Dans cette section, les intervenants discutent de l'utilisation des informations de séquence et de structure pour améliorer la modélisation des protéines. Ils explorent l'idée d'utiliser les prédictions existantes comme rétroaction dans un ensemble d'apprentissage pour améliorer les prédictions de coévolution et conduire à de meilleurs prédicteurs basés sur la séquence. Ils discutent également de l'utilisation des informations de modèle et de l'importance de trouver de bons modèles pour une modélisation précise. De plus, ils remettent en question le rôle de la physique dans la modélisation des protéines et suggèrent que, si les méthodes basées sur la physique peuvent aider à affiner les modèles, l'apprentissage en profondeur peut également obtenir des résultats comparables sans l'utilisation de la physique.

  • 01:05:00 Dans cette section, la vidéo explique comment modéliser de très grosses protéines sans utiliser de modèles. L'exemple de protéine a plus de 13 000 résidus, ce qui rend difficile la modélisation précise par des moyens traditionnels. Cependant, en combinant différentes méthodes d'assemblage et en utilisant le flux de travail de l'iPhone2, la protéine est modélisée avec une grande précision. La vidéo note également que l'utilisation d'un transformateur nécessite beaucoup de puissance et de mémoire GPU, ce qui rend son utilisation difficile pour la plupart des gens. Cependant, le modèle d'apprentissage automatique est toujours réalisable avec un plus petit ensemble de données d'apprentissage. De plus, trouver de meilleurs homologues sur lesquels baser le modèle est un goulot d'étranglement potentiel qui peut être amélioré grâce à des recherches supplémentaires. Enfin, un graphique de progression est affiché pour les cibles difficiles de modélisation 3D, avec des scores plus élevés indiquant une meilleure qualité des modèles prédits.

  • 01:10:00 Dans cette section, Muhammad Al-Qaraghuli parle de l'évolution de l'espace algorithmique pour la prédiction de la structure des protéines au cours des deux dernières décennies. Il explique comment les méthodes antérieures se concentraient sur l'utilisation d'un modèle basé sur la physique et d'une fonction énergétique pour obtenir l'état d'énergie le plus bas d'une protéine, tandis que des méthodes plus récentes ont utilisé la co-évolution pour extraire des informations à l'aide de diverses techniques d'inférence probabiliste. Al-Qaraghuli note que la précision de ces méthodes reste limitée sans informations de séquence supplémentaires et explique comment l'apprentissage en profondeur a changé la donne pour la prédiction de la structure des protéines, en particulier pour les protéines membranaires et transmembranaires.

  • 01:15:00 Dans cette section, l'orateur discute de l'évolution des approches d'apprentissage en profondeur pour le repliement des protéines, en commençant par l'utilisation de méthodes non supervisées au début des années 2010 et l'introduction de l'apprentissage en profondeur grâce à des approches uniques basées sur des réseaux telles que les travaux de Jim Wazoo. avec RaptorX en 2016 et l'utilisation d'une architecture de réseau résiduel par capital X 18. L'intervenant décrit le développement du premier ensemble d'approches différenciables de bout en bout en 2018, qui n'étaient pas nécessairement compétitives avec les méthodes existantes mais étaient capables de générer prédictions beaucoup plus rapides. Le dernier développement, AlphaFold 2, traite les objets d'alignement de séquences multiples (MSA) comme des objets de loi pour potentiellement capturer les corrélations d'ordre supérieur et les aspects globaux de la séquence et de la phylogénie. Enfin, l'orateur décrit le Saint Graal du repliement des protéines - la capacité de fonctionner aussi bien qu'AlphaFold 2 à partir de séquences de protéines individuelles - que leur dernier travail vise à atteindre.

  • 01:20:00 Dans cette section, les conférenciers discutent de la capacité des protéines à se replier in vitro et de la mesure dans laquelle les chaperons à l'intérieur de la cellule guident ce processus. Ils explorent également la quantité d'informations présentes dans la séquence primaire des protéines et si elles sont suffisantes pour prédire l'impact d'une mutation altérant les protéines. Ils discutent des prédictions de la protéine A2, qui montrent qu'il peut encore être possible de prédire à partir de séquences individuelles sans nécessiter la présence de tous les aspects physiques. Enfin, l'algorithme de l'espace est introduit, qui implique l'entrée, un torse de réseau neuronal et la sortie, qui est généralement un objet proxy lié à la structure, puis envoyé via un pipeline de post-traitement pour générer le tridimensionnel final. structure.

  • 01:25:00 Dans cette section, l'orateur discute de l'importance de la différentiabilité pour la sortie générée à partir d'un modèle d'apprentissage en profondeur. Si la sortie est éloignée de l'objectif réel, il y a alors une perte d'optimisation potentielle. L'orateur discute également de l'utilisation du post-traitement, qui peut conduire à des prédictions auto-incohérentes, et de la manière dont leur mise en œuvre d'un modèle d'apprentissage en profondeur prédit la structure de fréquence finale sans avoir besoin de quantités indirectes. Dans leur approche, ils paramétrent la géométrie locale à l'aide d'un alphabet discret d'angles de torsion et prédisent une distribution de probabilité sur cet alphabet. Ce faisant, ils peuvent maintenir la différentiabilité du moteur, ce qui permet une optimisation efficace de la structure finale.

  • 01:30:00 Dans cette section, l'orateur explique son approche pour construire la structure d'une protéine en utilisant des angles de torsion libres à chaque résidu et un processus itératif. La fonction de perte est définie en termes de précision globale, et pas seulement de précision locale, pour tenir compte des interactions entre les résidus dans la formation de la structure d'origine. L'orateur reconnaît que bien que leur approche soit limitée, ils pensent qu'il existe une homogénéisation implicite de la structure qui se produit en interne dans le réseau de neurones, conduisant à de meilleures prédictions au fil du temps. L'orateur explique également comment ils paramétrent la sortie à l'aide de matrices de notation spécifiques à la position (PSSM) et d'une architecture récurrente. Enfin, le conférencier présente certaines de leurs prédictions faites à l'aide de cette approche et note que si certains aspects de la structure ont été bien prédits, d'autres ne l'ont pas été.

  • 01:35:00 Dans cette section, l'orateur explique comment ils ont fait évoluer l'idée de paramétrisation de la torsion en utilisant la construction frenesia, qui simplifie les calculs et simplifie le processus de formulation. Ils se concentrent désormais uniquement sur C alpha et paramétrent à l'aide de matrices de rotation, ce qui résout le problème des structures secondaires pathologiques. Le changement clé est qu'ils sont revenus à l'idée d'une séquence unique, qu'ils alimentent à travers un modèle de langage. Ils utilisent des transformateurs pour intégrer chaque résidu dans un espace latent et l'utiliser comme entrée pour faire des prédictions, avec le défi supplémentaire d'adapter des fragments et d'épisser deux protéines différentes pour améliorer les performances d'entraînement. L'orateur montre des résultats comparant RGN1 et RGN2 dans la prédiction d'une séquence de lancer cible, RGN2 obtenant des résultats nettement meilleurs grâce à une étape de raffinement post-traitement. Il est important de noter que cela est basé sur une entrée de séquence unique qui est passée par un modèle de langage.

  • 01:40:00 Dans cette section de la vidéo, l'orateur discute de la précision de sa méthode pour prédire les structures des protéines. Ils montrent des exemples alignés par rapport à alpha 2, et bien que la précision ne soit pas aussi bonne que l'état de l'art, ils utilisent beaucoup moins d'informations pour faire la prédiction. Ils montrent également des exemples de protéines singleton, qui se trouvent essentiellement dans la zone crépusculaire de l'espace de séquence et n'ont pas d'homologues de séquence, où leur approche fait une différence significative par rapport au système de pointe accessible au public. De plus, l'orateur discute des protéines de novo et des protéines conçues sur lesquelles elles réussissent systématiquement, ce qui est logique puisque ces types d'approches basées sur les séquences seraient utiles dans la conception de protéines. Enfin, l'orateur explique que l'accélération significative de leur méthode pourrait être utile pour une variété d'applications.

  • 01:45:00 Dans cette section, les conférenciers discutent du potentiel de l'utilisation de l'apprentissage en profondeur pour prédire différentes confirmations de protéines en fonction de différents facteurs, tels que la variation génétique ou les petites molécules. Bien qu'une seule méthode d'espace de signal puisse fonctionner mieux en théorie, il n'y a aucun moyen de savoir jusqu'à ce qu'ils puissent réellement comparer différentes versions tête à tête, comme lorsque l'alpha 2 est publié. Des problèmes de raffinement sont également mentionnés, tels que la prédiction du défaut général à l'aide d'un MSA, puis son raffinement dans la structure réelle à l'aide d'un autre étage. Les virus à évolution rapide sont mentionnés comme un autre domaine où l'apprentissage en profondeur pourrait être utile. En fin de compte, les conférenciers expriment leur enthousiasme face aux opportunités de collaboration futures potentielles et au privilège de pouvoir se connecter avec des personnes de différentes parties du monde.
Deep Learning for Protein Folding - Lecture 17 - MIT Deep Learning in Life Sciences (Spring 2021)
Deep Learning for Protein Folding - Lecture 17 - MIT Deep Learning in Life Sciences (Spring 2021)
  • 2021.04.26
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecturers: Bruno Correia, Jinbo Xu, Mohammed AlQuraishiDeep Learning in the Life ...
 

Apprentissage automatique pour la pathologie - Conférence 19



Machine Learning for Pathology - Conférence 19 - MIT Deep Learning in the Life Sciences (printemps 2021)

La conférence couvre divers aspects de l'application de l'apprentissage profond en pathologie computationnelle, y compris les défis et les limites de la technologie. L'orateur discute de la nécessité d'être prudent dans la confiance aveugle aux algorithmes et souligne l'importance de comprendre ce qu'un réseau apprend. La conférence explore plusieurs exemples de la façon dont l'apprentissage en profondeur est utilisé dans le diagnostic du cancer, le pronostic et l'évaluation de la réponse au traitement pour développer des outils pronostiques et prédictifs pour la médecine de précision. Le conférencier aborde également les défis du développement de traitements multi-médicaments contre la tuberculose et propose divers projets de laboratoire pour s'attaquer au problème. Dans l'ensemble, la conférence souligne le potentiel de l'apprentissage en profondeur en pathologie, tout en reconnaissant ses limites et la nécessité d'une approche multidisciplinaire pour assurer son déploiement efficace en milieu clinique.

Dans cette vidéo YouTube intitulée "Machine Learning for Pathology - Lecture 19 - MIT Deep Learning in the Life Sciences (printemps 2021)", l'orateur discute des tentatives de son équipe pour traiter l'hétérogénéité de lot à lot et de cellule à cellule dans l'apprentissage automatique pour la pathologie en utilisant des normalisation de la variation (TVN) et une approche k-plus proche voisin. Ils décrivent également l'utilisation du profilage morphologique pour classer les médicaments en fonction de leurs effets sur les bactéries et le développement d'une approche basée sur les données pour concevoir et hiérarchiser les combinaisons de médicaments en utilisant à la fois l'apprentissage supervisé et non supervisé. De plus, la conférencière remercie les membres de son laboratoire pour leurs contributions aux études sur la synergie des médicaments par rapport aux antagonismes, soulignant l'importance de considérer le contexte plus large pour comprendre et faire avancer la recherche dans le domaine.

  • 00:00:00 Dans cette section, Anand Madabhushi discute de l'impact de l'apprentissage en profondeur dans le domaine de la pathologie computationnelle, en particulier en ce qui concerne l'analyse d'images médicales. Alors que la numérisation de la pathologie en a fait un foyer pour l'application de l'apprentissage en profondeur en raison de la grande quantité de données disponibles, Madabhushi prévient que les méthodologies spécialisées qui impliquent des caractéristiques artisanales au cours de décennies d'expertise n'ont peut-être pas été dépassées par les méthodes d'apprentissage en profondeur. . Il fournit également des statistiques sur le diagnostic du cancer et les taux de mortalité pour souligner l'importance d'un diagnostic précis du cancer à un stade précoce grâce à l'utilisation de l'imagerie. Madabhushi espère partager ses leçons apprises et ses réflexions sur où et comment l'apprentissage en profondeur peut être le plus utile dans ce domaine.

  • 00: 05: 00 Dans cette section, l'orateur aborde la question du surdiagnostic et du surtraitement des cancers, en particulier des cancers indolents comme le cancer de la prostate. Malgré les progrès des biomarqueurs et des thérapeutiques, le surdiagnostic et le surtraitement restent problématiques et contribuent à la toxicité financière pour les patients. Le conférencier explore ensuite le potentiel de l'apprentissage automatique dans le contexte du diagnostic du cancer, du pronostic et de l'évaluation de la réponse au traitement pour aider à développer des outils pronostiques et prédictifs pour la médecine de précision. Bien qu'il existe déjà des outils comme les tests basés sur l'expression génique, ils ont des limites et ne tiennent pas compte de l'hétérogénéité intra-tumorale. L'apprentissage automatique offre une opportunité d'améliorer ces limitations et de mieux gérer et traiter les cancers.

  • 00: 10: 00 Dans cette section, le conférencier discute de l'utilisation de diapositives de pathologie numérisées et de l'analyse avancée d'images d'apprentissage automatique pour identifier les caractéristiques et les modèles qui ne peuvent pas être discernés visuellement par les pathologistes humains. En identifiant les cellules individuelles, les lymphocytes et les cellules cancéreuses, les scientifiques des données peuvent utiliser la théorie des réseaux pour examiner l'architecture spatiale des cellules individuelles et analyser différentes mesures quantitatives de l'arrangement spatial des cellules individuelles afin de mieux comprendre le diagnostic, le pronostic et la réponse au traitement des patients. . Ce processus permet une approche non invasive et basée sur le cloud pour l'analyse de la pathologie.

  • 00: 15: 00 Dans cette section, l'orateur discute de l'impact de l'apprentissage en profondeur dans le domaine de la pathologie computationnelle où la quantité de données dans les diapositives de pathologie a supplanté tous les autres domaines de l'imagerie médicale. Un réseau de neurones a été publié il y a six ans qui utilisait des annotations de cellules individuelles sur l'auto-encodeur clairsemé empilé où il apprenait sur la base des annotations des cellules, permettant au réseau de neurones de capter des détails plus petits tels que les gradients et les formes elliptiques rugueuses du cellules. Le réseau a été formé sur des patchs qui avaient des cellules et n'avaient pas de cellules étiquetées à la main par des étudiants décomposant l'image en une série de boîtes englobantes. Bien que certaines cellules aient été manquées, le réseau a pu capter les nuances des différents types de cellules.

  • 00:20:00 Dans cette section, le conférencier discute des limites de l'apprentissage approfondi en pathologie, en particulier en ce qui concerne la coloration et les annotations. La coloration peut avoir un impact significatif sur la fidélité des segmentations, et le réseau n'a pas été formé de la manière la plus robuste en raison de l'écart entre les petites et les grandes cellules. L'orateur discute également de leur travail dans la formation d'un algorithme CNN basé sur la génération de caractéristiques non supervisée pour faire la distinction entre les cœurs normaux et ceux à risque d'insuffisance cardiaque. L'algorithme CNN a surpassé les pathologistes, atteignant une AUC de 0,97 par rapport à l'AUC des pathologistes de seulement 0,74.

  • 00: 25: 00 Dans cette section, l'orateur discute d'une découverte surprenante qu'il a faite en exécutant le même algorithme sur deux groupes de patients du même établissement et du même scanner. Malgré l'absence de différences dans la pathologie des images, l'AUC du deuxième ensemble a chuté de façon spectaculaire en raison d'une petite mise à niveau logicielle qui a subtilement modifié les caractéristiques de l'image. Cela a souligné la nécessité de faire preuve de prudence dans la confiance aveugle aux algorithmes, même dans des contextes apparemment contrôlés. Le panel en f a également montré que si la génération de caractéristiques non supervisée avec les CNN apprenait principalement des convolutions sensibles aux sources de variation pré-analytiques, elle soulignait également l'importance de certains types de cellules et de leurs arrangements spatiaux. Cela a conduit à une approche ultérieure qui a généré une AUC comparable au score élevé initial mais avec plus de résilience aux variations entre les sites et les canevas.

  • 00:30:00 Dans cette section, l'orateur discute de l'importance de comprendre ce qu'un réseau apprend et d'être prudent quant à la confiance des algorithmes de force brute dans le diagnostic médical. Il partage un exemple de réseau qui a appris à faire la distinction entre les huskies et les loups en se basant uniquement sur la présence de neige en arrière-plan, ce qui souligne la nécessité d'être prudent lors de l'interprétation des résultats du réseau. Malgré ces limites, le conférencier identifie l'utilité de l'apprentissage profond dans les tâches de détection et de segmentation en pathologie et partage un outil interactif appelé Quick Annotator, qui permet aux utilisateurs de segmenter quelques exemples représentatifs, de former un réseau en arrière-plan et d'affiner les résultats dans un mode d'apprentissage interactif.

  • 00: 35: 00 Dans cette section, l'orateur discute des défis liés au processus d'annotation des images de pathologie, en particulier le manque de temps disponible pour les pathologistes. Pour résoudre ce problème, le conférencier explique comment les fonctionnalités artisanales peuvent aider à améliorer l'efficacité du processus d'annotation. Ils donnent des exemples d'utilisation de l'apprentissage en profondeur pour identifier différents compartiments tissulaires et types de cellules, puis invoquent des réseaux de graphes pour examiner les statistiques spatiales et l'interaction de différents types de cellules dans les compartiments tissulaires. Le conférencier décrit également comment l'apprentissage en profondeur a été utilisé pour segmenter les fibres de collagène et attribuer un vecteur à leur orientation, qui a ensuite été utilisé pour déterminer l'entropie et la valeur pronostique pour les patientes atteintes d'un cancer du sein. Enfin, le conférencier présente une nouvelle étude sur le cancer de la prostate qui utilise l'apprentissage en profondeur pour faire la segmentation des glandes, puis examine l'arrangement spatial et l'architecture des glandes pour prédire quels patients auront une récidive après la chirurgie.

  • 00: 40: 00 Dans cette section, l'orateur discute d'une comparaison directe entre un test moléculaire commercial pour prédire les résultats du cancer de la prostate et une approche basée sur l'image utilisant des algorithmes d'apprentissage en profondeur. Les résultats ont montré que l'approche basée sur l'image combinée à deux facteurs cliniques simples était presque deux fois plus performante que le test moléculaire coûteux. De plus, l'approche basée sur l'image utilisant des algorithmes d'apprentissage en profondeur a produit des caractéristiques interprétables et validées, qui pourraient être analysées à un coût bien inférieur à celui du test moléculaire. L'orateur a également souligné le besoin d'interprétabilité dans les applications cliniques de l'apprentissage en profondeur et a souligné l'importance de l'ingénierie des caractéristiques artisanales en conjonction avec les approches d'apprentissage en profondeur.

  • 00:45:00 Dans cette section, l'accent est mis sur les défis de l'interprétabilité dans l'apprentissage automatique pour la pathologie, en particulier dans le contexte de la conception de thérapies multi-médicamenteuses pour la tuberculose (TB). Le manque d'interprétabilité pose un défi important aux cliniciens, qui ont besoin de comprendre les représentations sous-jacentes aux modèles pour faire confiance à leurs décisions. Le conférencier insiste sur la nécessité de constamment remettre en question le réseau et de ne rien tenir pour acquis. Ils discutent également de l'importance de commencer par la méthodologie la plus simple et de décider quand utiliser l'apprentissage en profondeur. Les travaux du laboratoire sur la tuberculose mettent en évidence la difficulté de traiter la maladie, la nécessité de multithérapies et l'importante hétérogénéité en cause.

  • 00: 50: 00 Dans cette section, l'orateur discute des défis du développement de traitements multi-médicaments pour la tuberculose en raison des divers micro-environnements des bactéries dans les poumons, qui nécessitent différents médicaments pour assurer la sensibilité. L'orateur note que bien qu'il existe actuellement de nombreux médicaments disponibles pour le traitement de la tuberculose, le vaste espace de combinaisons inexploré rend difficile le test de chaque combinaison potentielle. Le conférencier propose deux projets de laboratoire pour résoudre ce problème : premièrement, réduire l'espace d'un seul médicament grâce à l'imagerie pour identifier la voie d'action des nouveaux médicaments, et deuxièmement, utiliser l'apprentissage automatique pour effectuer des mesures de combinaison systématiques et développer des classificateurs pour prédire le plus efficace. nouvelles combinaisons. Le laboratoire utilise l'imagerie accélérée pour capturer les changements dans la morphologie cellulaire de la bactérie afin d'évaluer différents résultats de traitement.

  • 00: 55: 00 Dans cette section, l'orateur décrit un projet qui a utilisé l'apprentissage non supervisé et le regroupement pour associer des profils de médicaments similaires à E. coli. Ils ont émis l'hypothèse que lorsque les profils se ressemblent, ces médicaments ont un mécanisme d'action similaire. Ils ont appliqué cette idée à la tuberculose, mais les cellules n'ont pas pris la coloration comme prévu et les caractéristiques morphologiques ne semblaient pas très distinctes les unes des autres. Cependant, ils ont quand même trouvé des différences statistiquement significatives par rapport aux cellules non traitées dans certains groupes de traitement. Le pipeline typique pour le profilage cytologique a été établi, et ils espéraient faire un essai de classification pour essayer de déterminer quels groupes de traitement se ressemblaient le plus. Ils ont découvert que les agents pathogènes répondaient aux médicaments, mais qu'ils étaient divers dans leur mécanisme de réponse et avaient des parois cellulaires extrêmement épaisses, ce qui rendait difficile l'entrée des médicaments.

  • 01:00:00 Dans cette section de la conférence, l'orateur discute des tentatives de son équipe pour traiter l'hétérogénéité lot à lot et cellule à cellule de leurs expériences d'apprentissage automatique pour la pathologie. Ils ont essayé d'utiliser un réseau neuronal, qui n'a pas fonctionné en raison des données variables. Ils ont ensuite utilisé une méthode appelée normalisation de la variation typique (TVN), développée par leur collaborateur Mike Ando chez Google, pour aligner les matrices de covariance produites par l'analyse en composantes principales (ACP) des témoins non traités de chaque expérience afin de réduire les variations non biologiques. Ils ont également incorporé des mesures d'hétérogénéité de cellule à cellule et sont passés de l'utilisation de l'ACP à une approche du plus proche voisin k pour capturer les changements morphologiques subtils. Ils ont utilisé une approche stochastique pour éviter la fragilité et ont sélectionné un nouvel ensemble de témoins non traités pour chaque essai de classification.

  • 01:05:00 Dans cette section, l'orateur décrit le processus d'utilisation du profilage morphologique pour classer les médicaments en fonction de leurs effets sur les bactéries. Le processus consiste à traiter les bactéries avec une dose faible et élevée d'un médicament, à fixer et à colorer les bactéries, à extraire des caractéristiques, à normaliser les données et à effectuer une simulation stochastique. La classification consensuelle qui en résulte est précise à environ 75 % et un diagramme de réseau est utilisé pour visualiser les liens entre les médicaments. Cependant, l'orateur note qu'un médicament, la bédaquiline, a été classé à tort comme un agent agissant sur la paroi cellulaire, ce qui a conduit à l'hypothèse qu'il induisait une crise énergétique chez la bactérie. Cette hypothèse a été confirmée par la culture des bactéries sur des acides gras, ce qui a abouti à une classification différente.

  • 01:10:00 Dans cette section de la conférence, l'orateur discute du mécanisme d'action du médicament Bedaquiline sur la tuberculose, et comment cela dépend de l'état métabolique de la bactérie. Le conférencier décrit également l'utilisation du profilage morphologique pour déterminer les dommages proximaux et les effets secondaires des antibactériens sur la tuberculose. Ils expliquent que cette méthode fournit une approche ciblée pour aider à orienter les chercheurs vers l'espace de cheminement sur lequel ils devraient se concentrer pour les études secondaires. Le conférencier aborde également la mesure des combinaisons de médicaments à l'aide d'un test en damier, qui est traditionnellement inefficace pour les combinaisons d'ordre élevé dans le traitement de la tuberculose.

  • 01:15:00 Dans cette section, le conférencier discute des défis associés à la mesure des combinaisons de médicaments d'ordre élevé dans la tuberculose et présente une solution appelée Diamond (Mesures diagonales des interactions médicamenteuses à n voies). Diamond est une optimisation géométrique du test en damier qui préserve l'unité d'une courbe dose-réponse et mesure les parties les plus riches en informations du damier. En projetant une ligne, l'orateur explique comment le degré d'interaction médicamenteuse peut être quantifié avec la concentration inhibitrice fractionnaire. Le diamant a été utilisé pour mesurer efficacement jusqu'à 10 combinaisons de médicaments. L'orateur discute d'un grand ensemble de données qui a été utilisé pour s'attaquer aux deux principaux problèmes de conception de combinaisons multi-médicaments à l'aide d'études in vitro sur la tuberculose. L'étude a mesuré toutes les combinaisons de médicaments simples, par paires et à trois voies in vitro dans huit environnements de croissance différents pour les fusionner par ordinateur, modélisant ce qui se passe dans différents modèles animaux. Le conférencier conclut que les profils d'interaction médicamenteuse dépendent fortement de l'environnement de croissance et qu'il n'existe pas de combinaison unique synergique dans toutes les conditions.

  • 01:20:00 Dans cette section, le conférencier a discuté de son approche basée sur les données pour concevoir et hiérarchiser les combinaisons de médicaments à l'aide de l'apprentissage automatique. Ils ont utilisé à la fois l'apprentissage supervisé et non supervisé pour assembler leurs données dans un cube de données et ont trouvé un signal fort qui délimite les combinaisons selon qu'elles seraient meilleures que la norme de soins ou non. Ils ont également trouvé un moyen de limiter le nombre de conditions de croissance dans lesquelles ils effectuent leurs mesures en utilisant différentes méthodes d'apprentissage supervisé telles que des modèles forestiers aléatoires. L'orateur a souligné que l'approche la plus simple fonctionnait mieux pour eux afin d'indiquer la meilleure façon d'explorer l'espace de combinaison de manière systématique et efficace à l'aide de modèles in vitro validés. Dans l'ensemble, leur approche pourrait aider à réduire le nombre d'expériences in vitro et conduire aux meilleures combinaisons de médicaments.

  • 01:25:00 Dans cette section, l'oratrice remercie les personnes de son laboratoire qui ont travaillé sur divers projets difficiles et désordonnés, notamment des études sur la synergie des médicaments par rapport aux antagonismes. Ces études aident finalement à fournir un contexte plus large pour l'apprentissage automatique et l'apprentissage en profondeur dans les sciences de la vie, soulignant qu'ils ne sont qu'un petit élément d'une équation beaucoup plus vaste. L'importance de considérer ce contexte plus large est soulignée car ce n'est pas toujours la bonne approche, mais nécessaire pour comprendre et faire avancer la recherche dans le domaine. Dans l'ensemble, le discours de l'orateur était très éclairant et a fourni des informations précieuses sur l'intersection de l'apprentissage automatique et de la pathologie.
Machine Learning for Pathology - Lecture 19 - MIT Deep Learning in the Life Sciences (Spring 2021)
Machine Learning for Pathology - Lecture 19 - MIT Deep Learning in the Life Sciences (Spring 2021)
  • 2021.05.12
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyGuest Lecturers: Anan...
 

Deep Learning pour la segmentation en imagerie cellulaire - Conférence 20



Deep Learning pour la segmentation en imagerie cellulaire - Conférence 20 - MIT ML in Life Sciences (printemps 2021)

Dans cette vidéo, les conférenciers discutent de l'utilisation de l'apprentissage en profondeur pour le suivi des cellules, qui consiste à déterminer le mouvement des cellules en imagerie accélérée. Ils expliquent que les méthodes de suivi manuelles traditionnelles sont coûteuses et chronophages, et que les méthodes d'apprentissage en profondeur peuvent considérablement accélérer le processus tout en offrant une plus grande précision. Les conférenciers discutent de diverses architectures d'apprentissage en profondeur pour le suivi des cellules, notamment U-Net, StarDist et DeepCell. Ils notent également que l'un des défis du suivi des cellules est de distinguer les cellules qui sont proches les unes des autres ou qui se chevauchent, et que des méthodes telles que le suivi multi-objets ou les approches basées sur des graphiques peuvent aider à résoudre ce problème. Les conférenciers soulignent l'importance de comparer différentes méthodes d'apprentissage en profondeur pour le suivi des cellules et de fournir des ensembles de données en libre accès à des fins de reproductibilité et de comparaison. Ils mettent également en évidence les applications potentielles du suivi cellulaire dans divers domaines, tels que la recherche sur le cancer et la découverte de médicaments.

  • 00:00:00 Dans cette section, Juan Casado discute du concept de phénotypage basé sur l'image, qui est une méthode pour comprendre les systèmes biologiques grâce à l'utilisation de la microscopie et d'autres techniques d'imagerie. Il explique comment les images de structures biologiques, comme les cellules, peuvent être quantifiées pour différents phénotypes, y compris la taille des cellules et le contenu en ADN, et utilisées pour guider les décisions concernant les traitements et la découverte de médicaments. Casado donne un exemple d'un médicament candidat réussi pour la leucémie qui a été découvert grâce à la mesure précise de la taille des cellules à l'aide d'images de microscopie, conduisant à son approbation éventuelle par la FDA. Il souligne l'impact potentiel du profilage basé sur l'image dans le domaine de la biologie et du développement de médicaments.

  • 00:05:00 Dans cette section, l'accent est mis sur le défi de comparer des populations de cellules qui ont des caractéristiques différentes et d'identifier les traitements efficaces. Cela nécessite plus d'informations et de stratégies pour extraire des informations à partir d'images cellulaires, c'est là qu'intervient le profilage basé sur l'image. Cela implique d'étendre la morphologie des cellules ou l'état des cellules en utilisant des images pour extraire des informations quantitatives pour la découverte de médicaments et la génomique fonctionnelle. Les deux problèmes de calcul associés à cette approche sont la segmentation cellulaire et l'apprentissage de la représentation d'une seule cellule, où le but est d'identifier où se trouvent les cellules individuelles dans les images sans avoir à passer du temps et de l'énergie à ajuster les algorithmes de segmentation pour différents types d'images. À terme, l'objectif est de créer des algorithmes de segmentation pour les cellules qui fonctionnent aussi bien que des détecteurs de phase dans les images naturelles.

  • 00:10:00 Dans cette rubrique, le conférencier parle du BioImage Challenge 2018, qui visait à mettre les technologies de vision par ordinateur au service de la segmentation en biologie. Le défi consistait à créer un ensemble de données annoté, à le diviser en partitions de formation et de test, à définir une métrique de réussite et à fournir des commentaires aux participants via un système de notation basé sur l'intersection plutôt que sur l'union. Les participants devaient utiliser un modèle d'apprentissage automatique supervisé pour apprendre les relations entre les entrées et les sorties et générer une carte de segmentation de l'image qu'ils ont fournie en entrée. Les gagnants étaient ceux qui étaient capables de segmenter plus précisément l'ensemble de test final en fonction de la métrique utilisée.

  • 00: 15: 00 Dans cette section, l'orateur discute des trois principaux concurrents d'un concours de segmentation d'imagerie cellulaire et de leur utilisation de différentes architectures pour leurs modèles d'apprentissage automatique. L'équipe de troisième place a utilisé l'architecture Mask RCNN, qui décompose une image en régions et génère des candidats qui sont examinés par un réseau pour déterminer s'il s'agit ou non d'objets réels, avant d'identifier la boîte englobante exacte et le masque pour séparer l'objet du arrière-plan. L'équipe en deuxième place a utilisé un réseau pyramidal d'images, qui calcule plusieurs cartes de caractéristiques pour générer des sorties intermédiaires et agrège les informations de toutes les résolutions différentes pour générer la sortie finale. L'orateur note que bien que l'architecture joue un rôle dans l'obtention d'une grande précision pour la segmentation cellulaire, la manière dont les expériences régulières d'étalonnage et de validation croisée sont exécutées est également cruciale.

  • 00:20:00 Dans cette section, l'orateur discute d'une nouvelle approche de la segmentation d'images. Plutôt que d'utiliser des masques binaires pour déterminer l'emplacement des objets dans une image, la solution consiste à prédire des cartes de distance ou des cartes d'angle qui mesurent les distances dans différentes directions à partir du centre de la cellule. Les sorties ont été conçues manuellement pour fournir des mesures plus précises de l'emplacement de l'objet, ce qui a abouti à la deuxième place du concours. Bien que cette idée était nouvelle à l'époque, des travaux ultérieurs ont évalué sa valeur et l'ont trouvée robuste, en particulier pour les images encombrées avec de nombreux objets. L'architecture encodeur-décodeur utilisée n'était pas innovante, mais la nouveauté est venue de la réplication de l'architecture exacte dans 32 modèles différents, formant un ensemble, ce qui les a aidés à remporter la compétition.

  • 00: 25: 00 Dans cette section, les conférenciers discutent des performances d'une approche d'ensemble par rapport à des modèles plus simples pour la segmentation d'images cellulaires. Ils expliquent que même si l'approche d'ensemble peut être intensive en calcul, des modèles plus simples peuvent toujours être efficaces dans la pratique. Ils discutent également des limites des compétitions et notent qu'il serait utile d'analyser des modèles individuels au sein d'un ensemble afin de les réduire aux plus précis. Les conférenciers évaluent ensuite les améliorations qui peuvent être apportées pour faciliter la recherche en biologie grâce à la segmentation, montrant que l'optimisation des algorithmes pour des types d'images spécifiques peut prendre du temps et que la précision peut varier selon le type d'image. Ils notent également que les déséquilibres dans les annotations et la difficulté à segmenter certains types d'images peuvent présenter des défis dans des situations réelles.

  • 00:30:00 Dans cette section, le conférencier discute des défis liés à l'analyse de différents types de techniques d'imagerie, des petites images fluorescentes aux images roses et violettes qui sont plus difficiles à segmenter. Il existe différentes approches pour segmenter les images, telles que la formation d'un modèle par type d'image ou l'utilisation d'algorithmes classiques avec des paramètres ajustés. De plus, il existe désormais des modèles pré-formés disponibles pour la segmentation cellulaire, tels que Nucleizer, CellPose et Mesmer. Cependant, il reste encore des défis à relever en matière de segmentation, tels que la collecte d'ensembles de données plus volumineux et l'optimisation du temps que les experts consacrent à l'identification des objets. Le conférencier aborde également brièvement l'importance de mesurer le phénotype des cellules à l'aide de méthodes d'apprentissage automatique qui peuvent apprendre des caractéristiques au-delà des mesures morphologiques classiques.

  • 00:35:00 Dans cette section, le conférencier discute de l'utilisation des méthodes d'apprentissage automatique dans la segmentation de l'imagerie cellulaire pour la découverte de médicaments. Les expériences de perturbation sont utilisées lorsque les cellules sont traitées avec des composés, mais les effets de lot peuvent causer du bruit et confondre la compréhension du phénotype. Comme il n'y a pas de vérité terrain, une méthode d'apprentissage faiblement supervisée est utilisée, où un réseau de neurones est utilisé pour classer le composé appliqué. L'objectif est d'obtenir des caractéristiques pour organiser les cellules de manière significative, ce qui peut indiquer si les composés sont similaires ou non. L'évaluation consiste à observer des groupes de composés partageant des effets biologiques similaires, dans le but de réduire l'espace de recherche aux composés utiles. La comparaison des fonctionnalités d'apprentissage en profondeur par rapport aux fonctionnalités classiques montre une différence significative.

  • 00: 40: 00 Dans cette section, l'orateur discute de l'utilisation de l'apprentissage en profondeur pour la segmentation de l'imagerie cellulaire, en particulier pour déterminer les connexions biologiquement significatives entre les composés et identifier l'impact des mutations dans le cancer. En comparant le type original d'un gène à un mutant, les chercheurs peuvent mesurer la similitude phénotypique entre eux pour déterminer si le mutant est à l'origine du cancer ou non. Cependant, la correction par lots reste un défi dans l'apprentissage en profondeur, car elle peut influencer les caractéristiques apprises à partir des images. L'orateur suggère d'utiliser l'adaptation de domaine, où un réseau de neurones est utilisé avec deux têtes pour la classification des composés et la détermination des lots. Le gradient négatif est ensuite utilisé pour détruire les informations potentielles associées au lot, ce qui permet une détermination phénotypique plus claire. Dans l'ensemble, l'orateur conclut que les images sont une excellente source d'information pour la découverte biologique, mais reconnaît également les défis ouverts dans l'apprentissage de la représentation et les modèles explicables.
Deep Learning for Cell Imaging Segmentation - Lecture 20 - MIT ML in Life Sciences (Spring 2021)
Deep Learning for Cell Imaging Segmentation - Lecture 20 - MIT ML in Life Sciences (Spring 2021)
  • 2021.05.12
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyGuest lecture: Juan C...
 

Enregistrement et analyse d'images d'apprentissage en profondeur - Conférence 21



Deep Learning Image Registration and Analysis - Conférence 21 - MIT ML in Life Sciences (printemps 2021)

Dans cette conférence, Adrian Dalock se penche sur le sujet de l'alignement des images médicales et le problème d'optimisation qui le sous-tend. Il propose une nouvelle méthode appelée voxel morph, qui consiste à utiliser des ensembles de données non étiquetés pour former des réseaux de neurones pour l'enregistrement d'images. Le conférencier aborde également le défi de la robustesse aux nouvelles données et séquences que les réseaux de neurones n'ont jamais vu auparavant et propose de simuler des conditions diverses et extrêmes pour former des modèles robustes. L'orateur compare les modèles de recalage classiques aux modèles voxel morph et synthmorph, ces derniers étant remarquablement robustes. Enfin, le conférencier discute du développement d'une fonction qui génère des modèles basés sur les propriétés souhaitées plutôt que d'apprendre directement un modèle et de l'utilisation potentielle de l'endoscopie vidéo par capsule pour détecter les anomalies du côlon.

Le conférencier de cette conférence aborde diverses approches d'apprentissage automatique pour pallier le manque de données médicales, en particulier dans le contexte des vidéos de coloscopie pour la détection des polypes. Ils introduisent une architecture d'enregistrement et d'analyse d'images d'apprentissage en profondeur qui utilise des poids pré-formés et une initialisation aléatoire pour traiter le changement de domaine et améliorer les performances. Le cours couvre également l'apprentissage faiblement supervisé, l'apprentissage auto-supervisé et la segmentation vidéo faiblement supervisée. L'orateur reconnaît les défis rencontrés dans l'utilisation des approches d'apprentissage automatique dans l'analyse des données médicales et encourage à tester ces approches dans des procédures médicales réelles pour réduire la charge de travail.

  • 00:00:00 Dans cette section de la conférence, Adrian Dalock discute de l'importance de l'alignement des images médicales et du problème d'optimisation sous-jacent. Il explique que l'alignement des images sur un cadre de référence commun est au cœur de l'analyse des images médicales, car il permet l'identification des structures et des maladies, ainsi que la comparaison entre les sujets. Cependant, l'étape d'alignement traditionnelle était très chronophage, prenant jusqu'à deux heures par cerveau, ce qui a entravé le développement de modèles sophistiqués. Dalock introduit une méthode nettement plus rapide, qui prend moins d'une minute sur un CPU et moins d'une seconde sur un GPU, et permet une recherche plus rapide et plus efficace dans ce domaine. Il définit l'alignement ou l'enregistrement comme la recherche d'un champ de déformation qui correspond aux images et a fait l'objet de recherches approfondies dans divers domaines, notamment la vision par ordinateur et la biologie computationnelle.

  • 00:05:00 Dans cette section, l'orateur discute de l'évolution des méthodes de recalage d'images, en commençant par les modèles classiques et en progressant vers les méthodes basées sur l'apprentissage apparues il y a trois ans. Cependant, ces dernières méthodes, bien qu'efficaces, sont entravées par l'absence d'un champ de déformation de vérité terrain à utiliser pour les données supervisées. Le conférencier propose une nouvelle méthode qui consiste à utiliser des ensembles de données non étiquetés pour former des réseaux de neurones, ce qui se traduit par des solutions de bout en bout plus élégantes et efficaces pour l'enregistrement d'images. Le cadre implique l'utilisation des fonctions de perte des modèles classiques pour optimiser un tout nouveau réseau de neurones, ce qui se traduit par une plus grande précision et des vitesses plus rapides.

  • 00: 10: 00 Dans cette section, l'orateur décrit une méthode de recalage d'images utilisant des techniques d'apprentissage en profondeur, qui emprunte aux méthodes classiques mais optimise un réseau de neurones pour produire des champs de déformation plutôt que d'optimiser les champs directement. Le champ de déformation est appliqué à toutes les images d'un ensemble de données et des techniques de gradient stochastique sont utilisées pour optimiser le réseau. Le conférencier explique comment les pertes différentiables sont utilisées pour assurer la régularité du champ de déformation, et les résultats sont évalués en comparant les structures anatomiques avant et après le processus de déformation, ainsi qu'en mesurant les chevauchements de volume. La méthode proposée, appelée voxel morph, est capable d'estimer la sortie d'une procédure d'optimisation et fournit une approximation pour les modèles probabilistes, offrant des connexions élégantes entre les images, les champs de déformation et les estimations d'incertitude.

  • 00: 15: 00 Dans cette section, l'orateur discute de son analyse de la formation d'un réseau de neurones voxel morph avec seulement quelques images, révélant que même avec seulement 10 images, la sortie de champ de déformation du réseau est proche de l'état de l'art . De plus, l'orateur aborde la question de la description de zones d'intérêt spécifiques, telles que l'hippocampe dans un cerveau, et comment ils ont pu apprendre au réseau à identifier cette zone sans réellement l'étiqueter en lui faisant effectuer une "segmentation douce" pendant entraînement. Enfin, le conférencier discute du défi de la diversité des images médicales et comment la formation des réseaux sur une seule modalité peut limiter leur capacité à travailler avec d'autres modalités, présentant un projet qui résout ce problème.

  • 00: 20: 00 Dans cette section, l'orateur discute du défi de créer des réseaux de neurones robustes aux nouvelles données et séquences qu'ils n'ont jamais vues auparavant. Ils proposent de simuler des conditions diverses et extrêmes pour exposer le réseau à une variabilité importante afin qu'il décide d'ignorer certaines valeurs aberrantes, permettant une meilleure généralisation aux données du monde réel. Pour ce faire, ils déforment les images de manière aléatoire, ajoutent différents modèles de bruit, remplissent de manière aléatoire les valeurs et les intensités et simulent divers effets pour générer des données. Ils ont expérimenté la simulation de diverses données pour les enregistrements et les articles de segmentation, et la simulation de formes aléatoires, ce qui leur a donné un champ de déformation qui pourrait être utilisé pour tester la qualité de l'information.

  • 00: 25: 00 Dans cette section, l'orateur discute des résultats de la formation de différents modèles d'enregistrement et d'analyse d'images. Ils ont formé des modèles de voxel morph et deux versions du modèle de synthmorph en utilisant différentes métriques pour la formation. Les modèles classiques fonctionnent bien, mais les modèles de voxel morph avec variabilité et robustesse fonctionnent encore mieux. Les modèles qui ont été entraînés avec des images de cerveaux ou de blobs simulés font à peu près la même chose que les modèles de voxel morph et mieux que les modèles classiques. Cependant, lorsqu'il s'agit d'enregistrer entre les modalités, les modèles qui ont été formés avec des métriques de même contraste s'effondrent. Pendant ce temps, les modèles synthmorph sont remarquablement robustes, même avec de vraies images. Cependant, la capacité du modèle pourrait entraîner un problème où les caractéristiques des images réelles pourraient ne pas être capturées.

  • 00:30:00 Dans cette section de la conférence, l'orateur discute de la capacité des modèles d'apprentissage automatique et de la façon dont le domaine évolue vers l'utilisation de plus de paramètres. Ils simulent des scanners cérébraux avec différentes modalités et comparent les performances des modèles classiques, voxel morph, et de leur méthode, synthmorph. Ils ont constaté que leur méthode est robuste car elle est capable d'ignorer complètement le contraste et d'extraire uniquement l'anatomie nécessaire, ce qui est fait en apprenant à ignorer la réponse à la variation de contraste dans les caractéristiques du réseau. Ils présentent également leur nouvelle méthode, hypermorph, qui apprend l'effet des hyperparamètres sur les champs d'enregistrement. Le potentiel de cette méthode est qu'elle ne nécessite que la formation d'un modèle et son réglage ultérieur, ce qui élimine le besoin de former plusieurs modèles.

  • 00: 35: 00 Dans cette section, l'orateur discute d'une technique appelée hyper réseaux, qui implique la formation d'un petit réseau qui prend une valeur de paramètre hyper comme entrée et produit les poids d'un réseau plus large qui génère des champs de déformation pour l'enregistrement d'image. En ajustant la valeur de l'hyperparamètre, le champ de déformation peut être ajusté sans nécessiter de réapprentissage, et un seul modèle d'hypermorphe peut capturer une large gamme de variations du champ de déformation. Cette technique peut être appliquée à divers paramètres d'apprentissage automatique au-delà de l'enregistrement d'image et peut être utile pour permettre un réglage interactif du modèle ou l'ajuster en fonction des données de validation. La valeur optimale de l'hyperparamètre varie en fonction de l'ensemble de données, de l'âge des patients et de la tâche d'enregistrement, entre autres facteurs.

  • 00: 40: 00 Dans cette section de la conférence, l'orateur discute de l'importance de sélectionner différentes valeurs d'hyperparamètres pour différentes régions du cerveau lors de l'enregistrement d'images. Ils comparent également un modèle formé sur des données réelles avec un modèle formé sur des données aléatoires, expliquant comment le premier est plus sensible au bruit dans différentes régions. Ils présentent ensuite un projet axé sur l'idée d'aligner les données sur un cadre de référence commun sans construire de cerveau centroïde ni utiliser de modèle. Au lieu de cela, ils proposent d'estimer un atlas en même temps que d'enregistrer des images, et l'outil résultant s'avère flexible et capable de résoudre de nombreux problèmes qui étaient auparavant difficiles à résoudre, comme la construction de modèles séparés pour différentes populations.

  • 00: 45: 00 Dans cette section, l'orateur discute du concept de "modèles conditionnels" dans l'enregistrement et l'analyse d'images d'apprentissage en profondeur, qui implique l'apprentissage d'une fonction qui génère un modèle basé sur une propriété souhaitée (telle que l'âge, le sexe ou la génétique). informations) plutôt que d'apprendre directement un modèle. En alimentant les données des patients et les informations sur l'âge, le réseau est capable d'apprendre un atlas lisse dépendant de l'âge qui capture certains effets entre différents cerveaux, tels que les changements de taille des ventricules. Le conférencier discute également du potentiel d'analyse liée à la génétique utilisant des méthodes similaires, ainsi que de l'utilisation d'encodeurs variationnels et d'autres concepts d'apprentissage automatique dans ce domaine.

  • 00: 50: 00 Dans cette section de la conférence, l'orateur discute de la motivation derrière son travail sur la détection automatique de pathologies pour l'endoscopie vidéo par capsule, qui est une collaboration entre l'Université norvégienne des sciences et technologies et un hôpital en Norvège. Le côlon humain est sensible aux maladies telles que le cancer colorectal et la colite ulcéreuse qui érodent la douceur des parois du côlon et peuvent entraîner des saignements ou d'autres complications. Les coloscopies sont recommandées par les médecins pour les personnes de plus de 50 ans, mais peuvent ne pas être acceptées par les patients. Les endoscopies vidéo par capsule offrent une autre façon de visualiser les parois du côlon et de détecter les anomalies à l'aide d'une petite caméra de la taille d'une pilule qui transmet près de 50 000 images pour produire une grande quantité de données.

  • 00: 55: 00 Dans cette section, les conférenciers discutent des défis de l'imagerie avec l'endoscopie vidéo par capsule, dans laquelle une capsule ingérable capture des images lors de son parcours dans le tube digestif. La gélule doit être prise à jeun et peut manquer des caractéristiques dans les plis du côlon. De plus, la capsule peut se coincer ou faire face à des obstacles géométriques lorsqu'elle se déplace dans l'intestin grêle, ce qui peut entraîner une intervention chirurgicale. La qualité vidéo qui en résulte n'est pas aussi bonne que la qualité d'image HD, avec des couleurs et une transition fluides limitées. Malgré ces limitations, l'endoscopie vidéo par capsule peut aider à diagnostiquer des conditions telles que la diverticulite, et les médecins recherchent des anomalies dans la vidéo pour guider le traitement.

  • 01:00:00 Dans cette section de la conférence, le conférencier aborde les défis de l'utilisation des approches d'apprentissage automatique dans l'analyse des données médicales, en particulier dans le contexte des vidéos de coloscopie pour la détection des polypes. Le principal problème est le manque de données en raison de la nature coûteuse et lente de l'acquisition des données médicales et de la difficulté d'obtenir un étiquetage par divers pathologistes. Le conférencier décrit plusieurs approches d'apprentissage automatique pour surmonter le manque de données, telles que l'apprentissage par transfert et l'apprentissage supervisé, et explique les approches actuelles d'apprentissage en profondeur utilisant des images RVB, des caractéristiques géométriques et des convolutions 3D. Enfin, le conférencier présente l'approche wine it pour la détection des polypes, qui consiste à utiliser le recalage pour aligner les images de la coloscopie et améliorer les performances de détection des polypes.

  • 01:05:00 Dans cette section de la conférence, l'orateur discute d'une architecture d'enregistrement et d'analyse d'images d'apprentissage en profondeur qui utilise des poids pré-formés et une initialisation aléatoire pour traiter le changement de domaine et améliorer les performances dans la détection d'objets et la segmentation d'images. L'architecture se compose de deux encodeurs, l'un pré-formé à partir d'ImageNet et l'autre avec des poids aléatoires, ainsi qu'une augmentation des images d'entrée. Les taux d'apprentissage de chaque codeur dépendent de la couche sur laquelle ils s'entraînent, et l'entropie croisée binaire et la fonction de perte de dés sont utilisées. L'architecture est testée sur un ensemble de données de vidéos contenant des polypes et obtient un score F1 de 85,9 en utilisant plusieurs variations de la même entrée. Enfin, le conférencier présente des vidéos démontrant l'efficacité de l'architecture.

  • 01:10:00 Dans cette section, le conférencier discute du défi de la collecte de données étiquetées pour un problème de recalage d'images et introduit le concept d'apprentissage à instances multiples avec une supervision faible. L'hypothèse est qu'il existe un sac positif avec au moins une instance de la pathologie d'intérêt, tandis que le sac négatif a toujours des instances négatives. Le problème est formulé comme trouver quelles trames contiennent la pathologie et peuvent être optimisées en prédisant la contribution individuelle de chaque trame et en optimisant la perte sur l'étiquette vidéo finale de l'agrégation. Il est à noter que ce problème est difficile en raison du nombre limité de données étiquetées et de l'absence de données sur les composants individuels, nécessitant une approche faiblement supervisée.

  • 01:15:00 Dans cette section, l'orateur explique comment ils ont extrait les caractéristiques de résonance 50 des vidéos avec des pathologies et des vidéos normales, et les ont fait passer à travers des blocs LSTM résiduels qui contiennent un LSTM bidirectionnel avec une connexion de saut. Ils expliquent que le but est de trouver les alphas qui sont la contribution de chaque image au problème final de classification vidéo. Ils discutent également de l'exploitation des cadres à haute valeur d'attention pour identifier les pathologies et les séparer des classes négatives. La fonction de perte finale est une entropie croisée de la classification vidéo et de la séparation des sacs entre banques positives et négatives. L'orateur partage ensuite comment il a effectué une étude d'appellation pour déterminer où apprendre l'attention, avec les meilleurs résultats obtenus en assistant à la représentation cachée finale et en l'appliquant à la sortie finale. L'approche a été testée par rapport à d'autres méthodes qui utilisent l'apprentissage métrique.

  • 01:20:00 Dans cette section, le conférencier aborde l'utilisation de l'apprentissage auto-supervisé en imagerie médicale et les défis qu'il pose. Ils mentionnent qu'une approche qui a rencontré un certain succès consiste à utiliser un problème de puzzle où les images sont partitionnées en patchs et reconstruites. Cependant, le problème avec l'imagerie médicale est qu'il n'y a pas d'invariant de rotation, ce qui rend difficile la recherche de clusters significatifs. L'orateur suggère que l'amélioration de la localisation des images vidéo grâce à la connaissance du domaine, telle que la compréhension de la manifestation de différentes maladies, pourrait être une approche utile pour améliorer la classification des pathologies.

  • 01:25:00 Dans cette section, le conférencier discute de la segmentation vidéo faiblement supervisée et de la nécessité de détecter où les images sont localisées afin de fournir de meilleures explications en milieu médical. Ils mentionnent également la conception de tâches pré-test auto-supervisées et l'apprentissage contrastif comme des approches nouvelles et passionnantes dans ce domaine, avec de nouveaux travaux publiés chaque jour. L'orateur salue le projet icomet et encourage à tester ces approches dans des procédures médicales réelles pour réduire la charge de travail. L'hôte exprime son appréciation pour les vrais praticiens qui résolvent les problèmes médicaux et remercie l'orateur pour la conférence informative.
Deep Learning Image Registration and Analysis - Lecture 21 - MIT ML in Life Sciences (Spring 2021)
Deep Learning Image Registration and Analysis - Lecture 21 - MIT ML in Life Sciences (Spring 2021)
  • 2021.05.12
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyGuest lecturers: Adri...
 

Dossiers de santé électroniques - Conférence 22



Dossiers de santé électroniques - Conférence 22 - Apprentissage profond en sciences de la vie (printemps 2021)

L'émergence de l'apprentissage automatique dans les soins de santé est due à l'adoption des dossiers médicaux électroniques dans les hôpitaux et à la grande quantité de données sur les patients qui peuvent être utilisées pour des informations significatives sur les soins de santé. La modélisation de la progression de la maladie est discutée à l'aide de données longitudinales trouvées dans les registres de maladies, ce qui peut poser des problèmes en raison de données longitudinales de grande dimension, de données manquantes et de censure à gauche et à droite. La conférence explore l'utilisation de modèles non linéaires comme les modèles de Markov profonds pour relever ces défis et modéliser efficacement la densité non linéaire des biomarqueurs longitudinaux. De plus, le conférencier discute de l'utilisation de la connaissance du domaine pour développer de nouvelles architectures neuronales pour la fonction de transition et de l'importance d'incorporer la connaissance du domaine dans la conception du modèle pour une meilleure généralisation. Il existe également une expérimentation de la complexité du modèle en ce qui concerne les fonctions d'effet du traitement, et l'orateur prévoit de revoir cette question sur une cohorte plus large pour déterminer d'autres résultats.

  • 00:00:00 Dans cette section, Rahul Krishnan, chercheur principal chez Microsoft Research, explique l'émergence de l'apprentissage automatique dans les soins de santé en raison de la numérisation des données des dossiers de santé électroniques. L'adoption de systèmes de dossiers médicaux électroniques dans les hôpitaux a conduit à une grande quantité de données sur les patients qui pourraient être utilisées pour des informations significatives sur les soins de santé. Krishnan met en évidence l'utilisation de registres de maladies, qui sont des ensembles de données plus ciblés sur une seule maladie, publiés par des organisations à but non lucratif pour que les chercheurs puissent étudier et répondre aux questions. Des techniques d'apprentissage automatique telles que l'apprentissage non supervisé sont utilisées pour étudier la sous-structure de ces ensembles de données et créer des outils pour aider les cliniciens. La présentation se concentre sur la modélisation de la progression de la maladie et sur certains des travaux réalisés par les chercheurs dans ce domaine.

  • 00: 05: 00 Dans cette section, l'orateur discute de la modélisation de la progression de la maladie à l'aide de données longitudinales trouvées dans les registres de maladies. La modélisation de la progression de la maladie existe depuis des décennies et tente de créer des modèles statistiques capables de capturer les données complexes et désordonnées trouvées dans les registres de maladies, y compris les covariables de base, les biomarqueurs longitudinaux et les informations sur les traitements. Ce problème est souvent posé comme un apprentissage non supervisé, où les modèles visent à maximiser la probabilité logarithmique d'observer la séquence longitudinale de biomarqueurs d'un patient en fonction de leurs informations de base et de la séquence d'interventions. Le conférencier présente une nouvelle approche pour la modélisation de la progression de la maladie qui sera publiée à l'ICML cette année.

  • 00:10:00 Dans cette section, le conférencier aborde les défis de l'utilisation des dossiers de santé électroniques pour modéliser la progression de la maladie dans le contexte du myélome multiple, un cancer rare de la moelle osseuse. Parce que la maladie est si rare, il n'y a souvent qu'un petit nombre de patients à apprendre, ce qui rend difficile une bonne modélisation et une bonne estimation de la densité. De plus, les données sur les soins de santé présentent des défis tels que des données longitudinales de grande dimension avec une variation non linéaire, des données manquantes et une censure à gauche et à droite. Le conférencier suggère d'utiliser des modèles non linéaires comme les modèles de Markov profonds pour relever ces défis et modéliser efficacement la densité non linéaire des biomarqueurs longitudinaux.

  • 00: 15: 00 Dans cette section, la conférence décrit un modèle de variable latente pour les dossiers de santé électroniques, où les données sont générées par les variables latentes et les observations obtenues au fil du temps. Le modèle suppose que le choix des médicaments prescrits par un médecin dépend des valeurs de biomarqueurs cliniques obtenues à partir d'observations antérieures. L'orateur aborde également la question des données manquantes, qui peuvent être surmontées en marginalisant les variables manquantes lors de l'estimation du maximum de vraisemblance. Cependant, pour l'inférence variationnelle utilisant un réseau d'inférence, le modèle nécessite des approximations pour estimer les données manquantes, et des recherches supplémentaires sont nécessaires pour comprendre comment le manque affecte le biais de la distribution a posteriori approximative.

  • 00:20:00 Dans cette section, l'orateur explique comment un modèle peut être utilisé pour prédire les antécédents médicaux d'un patient en modélisant ses interactions avec un médecin au fil du temps. Le modèle utilise une représentation latente, qui évolue dans le temps, pour prédire l'état médical du patient. Le conférencier souligne les défis de la modélisation des données médicales dus à la non-linéarité et à la rareté de certaines maladies. Ils explorent l'utilisation des connaissances du domaine pour développer une nouvelle architecture neuronale pour la fonction de transition. Le conférencier discute également de l'utilisation d'une horloge globale et d'horloges locales pour suivre la durée du traitement et le temps écoulé jusqu'à un événement de progression majeur, respectivement. Ils expliquent comment approximer l'effet mécaniste des médicaments et intègrent ces connaissances dans le modèle.

  • 00: 25: 00 Dans cette section, l'orateur discute de l'utilisation de la pharmacocinétique et de la pharmacodynamique pour approximer l'effet des médicaments prescrits pour le traitement du cancer sur la tumeur d'un patient. Ils proposent trois nouvelles architectures neuronales pour modéliser l'effet de plusieurs médicaments administrés conjointement aux patients, en les combinant à l'aide d'un mécanisme d'attention pour créer une fonction unique. L'objectif est de faire une estimation de densité conditionnelle, en utilisant les connaissances du domaine pour lutter contre le surajustement. Le modèle, appelé SSNPK, est appliqué à une cohorte de patients atteints de myélome multiple traités selon la norme de soins actuelle, avec 16 biomarqueurs cliniques au fil du temps, neuf indications de traitements et 16 caractéristiques de base.

  • 00:30:00 Dans cette section, l'orateur discute des résultats de l'utilisation de différents modèles pour analyser les données cliniques, en se concentrant spécifiquement sur l'utilisation des modèles d'apprentissage en profondeur et d'espace d'état. Ils comparent l'efficacité des différents modèles à généraliser à de nouvelles données et constatent que l'utilisation de ssnpkpd entraîne systématiquement de meilleures performances sur les lignes de base linéaires et non linéaires. Ils effectuent également une analyse d'ablation pour identifier les biomarqueurs qui contribuent le plus aux gains observés dans les modèles, et constatent que l'utilisation d'horloges locales et globales est utile pour modéliser la dynamique des données. De plus, ils utilisent l'espace latent du modèle formé pour explorer et comprendre davantage le comportement des données au fil du temps.

  • 00: 35: 00 Dans cette section de la conférence, l'orateur discute des résultats de l'utilisation du modèle SSNPKPD pour prévoir les futurs biomarqueurs cliniques d'un patient en fonction de leurs biomarqueurs de base. Le modèle montre un meilleur ajustement aux données par rapport à une ligne de base linéaire, ce qui indique que les représentations latentes capturées par SSNPKPD conservent les antécédents pertinents du patient pour prédire les futurs biomarqueurs cliniques. L'orateur résume les principaux enseignements de l'exposé, à savoir l'importance d'intégrer les connaissances du domaine dans la conception de modèles pour une meilleure généralisation, et met en évidence les opportunités de recherche future en combinant différentes modalités de données dans les soins de santé. Le conférencier note également la validation en cours des résultats dans une cohorte plus large et la possibilité d'intégrer le modèle dans des outils d'aide à la décision clinique et des cadres d'apprentissage par renforcement basés sur des modèles.

  • 00: 40: 00 Dans cette section, l'orateur discute de son expérimentation de la complexité du modèle en ce qui concerne les fonctions d'effet de traitement. Ils ont essayé des variantes du modèle en créant des copies des fonctions d'effet de traitement, allant de trois à douze, et ont constaté qu'il y avait un point où la complexité supplémentaire n'améliorait pas significativement les performances et même les diminuait. Cependant, lorsqu'ils ont supprimé certaines des fonctions d'effet de traitement, ils ont constaté une baisse des performances, mais ont tout de même surpassé le modèle linéaire. L'intervenant envisage de revenir sur cette question de généralisation sur une cohorte plus large avec l'AV pour déterminer l'étendue de ces constats.
Electronic health records - Lecture 22 - Deep Learning in Life Sciences (Spring 2021)
Electronic health records - Lecture 22 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.05.16
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyGuest lecture: Rahul ...
 

Apprentissage profond et neurosciences - Conférence 23



Apprentissage profond et neurosciences - Conférence 23 - Apprentissage profond en sciences de la vie (printemps 2021)

La conférence traite de l'interaction entre l'apprentissage en profondeur et les neurosciences, en particulier dans le domaine des sciences visuelles. L'objectif est de désosser l'intelligence visuelle humaine, qui fait référence aux capacités comportementales que les humains présentent en réponse aux photons qui frappent leurs yeux. L'orateur met l'accent sur l'explication de ces capacités dans le langage des mécanismes, tels que les réseaux de neurones simulés, pour permettre des systèmes construits prédictifs qui peuvent bénéficier à la fois aux sciences du cerveau et à l'intelligence artificielle. La conférence explore comment les modèles d'apprentissage en profondeur sont des hypothèses sur la façon dont le cerveau exécute les processus du système sensoriel et les applications potentielles au-delà de la simple imitation de l'évolution du cerveau. De plus, la conférence montre des exemples pratiques de la façon dont les réseaux de neurones peuvent manipuler les souvenirs et changer le sens de quelque chose.

Cette vidéo traite du potentiel de l'apprentissage en profondeur pour comprendre les fonctions cognitives du cerveau et tirer parti de cette compréhension à des fins d'ingénierie. Le conférencier met en évidence la pertinence des réseaux de neurones récurrents avec leurs capacités de mémoire et de dynamique interne dans ce domaine. La conférence explore la capacité des systèmes neuronaux à apprendre par imitation et comment cela peut être utilisé pour apprendre des représentations, des calculs et des manipulations de la mémoire de travail. La vidéo couvre également la difficulté de trouver des preuves de l'apprentissage par rétroaction en tant que condition d'apprentissage et le potentiel des mécanismes de correction d'erreurs pour régler le système. La conférence se termine par une réflexion sur la diversité des sujets abordés dans le cours et sur la manière dont l'apprentissage en profondeur peut aider à interpréter les systèmes cognitifs à l'avenir.

  • 00:00:00 Dans cette section, le conférencier discute de l'interaction entre l'apprentissage en profondeur et les neurosciences, en particulier dans le domaine des sciences visuelles. Il explique comment les modèles d'apprentissage en profondeur peuvent être considérés comme des hypothèses scientifiques sur la façon dont certains aspects du fonctionnement du cerveau peuvent fonctionner et comment les neuroscientifiques et les scientifiques cognitifs évaluent la qualité de ces hypothèses par rapport aux données. L'exposé de Carlo se concentre sur l'objectif de l'ingénierie inverse de l'intelligence visuelle humaine, qui fait référence aux capacités comportementales que les humains présentent en réponse aux photons qui frappent leurs yeux. Il souligne l'importance d'expliquer ces capacités dans le langage des mécanismes, tels que les réseaux de neurones simulés, pour permettre des systèmes construits prédictifs qui peuvent bénéficier à la fois aux sciences du cerveau et à l'intelligence artificielle.

  • 00: 05: 00 Dans cette section, le conférencier discute de l'intelligence visuelle et de la façon dont le cerveau estime ce qui se trouve dans une scène, comme l'identification de voitures ou de personnes ; cependant, prédire ce qui va se passer ensuite et d'autres problèmes liés à la physique sont toujours un défi à comprendre pour les scientifiques. Malgré cela, les scientifiques ont fait des progrès significatifs dans la modélisation des visuels fondamentaux que nous traitons à chaque aperçu de 200 millisecondes d'une scène, également connu sous le nom de reconnaissance d'objets de base. Le conférencier fournit des exemples de tests qui mesurent notre capacité à reconnaître des objets et à les comparer à d'autres espèces, comme les systèmes de vision par ordinateur et les primates non humains comme les singes rhésus.

  • 00:10:00 Dans cette section, l'orateur discute de la capacité des humains et des primates à distinguer les objets. Il note que les humains et les primates effectuent de la même manière les tâches de reconnaissance visuelle, les humains ne réalisant que légèrement mieux. De plus, l'orateur discute des systèmes d'apprentissage en profondeur et de leur comparaison avec les capacités de reconnaissance visuelle des humains et des primates. L'orateur passe ensuite à la discussion des zones du cerveau du singe rhésus impliquées dans les tâches de reconnaissance visuelle et met en évidence le cortex infra-temporal comme la zone de niveau le plus élevé. Enfin, l'orateur note les échelles de temps typiques pour que les modèles d'activité neuronale émergent dans le cortex infra-temporel et comment cela correspond au temps nécessaire pour les compétences d'échantillonnage comportemental manifeste.

  • 00: 15: 00 Dans cette section de la conférence vidéo, l'orateur explique comment les chercheurs étudient la réponse des neurones individuels du cortex visuel d'animaux comme les singes aux images à l'aide d'électrodes d'enregistrement invasives. En mesurant les schémas d'activité électrique des neurones en réponse à différentes images, les chercheurs peuvent quantifier la réponse à l'aide des taux de pointe moyens. Ces modèles d'activité peuvent être regroupés par des similitudes dans leur sélectivité, et des zones spéciales de regroupement pour certains types d'objets, comme les visages, ont été identifiées dans le cortex visuel. L'utilisation de matrices d'enregistrement chronique permet aux chercheurs d'enregistrer à partir des mêmes sites neuronaux pendant des semaines ou des mois et de mesurer les réponses à des milliers d'images.

  • 00: 20: 00 Dans cette section, l'orateur explique une expérience dans laquelle des données neuronales ont été enregistrées pendant qu'un animal fixait ou exécutait une tâche ou observait des images. En formant des décodeurs linéaires sur de petits échantillons de données, des modèles sont apparus qui étaient indiscernables de ceux observés chez les humains et les singes. Cela a permis le développement d'un ensemble puissant d'espaces de fonctionnalités qui pourraient être utilisés dans des applications d'interface cerveau-machine pour visualiser certains percepts. L'orateur discute ensuite des transformations non linéaires qui se produisent entre l'activité neuronale et l'image, suggérant que c'est dans ce domaine que l'apprentissage en profondeur et la science de la vision se rejoignent.

  • 00: 25: 00 Dans cette section, l'orateur explique comment les réseaux convolutifs profonds ont été initialement construits sur la base de principes connus en neurosciences, tels que le concept de détection de bord, de filtrage, de non-linéarités de sortie et de contrôle de gain. Cependant, comme ces modèles ont été testés par rapport aux données neuronales dans les zones visuelles du cerveau, ils ont échoué et ont été incapables de prédire les schémas de réponse des neurones individuels en V4. Alors que ces modèles étaient des constructions d'hypothèses pour les neuroscientifiques, ils étaient insuffisants pour expliquer le fonctionnement du système visuel. Malgré l'échec de ces premiers modèles, ils ont servi d'inspiration pour les travaux en cours visant à séparer les filtres appris dans les réseaux profonds de ceux observés dans la V1.

  • 00:30:00 Dans cette section, le conférencier explique comment la collaboration entre les neurosciences et l'apprentissage en profondeur a permis l'optimisation de paramètres inconnus dans les réseaux de neurones artificiels, résultant en des modèles qui imitent étroitement les schémas de réponse neuronale du cerveau des primates. L'orateur note que la percée est venue de la mise en œuvre d'une boucle qui a permis aux ingénieurs d'optimiser les microparamètres des filtres dans les réseaux de neurones à convolution profonde. Ce faisant, les modèles produits ont été considérés comme de nouvelles hypothèses sur ce qui pourrait se passer dans le système visuel, permettant une comparaison avec les réseaux de neurones biologiques dans le cerveau. L'orateur poursuit en montrant des exemples de la façon dont ces comparaisons ont été faites, ce qui a abouti à des hypothèses mécanistes précoces sur le fonctionnement du cerveau. Dans l'ensemble, cette collaboration a permis le développement de neurones du flux ventral in silico qui imitent étroitement ceux trouvés dans le flux ventral biologique, conduisant à une meilleure compréhension de la façon dont le cerveau traite les informations visuelles.

  • 00:35:00 Dans cette section, l'orateur explique que les modèles d'apprentissage en profondeur qu'ils ont développés sont des hypothèses sur la façon dont le cerveau exécute les processus du système sensoriel, en particulier dans le domaine de la reconnaissance visuelle des objets. Ils notent que ces modèles ne sont pas parfaits et présentent certaines divergences, qu'ils visent à optimiser et à améliorer à l'avenir. L'orateur discute également des applications plus larges de l'apprentissage en profondeur dans l'ingénierie et l'IA, soulignant que ces modèles peuvent être utilisés comme un outil pour guider une compréhension et une optimisation scientifiques plus poussées. Ils concluent en indiquant le besoin de plus de données et de modèles pour des représentations plus précises des processus cérébraux.

  • 00:40:00 Dans cette section, l'orateur discute du potentiel d'innovation dans l'apprentissage en profondeur et l'intelligence artificielle au-delà de la simple imitation de l'évolution du cerveau. Ils suggèrent que la majeure partie de l'innovation proviendra du choix de l'architecture et que les outils d'optimisation seront disponibles pour permettre cette optimisation. Les questions récurrentes peuvent donner un aperçu des éléments subconscients de la cognition, et l'anatomie du cerveau relie les idées de récurrence, ce qui peut conduire à des zones en aval qui impliquent davantage la cognition. L'orateur aborde également les connexions ignorées, les zones grises et la manière dont le travail en cours tente d'aborder ce problème.

  • 00: 45: 00 Dans cette section de la vidéo, l'orateur discute du concept de néoténie et de la manière dont il affecte la proportion de fonctions et de filtres codés en dur dans le cortex visuel chez différentes espèces. Au fur et à mesure que vous progressez dans le système, il y a plus de plasticité dans le cerveau et les singes ont des zones jusqu'à un certain niveau, tandis que les humains ont plus de tissu cérébral, ce qui permet plus de flexibilité. L'orateur pense qu'il y a beaucoup de place pour la flexibilité dans le cerveau, et bien que cela fasse partie de notre système primate, une partie du cerveau est au-delà de cela, et c'est bien. Le conférencier suivant discute ensuite de leur travail sur la réflexion sur les cerveaux en tant que réseaux de neurones récurrents et comment l'étude de l'intersection entre les systèmes de neurones artificiels et réels peut nous aider à comprendre leur fonctionnement.

  • 00: 50: 00 Dans cette section, l'accent est mis sur la manière dont un codage efficace et parcimonieux peut être utilisé pour apprendre une base de représentation efficace dans des systèmes neuronaux artificiels et réels. En étudiant les comportements de type cérébral dans les réseaux récurrents, on peut trouver des principes qui élargissent les capacités des réseaux récurrents artificiels et aident à comprendre comment les vrais fonctionnent. Les réseaux de neurones récurrents apprennent à stocker et à modifier les représentations et les souvenirs internes, ce qui leur permet de séparer les signaux qui se chevauchent d'une manière similaire à l'effet cocktail. Les systèmes neuronaux réels sont excellents pour stocker et manipuler les représentations, comme on le voit dans la région du cerveau appelée mémoire de travail dans les réseaux récurrents. L'objectif est de trouver des principes qui étendent les capacités des réseaux récurrents artificiels et aident à comprendre comment les vrais fonctionnent.

  • 00: 55: 00 Dans cette section de la conférence, la position d'un rat est décodée à partir de neurones appelés cellules de lieu, qui suivent le mouvement du rat lorsqu'il se déplace dans l'espace. Le rat peut également manipuler sa représentation neuronale pour planifier de futures trajectoires avant même qu'il ne bouge. La conférence explore ensuite comment les réseaux de neurones peuvent manipuler les souvenirs, comme la capacité de l'oiseau chanteur à apprendre à chanter en imitant les adultes. La conférence explique comment les réseaux de neurones peuvent apprendre des processus complexes de manipulation d'informations en observant des exemples, et introduit le concept d'attracteur chaotique en tant que modèle de mémoire, et un système dynamique non linéaire simple appelé réservoir en tant que modèle de réseau de neurones. Le paramètre de contrôle du réservoir est utilisé pour modifier la représentation du réseau de la mémoire qu'il a apprise, et la conférence fournit des exemples pratiques de la façon dont ce contrôle peut changer le sens de quelque chose.

  • 01:00:00 Dans cette section, l'orateur explique comment la capacité de modulation du contexte affecte l'apprentissage et la capacité du réseau neuronal. Ils expliquent que biaiser le réseau avec des variables de contexte signifie que plus de données sont nécessaires pour la formation afin d'apprendre des paramètres communs. L'orateur parle également de l'utilisation de la méthode de calcul par réservoir pour stocker des souvenirs dans des réseaux de neurones et comment de simples schémas d'apprentissage pour imiter les entrées observées suffisent pour stocker des souvenirs. Ils discutent ensuite de la modification des mémoires à l'intérieur des réseaux de neurones en examinant la traduction des attracteurs dans la direction x1 et en modifiant la valeur du paramètre de contexte c pour chaque traduction.

  • 01:05:00 Dans cette section, l'intervenant discute de la capacité des réservoirs à apprendre à interpoler et extrapoler les opérations de transformation sur sa représentation interne des variétés d'attracteurs. L'équipe a fourni quatre exemples de formation d'un attracteur de Lorenz pressé dans la direction x1 et a effectué une formation et des commentaires. Les réservoirs se sont avérés apprendre à interpoler et extrapoler des opérations de transformation qui peuvent être arbitraires, notamment un étirement ou une multi-variation. L'équipe a également découvert que les réservoirs peuvent prédire la structure globale de bifurcation de l'attracteur de Lorenz et prédire les diagrammes de bifurcation de plusieurs autres formes normales dynamiques, telles que le mode selle et les bifurcations supercritiques en fourche. Les réseaux de neurones peuvent même apprendre à prédire des trajectoires cinématiques non dynamiques, comme dans l'exemple d'une liaison Jansen modifiée.

  • 01:10:00 Dans cette section de la conférence, l'orateur discute d'une méthode appelée synchronisation généralisée inversible, qui est un moyen de formaliser l'idée de mapper les stimuli à la neurodynamique dans un système neuronal. L'orateur explique que pour former une représentation, les neurones doivent former une représentation distribuée au lieu de coder individuellement des parties spécifiques des stimuli d'entrée. Ils doivent également être capables de se conduire avec leur propre représentation, qui est le mécanisme clé derrière le stockage des entrées sous forme de mémoires. Enfin, le conférencier démontre que les réseaux de neurones récurrents peuvent entretenir des souvenirs chaotiques, leur permettant de traduire et de transformer des souvenirs.

  • 01:15:00 Dans cette section, l'orateur discute de la capacité des systèmes neuronaux à apprendre en imitant des exemples vus et comment cela peut être utilisé pour apprendre des représentations, des calculs et des manipulations de la mémoire de travail. La conversation se déplace ensuite vers la question de l'apprentissage par rétroaction et comment il s'applique aux modèles présentés. Bien qu'il existe des preuves de séparabilité linéaire et de reconstructibilité des termes dans certaines parties du cortex visuel, l'orateur note la difficulté de trouver des preuves d'apprentissage par rétroaction car il s'agit d'une condition d'apprentissage assez extrême. Il est suggéré d'utiliser des mécanismes de correction d'erreurs pour ajuster le système, mais l'idée d'un ensemble fixe de paramètres où le résultat est jugé par rapport aux attentes du monde extérieur et la formation de souvenirs saillants lorsque les attentes s'écartent considérablement est également discutée.

  • 01:20:00 Dans cette section, le conférencier met l'accent sur le potentiel de l'apprentissage en profondeur pour comprendre les fonctions cognitives du cerveau et les concevoir. Les réseaux de neurones récurrents, avec leur capacité de mémoire et leur dynamique interne, sont particulièrement pertinents dans ce domaine. Le conférencier encourage à considérer ces systèmes comme des entités vivantes et respirantes, plutôt que comme de simples approximateurs de fonctions. Le cœur de ces systèmes cognitifs réside dans le RNN, bien qu'ils puissent être complétés par des réseaux de neurones convolutionnels pour les entrées et les sorties. L'hippocampe et les connexions qu'il établit avec différents aspects du système nerveux sont cités comme un exemple fascinant de la façon dont les souvenirs sont codés à travers un système interactif de neurones co-activants. La conférence se termine par une réflexion sur la diversité des sujets abordés dans le cours et sur la manière dont l'apprentissage en profondeur peut aider à interpréter les systèmes cognitifs à l'avenir.
Deep Learning and Neuroscience - Lecture 23 - Deep Learning in Life Sciences (Spring 2021)
Deep Learning and Neuroscience - Lecture 23 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.05.19
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...
 

MIT 6.S192 - Cours 1 : Esthétique computationnelle, Design, Art | Apprendre en générant



MIT 6.S192 - Cours 1 : Esthétique computationnelle, Design, Art | Apprendre en générant

Cette conférence couvre une variété de sujets liés à l'esthétique informatique, au design et à l'art. Le rôle de l'IA dans la démocratisation de l'accès à la création artistique, l'automatisation de la conception et le dépassement des limites de l'art est discuté, ainsi que les défis liés à la quantification de l'esthétique et à l'équilibre visuel dans la conception à l'aide de représentations de haut niveau et de bas niveau. Le conférencier met également en évidence le potentiel de la conception informatique pour découvrir des modèles et transmettre des messages efficacement, avec des exemples impliquant la sémantique des couleurs et la conception de couvertures de magazines. Des expériences de crowdsourcing sont utilisées pour déterminer les associations de couleurs avec divers sujets et les applications potentielles de cette méthode dans différents domaines sont explorées. Dans l'ensemble, la conférence présente le rôle de l'IA dans les applications créatives et le potentiel de révolutionner la façon dont nous créons l'art, le design et d'autres formes d'expression créative.

La vidéo traite de l'utilisation de l'esthétique, de la conception et de l'art informatiques pour générer des œuvres créatives à l'aide de modèles génératifs, tels que StyleGAN et DALL-E. Le conférencier souligne également l'importance d'apprendre en générant et encourage les téléspectateurs à décomposer les problèmes et à utiliser les données pour trouver des solutions innovantes et créatives. Cependant, le conférencier aborde également les limites des modèles génératifs, telles que les données biaisées et la capacité de généraliser et de sortir des sentiers battus. Néanmoins, le conférencier demande aux étudiants de revoir le code fourni et d'expérimenter les différentes techniques de génération d'images esthétiques tout en encourageant la participation à un débat socratique entre Berkeley et le MIT sur l'esthétique et la conception computationnelles.

  • 00:00:00 Dans cette section de la conférence, l'orateur discute des motivations pour la mise en œuvre de l'IA dans l'art, l'esthétique et la créativité. Ils expliquent que l'art est un aspect clé de l'évolution et de la communication humaines, et que l'IA peut démocratiser l'accès à la création artistique, nourrir la créativité et repousser les limites de l'art. Avec des millions de photos téléchargées chaque jour et 650 publicités exposées par jour, l'IA peut aider à concevoir automatiquement de bons designs et à comprendre ce qui fait un bon ou un mauvais design. Enfin, l'orateur affirme que l'IA jouera un rôle essentiel à l'avenir, où l'IA créera des films, des pièces de théâtre et plus encore à chaque seconde, ce qui amène à se demander si nous voulons façonner cet avenir.

  • 00:05:00 Dans cette section, l'orateur discute du rôle de l'IA dans l'art, l'esthétique et la créativité. Il explique que les réseaux de neurones convolutifs (CNN) peuvent être biaisés en faveur des textures, mais cela peut être biaisé en générant différents styles et en les incorporant dans les données. De plus, il mentionne qu'en 2018, une peinture réalisée à partir d'un modèle génératif a été vendue pour un demi-million de dollars. Il aborde également la question de savoir si l'esthétique peut être quantifiée, affirmant que les philosophes et les artistes discutent de ce sujet depuis des générations. Enfin, il aborde les objectifs du cours, qui consistent à apprendre à appliquer des algorithmes d'IA à des applications créatives et à résoudre des problèmes intéressants.

  • 00:10:00 Dans cette section de la vidéo, l'instructeur répond à une question pour savoir si une connaissance préalable de l'apprentissage en profondeur est nécessaire pour le cours. Il explique que même si le cours abordera l'apprentissage en profondeur, ce n'est pas l'objectif principal et qu'il existe d'autres ressources pour apprendre le sujet. Il poursuit ensuite en discutant de ses travaux antérieurs sur la quantification de l'esthétique, notant que la mesure de l'esthétique n'est pas un nouveau concept et qu'il existe déjà des modèles établis, comme le modèle de Birkhoff du début du XXe siècle, qui peuvent être utilisés pour quantifier l'esthétique dans divers contextes tels que que le design visuel, la poésie et même les interfaces.

  • 00: 15: 00 Dans cette section, l'orateur discute de la quantification de l'esthétique et des défis pour y parvenir, en utilisant l'équilibre visuel comme exemple. De bonnes représentations sont nécessaires, à haut niveau comme à bas niveau. Les représentations de haut niveau peuvent inclure l'équilibre visuel et le rythme, tandis que les représentations de bas niveau reposent sur des caractéristiques extraites à l'aide de réseaux de neurones. Les données sont également nécessaires pour quantifier l'esthétique, y compris le type de données utilisées et leur provenance. L'orateur explique comment l'équilibre est souvent enseigné aux concepteurs par intuition, mais les ingénieurs veulent le quantifier et déterminer sa signification dans la conception.

  • 00:20:00 Dans cette section, l'orateur aborde la notion de justesse visuelle et d'équilibre dans la conception, également connue sous le nom d'harmonie. Il parle du travail d'Arnheim, qui a suggéré que placer des éléments de conception dans des points chauds spécifiques peut créer un équilibre visuel. L'orateur explore si cette hypothèse peut être confirmée par une analyse basée sur les données et étudie les parties saillantes d'une image à l'aide d'un algorithme de saillance, en superposant ses résultats sur le réseau structurel. Il utilise un robot d'exploration pour collecter plus de 120 000 images à partir d'un site Web de photographie afin d'étudier les modèles de saillance de ces images.

  • 00: 25: 00 Dans cette section, un ensemble de données avec un algorithme de saillance a été utilisé pour ajuster un mélange de Gaussiens afin de trouver des modèles dans des images agrégées de différentes catégories telles que les portraits, l'architecture et la mode. Les points chauds de saillance ont été analysés, avec une similitude avec la théorie d'Arnheim sur le centre de masse et la règle des tiers. Cependant, les résultats peuvent être influencés par la façon dont les photographes recadrent les images, comme le montrent les études sur la validité de la règle des tiers.

  • 00:30:00 Dans cette section, le conférencier aborde le thème de l'esthétique et de la conception computationnelles. Ils mentionnent la disponibilité de l'ensemble de données AVA qui contient des annotations pour l'esthétique, la sémantique et le style photographique. Le conférencier démontre ensuite comment les algorithmes d'apprentissage en profondeur peuvent apprendre et prédire les cotes esthétiques et suggère que cela peut être utilisé pour améliorer et ajuster les images. La conférence passe ensuite à la discussion du potentiel de la conception informatique et de son importance pour découvrir des modèles de conception et mieux s'exprimer.

  • 00:35:00 Dans cette section de la conférence, l'orateur introduit le concept de conception computationnelle et discute de la différence entre la conception et l'art. Le problème du design est donné, et le travail du designer est de transmettre un message pour résoudre ce problème, tandis que les artistes définissent eux-mêmes le problème et utilisent des techniques artistiques pour le résoudre. Les principes de conception, tels que la communication plutôt que la décoration, peuvent être difficiles à transmettre à une machine, mais diverses théories, métriques et règles, y compris la gestalt et l'harmonie des couleurs, peuvent être utilisées pour créer et recommander automatiquement du contenu. L'orateur fournit également un exemple de logiciel de conception automatisé qui peut mettre en page du texte et des éléments de conception au-dessus d'une image d'arrière-plan donnée.

  • 00: 40: 00 Dans cette section de la vidéo, l'orateur explique comment il a créé un design automatique pour les couvertures de magazines en choisissant des couleurs complémentaires et en étudiant le travail effectué par Itten et Matsuda, ainsi que Kobiashi qui a étudié les combinaisons de couleurs pendant 30 ans, et comment les couleurs peuvent être associées à des mots tels que romantique, doux et soigné. Sur la base de ce travail, le conférencier a créé un système de conception automatique qui peut donner des recommandations aux utilisateurs en fonction des couleurs qu'ils choisissent et créer des styles pour les couvertures de magazines. De plus, l'orateur a exploré si les données de designers professionnels pouvaient extraire des motifs dans des palettes de couleurs pour les couvertures de magazines.

  • 00:45:00 Dans cette section de la vidéo, l'orateur discute de son projet qui consistait à collecter un ensemble de données de couvertures de magazines de 12 genres différents afin de trouver simultanément le texte, le genre et les combinaisons de couleurs utilisées sur les couvertures. L'orateur a utilisé la modélisation de sujets pour extraire différents sujets, qui sont une combinaison de mots et de couleurs, et a montré comment les nuages de mots et les palettes de couleurs peuvent être utilisés pour visualiser ces sujets. Le conférencier a également discuté de l'utilisation du crowdsourcing pour déterminer si les résultats du projet étaient universels ou non.

  • 00: 50: 00 Dans cette section, l'orateur discute d'une expérience de crowdsourcing qu'ils ont menée pour comprendre si différentes cultures et données démographiques s'accordent sur les associations de couleurs avec divers sujets. L'expérience consistait à montrer une palette de couleurs choisie au hasard dans un sujet, puis à montrer différents nuages de mots et à demander aux sujets de les assortir. Plus de 1 000 participants de divers pays y ont participé, et la matrice de corrélation ou de pertinence qui en a résulté a révélé des tendances intéressantes. L'expérience a montré que, pour la plupart, les participants étaient d'accord sur les associations de couleurs avec divers sujets, bien qu'il y ait eu quelques exceptions. Le conférencier a également souligné les applications potentielles de cette méthode dans la conception de palettes de couleurs pour différents types de produits.

  • 00: 55: 00 Dans cette section de la conférence, l'orateur discute de diverses applications de la sémantique des couleurs dans des tâches telles que la recommandation de palette de couleurs, la récupération d'images, la recoloration et même la conception de sites Web. Elle montre comment les algorithmes peuvent être utilisés pour recommander des couleurs et des couvertures de magazines en fonction de concepts ou de thèmes spécifiques, ainsi que pour analyser et visualiser les modèles de conception Web au fil du temps. L'utilisation de réseaux de neurones convolutifs est également démontrée dans l'identification des palettes de couleurs et des tendances de conception de sites Web à des époques spécifiques.

  • 01:00:00 Dans cette section, l'orateur discute de l'utilisation de la conception informatique et de l'esthétique pour prédire l'année d'une conception. Ils expliquent que ce ne sont pas seulement les couleurs que le modèle prend en considération, mais aussi des fonctionnalités de haut niveau telles que la typographie. L'exactitude de la classification n'a pas été mentionnée, mais il a été noté qu'elle était supérieure au hasard. La conception informatique a également été utilisée pour analyser les publicités, créer des logos et des icônes et concevoir des palettes de couleurs de mode.

  • 01:05:00 Dans cette section, le conférencier discute de l'utilisation des modèles génératifs dans la mode, la conception de produits et l'art. Il montre des exemples d'ensembles de données utilisés pour comprendre les éléments de la mode, tels que les couleurs et les étiquettes, et mentionne des collègues qui utilisent des ensembles de données similaires pour recommander la conception de produits. L'orateur parle également de modèles génératifs qui peuvent prendre une esquisse d'entrée et produire une conception de produit ou modifier une image pour ressembler à un article de mode différent. De plus, il aborde des sujets liés à l'art informatique et à la créativité, y compris les outils de transfert de style et de génération de contenu.

  • 01:10:00 Dans cette section de la vidéo, le professeur discute de l'utilisation de l'art informatique et de l'intelligence artificielle dans la génération d'œuvres créatives, y compris le transfert d'image et de style, la génération de contenu et les modèles génératifs pour les vidéos. La discussion comprend plusieurs exemples de travaux récents dans ces domaines, notamment StyleGAN, DALL-E par OpenAI et des modèles génératifs pour la modification de pose vidéo. Malgré ces progrès, la question demeure de savoir si les machines peuvent vraiment être des artistes ou si la créativité et l'art n'appartiennent qu'aux humains.

  • 01:15:00 Dans cette section, l'orateur discute de son enthousiasme dans le sens de l'apprentissage en générant et partage quelques résultats. Ils expliquent que l'apprentissage par génération est intéressant car c'est un moyen d'entraîner l'IA à développer des algorithmes basés sur la façon dont les humains apprennent à résoudre des problèmes. L'orateur aborde également une question sur la quantification de l'esthétique et mentionne qu'une façon de combler le fossé entre les termes de haut niveau dans le langage humain et les termes informatiques est d'utiliser des données et des modèles, en incorporant des concepts culturels et même en demandant aux gens leur avis par le biais du crowdsourcing.

  • 01:20:00 Dans cette section de la vidéo, le conférencier discute de l'importance d'utiliser les données dans l'apprentissage automatique pour éviter les biais et obtenir des résultats intéressants. Il encourage les auditeurs à réfléchir à la manière de concevoir des algorithmes ou des représentations pouvant conduire à des solutions innovantes et créatives. Le conférencier estime que la créativité et l'innovation sont des composantes essentielles de l'intelligence artificielle et cite des exemples de la façon dont elles ont été utilisées dans la conception d'objets et de concepts. Il souligne que l'apprentissage en générant est un moyen efficace de développer des compétences en résolution de problèmes et encourage les auditeurs à décomposer les problèmes plus importants en sous-ensembles plus petits et à les résoudre un par un.

  • 01:25:00 Dans cette section de la vidéo, le conférencier discute du concept de généralisation et de réflexion hors des sentiers battus en matière de créativité et d'IA. L'orateur pose la question de savoir si les modèles génératifs sont ou non capables de généralisation et de pensée hors distribution. Pour explorer ce sujet, le conférencier introduit le concept de dirigeabilité des réseaux antagonistes génératifs (GAN) et démontre la capacité de manipuler des images en trouvant une promenade dans l'espace latent du générateur. Ils montrent que les modèles GAN actuels peuvent présenter des transformations telles que le zoom avant et arrière, le déplacement et la rotation. L'orateur explique le processus de recherche d'un vecteur latent pour manipuler l'image et l'utilise pour montrer le potentiel des modèles génératifs en matière de créativité et d'innovation.

  • 01:30:00 Dans cette section de la vidéo, l'orateur discute des limites des modèles génératifs tels que BigGAN et pourquoi ils les ont. Il explique que des biais peuvent être introduits dans le modèle, qui sont également présents dans la sémantique des classes. Cela signifie qu'un modèle peut généraliser, mais pas aussi bien qu'un humain. L'orateur poursuit en montrant que le modèle peut sortir de la distribution de l'ensemble de données et transformer l'apparence des images dans une certaine mesure, mais seulement si l'ensemble de données sous-jacent est diversifié. L'article suggère qu'une façon de surmonter les limites des données biaisées est de les augmenter, par exemple en zoomant ou en faisant pivoter les images.

  • 01:35:00 Dans cette section de la vidéo, le conférencier discute de l'utilisation de l'espace latent pour générer des images esthétiques grâce à des transformations. Les transformations peuvent être réalisées en marchant ou en dirigeant dans l'espace latent pour changer la couleur de l'image, le zoom, la rotation, les changements de type caméra, etc. Le conférencier discute également de l'utilisation d'un réseau de neurones pour détecter l'esthétique de l'image, fournissant des informations sur la question de savoir si une direction de marche ou une transformation génère des images plus esthétiques. La conférence encourage les étudiants à participer à un prochain débat socratique entre Berkeley et le MIT sur l'esthétique et la conception computationnelles. De plus, le conférencier demande aux étudiants de revoir le code fourni et d'expérimenter les différentes techniques de génération d'images esthétiques.

  • 01:40:00 Dans cette section de la vidéo, l'orateur discute du référentiel de son travail et encourage les téléspectateurs à utiliser PyTorch plutôt que TensorFlow pour exécuter les blocs-notes fournis. Ils expliquent également le système Colab utilisé pour visualiser les résultats du code et soulignent l'importance de générer des images et de rapporter les résultats. L'orateur rappelle également aux téléspectateurs qu'ils peuvent leur envoyer un e-mail pour toute question et les remercie d'avoir participé au cours.
MIT 6.S192 - Lecture 1: Computational Aesthetics, Design, Art | Learning by Generating
MIT 6.S192 - Lecture 1: Computational Aesthetics, Design, Art | Learning by Generating
  • 2021.01.21
  • www.youtube.com
First lecture of MIT 6.S192: Deep Learning for Art, Aesthetics, and Creativity, by Ali Jahanian.In this lecture, I start introducing the course and discuss C...
 

MIT 6.S192 - Conférence 2 : Un débat socratique, Alyosha Efros et Phillip Isola



MIT 6.S192 - Conférence 2 : Un débat socratique, Alyosha Efros et Phillip Isola

Dans cette vidéo, Alyosha Efros et Phillip Isola discutent de l'idée d'utiliser des images pour créer des expériences partagées. Ils soutiennent que cela peut aider à ramener des souvenirs et à créer un sentiment de nostalgie.

Cette vidéo est un débat entre deux professeurs du MIT sur le rôle des données dans l'intelligence artificielle. Efros soutient que les données sont essentielles à l'IA, tandis qu'Isola rétorque que les données peuvent être un obstacle au développement de l'IA.

  • 00:00:00 Dans cette conférence, Alyosha Efros et Phillip Isola discutent de la vision des modèles génératifs en tant que nouveau type de données. Efros soutient que l'ère actuelle des modèles génératifs est comme les données, mais en mieux. Isola décrit le fonctionnement des modèles génératifs et comment ils peuvent être utilisés pour créer un contenu intéressant.

  • 00:05:00 Dans cette conférence, Alyosha Efros et Phillip Isola discutent de la puissance des modèles génératifs. Les modèles génératifs nous permettent de créer des points de données qui sont décorés avec des fonctionnalités supplémentaires, comme une variable latente qui peut être utilisée pour modifier l'image. Cela ouvre de nombreuses possibilités de créativité et de visualisation scientifique.

  • 00:10:00 La vidéo discute de l'idée de manipuler des images à travers l'espace latent. Ils expliquent comment cela peut être fait en recherchant une direction qui correspondra à une transformation significative dans l'espace de l'image. Ils donnent l'exemple de rendre une image plus mémorable en zoomant dessus. Enfin, ils discutent de la façon dont cette technique peut être utilisée
    pour visualiser le concept de ce que cela signifie pour quelque chose d'être mémorable.

  • 00:15:00 Cette vidéo traite du concept de modèles génératifs, qui sont un type de données pouvant être manipulées pour créer de nouvelles images. La vidéo montre la capacité de ces modèles à créer de nouvelles images de manière compositionnelle en ajoutant différentes parties d'images différentes ensemble. La vidéo aborde également les limites des modèles génératifs, tels que leur biais envers certains objets ou leur incapacité à représenter avec précision certaines scènes.

  • 00:20:00 Alyosha Efros et Phillip Isola discutent du concept de données plus plus, qui est une façon de penser aux données qui inclut à la fois les données elles-mêmes et les méthodes utilisées pour les générer. Efros soutient que cette perspective est utile car elle permet une interpolation plus significative entre les points de données. Isola se demande comment on choisit le chemin entre deux points de données, et Efros explique que le modèle choisit le chemin le plus court, qui semble souvent le plus naturel.

  • 00:25:00 Dans cette vidéo, Phillip Isola et Alyosha Efros débattent des mérites de l'algorithme "Dall-E". Efros soutient que l'algorithme est impressionnant car il est capable de comprendre le langage. Isola rétorque que l'algorithme ne comprend pas réellement le langage, mais qu'il comprend plutôt des mots et des grammes.

  • 00:30:00 L'orateur soutient que les GAN ne sont pas vraiment créatifs car ils ne sont formés que sur des données hautement organisées. Il suggère que la cartographie bidirectionnelle est la meilleure solution si vous pouvez vous le permettre.

  • 00:35:00 Dans cette conférence, Alyosha Efros et Phillip Isola débattent des mérites des approches basées sur les données par rapport aux approches basées sur des modèles pour la recherche en intelligence artificielle. Efros soutient que de plus en plus, les modèles deviendront la principale interface avec les données et que les scientifiques des données devront apprendre à travailler avec des modèles plutôt qu'avec des ensembles de données. Isola est d'accord et ajoute que les ensembles de données utilisés pour former ces modèles deviennent de plus en plus volumineux et complexes.

  • 00:40:00 Cette vidéo est une conférence d'Alyosha Efros et Phillip Isola sur le thème du contexte dans l'art. Efros raconte comment une photographie d'une œuvre de Michael Galinsky intitulée Malls Across America l'a profondément impressionné, et comment le contexte dans lequel la photographie est vue peut affecter sa signification. Isola raconte comment une photographie d'une fille regardant la mer peut raviver des souvenirs et des sensations pour ceux qui étaient vivants à l'époque où elle a été prise.

  • 00:45:00 Cette vidéo est une discussion entre deux professeurs sur le concept de nostalgie et comment il peut être utilisé pour apprécier l'art. Ils utilisent l'exemple d'une photo de deux amis devant une porte, qui n'a de sens pour eux deux qu'en raison de leurs souvenirs communs. Ils soutiennent que ce type de nostalgie peut être trouvé sous de nombreuses formes différentes et que cela peut être une expérience agréable pour ceux qui sont capables de se souvenir de souvenirs.

  • 00:50:00 Dans cette vidéo, Alyosha Efros et Phillip Isola discutent de l'idée d'utiliser des images pour évoquer des expériences partagées entre les habitants d'une ville donnée. Ils soutiennent que cela peut aider à ramener des souvenirs et à créer un sentiment de nostalgie.

  • 00:55:00 Le tableau "Olympia" d'Edouard Monet a été un énorme scandale lors de sa sortie en 1865 en raison de sa nudité et de son teint aplati. Certains pensent que le placement des mains dans le tableau était ce qui rendait les gens fous.

  • 01:00:00 Cette conférence porte sur la façon dont l'art peut être interprété de différentes manières, selon le contexte dans lequel il est vu. L'exemple utilisé est le tableau "Vénus couchée" d'Amedeo Modigliani, qui a provoqué l'indignation lors de sa première exposition car il était considéré comme une parodie d'un célèbre tableau d'une femme nue. Cependant, vu dans le contexte d'autres peintures de femmes nues, il peut être considéré comme une œuvre d'art valable.

  • 01:05:00 Dans la vidéo YouTube "MIT 6.S192 - Lecture 2 : A Socratic débat, Alyosha Efros and Phillip Isola", les deux discutent de la signification des peintures du peintre russe Zlotnikov et du peintre américain Hurst. Efros soutient que la direction des peintures est déterminée par les sentiments de liberté et d'encombrement qu'elles évoquent. Isola rétorque que la direction est déterminée par la peinture carrée noire de Malevich, qu'il considère comme la résolution ultime d'une direction particulière.

  • 01:10:00 Phillip Isola et Alyosha Efros débattent de la signification de l'art, en particulier d'une peinture carrée noire de Malevich. Isola soutient que la peinture n'est un signifiant pour rien, tandis qu'Efros soutient qu'il s'agit d'une progression naturelle pour Malevitch.

  • 01:15:00 Le but de cette vidéo est que nous surestimons peut-être la complexité des machines, et que ce qui nous semble magique n'est peut-être que le résultat de processus simples. Le livre de Braiterberg "Vehicles" est utilisé comme exemple de la façon dont des comportements complexes peuvent émerger d'interactions simples.

  • 01:20:00 Dans cette conférence, Efros et Isola débattent de la nature de la créativité et de la nouveauté. Efros soutient que les deux sont le résultat de changements progressifs et que le processus de création est généralement très fluide. Isola rétorque que la nouveauté est souvent le résultat du hasard et de la chance.

  • 01:25:00 Il s'agit d'un débat entre deux personnes sur le rôle du contexte dans l'art et la science. Une personne soutient que le contexte est nécessaire pour que l'art ait un sens, tandis que l'autre soutient que le contexte n'est pas nécessaire et que l'art peut être nouveau sans lui.

  • 01:30:00 Dans cette conférence, Efros et Isola débattent du rôle de la chance dans la réussite scientifique. Efros soutient que la chance joue un rôle important, tandis qu'Isola soutient qu'il existe des moyens de planifier la grandeur.

  • 01:35:00 Dans cette conférence, Alyosha Efros et Phillip Isola débattent du rôle de la chance dans la créativité, Efros affirmant qu'il doit y avoir plus que de la chance. Isola soutient que les données plus plus (la combinaison des données et des opérations) sont la clé de la créativité, et qu'une fois que vous avez les bonnes données, les possibilités sont infinies.

  • 01:40:00 Cette vidéo YouTube est un débat entre Alyosha Efros et Phillip Isola sur les différences entre travailler avec des données et des modèles, et si oui ou non les données deviendront obsolètes. Efros soutient que les données deviennent déjà moins importantes à mesure que les modèles deviennent plus avancés, et que les modèles finiront par surpasser les humains en matière d'intelligence. Isola soutient que les données sont toujours l'étalon-or et que les modèles ne peuvent jamais faire plus que les données sur lesquelles ils sont basés.

  • 01:45:00 Dans ce débat, les professeurs du MIT Alyosha Efros et Phillip Isola discutent de la relation entre l'art et l'IA. Efros soutient que le calcul est la meilleure façon de penser à la relation et qu'il existe un lien étroit entre l'art et l'évolution. Isola convient qu'il existe un lien entre les deux, mais soutient que les modèles actuels ne sont pas capables d'extrapoler de nouvelles informations à partir des données, et que c'est la clé d'une IA vraiment créative.

  • 01:50:00 C'était génial de discuter avec Phillip et Alyosha d'art et de calcul. Ils pensent tous les deux que l'art est à l'avant-garde d'un nouveau paradigme de pensée et que le calcul peut être utilisé pour aider à explorer de nouvelles idées.

  • 01:55:00 Dans cette conférence, Alyosha Efros et Phillip Isola s'engagent dans un débat socratique sur le rôle des données dans l'intelligence artificielle. Efros soutient que les données sont essentielles à l'IA, tandis qu'Isola rétorque que les données peuvent être un obstacle au développement de l'IA.
MIT 6.S192 - Lecture 2: A Socratic debate, Alyosha Efros and Phillip Isola
MIT 6.S192 - Lecture 2: A Socratic debate, Alyosha Efros and Phillip Isola
  • 2021.01.21
  • www.youtube.com
First, Phillip Isola: "Generative Models as Data++" Then, Alyosha Efros: "Nostalgia to Art to Creativity to Evolution as Data + Direction" 39:14The debase go...