Apprentissage Automatique et Réseaux Neuronaux - page 25

 

MIT 6.S192 - Conférence 15 : "Creative-Networks" par Joel Simon



MIT 6.S192 - Conférence 15 : "Creative-Networks" par Joel Simon

Dans cette conférence, Joel Simon explore ses inspirations et ses approches envers les réseaux créatifs qui puisent dans les écosystèmes naturels. Il démontre le potentiel des capacités de calcul dans le processus de création, décrivant comment des techniques telles que l'optimisation de la topologie, les morphogènes et les algorithmes évolutifs peuvent permettre l'émergence de formes et de textures incroyables. Simon partage également des détails sur son projet GANBreeder, un outil en ligne pour découvrir et faire muter des images à l'aide d'un CPPN et d'un GAN, et discute du potentiel des systèmes de recommandation croisée dans le processus de création. Simon est optimiste quant à l'avenir de la technologie et de la créativité, convaincu que les humains peuvent collaborer et optimiser les fonctions des bâtiments et créer quelque chose de plus grand.

  • 00:00:00 Dans cette section, Joel Simon explique son parcours et ses inspirations pour son travail de réseau créatif. Il met en lumière la critique de Brian Eno sur la notion de génies solitaires et décrit comment la créativité peut être quantifiée comme un produit émergent de diverses forces travaillant ensemble. Simon parle également de son parcours vers la sculpture, qui l'a amené à apprendre et à explorer des moyens informatiques de créer, en soulignant la différence entre être numérique et être informatique.

  • 00:05:00 Dans cette section, Joel Simon décrit son inspiration pour son travail dans la conception informatique et l'optimisation de la topologie, qu'il a découvert pendant ses années universitaires. Fasciné par la capacité de l'optimisation de la topologie à produire de nouvelles formes qui n'auraient jamais pu être créées dans un sens traditionnel, Simon a cherché à explorer davantage son potentiel. Cependant, il a réalisé qu'il devait aller au-delà des simples techniques d'optimisation et incorporer des éléments de nature réelle, tels que l'adaptabilité et l'environnement, qui pourraient permettre à un bâtiment de se développer comme un arbre, ce qui l'a amené à mener des expériences sur l'architecture générative. Son travail n'était pas seulement fondé sur la conception architecturale, mais utilisait également des méthodes de simulation de graphes et des créatures virtuelles évoluées comme source d'inspiration pour une complexité et une innovation accrues dans la conception informatique.

  • 00:10:00 Dans cette section, l'orateur discute de l'utilisation des informations sur les modèles et des morphogènes dans le processus de croissance, en particulier en ce qui concerne la diffusion de la réaction. Il explique que ces motifs peuvent être utilisés dans l'art pour produire de la texture et discute des CPPN de Jeff, qui sont utilisés pour cartographier un réseau simple de la position à la couleur et le convertir en une image. Pour approfondir ces idées de croissance, l'orateur a créé le projet "Evolving Alien Corals", qui utilise des morphogènes sur les sommets d'un maillage 3D pour contrôler la direction dans laquelle les sommets se déplacent et émettent. Cela a permis des effets cumulés qui ont donné lieu à des formes incroyables. Les couleurs des coraux sont les morphogènes optimisés et ne génèrent pas seulement de jolis motifs. Ce projet montre également l'idée de pouvoir sculpter avec des forces ou des objectifs pour conduire des formes, où la forme suit la fonction de fitness. L'orateur aborde également brièvement la notion d'écosystèmes et l'hypothèse de perturbation intermédiaire, où la diversité optimale est atteinte avec une quantité de perturbation au milieu.

  • 00:15:00 Dans cette section, Joel Simon discute de sa fascination pour les réseaux créatifs qui puisent dans les écosystèmes naturels et explore comment ces paysages sont propices à la sculpture et à la manipulation de motifs. Il pose la question de savoir à quoi ressemblerait un effondrement écologique ou comment des perturbations telles que des espèces envahissantes ou la fusion de différentes îles affecteraient l'écosystème. Simon s'est inspiré du cunéiforme et de l'idée de la calligraphie comme solution à un problème à objectifs multiples. Pour expérimenter différentes méthodes, Simon a créé une architecture neuronale personnalisée qui a généré une reconnaissance de formes pour la communication via un support bruyant, chaque forme étant reconnaissable et mutuellement distinctive, ce qui a entraîné l'émergence de différentes langues. Plus tard, il a modifié ce système pour qu'il soit à la fois coopératif et contradictoire, produisant des ensembles de calligraphie uniques qui se ressemblent mais restent fonctionnels d'une manière différente.

  • 00:20:00 Dans cette section, Joel Simon discute de certains de ses projets d'art génératif inspirés de diverses sources telles que les autoportraits de Matisse et le jeu de la vie de Conways. Il a créé des portraits à l'aide d'algorithmes génétiques et a exploré le concept d'une architecture générative pour la vie artificielle. Simon explique également comment il a été inspiré par le projet d'éleveur de choix, qui impliquait l'utilisation d'un réseau de neurones pour générer des images de créatures qui sont ensuite sélectionnées de manière sélective pour créer de nouveaux designs intéressants.

  • 00:25:00 Dans cette section, l'orateur parle de son inspiration pour créer GANBreder, un outil en ligne pour découvrir et faire muter des images à l'aide d'un CPPN et d'un GAN. Il a été inspiré par l'idée que la grandeur ne peut pas être planifiée et intrigué par le sens inné de l'intérêt pour les humains qui pourrait aider à augmenter les algorithmes utilisés dans cet outil. Il approfondit les GAN et reconnaît que les vecteurs latents des GAN ont la propriété nécessaire pour être utilisés pour le croisement, ce qui permet aux images d'enfants de ressembler aux deux parents. L'orateur parle des différents types de créativité et déclare que son outil était une chose combinatoire où il a combiné BigGAN avec Picbreeder pour créer GANBreder. Il discute également des trois manières dont GANBreeder permet aux utilisateurs de créer des images, à savoir, obtenir des enfants au hasard, mélanger deux images ensemble et éditer les gènes d'une image.

  • 00:30:00 Dans cette section de la conférence, Joel Simon discute du processus créatif en termes de phases exploratoires qui vont de l'ouvert à l'intentionnel avec un gradient entre les deux. Des parallèles biologiques sont mentionnés, tels que la reproduction asexuée, la reproduction sexuée et le crispr, comme différentes façons de créer et de fabriquer des images. Simon donne ensuite un exemple d'une image qu'il a créée, ainsi que les gènes qui la composent, soulignant l'importance de l'exploration interactive et collaborative, car les humains ne peuvent pas penser en 128 dimensions. Simon conclut avec l'idée qu'ArtBreeder peut être utilisé comme un outil pour trouver des idées et de l'inspiration, et mentionne une fonctionnalité récente qui permet aux utilisateurs de créer leurs propres gènes, pertinents pour ceux qui s'intéressent à l'apprentissage automatique.

  • 00:35:00 Dans cette section, Simon décrit comment son projet, Ganbreeder, tire parti de l'écosystème crowdsource de marquage d'images. En collectant des échantillons d'une propriété subtile dans les images, les utilisateurs peuvent la transformer en un outil ou un filtre permettant de créer des gènes plus puissants. Le projet a commencé comme une simple grille d'images avec une invite dont l'image est la plus intéressante. Cependant, les utilisateurs ont utilisé Ganbreeder de manière inattendue, par exemple en téléchargeant des photos pour coloriser des personnages historiques, en confectionnant des robes ou même en peignant sur des personnages. Simon souligne que l'expérience était en fait l'interface, pas le gan, car les deux devaient vraiment aller de pair pour que cela fonctionne.

  • 00:40:00 Dans cette section de la vidéo, Joel Simon discute de la puissance potentielle de la création d'un outil de système de recommandation croisée qui utilise des dimensions latentes de variation non utilisées actuellement dans les moteurs de recommandation existants. Il utilise l'exemple de ne pas pouvoir déterminer si les paroles sont présentes ou non dans les chansons lorsqu'il travaille, suggérant que si les moteurs de recommandation pouvaient aider les utilisateurs comme lui à créer un outil qui prend en compte ces dimensions de variation, ils pourraient faire des recommandations beaucoup plus fortes. . Simon explore également l'idée de propriété et de collaboration dans les outils créatifs, décrivant une exposition d'art interactive qu'il a organisée où personne ne « possédait » l'art parce qu'il avait été créé en collaboration par de nombreuses personnes.

  • 00:45:00 Dans cette section, Joel Simon discute des limites de la pensée humaine en contraste avec le potentiel des capacités de calcul dans le processus créatif. Les humains ont certains préjugés dans notre façon de penser, y compris penser en hiérarchies claires, avoir des routines et ne pas penser en chevauchements complexes. Simon explique comment faciliter la collaboration, l'exploration, permettre de nouveaux médiums et métaphores peut conduire à de nouveaux processus créatifs. Les dialogues entre un directeur de création et un artiste sont essentiels dans ce processus, le réalisateur guidant la créativité de l'artiste. Simon est optimiste quant à l'avenir du calcul et de la créativité et pense que l'utilisation de l'outil sera axée sur la personne pour créer de nouvelles œuvres d'art que nous partageons avec d'autres personnes plutôt que de remplacer les artistes et les créatifs.

  • 00:50:00 Dans cette section, Joel Simon discute de la créativité et de l'idée fausse selon laquelle les avancées technologiques remplaceront les artistes. Il croit que de tels progrès ne font que rendre l'expression créative plus accessible à tous et déclare que la créativité est un besoin humain inné et une fin en soi. Simon termine en proposant un concept de conception morphogénique qui adapte le processus naturel de reproduction et utilise le biomimétisme pour créer des processus collaboratifs de conception au-delà des capacités cognitives humaines. Il souligne que les humains font partie d'un tissu conjonctif créatif plus large et que l'inspiration pour les projets provient de ce système plus large.

  • 00:55:00 Dans cette section, Joel Simon parle de sa vision optimiste de l'avenir de la technologie dans la construction d'un écosystème de bâtiments mutuellement harmonieux en tant qu'écosystème complexe. Il croit qu'avec de nouvelles métaphores et techniques, les gens peuvent collaborer et optimiser les fonctions de ces bâtiments d'une manière qui dépasse l'entendement. Alors que la technologie a ses avantages et ses inconvénients, la vision positive de Simon sur le dialogue entre les machines et les humains donne un aperçu d'un avenir où la technologie peut rassembler les gens pour créer quelque chose de plus grand.
 

MIT 6.S192 - Conférence 16 : "La perception visuelle humaine de l'art en tant que calcul" Aaron Hertzmann



MIT 6.S192 - Lec. 16: "La perception visuelle humaine de l'art en tant que calcul" Aaron Hertzmann

La conférence explore l'ambiguïté et l'indétermination perceptives dans l'art et l'utilisation de réseaux antagonistes génératifs (GAN) dans la création d'images ambiguës. Il traite de l'impact de la durée de visionnage sur la perception et de la relation entre l'entropie de l'image et les préférences humaines. Le conférencier propose une théorie évolutive de l'art, où l'art est créé par des agents capables de relations sociales. L'utilisation de l'IA dans l'art est également discutée, avec la conclusion que si les algorithmes peuvent être des outils utiles, ils ne peuvent pas remplacer les artistes humains. La conférence se termine par quelques remarques sur des concepts tels que la valeur.

  • 00:00:00 Dans cette section, l'orateur aborde l'ambiguïté perceptive et l'indétermination, thèmes importants de l'art moderne. Il explique que les images avec diverses interprétations peuvent modifier la durée de visionnage et peuvent basculer entre différentes perceptions, affectant les choix que font les individus. L'indétermination visuelle est un terme utilisé pour décrire des images qui semblent donner une interprétation cohérente simple mais ne parviennent pas à se résoudre dans une forme cohérente, et ce thème est devenu populaire à l'ère moderne, en particulier avec le cubisme. La littérature en psychologie a discuté et étudié l'ambiguïté perceptive et les moyens de décrire cet espace d'ambiguïté, mais il a été difficile de trouver des stimuli comparables et de mesurer l'ambiguïté jusqu'à l'émergence d'adversaires génératifs ces dernières années.

  • 00:05:00 Dans cette section, l'orateur discute de l'utilisation des GAN dans la création artistique et de l'ambiguïté visuelle naturelle que ces types d'images peuvent présenter. L'équipe a utilisé ces images dans une étude où les participants ont vu une image pendant une courte période et ont été invités à la décrire. Les résultats ont démontré que les images avec des niveaux plus élevés d'incertitude et d'ambiguïté perceptuelles entraînaient un plus grand éventail de descriptions de la part des participants. De plus, la durée de la période de visionnage a eu un impact sur le nombre et la variété des mots utilisés pour décrire une image, les participants convergeant vers des interprétations plus cohérentes avec une exposition plus longue.

  • 00:10:00 Dans cette section, le conférencier discute de la relation entre l'entropie de l'image et les préférences humaines pour les images ambiguës. L'équipe a découvert qu'il existe deux catégories d'utilisateurs, l'un préférant les images à faible entropie et l'autre préférant celles à haute entropie. Cependant, le regroupement des utilisateurs dans ces catégories n'a réussi qu'à prédire les préférences pour certains types d'images et nécessite un traitement du langage plus naturel pour extraire les bonnes informations. Ensuite, la définition de l'art et si les ordinateurs peuvent créer de l'art sont explorés. La définition actuelle de l'art s'avère inadéquate car elle ne généralise pas pour considérer de nouvelles formes d'art, comme celles qui peuvent être créées par des extraterrestres. Au lieu de cela, l'orateur suggère une théorie évolutionniste de l'art, selon laquelle l'art est créé par des agents capables de relations sociales et, en tant que tels, d'activité sociale. Cela conduit à la conclusion que les ordinateurs peuvent être des artistes, mais ce dialogue est erroné car il peut donner une mauvaise compréhension aux non-experts.

  • 00:15:00 Dans cette section, l'orateur discute de l'utilisation d'idées issues du calcul pour comprendre la perception humaine de l'art et la façon dont l'art est créé. Il soutient que les ordinateurs ne peuvent pas être des artistes tant qu'ils ne possèdent pas une personnalité ou une relation sociale. Cependant, les ordinateurs sont des outils puissants pour la créativité artistique et fournissent de nouveaux outils pour la création artistique. L'orateur réfute également l'idée que l'art de l'IA perdra de sa valeur à mesure qu'il deviendra plus accessible, soulignant que les meilleurs artistes de l'IA expérimentent le codage et sélectionnent soigneusement les résultats.

  • 00:20:00 Dans cette section, Hertzmann discute de l'utilisation de l'intelligence artificielle (IA) dans l'art et se demande si les machines qui peuvent générer de l'art basé sur les préférences humaines peuvent être considérées comme des artistes. Il soutient que les algorithmes d'IA actuels ne font que suivre des instructions et ne possèdent pas la créativité d'un artiste humain. Cependant, il est enthousiasmé par le potentiel des algorithmes pour modéliser le processus et les préférences artistiques, leur permettant d'être des outils utiles dans la création et la conservation de l'art. En fin de compte, Hertzmann ne croit pas que les algorithmes puissent remplacer les artistes humains, car l'art est un produit de la culture et du temps.

  • 00:25:00 Dans cette section, quelques remarques conclusives sont faites après une discussion sur des concepts tels que la valeur. Aucune information significative n'est fournie sur ces concepts ou sur de nouveaux sujets de discussion. Le conférencier est remercié pour son discours éclairant et inspirant.
 

MIT 6.S192 - Conférence 17 : "L'IA au service du design graphique" par Zoya Bylinskii



MIT 6.S192 - Conférence 17 : "L'IA au service du design graphique" par Zoya Bylinskii

Zoya Bylinskii, chercheur scientifique chez Adobe, explore l'intersection de la conception graphique et de l'intelligence artificielle (IA) dans cette conférence. Bylinskii souligne que l'IA est destinée à aider plutôt qu'à remplacer les concepteurs en automatisant les tâches fastidieuses et en générant des variations de conception. Bylinskii donne des exemples d'outils assistés par l'IA, notamment des outils de conception interactifs et des idées d'icônes générées par l'IA. Bylinskii discute également des défis et du potentiel de l'application de l'IA à la conception graphique, y compris la nécessité d'une pensée créative, d'une conservation et d'une collaboration avec des professionnels de différents domaines. Elle conseille les candidats intéressés par l'IA et l'apprentissage automatique pour la conception graphique afin de mettre en valeur leur expérience de projet et de poursuivre des opportunités de recherche.

  • 00:00:00 Dans cette rubrique, Zoya Bylinskii, chercheuse chez Adobe, explique comment l'IA peut être mise au service du design graphique. Bylinskii parle de l'intersection de la conception graphique et de l'IA et de la façon dont diverses formes stylistiques de conceptions graphiques peuvent être déconstruites en modules informatiques qui peuvent être appris et automatisés. Elle souligne que l'IA n'est pas destinée à remplacer les concepteurs, mais plutôt à permettre aux concepteurs d'automatiser les tâches fastidieuses et d'explorer rapidement pour générer automatiquement des variantes de conception tout en gardant le concepteur au centre du processus de conception et de la conservation. Bylinskii donne deux exemples de ces objectifs : redimensionner et mettre en page une conception pour différents facteurs de forme et rapports d'aspect, et parcourir de nombreuses représentations visuelles possibles lors de la création d'une icône, d'un logo ou d'un élément de conception similaire.

  • 00:05:00 Dans cette section, Zoya Bylinskii explique comment l'automatisation de la conception peut augmenter la vitesse du processus de conception en minimisant l'ennui et en facilitant un processus d'itération plus efficace. Bylinskii poursuit en expliquant comment l'apprentissage automatique peut prédire l'importance visuelle dans la conception, créant des conseils plus efficaces pour les graphistes en apprenant ce qui est visuellement frappant et accrocheur dans différentes conceptions. En utilisant un outil d'annotation, Bylinskii et ses collègues ont organisé un ensemble de données d'un millier de paires d'annotations d'images pour former leur modèle sur ce concept d'importance, qui a utilisé des modules de classification pour prédire les régions les plus saillantes d'une conception au moment du test, guidant les concepteurs sur où placer d'autres éléments de conception.

  • 00:10:00 Dans cette section, Zoya Bylinskii discute de deux applications pour utiliser l'intelligence artificielle (IA) dans la conception graphique. La première application implique un outil de conception interactif qui utilise un petit réseau de neurones pour recalculer en continu l'importance prédite de divers éléments de conception en temps réel. L'outil comporte également un histogramme et permet aux utilisateurs d'ajuster le niveau d'importance de chaque élément pour manipuler la conception. La deuxième application implique l'idéation de génération d'icônes, où l'IA est utilisée pour créer de nouvelles icônes qui correspondent à des concepts visuels courants. Bylinskii explique que ces deux applications offrent de nouvelles orientations prometteuses pour l'utilisation des modèles d'importance dans les outils de conception graphique assistée par l'IA.

  • 00:15:00 Dans cette section, le conférencier explique le défi auquel sont confrontés les designers lorsqu'ils essaient de créer une nouvelle iconographie pour un concept qui n'a pas d'icônes existantes, comme la livraison de sushis. Ce processus nécessite un travail manuel, la recherche de concepts connexes pour l'inspiration, ainsi que la recombinaison et l'édition d'icônes existantes. Pour simplifier ce processus, l'orateur présente un nouveau pipeline piloté par l'IA pour la génération d'icônes composées. Ce système combine l'espace, le style et la sémantique pour générer des icônes composées qui sont stylistiquement compatibles et sémantiquement pertinentes pour le concept interrogé. Le pipeline piloté par l'IA consiste à décomposer la requête en mots associés, à trouver des icônes stylistiquement compatibles et à les combiner pour transmettre le message souhaité.

  • 00:20:00 Dans cette section, Bylinskii discute d'un projet appelé Iconate, qui utilise l'IA pour suggérer des combinaisons d'icônes et des mises en page compatibles pour créer de nouveaux designs. Le système apprend un espace d'intégration pour suggérer des icônes stylistiquement compatibles et une approche basée sur des modèles pour définir la disposition des icônes constituantes. Iconate a été formé à l'aide de l'ensemble de données CompyCon1k de 1 000 icônes composées avec des composants individuels annotés. Bylinskii explique que le système permet aux utilisateurs de créer des icônes composées beaucoup plus rapidement qu'avec des outils de conception autonomes, et qu'il pourrait être utilisé pour générer rapidement des icônes pour n'importe quel concept auquel un utilisateur peut penser. Elle met également en évidence d'autres outils de conception basés sur l'IA, tels que les systèmes de synthèse de logo et d'affinement de la mise en page, qui visent à faciliter le processus de conception plutôt qu'à remplacer la créativité humaine.

  • 00:25:00 Dans cette section, l'orateur discute de l'utilisation de l'IA dans la création d'infographies, y compris du texte, des statistiques et de petites visualisations. Elle note également que ce travail est réparti dans différentes communautés et conférences, et fournit des exemples de vision par ordinateur, tels que la génération de conceptions d'interface graphique à l'aide de GAN. Elle note qu'il existe de nombreuses ressources disponibles, y compris des ensembles de données pour la conception graphique informatique et la créativité, et mentionne brièvement l'ensemble de données sur les médias artistiques Behance et l'ensemble de données sur la compréhension automatique des publicités image et vidéo.

  • 00:30:00 Dans cette section, l'orateur discute des modèles et outils disponibles pour automatiser les composants dans le flux de travail de conception, notant que de nombreux outils automatiques ne sont pas très créatifs, mais qu'il reste encore beaucoup de potentiel de découverte future dans le espace de flux de travail automatisés mais hautement créatifs. Elle encourage les étudiants à explorer eux-mêmes cet espace et à générer des réflexions interdisciplinaires, qui peuvent conduire à des applications passionnantes à l'interface du calcul et de la conception. La discussion aborde également les limites des modèles texte-visuel actuels en conception graphique et le potentiel de nouveaux modèles pouvant générer des graphiques vectoriels.

  • 00:35:00 Dans cette section, le conférencier discute d'un projet dont le but était de produire une légende à partir d'une infographie donnée afin de rechercher des infographies sur le Web et de les annoter pour les malvoyants. Cependant, ils ont rencontré un problème car ils ne pouvaient pas utiliser les détecteurs d'objets existants pour extraire les visuels et les icônes des infographies. Cela a conduit au développement d'un moyen d'entraîner un détecteur d'icônes à l'aide de données synthétiques, ce qui a finalement permis la détection d'icônes. Les étudiants ont ensuite exploré la possibilité d'apprendre des incorporations conjointes entre les icônes et le texte à proximité, ce qui pourrait être utilisé pour comprendre comment les concepts abstraits étaient visualisés dans des conceptions graphiques complexes. L'orateur souligne que l'IA n'est pas destinée à remplacer les designers mais à les aider, et que la curation restera un aspect important du travail.

  • 00:40:00 Dans cette section, l'orateur discute du rôle des designers dans le domaine de la conception graphique générée par l'IA. Bien qu'il soit possible de former des modèles pour générer des conceptions, il est difficile de les former pour créer des conceptions entièrement nouvelles. Par conséquent, les concepteurs peuvent introduire de nouveaux actifs et composants qui vont au-delà du collecteur actuel, qui peuvent ensuite être utilisés pour manipuler et générer automatiquement de nouvelles conceptions. L'orateur insiste également sur le besoin de curation, car les concepteurs peuvent aider à identifier les paires de déchets et de non-déchets pour améliorer le processus de formation. En outre, l'orateur note que l'adaptation des conceptions aux différentes cultures reste un défi en raison du manque de données suffisantes. Enfin, l'orateur explique le rôle des chercheurs dans des entreprises comme Adobe, qui visent à présenter de grandes idées de recherche pouvant être intégrées aux équipes de produits existantes pour un développement ultérieur.

  • 00:45:00 Dans cette section, Zoya Bylinskii discute des défis de l'application de l'IA dans la conception graphique pour créer des produits pratiques. Elle souligne la nécessité de conceptualiser les problèmes de manière à les rendre portables à différents produits technologiques, de présenter des idées de recherche aux entreprises et de travailler aux côtés de professionnels de différents domaines d'expertise. Bylisnkii conseille aux étudiants et aux stagiaires de développer un ensemble d'outils informatiques solides pour améliorer leurs chances de décrocher un poste de stagiaire en ingénierie, en recherche ou en produit.

  • 00:50:00 Dans cette section, l'orateur se concentre sur les compétences qu'il recherche chez un candidat intéressé par l'IA et l'apprentissage automatique pour la conception graphique. Ils insistent sur la nécessité de maîtriser les outils logiciels et l'apprentissage automatique. Ils recommandent de présenter l'expérience non seulement sous forme de cours, mais sous forme de projet avec des exemples sur Github. Ils suggèrent que les candidats doivent faire preuve de créativité et d'innovation, en allant au-delà des modèles et des bibliothèques existants pour conceptualiser de nouvelles idées et les appliquer de nouvelles façons. Les candidats doivent poursuivre une expérience de recherche ou des postes techniques dans un laboratoire universitaire. Ils recommandent d'approcher des professeurs et de proposer de travailler pendant une période déterminée sur certaines problématiques. Enfin, ils soulignent l'importance des références d'autres chercheurs, attestant de la créativité, de la force technique et de l'aptitude à la recherche du candidat.
 

MIT 6.S192 - Conférence 19 : Création de contenu 3D facile avec des champs neuronaux cohérents, Ajay Jain



MIT 6.S192 - Conférence 19 : Création de contenu 3D facile avec des champs neuronaux cohérents, Ajay Jain

Dans cette conférence, Ajay Jain présente son travail sur les représentations de scènes neurales, en se concentrant spécifiquement sur le modèle Neural Radiance Fields qui utilise des vues d'entrée peu échantillonnées pour construire une représentation de la géométrie et de la couleur 3D d'une scène. Jain discute des défis liés à l'adaptation d'un champ de rayonnement neuronal à une seule scène, ainsi que des moyens d'améliorer l'efficacité des données du processus de formation en ajoutant une perte photométrique et une perte de cohérence sémantique. Il parle également de l'utilisation de CLIP pour supprimer des artefacts dans NeRF et générer des objets 3D à partir de légendes dans le projet Dream Fields. D'autres sujets incluent la création d'objets de premier plan cohérents dans les scènes, l'acquisition de jeux de données d'objets 3D sous-titrés, la réduction des coûts de rendu et l'optimisation des performances du système.

  • 00:00:00 Dans cette section de la vidéo, Ajay Jain parle de son parcours et de ses intérêts de recherche dans les modèles génératifs et les outils d'IA. Il aborde également les différents types de représentations de scènes, en se concentrant sur les approches volumétriques qui sont plus faciles à former et à utiliser dans un contexte d'apprentissage par rapport aux représentations maillées couramment utilisées dans les applications graphiques. Jain souligne également l'intérêt récent pour les représentations de scènes neurales.

  • 00:05:00 Dans cette section, l'orateur discute du concept de représentations de scènes neurales, en se concentrant spécifiquement sur un modèle appelé Neural Radiance Fields. Ce modèle résout le problème de la synthèse de vues, où des vues d'entrée peu échantillonnées d'une scène sont utilisées pour construire une représentation de la géométrie et de la couleur 3D de la scène, permettant un rendu à partir de nouvelles perspectives. Le champ de rayonnement neuronal est estimé à partir de ces images et permet une interpolation fluide des vues peu échantillonnées. Le modèle est également capable de modéliser des effets dépendant de la vue tels que des spécularités sur des surfaces brillantes. Le réseau neuronal est représenté sous la forme d'un mappage de fonctions à partir des coordonnées de l'espace 3D et de la direction de visualisation et prédit la couleur et la densité pour chaque coordonnée. Le rendu est effectué par lancer de rayons et rendu de volume.

  • 00:10:00 Dans cette section, l'orateur discute du processus de rendu des couleurs en fonction de la représentation de la scène neuronale afin d'optimiser les poids du réseau neuronal pour obtenir les couleurs souhaitées. Ils expliquent que le MLP qui encode la scène permet un rendu différentiable des points de vue, ce qui facilite l'optimisation. Ce processus est appelé graphiques inverses et implique de passer de l'espace 2D à l'optimisation de la représentation 3D sous-jacente qui reconstruira ces vues. Le conférencier explique également comment les coordonnées d'entrée sont introduites dans le réseau neuronal à l'aide d'une approche de codage positionnel sinusoïdal qui projette l'entrée en 5 dimensions dans un espace de dimension supérieure.

  • 00:15:00 Dans cette section, la vidéo traite des défis liés à l'adaptation d'un champ de rayonnement neuronal à une seule scène, car il nécessite généralement une grande quantité de données pour s'entraîner. La vidéo présente une scène synthétique qui a nécessité une centaine d'images pour s'adapter au terrain, tandis que certaines scènes extérieures ont nécessité moins d'images. La vidéo discute ensuite d'un moyen d'améliorer l'efficacité des données du processus de formation en ajoutant une perte supplémentaire à la formation Neural Radiance Field, appelée perte photométrique, à des positions non observées. Cela permet le rendu de nouvelles vues avant même que la scène ait convergé.

  • 00:20:00 Dans cette section, l'orateur aborde le concept de perte de cohérence sémantique, qui permet la régularisation des scènes de n'importe quelle perspective pendant la formation. À l'aide d'un encodeur visuel, chaque vue d'entrée est représentée dans l'espace des caractéristiques, ce qui permet l'encodage de l'identité de l'objet et d'autres caractéristiques cohérentes d'un point de vue à l'autre. Le choix de la fonctionnalité est crucial, car il doit coder l'identité et les propriétés de l'objet au lieu de détails de bas niveau comme les couleurs des pixels. L'orateur propose d'utiliser le réseau CLIP car il a appris à faire correspondre les images à leurs légendes associées, ce qui lui permet d'encoder des classes d'objets, des poses d'objets et des détails sur l'ensemble de la scène. L'orateur montre que la similarité cosinusoïdale des incorporations de l'encodeur d'image de CLIP dans une scène particulière à partir de différentes poses de caméra est très similaire, mais très différente dans l'espace des pixels.

  • 00:25:00 Dans cette section de la vidéo, l'orateur parle de ses expériences sur l'utilisation de CLIP pour supprimer les artefacts dans NeRF en maximisant la similarité de l'espace des fonctionnalités, puis discute de l'utilisation de CLIP pour générer des objets 3D à partir d'une simple légende dans leur deuxième travail, Champs de rêve. Ils optimisent une représentation de scène partagée pour ressembler à un régime NeRF avec des régularisateurs supplémentaires, puis restituent de nouvelles vues pour chaque perspective. Ils utilisent l'encodeur de texte de CLIP pour maximiser la similarité dans l'espace des caractéristiques entre la scène et la légende au lieu d'optimiser la similarité des caractéristiques dans l'espace des caractéristiques de l'image. Ils notent que le sous-titrage automatique avec CLIP est difficile en raison de la difficulté du processus de recherche et d'optimisation.

  • 00:30:00 Dans cette section, Ajay Jain discute du processus de création d'objets de premier plan cohérents dans des scènes 3D à l'aide de Dream Fields. En échantillonnant de manière aléatoire les poses dans la scène et en rendant les images, ils essaient de s'assurer que les caractéristiques sémantiques correspondent aux caractéristiques des sous-titres. Cependant, l'application naïve de cette approche sans régularisation peut conduire à des scènes dégénérées. Par conséquent, ils régularisent la scène en combinant des arrière-plans échantillonnés de manière aléatoire et des objets de premier plan hautement transparents pour encourager la rareté de la scène. Grâce à cette régularisation, ils sont capables de créer des objets de premier plan plus cohérents dans la scène. De plus, ils expérimentent différents modèles de légendes pour mesurer la généralisation compositionnelle du modèle.

  • 00:35:00 Dans cette section, l'orateur discute des défis liés à l'acquisition d'ensembles de données d'objets 3D sous-titrés et de la manière dont ils ont résolu ce problème en utilisant CLIP, un encodeur d'images et de texte 2D pré-formé. Le projet Dream Fields transforme cette représentation 2D en 3D grâce à une représentation partagée de la géométrie. Le conférencier évoque également les techniques utilisées pour améliorer la qualité des objets 3D générés et le coût du processus d'optimisation. L'objectif du projet est de faciliter la création de contenu 3D et de générer des actifs utiles pour les applications en aval, et le code est disponible pour quiconque souhaite l'essayer.

  • 00:40:00 Dans cette section, Ajay Jain explique que la structure 3D des objets n'émerge qu'en raison de la représentation partagée, ce qui satisfait CLIP à tous points de vue. Il n'y a pas d'a priori sur la structure 3D apprise à partir des données, il manque donc une certaine cohérence sur les données 3D, et c'est une opportunité pour des travaux futurs. Jain mentionne également que lorsque la géométrie sous-jacente n'est pas visible, la cohérence n'est pas préservée, ce qui conduit à des structures répétées. Le réseau neuronal généré à partir du mappage de fonctions à partir des coordonnées doit être post-traité, ce qui implique la conversion de la sortie du champ neuronal en un fichier ou un maillage .fbx, certains algorithmes permettant cette conversion.

  • 00:45:00 Dans cette section, l'orateur discute des stratégies pour réduire les coûts de rendu dans les représentations volumétriques du champ de rayonnement neuronal, y compris le rendu des images à basse résolution et l'utilisation d'un seul GPU à faible mémoire pour accélérer considérablement le processus. Ils expliquent également comment les objets transparents peuvent être manipulés dans ce type de représentation et mentionnent les étapes futures pour rendre cette approche plus pratique pour les artistes 3D, comme la synthèse d'objets déformables et l'intégration de la rétroaction humaine lors de la formation. Enfin, ils partagent un bloc-notes Colab pour mettre en œuvre le système et ajuster les paramètres de qualité pour différentes invites.

  • 00:50:00 Dans cette section, l'orateur discute des courbes d'apprentissage et du processus d'optimisation impliqués dans la création de contenu 3D à l'aide de champs neuronaux cohérents. Ils expliquent différents facteurs qui ont un impact sur le processus d'optimisation, tels que la transparence des pixels dans la scène et le nombre d'augmentations de données par itération. Ils suggèrent également de modifier les paramètres de configuration pour réduire l'utilisation de la mémoire, ce qui inclut la réduction du nombre d'échantillons et l'utilisation du CLIP b32 au lieu du CLIP b16 par défaut. Enfin, ils mentionnent la possibilité de paralléliser plusieurs GPU pour optimiser les performances.
 

MIT 6.S192 - Conférence 21 : Entre l'art, l'esprit et les machines, Sarah Schwettmann



MIT 6.S192 - Conférence 21 : Entre l'art, l'esprit et les machines, Sarah Schwettmann

Dans cette conférence, Sarah Schwettmann discute de l'intersection entre l'art, l'esprit et les machines. Elle plonge dans la perception visuelle et le défi de découvrir un monde 3D riche à travers une toile 2D, ce qui nécessite que le cerveau résolve un problème inverse et construise une meilleure explication des informations entrantes. Schwettmann parle également de projets impliquant des modèles génératifs profonds formés sur des œuvres d'art, tels que l'utilisation de l'inversion GAN pour intégrer des images de collection Met dans l'espace de fonctionnalités d'un modèle de base pour comprendre la structure de la créativité humaine, et la création d'un vocabulaire de concept visuel pour un arbitraire Espace latent GAN en échantillonnant l'espace des transformations saillantes ou possibles et en utilisant ces exemples de directions comme écran pour projeter les jugements perceptuels humains. L'interaction humaine et l'étiquetage sont importants dans ce processus, et le vocabulaire qui en résulte peut être appliqué à d'autres modèles et utilisé pour manipuler des images de diverses manières. Malgré le bruit dans les données dû au choix variable des mots, leur méthode de distillation de vocabulaires utilisant n'importe quelle taille de bibliothèque d'annotations peut être mise à l'échelle et peut impliquer la formation d'un sous-titreur pour étiqueter automatiquement les directions.

Sarah Schwettmann discute également de diverses façons d'explorer et d'attribuer un sens aux directions au sein de modèles formés à la création humaine. Elle présente une expérience capturant et apprenant des directions visuelles sans langage, qui permet aux humains de définir la transformation qu'ils veulent purement visuellement en interagissant avec un petit lot d'images échantillonnées à partir de l'espace latent ou de l'espace des caractéristiques. Cette méthode est utile pour étiqueter et comprendre les images avec des caractéristiques nuancées et difficiles à expliquer. De plus, l'espace latent peut devenir un écran sur lequel les expériences humaines peuvent être projetées, permettant aux chercheurs de mieux comprendre des aspects de la perception humaine autrement difficiles à formaliser.

  • 00:00:00 Dans cette section, Sarah Schwettmann discute de sa formation en neurosciences et de la façon dont elle s'est intéressée au point de rencontre entre soi et le monde, en particulier dans les domaines où l'art visuel et les aspects de niveau supérieur de la cognition se croisent. Elle décrit la perception visuelle comme fondamentalement constructive, nécessitant un peu de créativité pour résoudre des problèmes inverses mal posés, et note que le dos de l'œil humain est une toile plate 2D composée d'une hiérarchie de cellules qui constituent une toile 2D qui prend en données d'image entrantes et représente les images en termes de modèles d'activations via une mosaïque de cellules.

  • 00:05:00 Dans cette section de la conférence, Sarah Schwettmann discute du défi de découvrir un monde 3D riche tout en le visualisant à travers une toile 2D. Alors que les problèmes de vision par ordinateur classiques peuvent reconnaître la structure 3D d'un objet, ils ne peuvent pas transmettre les significations et les associations associées qui l'accompagnent. Notre cerveau doit résoudre un problème inverse pour passer d'une faible information bidimensionnelle à une 3D riche, ce qui est un problème mal posé car il existe une infinité de configurations pouvant provoquer la même projection 2D. La perception est fondamentalement constructive et nécessite que le cerveau construise une meilleure explication de l'information entrante, ce qui en fait un acte de création. Une façon populaire de résoudre ce problème d'inférence consiste à utiliser des modèles du monde, tels que les approches bayésiennes ou d'apprentissage en profondeur. Schwettmann fournit ensuite un exemple de démonstration en direct où les informations visuelles sont limitées à une seule ligne de lumière laser rouge, forçant le public à déduire ce qui est assis sur une table recouverte de velours noir.

  • 00:10:00 Dans cette section de la vidéo, Sarah Schwettmann explique comment nos modèles mentaux sur les formes et les formes peuvent aider à informer notre perception. Elle présente un exemple où une seule ligne de lumière laser se déplace sur la surface de plusieurs formes différentes, et comment nous pouvons déduire quelles sont ces formes en fonction de la façon dont la lumière se courbe autour de la surface. Cela conduit à une discussion sur la physique intuitive et sur la manière dont le cerveau représente des propriétés physiques telles que la masse, qui pourraient être utilisées comme données d'entrée dans un moteur abstrait généralisé de simulation physique. Schwettmann aborde également le sujet des modèles dans l'art, expliquant comment il est difficile de développer un formalisme informatique pour certaines œuvres d'art où les dimensions sous-jacentes ne sont pas claires.

  • 00:15:00 Dans cette section, Dr. Sarah Schwettmann discute du cours Vision in Art and Neuroscience proposé par le MIT. Il s'agit d'un séminaire approfondi qui approfondit les principes sous-jacents à la vision à travers la littérature, l'informatique et la pratique artistique en neurosciences. Schwettmann présente des exemples tirés de la photographie de Minor White et explique comment différents facteurs peuvent affecter la perception véridique. Le cours comprend également une section de studio où les étudiants explorent comment extérioriser et visualiser les principes de vision dans des contextes artistiques. De plus, les cours se terminent par le développement d'une exposition d'art, offrant aux étudiants une occasion unique de présenter leurs propres œuvres.

  • 00:20:00 Dans cette section, Sarah Schwettmann discute d'un projet axé sur la manière dont les modèles génératifs approfondis pourraient être utilisés pour comprendre la structure de la créativité humaine. Le Metropolitan Museum of Art a fourni un ensemble de données de quelques centaines de milliers d'images numériques d'œuvres de sa collection. Les chercheurs ont demandé s'ils pouvaient construire des modèles génératifs profonds associés à ces archives qui intégraient l'œuvre créée dans leur contexte culturel. Ils ont utilisé l'inversion GAN (réseau antagoniste génératif) pour intégrer chaque image de l'ensemble de données dans l'espace des caractéristiques d'un modèle de base. Cela leur a permis de définir des sous-espaces de ces grands modèles avec lesquels ils pouvaient interagir, plutôt que d'avoir à recycler un modèle sur leur ensemble de données. Le projet visait à expérimenter l'histoire culturelle sur une chronologie permettant une évolution rapide dans le présent.

  • 00:25:00 Dans cette section, Schwettmann discute d'un projet sur lequel elle a travaillé impliquant la collection Met et BigGAN ImageNet. Ils ont sélectionné des catégories partagées entre les deux et ont créé une perte en deux parties pour maximiser la similitude entre l'image Met et l'image BigGAN au niveau des pixels et de la sémantique. Ils ont pu visualiser des incorporations individuelles et faire des interpolations entre des images existantes sur le graphique pour créer des images hypothétiques ou oniriques qui existent entre les espaces d'œuvres existantes dans la collection. Le projet a été exposé au Met et une version web app a été mise à disposition. Le projet continue d'évoluer avec l'utilisation de StyleGAN2-ADA pour s'entraîner sur des ensembles de données plus petits.

  • 00:30:00 Dans cette section, Schwettmann parle d'un projet qui consiste à créer des peintures à l'huile en couches à partir de courtes promenades dans l'espace latent à l'aide d'un peintre à l'huile robotique pour représenter visuellement le travail de dirigeabilité couvert dans le cours. Ce projet est exposé à la galerie d'art contemporain de l'Université du Nord du Texas. Elle discute également de l'importance de comprendre et d'interpréter les dimensions sous-jacentes aux modèles génératifs formés sur des corpus d'œuvres artistiques provenant de collections numériques de musées, dans le but de créer des histoires alternatives et imaginaires de l'art construites à partir de promenades latentes uniques. L'objectif est de comprendre les aspects communs du langage pictural qui peuvent être présents dans des genres artistiques très différents.

  • 00:35:00 Dans cette section, Schwettmann discute de l'intersection entre la modélisation de la créativité et l'apprentissage automatique, en particulier en ce qui concerne la modélisation des techniques et des styles de création artistique individuels. Elle note également que les modèles génératifs formés sur les œuvres d'art peuvent offrir un aperçu de la structure sous-jacente à la créativité et peuvent être utilisés comme outils de collaboration. Schwettmann explore ensuite les façons dont les humains peuvent interagir avec des modèles génératifs afin d'en savoir plus sur la vision humaine et de construire des vocabulaires partagés, comme la conception d'expériences qui permettent la visualisation et l'interaction de marches latentes. L'interaction humaine dans ce processus implique une sélection d'images représentatives pour former des ensembles de données et sélectionner des promenades arbitraires dans l'espace latent, l'étape suivante étant de créer un langage plus systématique pour les différentes promenades.

  • 00:40:00 Dans cette section, Sarah Schwettmann discute de l'utilisation de l'interaction humaine dans l'étiquetage et la sélection de différentes promenades à travers l'espace latent pour produire des changements nuancés dans le développement de l'art. Elle souligne l'importance d'engager directement des modèles, plutôt que de s'appuyer sur un sous-titreur intermédiaire, et d'impliquer différents types d'humains dans la boucle pour utiliser leurs connaissances afin de créer une synthèse unique avec le modèle génératif. Schwettmann discute ensuite d'un projet axé sur la construction d'un vocabulaire de concept visuel pour un espace latent GAN arbitraire, qui consiste à échantillonner l'espace des transformations saillantes ou possibles et à utiliser ces exemples de directions comme écran pour projeter les jugements perceptuels humains. L'objectif est de démêler les concepts dans un vocabulaire de concepts visuels de composition ouverts et de définir un vocabulaire partagé entre les caractéristiques profondes de la représentation d'un modèle et les concepts significatifs pour les humains dans la compréhension visuelle de la scène.

  • 00:45:00 Dans cette section de la conférence, Sarah Schwettmann explique comment les humains peuvent être utilisés pour étiqueter un ensemble de données pour un vocabulaire à la fois diversifié et spécifique. En définissant des directions sélectives de couches mutuellement orthogonales qui minimisent le changement dans la représentation des caractéristiques à une certaine couche de BigGAN, Schwettmann est capable de capturer des changements ciblés et des changements à différents niveaux d'abstraction. Ces transformations significatives minimales sont ensuite étiquetées par les spectateurs humains, que Schwettmann décompose ensuite en un vocabulaire de concept visuel composé de directions uniques étiquetées avec des mots uniques. Plus de 2000 concepts correspondent à de nombreux types de changements visuels différents, permettant des manipulations telles que le zoom, la rotation, la couleur et même les changements d'humeur. Grâce à ce processus, Schwettmann est capable de démêler les transformations qui correspondent aux concepts étiquetés par le spectateur, comme rendre une cuisine plus moderne et appliquer ces transformations à d'autres images.

  • 00:50:00 Dans cette section, Sarah Schwettmann discute de la nature composable et généralisable de leur méthode proposée pour trouver des dimensions d'intérêt visuel significatives pour les humains dans l'espace latent d'un modèle formé sur des images du monde réel. Ils ont mené une série d'expériences comportementales pour évaluer le succès de leur méthode et ont découvert qu'il était possible d'ajouter des concepts appris dans une catégorie à une autre catégorie. La méthode est indépendante du modèle et peut être appliquée à d'autres modèles, y compris ceux formés sur des archives d'images d'art. Il existe également différentes méthodes qui peuvent être utilisées pour échantillonner l'espace latent, mais la méthode de sélection de couches s'est avérée la plus efficace pour isoler des changements spécifiques. L'intervention humaine est toujours nécessaire pour l'annotation, mais les travaux futurs peuvent impliquer la formation d'un sous-titreur sur un ensemble de données étiquetées plus large ou l'utilisation de quelque chose comme CLIP pour les annotations automatiques tout en préservant la possibilité pour les experts d'annoter des modèles spécialisés.

  • 00:55:00 Dans cette section de la vidéo, Sarah Schwettmann discute du processus d'annotation du projet et de la prise de décision derrière le choix des directions à visualiser. L'équipe a collecté au moins deux annotations pour chaque direction afin de mesurer l'accord inter-sujets et a utilisé les scores BLEU et BERTS pour l'accord inter-annotateurs. Ils ont visualisé 64 z par catégorie et un tas de différentes directions significatives minimales pour eux. La décision était quelque peu ad hoc, mais la méthode qu'ils ont utilisée peut distiller des vocabulaires en utilisant n'importe quelle taille de bibliothèque d'annotations. Ils décident maintenant de passer à l'échelle et de collecter plus d'annotations pour former un sous-titreur à étiqueter automatiquement les instructions. En termes d'étiquetage, il n'y avait pas de normes pour les annotateurs en termes de choix de mots, ce qui a entraîné un certain bruit dans les données. Bien qu'ils se soient entraînés et aient examiné des exemples avant les annotations, l'accord inter-annotateurs était basé uniquement sur la fenêtre brute de perception que leur choix de mots fournissait.

  • 01:00:00 Dans cette section, le conférencier discute de ses recherches sur l'évaluation du vocabulaire utilisé pour décrire les changements dans le ciel. Ils ont constaté que l'utilisation des BERTScores pour évaluer la similarité sémantique des annotations était plus efficace que de simplement examiner la correspondance basée sur les mots. Ils discutent également de l'idée de regrouper des annotations similaires sous un même parapluie pour augmenter la puissance, mais notent la beauté des différents mots utilisés pour décrire les changements. L'orateur et le spectateur discutent ensuite des promenades non linéaires à travers des sous-espaces dans des espaces latents et du manque de normalisation dans le sens visuel correspondant aux adjectifs. L'intervenant conclut par une méthode bêta pour construire un vocabulaire partagé entre humains et modèles.

  • 01:05:00 Dans cette section, Sarah Schwettmann décrit son expérience de capture et d'apprentissage de directions visuelles sans langage. Cette méthode s'inspire du "travail de pilotage" et permet aux humains de définir la transformation qu'ils souhaitent de manière purement visuelle en interagissant avec un petit lot d'images échantillonnées à partir de l'espace latent ou de l'espace des caractéristiques. Les utilisateurs peuvent trier les images dans la direction de la caractéristique visuelle particulière qu'ils souhaitent définir, et la méthode est simpatico avec le travail de dirigeabilité. Ils ont défini une transformation uniquement en apprenant un hyperplan qui sépare différentes classes d'images et d'images échantillonnées de l'espace latent. Il est possible de discerner ces directions avec un certain degré de fiabilité en utilisant quelques images dans chaque catégorie, ce qui permet à l'utilisateur d'interagir simplement avec de tels systèmes. Cette méthode est pratique pour étiqueter et comprendre les images qui ont des caractéristiques nuancées et difficiles à expliquer.

  • 01:10:00 Dans cette section de la conférence, Sarah Schwettmann discute de l'espace latent et comment il peut être utilisé pour explorer et donner un sens aux directions trouvées dans les modèles qui ont été formés sur la création humaine. En examinant comment un modèle apprend les différences visuelles entre les catégories, les chercheurs peuvent apprendre des dimensions significatives telles que la plénitude, qui peuvent être appliquées à des scènes au-delà de ce sur quoi le modèle a été formé. Grâce à ce processus, l'espace latent peut devenir un écran sur lequel les expériences humaines peuvent être projetées, permettant aux chercheurs de mieux comprendre les aspects de la perception humaine qui sont autrement difficiles à formaliser. Le résultat est une collaboration entre l'homme et la machine qui peut produire des résultats exquis.

  • 01:15:00 Dans cette section, Sarah Schwettmann aborde l'idée d'espaces latents et le lien entre notre imagination et les modèles que nous créons. Elle exprime son appréciation pour cette relation et termine ensuite la vidéo en autorisant toutes les questions restantes du public.
 

MIT 6.S192 - Conférence 20 : Art génératif utilisant la diffusion, Prafulla Dhariwal



MIT 6.S192 - Conférence 20 : Art génératif utilisant la diffusion, Prafulla Dhariwal

Dans cette conférence, Prafulla Dhariwal d'OpenAI discute des progrès de la modélisation générative pour les tâches créatives difficiles, en particulier avec les modèles de diffusion. Le processus consiste à commencer par une image et à y ajouter lentement du bruit gaussien, puis à inverser le processus en prenant des dommages bruités et en les débruitant pour créer des images moins bruyantes. Le modèle génératif est obtenu en entraînant un modèle à inverser le bruit comme celui-ci, en produisant une image à partir du bruit pur au moment du test en exécutant le modèle pas à pas en arrière. La prédiction inverse du processus ressemble également à une distribution gaussienne lorsque la quantité de bruit ajoutée est très faible, qui est utilisée pour prédire la moyenne et la variance du modèle. Dhariwal explique également comment utiliser les modèles de diffusion pour peindre et traiter les dangers potentiels du contenu généré par l'IA.

  • 00:00:00 Dans cette section de la vidéo, Prafulla Dhariwal d' OpenAI discute de son parcours et de ses motivations pour mener des recherches sur l'IA. Il présente également quelques exemples de modèles ML créatifs puissants, tels que GPT-3 et JukeBox, qui peuvent générer de la poésie et de la musique, respectivement, à partir de quelques exemples seulement. La vidéo comprend également un exemple de sortie de JukeBox, qui a généré la musique et les paroles ensemble, car elles sont interdépendantes. Les téléspectateurs sont encouragés à poser des questions à tout moment de la présentation.

  • 00:05:00 Dans cette section, Prafulla Dhariwal discute des progrès de la modélisation générative pour les tâches créatives difficiles. L'orateur explique qu'une façon de comprendre si les modèles apprennent vraiment quelque chose est de voir s'ils peuvent créer des choses complexes et difficiles à comprendre. La formation de modèles pour créer des images, de l'audio et de la vidéo est l'une des tâches les plus difficiles dans ces domaines, mais il y a eu beaucoup de progrès en essayant de créer des choses à partir de modèles ou de modélisation générative. Dhariwal explique comment fonctionnent les modèles génératifs, quelles entrées ils nécessitent et comment ils sont évalués. L'orateur évoque également les progrès récents des modèles de diffusion, qui peuvent générer des visages réalistes et différentes catégories d'images. Dhariwal montre que ces modèles sont meilleurs que les GAN pour générer des images.

  • 00:10:00 Dans cette section de la conférence, Prafulla Dhariwal discute de l'art génératif à travers l' utilisation de modèles de diffusion. Les modèles fonctionnent en commençant par une image et en y ajoutant lentement du bruit gaussien, en essayant d'inverser le processus en prenant des dommages bruyants et en le débruitant pour créer des images moins bruyantes. Le modèle génératif est obtenu en entraînant un modèle à inverser le bruit comme celui-ci, en produisant une image à partir du bruit pur au moment du test en exécutant le modèle pas à pas en arrière. La prédiction inverse du processus ressemble également à une distribution gaussienne lorsque la quantité de bruit ajoutée est très faible, qui est utilisée pour prédire la moyenne et la variance du modèle.

  • 00:15:00 Dans cette section, Prafulla Dhariwal explique le processus d'utilisation de la diffusion pour inverser le bruit ajouté à une image. Le processus consiste à prédire une gaussienne dans le sens inverse et à utiliser des astuces de formation pour simplifier le processus. Le modèle prend une image x0, un bruit aléatoire et une combinaison des deux pour produire un x_t bruité, et le réseau est formé pour prédire le bruit qui a été ajouté à l'image en utilisant la perte L2. Les modèles utilisés pour cette tâche sont généralement des modèles convolutifs de style UNet, qui sous-échantillonnent l'image et apprennent les caractéristiques à différents niveaux de granularité avant de les rééchantillonner dans une prédiction de bruit. Le processus peut être utilisé pour obtenir un modèle génératif en prédisant la moyenne du processus inverse.

  • 00:20:00 Dans cette section, nous apprenons comment rendre la classe de modèle de diffusion conditionnelle en fournissant des étiquettes au modèle pendant le temps de formation, afin que le modèle puisse produire une image à partir de p de x étant donné y, la distribution des images représentées par une étiquette. De plus, le modèle peut être conditionné sur des images basse résolution et les échantillonner en images haute résolution. Cependant, ce type de modèle produit des échantillons incohérents, donc l'astuce du guidage est introduite. Cela implique de former un classificateur sur des images bruitées, puis de prendre le gradient du classificateur pour guider le modèle de diffusion vers la génération d'images plus susceptibles d'être classées comme l'étiquette souhaitée.

  • 00:25:00 Dans cette section, Dhariwal explique la nécessité de conserver le classificateur dans le processus d'échantillonnage, car les gradients sont utilisés directement à partir du classificateur. Le processus inverse modifié utilise un terme avec une variance supplémentaire, qui est le contrôle de la taille du pas dans le processus, avec une mise à l'échelle à partir du paramètre supplémentaire, s. Le paramètre s aide le modèle à se concentrer sur les modes de distribution et les résultats plus étroits. Une petite valeur de s n'influence pas beaucoup le classifieur, alors qu'une grande valeur l'influence beaucoup. Le facteur d'échelle contrôle les indications reçues du classificateur et affecte la distribution dans laquelle il s'effondre.

  • 00:30:00 Dans cette section, Prafulla Dhariwal discute de l'utilisation de modèles de diffusion pour générer de l'art basé sur des descriptions textuelles. En conditionnant les modèles de diffusion sur les descriptions textuelles, le modèle peut être poussé vers la production d'images qui s'alignent sur le texte. CLIP peut être utilisé pour mesurer à quel point l'image et le texte s'alignent, et un gradient peut être pris pour diriger le processus de génération du modèle vers la description du texte. Alternativement, un guidage sans classificateur peut être utilisé pour former un modèle de diffusion avec et sans étiquettes, puis la différence entre les deux prédictions peut être utilisée comme direction de poussée pendant le temps de test. Le paramètre d'échelle est utilisé pour contrôler la quantité de décalage vers la distribution basée sur les étiquettes.

  • 00:35:00 Dans cette section, l'orateur discute d'une forme de guidage pour les modèles conditionnels de texte appelé guidage sans classificateur. Cette méthode consiste à utiliser le modèle de diffusion lui-même comme guide en demandant au modèle de prédire dans quelle direction il doit aller pour augmenter la probabilité que l'image générée provienne de la bonne classe. L'orateur aborde également une question sur l'ajout progressif d'éléments à une image et suggère deux méthodes possibles pour y parvenir, dont l'une consiste à modifier l'image générée de manière itérative en utilisant du bruit et en réexécutant le processus avec de nouvelles invites. L'orateur présente des exemples comparant l'efficacité du guidage CLIP et du guidage sans classificateur, ce dernier produisant les meilleurs résultats.

  • 00:40:00 Dans cette section, Prafulla Dhariwal présente une nouvelle classe de modèles pour générer des images qui utilise une technique de diffusion. Il explique que ce modèle ne fait pas les choses de manière autorégressive, mais génère plutôt une image entière, ce qui permet des tâches plus compliquées, comme l'in-painting. L'in-painting consiste à masquer une partie d'une image, puis à utiliser le modèle pour remplir cette partie. Cela peut également être accompli avec la peinture de condition de texte, où une étiquette de texte est fournie pour indiquer au modèle comment peindre la région. L'in-painting itératif peut être utilisé pour ajouter des éléments à l'image un par un, comme l'ajout d'une peinture d'un corgi sur un mur au-dessus d'un canapé. Le modèle a généré des échantillons plus réalistes que les modèles plus anciens tels que DALL·E et a utilisé moins de paramètres.

  • 00:45:00 Dans cette section de la conférence, Prafulla Dhariwal explique comment l'in -painting peut être utilisé pour supprimer des objets d'une image ou compléter toute information manquante. Il explique également la peinture extérieure, qui consiste à déplacer le rectangle en dehors de l'image et à demander au modèle de remplir cette zone. De plus, Dhariwal note que les cahiers publiés utilisent un modèle GLIDE filtré car l'original pourrait générer des images problématiques. Malgré l'écart de performances, le plus petit modèle peut toujours générer des images réalistes. Il montre des exemples d'œuvres d'art générées par les utilisateurs sur Twitter en trouvant des invites intéressantes et en les développant avec la technique de peinture. Enfin, il y a la question concernant le danger créé par le modèle GLIDE original, auquel Dhariwal recommande de lire l'article pour plus de détails.

  • 00:50:00 Dans cette section, le conférencier discute des compromis entre l'utilité des modèles et le danger potentiel du contenu généré. Le conférencier souligne la difficulté de s'assurer que les modèles ne produisent que des contenus sûrs, étant donné qu'il s'agit d'outils puissants qui pourraient facilement créer des données trompeuses ou violentes. Pour filtrer les parties dangereuses du modèle, l'équipe doit former des classificateurs pour identifier les points de données potentiellement problématiques. L'orateur aborde ensuite les problèmes pratiques lors du déploiement du modèle, tels que le choix des échelles et des pas de temps pour le processus de diffusion, ainsi que la manière d'ajouter des masques personnalisés aux fichiers image pour peindre une zone spécifique.

  • 00:55:00 Dans cette section, Prafulla Dhariwal recommande une lecture plus approfondie pour ceux qui s'intéressent à la théorie derrière les modèles utilisés dans l'art génératif. Il suggère de lire le "De-Noising Diffusion Probabilistic Models Paper" de Jonathan Ho, ainsi que leur propre article sur "Diffusion Models Beat GANs on Image Synthesis" pour plus d'informations sur le guidage CLIP et le guidage sans classificateur. De plus, Dhariwal recommande l'article de Yang Song, "Generative Modeling by Estimating Gradients of the Data Distribution", qui aborde le problème sous un angle différent de la correspondance des scores, une lentille différente pour comprendre les modèles de diffusion. Au cours des questions et réponses, Dhariwal note qu'il existe une relation entre le bruit bidimensionnel utilisé et les sorties du modèle, mais qu'elle est indirecte. Il suggère d'échantillonner le bruit une fois au début, puis d'exécuter un processus inverse déterministe pour échantillonner à partir du modèle afin de rendre cette relation plus claire.

  • 01:00:00 Dans cette section, les intervenants discutent du processus de débruitage et du rôle du conditionnement de texte dans la génération d'images sans CLIP. Ils expliquent que la formation d'un modèle sans étiquettes de texte rend difficile la génération d'un échantillon pour une distribution de texte donnée, mais le modèle de diffusion est formé pour être conditionnel au texte. Bien que le guidage puisse être utilisé en plus des modèles inconditionnels et conditionnels, le modèle d'origine peut également utiliser le guidage pour améliorer sa capacité à produire une image à partir d'un texte. Les conférenciers encouragent les spectateurs à lire des blogs et à explorer d'autres blocs-notes Colab pour plus d'informations.
 

MIT 6.S192 - Conférence 22 : Modèles probabilistes de diffusion, Jascha Sohl-Dickstein



MIT 6.S192 - Conférence 22 : Modèles probabilistes de diffusion, Jascha Sohl-Dickstein

Dans cette conférence, Jascha Sohl-Dickstein discute des modèles de diffusion, qui sont utilisés pour apprendre des tâches distinctes des données de formation. Les modèles sont probabilistes et peuvent être utilisés pour encoder ou décoder des données. Le processus de diffusion vers l'avant est un processus fixe, et le processus inverse est également vrai.

Cette conférence traite des modèles probabilistes de diffusion et explique que, bien qu'il existe une correspondance biunivoque entre l'espace latent et l'espace image, il est possible de travailler avec plusieurs classes au sein du même modèle. La conférence explique ensuite comment utiliser ces modèles pour générer de nouvelles images.

  • 00:00:00 Dans cette conférence, Jascha Sohl-Dickstein discute des modèles de diffusion, qui sont utilisés pour générer des images dans une variété de disciplines, y compris l'art. Il partage également des exemples de la façon dont les modèles de diffusion sont utilisés conjointement avec du texte pour produire de meilleures images.

  • 00:05:00 Dans cette conférence, Jascha Sohl-Dickstein discute de l'intuition physique derrière les modèles de diffusion et montre comment ils peuvent être utilisés pour générer des échantillons à partir d'une distribution de données. Il discute ensuite des liens entre les modèles de diffusion et les ODE neuronaux.

  • 00:10:00 Dans cette vidéo, le professeur Jascha Sohl-Dickstein du département de génie électrique du MIT discute des modèles de diffusion, qui sont utilisés pour étudier le comportement des systèmes dans le temps. L'un des principaux avantages des modèles de diffusion est qu'ils peuvent être utilisés pour générer des échantillons de données qui représentent le système à mesure qu'il évolue dans le temps, sans perdre d'informations sur la structure sous-jacente du système.

  • 00:15:00 Dans cette conférence, Jascha Sohl-Dickstein explique comment fonctionnent les modèles de diffusion. Tout d'abord, il montre comment un exemple 1D est illustré en trois millions de dimensions. Ensuite, il explique comment fonctionnent les modèles de diffusion en 2D et 3D. Enfin, il démontre comment les modèles de diffusion peuvent être utilisés pour apprendre des fonctions qui décrivent la moyenne et la covariance d'une séquence de gaussiennes.

  • 00:20:00 Dans cette conférence, Jascha Sohl-Dickstein couvre les fondements mathématiques des modèles de diffusion, expliquant comment les entraîner à l'aide d'une borne variationnelle. Il discute également de l'inégalité de Jensen et de la façon d'abaisser la limite du log de vraisemblance du modèle. Si les distributions directe et inverse sur les trajectoires se chevauchent exactement, la vraisemblance logarithmique peut être écrite comme une somme sur les divergences KL, les deux distributions étant gaussiennes.

  • 00:25:00 Dans cette conférence, Dr. Sohl-Dickstein discute de la divergence KL entre deux distributions de probabilité, expliquant son importance pour l'apprentissage supervisé. Il poursuit en disant qu'en général, KL est calculé à partir des données vers le modèle et qu'il est lié à la log-vraisemblance des données. Il note également qu'il peut être difficile de calculer la divergence KL dans la direction opposée.

  • 00:30:00 Dans cette conférence, Jascha Sohl-Dickstein explique comment utiliser les équations différentielles stochastiques (SDE) pour modéliser la diffusion du bruit dans une distribution de données. Il explique comment transformer le processus de diffusion en une équation différentielle stochastique et comment utiliser le gradient de la fonction de score de log-vraisemblance pour former une approximation de thêta à la fonction de score.

  • 00:35:00 Cette conférence traite de l'algorithme de modélisation diffusive et de ses avantages par rapport aux autres techniques de modélisation. L'algorithme est décrit en termes de SDE à temps discret et de fonction de score, et le processus d'échantillonnage est décrit en termes de réseau neuronal. La conférence se termine par une démonstration de quelques techniques de génération d'échantillons.

  • 00:40:00 Cette conférence couvre la différence entre les modèles stochastiques et déterministes et comment convertir entre les deux. La conférence aborde également les avantages et les inconvénients de l'utilisation d'un SDE par rapport à un ODE pour la modélisation.

  • 00:45:00 Dans cette conférence, Jascha Sohl-Dickstein aborde la théorie des modèles de diffusion, expliquant en quoi ils diffèrent des modèles linéaires ordinaires et comment ils peuvent être utilisés à diverses fins, telles que le contrôle de la génération d'échantillons de bruit dans des conditions contrôlées. Il mentionne également la règle de Bayes, qui peut être utilisée pour former le deuxième terme du modèle de diffusion sans nécessiter de connaissance préalable de la distribution conditionnelle.

  • 00:50:00 Dans cette conférence, Jascha Sohl-Dickstein explique comment les modèles de diffusion peuvent être utilisés pour générer des in-paintings ou des couleurs plausibles dans les images. Il mentionne également que l'encodage du modèle est identifiable de manière unique, ce qui est positif ou négatif selon la façon dont vous le regardez. Enfin, il montre comment le modèle peut être utilisé pour générer de nouvelles créations artistiques sans avoir à recycler le modèle.

  • 00:55:00 Cette conférence traite des modèles de diffusion, qui sont utilisés pour apprendre des tâches distinctes des données de formation. Les modèles sont probabilistes et peuvent être utilisés pour encoder ou décoder des données. Le processus de diffusion vers l'avant est un processus fixe, et le processus inverse est également vrai.

  • 01:00:00 Cette conférence traite des modèles probabilistes de diffusion et explique que, bien qu'il existe une correspondance biunivoque entre l'espace latent et l'espace image, il est possible de travailler avec plusieurs classes au sein du même modèle.
 

GenRep : Modèles génératifs comme source de données pour l'apprentissage de la représentation multivue dans ICLR2022

Code : https://github.com/ali-design/GenRep



GenRep : Modèles génératifs comme source de données pour l'apprentissage de la représentation multivue dans ICLR2022

Les présentateurs discutent du concept de zoos modèles, où des modèles génératifs préformés sont rendus accessibles sans accès aux données sous-jacentes. En utilisant l'apprentissage contrastif, les chercheurs peuvent créer différentes vues du même objet, qui tomberont dans le même voisinage dans l'espace de représentation. Ils ont découvert que de simples transformations gaussiennes dans l'espace latent étaient efficaces et que générer plus d'échantillons à partir d'IGM conduit à de meilleures représentations. Les IGM experts, tels que StyleGAN Car dans des domaines spécifiques, peuvent surpasser les représentations apprises à partir de données réelles. Le site Web du projet et le code Github sont disponibles pour une exploration plus approfondie.

  • 00:00:00 Dans cette section, les présentateurs discutent du concept de zoos modèles, où des modèles génératifs pré-formés sont rendus accessibles sans accès aux données sous-jacentes. Ils expliquent ensuite comment les modèles génératifs implicites peuvent être pilotés pour offrir de nombreuses transformations des images générées. En utilisant l'apprentissage contrastif, les chercheurs peuvent créer différentes vues du même objet, qui tomberont dans le même voisinage dans l'espace de représentation. En se déplaçant dans l'espace latent, en créant différentes vues pour l'ancre et en combinant les transformations, les chercheurs peuvent apprendre des représentations à partir de ces IGM. Cette recherche a montré que si les deux transformations proposées par les IGM sont appliquées, elles peuvent se rapprocher des performances des données réelles et les concurrencer. Les résultats étaient étonnamment supérieurs aux données réelles dans le cas de StyleGAN Car.

  • 00: 05: 00 Dans cette section, l'orateur discute de l'utilisation de l'apprentissage contrastif et de la capacité de pilotage dans la création de différentes vues pour l'apprentissage de la représentation. Ils ont découvert que de simples transformations gaussiennes dans l'espace latent étaient efficaces et que générer plus d'échantillons à partir d'IGM conduit à de meilleures représentations. Ils ont également constaté que les IGM experts, tels que StyleGAN Car dans des domaines spécifiques, peuvent surpasser les représentations tirées de données réelles. Le site Web du projet et le code Github sont disponibles pour une exploration plus approfondie.
GitHub - ali-design/GenRep
GitHub - ali-design/GenRep
  • ali-design
  • github.com
Table of Contents: Setup Visualizations - plotting image panels, videos, and distributions Training - pipeline for training your encoder Testing - pipeline for testing/transfer learning your encoder Notebooks - some jupyter notebooks, good place to start for trying your own dataset generations Colab Demo - a colab notebook to demo how the...
 

Une entrevue avec Gilbert Strang sur l'enseignement des méthodes matricielles dans l'analyse de données, le traitement du signal et l'apprentissage automatique



Une entrevue avec Gilbert Strang sur l'enseignement des méthodes matricielles dans l'analyse de données, le traitement du signal et l'apprentissage automatique

Gilbert Strang, un mathématicien de renom, souligne l'importance des projets plutôt que des examens dans l'enseignement de l'apprentissage en profondeur, une partie cruciale de l'apprentissage automatique qui s'appuie fortement sur l'algèbre linéaire. Il pense que les projets permettent aux étudiants de comprendre comment appliquer l'apprentissage en profondeur dans le monde réel et constituent un moyen d'apprentissage plus efficace. Strang souligne également que l'enseignement consiste à apprendre et à travailler avec les élèves plutôt que de les noter uniquement. Il conseille aux nouveaux professeurs d'utiliser de grosses craies et de prendre leur temps pour rester avec la classe afin de réussir dans l'enseignement.

  • 00:00:00 Dans cette section, Gilbert Strang explique comment il s'est impliqué dans l'enseignement de l'apprentissage en profondeur, une partie importante de l'apprentissage automatique qui dépend fortement de l'algèbre linéaire. Il souligne également que les projets sont bien meilleurs que les examens car ils donnent aux étudiants une idée de la façon d'utiliser l'apprentissage en profondeur dans des situations réelles et constituent un moyen d'apprentissage plus efficace. En demandant aux élèves de poser leurs propres questions et d'écrire leurs propres programmes, ils peuvent créer des projets intéressants et mémorables. Cependant, Strang admet qu'il ne savait pas à quoi s'attendre lorsqu'il a commencé à enseigner le cours de cette manière, et il a fallu un certain temps pour comprendre la logistique de la facilitation des projets.

  • 00:05:00 Dans cette section de la vidéo, Gilbert Strang discute de sa philosophie concernant la notation du travail des étudiants. Il croit que son travail principal en tant qu'enseignant est d'enseigner ou d'apprendre aux côtés des élèves, pas de les noter. Il reconnaît que la notation est importante, mais ce n'est pas sa principale préoccupation. Il conseille aux nouveaux professeurs d'utiliser une grosse craie et de ne pas se précipiter, mais de rester avec la classe. Il croit que l'enseignement est le meilleur travail possible.
 

MIT 18.065. Méthodes matricielles dans l'analyse de données, le traitement du signal et l'apprentissage automatique



Introduction au cours par le professeur Strang

Le professeur Strang présente son nouveau cours 18.065, qui couvre quatre sujets clés : l'algèbre linéaire, l'apprentissage en profondeur, l'optimisation et les statistiques. Le cours se concentrera sur les meilleures matrices, les matrices symétriques et orthogonales et leur relation avec l'algèbre linéaire. Il couvrira également l'apprentissage en profondeur, qui est à la base de l'algèbre linéaire et implique des calculs complexes qui peuvent nécessiter l'utilisation de GPU pendant des jours, voire des semaines. Le cours abordera les statistiques, qui jouent un rôle dans le maintien des nombres dans la fonction d'apprentissage dans une bonne fourchette, et l'optimisation et la théorie des probabilités, qui sont importantes dans l'apprentissage des algorithmes, et les équations différentielles qui jouent un rôle clé dans les applications scientifiques et techniques. . Le cours comprend des exercices, des problèmes et des discussions pour fournir une présentation complète du sujet.

  • 00:00:00 Dans cette section, le professeur Strang présente son nouveau cours 18.065 et le nouveau manuel sur l'algèbre linéaire et l'apprentissage à partir des données. Il explique que le cours couvre deux matières mathématiques essentielles et deux complémentaires, mais importantes. Le premier grand sujet est l'algèbre linéaire, qui est devenue de plus en plus importante dans la pratique, et le professeur Strang se concentre sur les meilleures matrices, les matrices symétriques et orthogonales, et leur relation. Le deuxième sujet important est l'apprentissage en profondeur qui traite de la création d'une fonction d'apprentissage qui reconnaît les modèles dans les entrées et produit une sortie, en utilisant des multiplications matricielles et une fonction non linéaire très simple. Le cours couvre également l'optimisation et la théorie des probabilités, qui sont importantes dans l'apprentissage des algorithmes, et les équations différentielles, qui jouent un rôle clé dans les applications scientifiques et d'ingénierie.

  • 00:05:00 Dans cette section, le professeur Strang présente quatre sujets clés qui seront abordés dans le cours : l'algèbre linéaire, l'apprentissage en profondeur, l'optimisation et les statistiques. L'algèbre linéaire est fondamentale pour comprendre l'apprentissage en profondeur, qui implique des calculs complexes pouvant nécessiter l'utilisation de GPU pendant des jours, voire des semaines. Le cours abordera également les statistiques, qui jouent un rôle dans le maintien des nombres dans la fonction d'apprentissage dans une bonne fourchette. Bien que ce cours ne soit pas axé sur les statistiques, il sera utilisé dans le contexte d'un apprentissage en profondeur. Le cours couvre un large éventail de supports au-delà des simples vidéos, y compris des exercices, des problèmes et des discussions pour fournir une présentation complète du sujet.