Apprentissage Automatique et Réseaux Neuronaux - page 24

 

MIT 6.S192 - Conférence 3 : "Efficient GANs" par Jun-Yan Zhu



MIT 6.S192 - Conférence 3 : "Efficient GANs" par Jun-Yan Zhu

La conférence couvre les défis de la formation des modèles GAN, y compris la nécessité d'un calcul élevé, de grandes quantités de données et d'algorithmes complexes qui nécessitent des sessions de formation approfondies. Cependant, le conférencier introduit de nouvelles méthodes qui permettent aux GAN d'apprendre plus rapidement et de s'entraîner sur moins d'ensembles de données, telles que la compression de modèles d'enseignants à l'aide du cadre général de compression des GAN, d'augmentation différentiable et d'augmentation de données. La conférence présente également l'édition d'images interactive avec les GAN et souligne l'importance d'ensembles de données vastes et diversifiés pour une formation GAN réussie. Les codes pour exécuter le modèle sont disponibles sur GitHub avec des instructions pas à pas pour exécuter le modèle sur différents types de données. La conférence se termine par une discussion sur l'importance de la compression de modèles à des fins pratiques.

  • 00: 00: 00 Dans cette section, l'orateur présente le concept de GAN efficaces et le coût des GAN. Alors que les GAN ont été utilisés pour diverses tâches de création de contenu et de créativité, le développement de nouveaux algorithmes ou l'exécution de performances en temps réel nécessite des GPU haut de gamme. Pour le développement du projet GauGAN, le chercheur a eu besoin de centaines de GPU haut de gamme pour la formation, et même après un an de développement, l'équipe a dû acheter un ordinateur portable coûteux pour mener à bien le projet. Le coût de la formation des GAN et du développement d'algorithmes est élevé, et actuellement, il est difficile pour les universités de rivaliser avec de grandes entreprises telles que NVIDIA ou DeepMind.

  • 00: 05: 00 Dans cette section, l'orateur explique les trois principaux obstacles à l'utilisation efficace des GAN par un plus grand nombre d'utilisateurs, à savoir la nécessité d'un calcul élevé, de grandes quantités de données et d'un algorithme compliqué qui nécessite de nombreuses sessions de formation. Il explique que les GAN sont coûteux en calcul en raison des images de haute qualité et des étapes de prétraitement nécessaires pour former le modèle. De plus, les grands ensembles de données et le besoin d'étiquettes rendent encore plus difficile la formation des GAN. Cependant, il introduit de nouvelles méthodes qui peuvent permettre aux GAN d'apprendre plus rapidement et de s'entraîner sur moins d'ensembles de données, ce qui peut aider les créateurs de contenu et les artistes ayant un accès limité aux ressources à former et tester leurs propres modèles.

  • 00: 10: 00 Dans cette section de la conférence, Jun-Yan Zhu présente une méthode de compression des modèles d'enseignants à l'aide du cadre général de compression des GAN. L'objectif est de trouver un modèle étudiant avec moins de filtres qui peut produire le même type de sortie que le modèle enseignant. La méthode consiste à créer une fonction de perte pour garantir que la distribution de la sortie zébrée de l'élève ressemble beaucoup à la sortie de l'enseignant, la représentation des caractéristiques intermédiaires de l'élève est très similaire à celle de l'enseignant et la sortie de l'élève ressemble à un zèbre selon une perte contradictoire. . Le processus implique également une recherche du nombre optimal de canaux, ce qui peut produire les mêmes résultats tout en réduisant la taille du modèle et le temps d'apprentissage. Le processus de partage des poids entre différentes configurations permet de former plusieurs configurations sans les former individuellement, réduisant ainsi le temps de formation.

  • 00: 15: 00 Dans cette section, Jun-Yan Zhu discute du processus de formation et d'évaluation des modèles GAN à travers différentes configurations, ainsi que de l'utilisation de diverses fonctions de perte pour imiter les modèles d'enseignants et partager les poids entre différentes configurations. Les résultats ont été présentés pour des modèles de tailles et de coûts de calcul différents, ainsi que l'idée de compresser les modèles pour obtenir des performances en temps réel sur les appareils mobiles. L'application de cette idée à StyleGAN2 a également été introduite, montrant comment des modèles à faible coût peuvent être utilisés pour l'édition d'images avant d'appliquer la sortie finale du modèle d'origine.

  • 00:20:00 Dans cette section, l'orateur présente une démonstration d'édition d'images interactive avec des GAN. L'objectif de la démo est de permettre aux utilisateurs de modifier une image dans divers attributs tels que l'ajout d'un sourire ou la modification de la couleur des cheveux et d'obtenir un retour immédiat en fonction de leurs modifications. Le système utilise un modèle plus petit qui produit une sortie cohérente avec le grand modèle pour garantir que l'aperçu reste informatif. Une fois les modifications finalisées, le modèle d'origine peut être exécuté pour générer une sortie de haute qualité. L'édition interactive est plus rapide et fournit des résultats de haute qualité par rapport aux logiciels de création de contenu d'apprentissage non profond existants.

  • 00: 25: 00 Dans cette section de la conférence, le professeur Jun-Yan Zhu discute des défis de la formation des modèles GAN, citant le besoin de grandes quantités de données de haute qualité pour des performances efficaces. Bien qu'il soit possible d'utiliser un logiciel de rendu ou d'autres outils pour accélérer le processus et générer des aperçus, la formation de modèles personnalisés nécessite la collecte de quantités importantes de données annotées. Zhu donne l'exemple de la formation d'un modèle stylegan2 sur un ensemble de données de seulement 50 ou 100 visages, ce qui a entraîné des images déformées. La conférence souligne l'importance d'ensembles de données vastes et diversifiés pour une formation GAN réussie.

  • 00:30:00 Dans cette section, l'orateur discute de l'importance d'avoir une quantité suffisante de données d'entraînement dans les modèles GAN. Ils démontrent que lors de la formation sur des ensembles de données plus petits, le discriminateur peut facilement surajuster et classer correctement toutes les images, mais aura du mal à généraliser aux images réelles. Cela conduit le générateur à produire de nombreuses images parasites ou à s'effondrer. L'orateur souligne que si l'on devait utiliser les GAN à ses propres fins ou sur de petits ensembles de données, le surajustement devient beaucoup plus grave et l'obtention de suffisamment de données est cruciale pour créer des GAN efficaces.

  • 00:35:00 Dans cette section, le professeur discute de l'idée de l'augmentation des données pour lutter contre le surajustement dans l'apprentissage automatique, qui consiste à créer plusieurs versions d'une seule image pour augmenter l'ensemble de données sans collecter de nouveaux échantillons. Cependant, l'application de cette méthode à la formation des GAN est plus compliquée car les images générées ont également l'effet de la même transformation ou augmentation appliquée aux images réelles, ce qui peut conduire à des artefacts répliqués. Pour éviter ce problème, le professeur suggère d'augmenter les images réelles et fausses et de ne le faire que pour la formation du discriminateur afin d'équilibrer les différences de données augmentées entre le générateur et le discriminateur.

  • 00: 40: 00 Dans cette section, l'orateur discute du concept d'augmentation différentiable comme approche pour combler le fossé entre les objectifs du générateur et du discriminateur dans les GAN. L'idée principale est d'augmenter les images fausses et réelles de manière différentiable afin que les gradients du discriminateur puissent être rétro-propagés au générateur. L'orateur démontre à travers des exemples que l'augmentation différentiable permet d'obtenir de meilleurs résultats avec un minimum de données d'entraînement, réduisant ainsi le besoin d'ensembles de données à grande échelle. L'orateur conclut que l'augmentation différentiable est une technique cruciale à retenir lors de la formation des GAN.

  • 00:45:00 Dans cette section, le conférencier explique que tous les codes pour exécuter le modèle sont disponibles sur GitHub avec des instructions étape par étape pour exécuter le modèle sur différents types de données, même sur des images faciales personnelles. Ils discutent également des outils spécifiques disponibles pour les designers et les artistes, et le conférencier mentionne que David Bau parlera des outils en ligne pour visualiser et surveiller les unités internes. Le processus de compression du modèle est également abordé, dans le but de développer la capacité de compresser un modèle une fois et de le déployer sur plusieurs appareils, ce qui est important à des fins pratiques, car il fait gagner du temps aux développeurs tout en réduisant le temps nécessaire aux utilisateurs pour accéder au modèle. .
MIT 6.S192 - Lecture 3: "Efficient GANs" by Jun-Yan Zhu
MIT 6.S192 - Lecture 3: "Efficient GANs" by Jun-Yan Zhu
  • 2021.01.21
  • www.youtube.com
Jun-Yan Zhu Assistant Professor, School of Computer Science, Carnegie Mellon Universityhttps://www.cs.cmu.edu/~junyanz/More about the course: http://deepcrea...
 

MIT 6.S192 - Conférence 5 : "Peindre avec les neurones d'un GAN" par David Bau



MIT 6.S192 - Conférence 5 : "Peindre avec les neurones d'un GAN" par David Bau

David Bau discute de l'évolution de l'apprentissage automatique et du potentiel de création de systèmes d'auto-programmation. Il présente les réseaux antagonistes génératifs (GAN) et explique comment ils peuvent être formés pour générer des images réalistes. Bau discute de son processus d'identification des corrélations entre des neurones spécifiques dans un GAN progressif et certaines caractéristiques sémantiques dans les images générées. Il montre comment il peut ajouter divers éléments à une image, tels que des portes, de l'herbe et des arbres, à l'aide d'un GAN. De plus, il discute du défi d'ajouter de nouveaux éléments à un GAN et des préoccupations éthiques entourant les rendus réalistes du monde.

  • 00:00:00 Dans cette section, David Bau discute de l'évolution de l'apprentissage automatique, de ses racines dans l'analyse statistique à son potentiel de création de systèmes d'auto-programmation. En tant que chercheur universitaire, il pense que le moment est venu de poser des questions sur l'orientation du domaine et les implications des modèles d'apprentissage automatique. Le principal problème qu'il abordera dans son exposé est la génération d'images, et il introduit le processus de collecte d'un ensemble de données d'images réelles et de formation d'un réseau de générateurs pour les recréer.

  • 00:05:00 Dans cette section, David Bau présente les réseaux antagonistes génératifs (GAN) et explique comment ils peuvent être formés pour générer des images réalistes. Il décrit comment l'astuce avec les GAN consiste à former d'abord un discriminateur pour classer si une image est réelle ou fausse, puis à connecter ce discriminateur au générateur pour créer des images qui trompent le discriminateur. Cependant, il note que le générateur peut apprendre à tromper le discriminateur avec des motifs simples qui ne ressemblent pas à des images réalistes, et donc l'astuce avec les GAN est d'itérer le processus et d'aller et venir entre le générateur et le discriminateur pour produire de plus en plus. images réalistes. Enfin, il montre des exemples d'images générées par les GAN, souvent difficiles à distinguer des images réelles.

  • 00: 10: 00 Dans cette section, l'orateur discute de certains des artefacts observés dans les images générées par GAN, tels que les filigranes, et de leurs origines provenant de l'ensemble de formation. L'orateur a ensuite expliqué comment il avait trouvé les neurones connectés aux impressions de filigrane et comment il pouvait les désactiver. En désactivant les neurones de filigrane, la sortie obtenue du générateur devient exempte de tout filigrane ou artefacts associés, ce qui en fait une découverte passionnante, prouvant qu'il existe des commutateurs au sein des réseaux qui contrôlent différentes caractéristiques des images générées.

  • 00: 15: 00 Dans cette section, David Bau discute de son processus d'identification des corrélations entre des neurones spécifiques dans un GAN progressif et certaines caractéristiques sémantiques dans les images générées. Il explique que cela a été réalisé en testant chaque neurone individuellement pour voir où il s'activait le plus, en indiquant certaines caractéristiques auxquelles il était associé. Grâce à ce processus, il a pu identifier des neurones en corrélation avec des arbres, des éléments de construction tels que des fenêtres et des portes, des chaises et même des dômes. Bau note que cela a été réalisé sans aucune formation supervisée ni étiquette et montre comment le réseau a appris à différencier les divers exemples de ces caractéristiques, en les représentant dans des composants distincts.

  • 00: 20: 00 Dans cette section, David Bau discute de l'objectif de cartographier tous les différents neurones dans un modèle de génération de cuisines, qui a abouti à des catalogues de différents types de neurones corrélés. Bau a découvert que les couches intermédiaires du modèle avaient des neurones fortement corrélés aux objets sémantiques, tandis que les couches ultérieures avaient plus de corrélations physiques. Bau a découvert que les corrélations étaient si frappantes qu'elles ont conduit à des applications intéressantes, notamment l'activation et la désactivation de différents objets dans une génération d'image. Bau a démontré comment la désactivation de certains neurones d'arbres supprimait les arbres de la scène et le générateur remplissait ce qui se trouvait derrière les arbres. À l'inverse, l'activation des neurones a fait apparaître une porte dans la scène, où le générateur a rempli la taille, l'orientation et le style appropriés de la porte.

  • 00:25:00 Dans cette section de la vidéo, David Bau montre comment il peut ajouter divers éléments à une image, tels que des portes, de l'herbe et des arbres, à l'aide d'un GAN. En activant uniquement des neurones spécifiques en corrélation avec un objet ou un élément particulier, il peut manipuler la sémantique de l'image. Il discute également des limites des GAN, telles que le fait de ne pouvoir éditer que des images générées de manière aléatoire, qui peuvent être résolues avec un problème d'inversion qui nécessite d'apprendre à exécuter le modèle à l'envers.

  • 00:30:00 Dans cette section, David Bau discute des limites de l'utilisation d'un réseau antagoniste génératif (GAN) pour générer des images, car cela peut révéler des choses que le réseau ne peut pas faire. Cependant, il est possible d'affiner les pondérations du réseau pour générer un réseau très proche qui atteint exactement une image cible, tout en gardant le réseau relativement inchangé, ce qui rend l'édition toujours possible. Bau démontre l'utilisation de cette technique pour modifier de vraies photos en inversant la photo à travers le réseau, en obtenant une image de départ, en affinant le réseau pour produire l'image cible, puis en éditant l'image. Le processus permet d'ajouter ou de supprimer des objets, tels que des dômes et des portes, qui correspondent au style architectural de l'image.

  • 00:35:00 Dans cette section de la vidéo, David Bau explique comment il a utilisé la technologie GAN pour modifier des images en utilisant un réseau affiné pour surajuster une image spécifique. En modifiant les poids pré-formés du réseau de manière à ne pas trop modifier les couches d'écran principales, Bau a pu éditer des images et créer une approximation approximative de l'image cible. Cependant, le réseau ne généralise pas ces connaissances, ce qui signifie qu'il ne peut pas générer de changements significatifs pour une image autre que l'image cible.

  • 00:40:00 Dans cette section, David Bau discute du défi d'ajouter de nouveaux éléments à un réseau antagoniste génératif (GAN). Bien que le système puisse être formé pour générer des images d'un objet spécifique, il est difficile de lui enseigner de nouveaux concepts s'il n'y a pas d'ensemble de données ou de règle encodé au préalable. Bau a donc développé une technique pour modifier les poids d'un modèle pré-formé pour s'adapter à de nouvelles règles, telles que l'ajout d'arbres au sommet des tours ou le dessin de Cadillac devant des bâtiments, sans recycler le modèle. Il présente l'application dans StyleGAN2, où les utilisateurs peuvent spécifier une règle et manipuler la sortie en fonction de leurs préférences.

  • 00:45:00 Dans cette section, David Bau explique comment il peut sélectionner quelques exemples à partir de ses images générées et trouver les neurones partagés responsables de leur forme à l'aide du GAN. Une fois sélectionné, il peut redéfinir leur représentation et générer de nouvelles images en calculant les bonnes modifications du modèle du GAN pour transformer, par exemple, les sommets de tours pointues en arbres. Bau montre que ce processus est affecté par toutes les images de tours pointues dans ses résultats de recherche, conduisant à une représentation complètement nouvelle des images de tours pointues. De plus, Bau explique que chaque couche du GAN peut être considérée comme résolvant un problème simple de correspondance des paires clé-valeur utilisées comme mémoire pour la représentation du contexte. Il note que la matrice de poids est la solution au problème des moindres carrés, et changer une règle dans la paire clé-valeur d'une couche est également un problème des moindres carrés, qui peut être écrit de la même manière à des fins de comparaison.

  • 00:50:00 Dans cette section, David Bau discute d'une méthode pour changer une chose qu'un réseau a mémorisée sans changer toute la règle, permettant la création de modèles qui représentent des choses qui n'existent pas encore. Ceci est accompli en trouvant une clé et en écrivant une nouvelle valeur, en utilisant des mises à jour de premier rang dans des directions spécifiques pour modifier uniquement les valeurs de la clé. Cela permet aux utilisateurs de modifier les règles à l'intérieur d'un GAN et de les utiliser pour créer des choses basées sur leur imagination plutôt que uniquement sur les données de formation. Cette méthode peut également être utilisée là où il n'y a pas assez de données, offrant une voie potentielle pour créer de nouveaux mondes à l'aide de l'apprentissage automatique.

  • 00:55:00 Dans cette section, David Bau discute du potentiel de sa méthode pour changer les règles du monde en les rendant plus visibles et manipulables par les humains, et en permettant aux gens de construire un monde meilleur. Il aborde également la question de savoir si cette méthode peut fonctionner avec plusieurs modèles différents ou ne réussit qu'en prenant un chapeau à l'intérieur de ce modèle et en le mettant sur une corne. Il explique qu'actuellement, la méthode ne permet de recâbler qu'un seul modèle, mais c'est un objectif évident de pouvoir déplacer un élément de calcul d'un réseau de neurones à un autre. Enfin, il parle des préoccupations éthiques entourant les rendus réalistes du monde et de la façon dont il est déjà mal utilisé, citant le phénomène des deep fakes et la création de millions de faux profils Facebook à l'aide de générateurs de visages.

  • 01:00:00 Dans cette section, David Bau discute des implications et des conséquences potentielles de la génération d'images réalistes à l'aide de réseaux de neurones profonds. Alors que la médecine légale travaille sur la détection de fausses images est nécessaire, il souligne qu'il est plus excitant de comprendre la structure interne et d'apprendre comment ces modèles fonctionnent à l'intérieur. La transparence dans la compréhension du réseau profond est essentielle, car ces réseaux de neurones ne sont pas bons pour répondre à la question de savoir pourquoi ils prennent certaines décisions. L'objectif de Bau est de démonter les règles appliquées à l'intérieur du réseau pour prendre sa décision et développer une façon de demander pourquoi, aidant à définir la transparence comme un aspect éthique crucial des réseaux de neurones profonds. De plus, les travaux de Bau sur la dissection par balayage montrent que vous pouvez identifier les neurones qui contribuent aux artefacts de mauvaise apparence, ce qui peut améliorer la qualité de la sortie dans ces réseaux.

  • 01:05:00 Dans cette section, David Bau explique comment certains GAN ont des artefacts ou des distorsions dans leurs images générées qui peuvent parfois être supprimés ou réduits avec certaines méthodes d'apprentissage. Il suggère que, même si la génération actuelle de GAN est peut-être plus avancée que ce qu'il a expérimenté, il serait toujours intéressant de rechercher si ce phénomène se produit toujours. David note que poser les bonnes questions et apprendre à le faire est essentiel dans ce domaine et invite toute personne intéressée par son travail à le contacter.
 

MIT 6.S192 - Conférence 7 : "La forme de l'histoire de l'art aux yeux de la machine" par Ahmed Elgemal



MIT 6.S192 - Conférence 7 : "La forme de l'histoire de l'art aux yeux de la machine" par Ahmed Elgemal

Ahmed Elgamal, professeur d'informatique et fondateur du laboratoire d'art et d'intelligence artificielle, discute de l'utilisation de l'IA pour comprendre et générer des produits créatifs au niveau humain. Elgamal discute de l'approche scientifique de l'histoire de l'art et de l'importance de faire progresser l'IA pour comprendre l'art comme le font les humains. Il discute également de l'utilisation de l'apprentissage automatique pour classer les styles artistiques, en analysant les représentations internes, en identifiant les différences entre les styles artistiques et en quantifiant la créativité dans l'art grâce à l'IA. Elgamal propose également le concept d'objets primaires dans l'histoire de l'art et explore le potentiel de l'IA pour générer de l'art, reconnaissant les limites des approches actuelles de l'IA dans les activités créatives. Cependant, Elgamal discute également des expériences en cours pour repousser les limites du réseau d'IA afin de créer un art abstrait et intéressant.

Ahmed Elgammal discute également des résultats d'un test de réglage pour déterminer si les humains peuvent distinguer l'art créé par un GAN de celui des humains, en utilisant les œuvres d'art comme référence. Les humains pensaient que l'art créé par les machines GAN était produit par des humains 75% du temps, soulignant le concept d'ambiguïté de style et son importance pour relier la vision par ordinateur et l'apprentissage automatique à l'histoire de l'art et aux intérêts artistiques.

  • 00:00:00 Dans cette section, le professeur Ahmed Elgammal, professeur au département d'informatique de l'université Rutgers et fondateur du laboratoire d'art et d'intelligence artificielle, parle de sa passion pour l'art et de la façon dont il a réalisé l'importance de combiner l'IA et l'art . Il explique que l'art est bien plus que la reconnaissance d'objets et implique des couches de contexte, la compréhension des émotions et des contextes historiques et sociaux qui nécessitent des capacités cognitives et intellectuelles similaires à celles des humains. Il pense que comprendre et générer des produits créatifs au niveau humain est fondamental pour montrer que les algorithmes d'IA sont intelligents et discute de la question de combiner l'esthétique et la subjectivité avec l'objectivité et la science. Le professeur Elgammal plaide pour une approche scientifique de l'histoire de l'art et souligne l'importance de faire progresser l'IA pour comprendre l'art comme le font les humains.

  • 00:05:00 Dans cette section, Ahmed Elgemal discute de l'idée que n'importe quel aspect de l'art, même les éléments créatifs et subjectifs, peut être étudié objectivement à travers les yeux d'une machine. Il explique que son objectif est de comprendre les implications de regarder l'art à travers l'IA et comment cela peut faire progresser l'IA et la compréhension de l'histoire de l'art. Elgemal parle de son travail de quantification des différents éléments et principes de l'art et du style, y compris comment caractériser la séquence et l'évolution du changement de style artistique au fil du temps et quels facteurs influencent ces changements. Il discute également des limites des approches actuelles de l'IA pour comprendre le concept de style dans l'art.

  • 00: 10: 00 Dans cette section, l'orateur discute d'un problème d'apprentissage automatique supervisé pour classer différents styles artistiques, en utilisant des encodages visuels pour capturer différents niveaux de fonctionnalités. Les progrès de ce type de recherche sont comparés des années des années de porc à l'apprentissage en profondeur. La machine est capable de classer les styles artistiques au même niveau qu'un étudiant en histoire de l'art en première année. L'orateur soutient que la classification de l'art par la machine est importante pour comprendre la caractéristique du style et ce qui motive les changements de style. Les représentations internes de ces styles par la machine sont difficiles à interpréter, mais l'étude de la relation entre la façon dont la machine identifie le style et la façon dont les historiens de l'art pensent au style peut fournir des informations utiles. Par exemple, la théorie de Heinrich Wolfflin sur le style suggère des schémas visuels qui différencient les éléments de différents styles.

  • 00:15:00 Dans cette section, Elgemal discute de l'utilisation de l'apprentissage automatique pour classer les styles artistiques et analyser la représentation interne de la classification de la machine. Ils ont formé plusieurs modèles CNN, dont VGGNet et ResNet, pour effectuer une classification de style de manière supervisée. En analysant la représentation interne, ils ont constaté qu'un petit nombre de facteurs peuvent expliquer la plupart des variations de l'histoire de l'art occidentale, les deux premiers modes de variation expliquant jusqu'à 74 % de la variance, quel que soit le réseau utilisé. Ils ont également constaté que rien dans l'objet ou la composition n'avait d'importance lorsqu'il s'agissait de classer les styles artistiques. Cette approche fournit un moyen basé sur les données de comprendre comment la machine classe l'art et donne un aperçu de la structure de l'histoire de l'art.

  • 00:20:00 Dans cette section, le conférencier explique comment, bien que les machines ne soient pas informées de la chronologie des différents styles artistiques, elles peuvent apprendre à classer ces styles par elles-mêmes grâce aux images fournies. Ceci est confirmé par le fait que la machine range l'art dans l'ordre historique puisqu'il existe une corrélation de 0,7 entre la progression des styles et le temps. Le conférencier se penche sur les deux facteurs qui aident à expliquer 75 % de l'histoire de l'art, qui sont planaires par rapport à la récession et linéaires par rapport à la peinture. Il note que l'histoire de l'art a traversé un cycle à 360 degrés au cours des 500 dernières années dans la civilisation occidentale et cela est capturé dans un diagramme créé à partir de la représentation que la machine a apprise en regardant les styles artistiques.

  • 00:25:00 Dans cette section, l'orateur discute de l'utilisation de l'IA pour déterminer les différences entre les styles artistiques. Alors que certains styles, tels que la Renaissance et le baroque, peuvent être distingués à l'aide de facteurs spécifiques, tels que la couleur et la texture, d'autres styles comme l'impressionnisme ne peuvent pas être identifiés à l'aide de ces facteurs. Les collecteurs d'activation des réseaux d'IA montrent comment les mouvements artistiques ont changé au fil du temps, avec un accent particulier sur les œuvres de Cézanne, qui a agi comme un pont entre l'impressionnisme et les styles du début du XXe siècle tels que le cubisme et l'abstraction. De plus, certaines œuvres d'art de la Renaissance sont retirées du nuage de la Renaissance, des artistes particuliers tels que El Greco et Durer influençant l'art moderne. La conférence passe ensuite à une discussion sur la quantification de la créativité dans l'art par le biais de l'IA.

  • 00:30:00 Dans cette section, Elgemal discute du développement d'un algorithme pour évaluer la créativité d'une peinture compte tenu de son contexte et de son histoire de l'art. Il soutient que la capacité d'évaluer la créativité est essentielle pour les machines qui créent de l'art, et que l'algorithme doit définir la créativité de manière quantifiable. Elgemal suggère qu'il existe deux conditions principales pour qu'un produit soit qualifié de créatif : il doit être nouveau par rapport à un travail antérieur et il doit avoir une certaine valeur, ce qui signifie qu'il deviendra influent. Il examine différentes manières de décrire la créativité et explore les limites des algorithmes qui évaluent la créativité, affirmant qu'ils doivent tenir compte du contexte de l'histoire de l'art.

  • 00:35:00 Dans cette section, Ahmed Elgamal discute des limites des algorithmes en histoire de l'art, y compris ce qu'il appelle la "limitation du monde fermé" des données disponibles et la "limitation de la quantification du concept artistique" de l'encodage visuel utilisé. Il suggère que les paramètres de l'algorithme peuvent être utilisés pour interpréter les scores de créativité et comprendre comment ils affectent les résultats. Elgamal propose un graphe dirigé entre les peintures avec un poids reflétant leur similitude visuelle, et l'utilise pour créer une formulation de la créativité basée sur l'influence et la nouveauté. La formule résultante est une instance d'un problème de centralité de réseau et peut être interprétée comme une marche aléatoire dans une chaîne de Markov avec alpha défini sur un.

  • 00: 40: 00 Dans cette section, le conférencier explique comment la centralité des vecteurs propres peut être utilisée pour mesurer la centralité du réseau dans les réseaux sociaux en inversant la variante pondérée du rang de page. Cela peut même être étendu pour séparer l'originalité de l'influence, et la précision de l'algorithme peut être évaluée à l'aide d'ensembles tels que wikiart et archives qui n'ont pas été supervisés. Le conférencier explique que lors des tests, les résultats ont montré que la machine était capable d'identifier diverses œuvres d'art créatives telles que les Dames d'Alger de Picasso comme le début du cubisme.

  • 00:45:00 Dans cette section, Ahmed Elgemal discute de l'évaluation de la créativité artistique à l'aide d'une machine d'archivage, qui a été créée à cause d'une erreur dans la datation de l'œuvre de Mondrian. La méthode impliquait de prendre des œuvres d'art de la Renaissance ou de la période baroque et de les déplacer vers une période ultérieure, tout en prenant également des œuvres d'art modernes et de les ramener à la période de la Renaissance. Les résultats ont montré une baisse constante de la créativité lors du déplacement des œuvres d'art de la Renaissance et du baroque dans le temps, et une augmentation de la créativité lors du déplacement des œuvres d'art modernes vers la période de la Renaissance. L'algorithme utilisé était capable de quantifier la créativité et de donner un score qui capturait la nouveauté et l'influence, validant la capacité de l'algorithme à évaluer la créativité des œuvres d'art.

  • 00:50:00 Dans cette section, Ahmed Elgemal aborde le concept d'objets primaires dans l'histoire de l'art et comment ils peuvent donner naissance à de nouveaux styles. Il compare les objets premiers aux nombres premiers en mathématiques, établissant des parallèles entre leur nature imprévisible et leur capacité à influencer les travaux ultérieurs. Elgemal explore également le potentiel de l'IA pour générer de l'art, discutant des réseaux antagonistes créatifs et de leur capacité à apprendre le style et à s'écarter des normes. Cependant, Elgemal reconnaît que le générateur dans les GAN est limité car il est formé pour créer des échantillons qui trompent le discriminateur, sans aucune motivation pour la créativité.

  • 00:55:00 Dans cette section, l'orateur explique comment les artistes doivent constamment innover pour lutter contre l'accoutumance, mais s'ils innovent trop, il sera difficile pour les gens d'en profiter. Ils visent à pousser le réseau à être innovant mais à le maintenir dans la même distribution pour repousser les limites. L'orateur explique qu'ils ont ajouté une perte d'ambiguïté de style au discriminateur pour voir si l'art créé par le générateur correspond aux styles ou est ambigu en termes de classification, ce qui aidera la machine à explorer différentes frontières. Ils ont mené des expériences et ont conclu qu'en ajoutant une ambiguïté de style, la machine générait des œuvres d'art abstraites intéressantes avec de nouvelles compositions et combinaisons de couleurs qui étaient dans la distribution de ce qui est attrayant.

  • 01:00:00 Dans cette section, Ahmed Elgammal explore les résultats d'un test de réglage pour déterminer si un humain peut faire la distinction entre l'art créé par un GAN et celui d'un humain. Les œuvres d'art d'une exposition célèbre servent de référence et il a été découvert que les humains pensaient que l'art créé par les machines GAN était produit par des humains 75 % du temps, contre 85 % pour l'art abstrait et seulement 48 % pour l'art de l'art. Collection Bâle. Elgammal discute également du concept d'ambiguïté de style et de sa capacité à permettre la création d'art qui appartient à l'art sans style spécifique. Il souligne l'importance de relier la vision par ordinateur et l'apprentissage automatique à l'histoire de l'art et aux intérêts artistiques.
 

MIT 6.S192 - Conférence 8 : "Comment l'apprentissage automatique peut bénéficier aux créateurs humains" par Rebecca Fiebrink



MIT 6.S192 - Conférence 8 : "Comment l'apprentissage automatique peut bénéficier aux créateurs humains" par Rebecca Fiebrink

Rebecca Fiebrink, chercheuse dans le domaine de la musique et de l'IA, souligne l'importance de l'interaction humaine et du maintien des humains dans la boucle de l'utilisation et du développement de l'apprentissage automatique à des fins créatives. Elle parle de son outil, Wekinator, qui permet l'utilisation de l'apprentissage automatique dans la musique en temps réel pour la création humaine. Elle démontre la construction de divers instruments à commande gestuelle tels qu'une boîte à rythmes, un algorithme de synthèse sonore appelé Blotar et un instrument à vent appelé blowtar. Elle souligne à quel point l'apprentissage automatique peut être bénéfique pour les créateurs, leur permettant d'explorer des palettes sonores complexes et nuancées et de faciliter l'analyse des données pour les capteurs et les données en temps réel. Elle aborde également les avantages de la manipulation interactive des données de formation et explique comment l'apprentissage automatique nous permet de communiquer avec les ordinateurs de manière plus naturelle, en plus d'ajouter des surprises et des défis au processus de travail créatif.

  • 00:00:00 Dans cette section de la vidéo, Rebecca Fiebrink, chercheuse dans le domaine de la musique et de l'intelligence artificielle (IA), discute de l'importance de l'interaction humaine et du maintien des humains au courant du développement et de l'utilisation de l'apprentissage automatique pour fins créatives. Elle remet en question l'hypothèse selon laquelle l'utilisation de l'apprentissage automatique pour générer de manière autonome une production créative de type humain est en soi un soutien pour les créateurs humains. Les recherches de Fiebrink se sont étendues à d'autres domaines tels que la pratique artistique et les jeux, et elle souligne la nécessité de réfléchir à l'utilité théorique et pratique de l'apprentissage automatique pour les créateurs humains.

  • 00:05:00 Dans cette section, l'orateur discute des lacunes dans l'ensemble d'outils disponibles pour les créateurs souhaitant travailler avec des données ou l'apprentissage automatique dans les domaines de la musique et de l'art. Alors que plusieurs personnes utilisaient des bibliothèques c plus ou Python, il n'y avait pratiquement aucun outil disponible à utiliser en temps réel ou pour travailler avec des données multimédias, en particulier des données sonores. De nombreux créateurs avaient déjà obtenu des doctorats en informatique ou en génie électrique, et il y avait de la place pour des outils plus accessibles pour les créateurs qui souhaitaient travailler avec des données. L'apprentissage automatique peut être un excellent outil pour les créateurs qui souhaitent donner un sens aux divers types de données qui les entourent, tels que les référentiels en ligne ou les sources en ligne telles que les images Google, les biocapteurs ou les données des médias sociaux.

  • 00:10:00 Dans cette section, Rebecca Fiebrink explique son travail dans la création d'un logiciel appelé Wekinator qui permet l'utilisation de l'apprentissage automatique dans la musique en temps réel dans les créations humaines. Elle souligne que la construction d'un nouvel instrument qui répond aux gestes est différente de travailler avec des ensembles de formation de vérité terrain prêts à l'emploi. Pour faciliter les choses, Wekinator permet aux utilisateurs de montrer des exemples de formation en temps réel, puis de tester le modèle pour voir où il fait des erreurs. Wekinator permet également aux utilisateurs de modifier les exemples de formation sur place. Elle a ensuite démontré la construction d'une boîte à rythmes très simple à commande gestuelle à l'aide du logiciel Wekinator qui utilise une webcam pour capturer le mouvement et sous-échantillonner l'entrée dans une grille de couleurs 10 sur 10 qui donne 100 nombres pour faciliter la prédiction des gestes ou du mouvement.

  • 00:15:00 Dans cette section, l'orateur montre comment utiliser Wekinator avec régression pour créer un instrument de musique qui contrôle un algorithme de synthèse sonore appelé Blotar. Cet instrument permet à un utilisateur de contrôler un grand espace de sons, y compris de nombreux préréglages différents, en modifiant neuf paramètres de contrôle. L'orateur montre comment l'apprentissage automatique peut bénéficier aux compositeurs professionnels en leur permettant d'explorer des palettes sonores complexes et nuancées.

  • 00:20:00 Dans cette section, Rebecca Fiebrink montre comment elle utilise l'apprentissage automatique pour contrôler un instrument à vent appelé le blowtar à l'aide d'un contrôleur de jeu. Elle explique que trouver manuellement les bonnes positions dans l'espace à neuf dimensions de l'instrument serait difficile pour un programmeur expert, mais l'apprentissage automatique permet d'écrire facilement des fonctions complexes. Elle montre comment, grâce à la formation du système, l'instrument peut être affiné jusqu'à ce qu'il produise le résultat souhaité, et il peut être sauvegardé et utilisé pendant les performances ou dans le travail de composition. En tant que chercheur de l'outil, Fiebrink discute des différentes façons dont les créateurs ont utilisé l'apprentissage automatique pour améliorer leur travail, et ce que cela enseigne.

  • 00:25:00 Dans cette section, l'orateur explique comment l'apprentissage automatique peut bénéficier aux créateurs et permettre à davantage de personnes de travailler efficacement avec des données, en particulier avec des capteurs et une analyse de données en temps réel, en utilisant des exemples tels que la composition d'Anne Hege via Wekinator et Michelle Nagai. instrument de musique. Ils soulignent également comment l'apprentissage automatique peut rendre les interactions de construction créatives et plus faciles grâce aux utilisations de Wekinator dans des domaines tels que l'art, les spectacles de marionnettes, les technologies pour les personnes handicapées et la conception de prototypes interactifs. L'auteur explique que la création d'interactions de manière créative grâce à l'apprentissage automatique nécessite généralement une approche différente de l'apprentissage automatique conventionnel en raison de ses objectifs de construction d'un modèle qui génère des résultats crédibles, et la façon dont le modèle se comporte lorsqu'il ne répond pas aux objectifs devient un défi.

  • 00:30:00 Dans cette section, Fiebrink explore les différences entre la construction d'un modèle d'apprentissage automatique dans le but de faire des prédictions précises, et la construction d'un modèle d'apprentissage automatique interactif dans le but de construire quelque chose d'utile ou d'amusant. Lors de la construction d'un modèle d'apprentissage automatique interactif, les données sont considérées comme une interface de communication entre un créateur et l'ordinateur, ce qui signifie que les données sont choisies de manière subjective et qu'il est peu probable qu'elles soient indépendantes et distribuées de manière identique (iid), ce qui est une hypothèse courante. en apprentissage automatique. Cela peut conduire à tirer des enseignements de très peu d'exemples stratégiquement placés. Fiebrink démontre comment un algorithme simple comme k plus proche voisin, lorsqu'il est utilisé de manière interactive, peut toujours produire de bonnes limites de décision avec une petite quantité de données, permettant une expérimentation pratique et une conservation des données.

  • 00:35:00 Dans cette section, Rebecca Fiebrink discute des avantages de la manipulation interactive des données d'entraînement dans les domaines créatifs. Elle explique que permettre aux gens d'explorer de nombreuses idées alternatives est essentiel pour créer quelque chose qui répond aux exigences de conception. Fiebrink a découvert que l'utilisation d'algorithmes d'apprentissage automatique, tels que Wekinator, permet aux utilisateurs de recycler très rapidement les modèles et de voir les résultats immédiatement, ce qui permet de prendre en charge très efficacement le prototypage rapide. Elle note également qu'il est difficile de capturer des pratiques ou des actions humaines dans le code, même pour les programmeurs experts, dans des domaines tels que la peinture ou la pratique d'instruments de musique.

  • 00:40:00 Dans cette section, Rebecca Fiebrink explique comment l'apprentissage automatique nous permet de communiquer avec les ordinateurs de manière plus naturelle, car il permet aux gens de communiquer leurs idées en termes d'exemples, ce qui est similaire à la façon dont nous communiquons lorsque nous parlons de activités créatives les uns avec les autres. L'apprentissage automatique facilite également la création pour les novices en tirant parti de grands ensembles de données pour se conformer à une norme. Cependant, le récent projet de Fiebrink, appelé Sound Control, montre la possibilité de permettre à davantage de personnes de personnaliser les interfaces et de créer des choses pour elles-mêmes et pour les autres grâce à l'apprentissage automatique. En collaboration avec des professeurs de musique et des thérapeutes, Sound Control leur permet de fabriquer des instruments sur mesure pour les enfants, mais les a également amenés à faire d'autres choses inattendues et utiles, telles que la création de jeux d'écoute, de jeux d'improvisation et d'activités de performance.

  • 00:45:00 Dans cette section, Rebecca Fiebrink explique comment l'apprentissage automatique peut offrir des surprises et des défis productifs dans le processus de travail créatif. À l'aide d'outils comme Wekinator, elle souligne l'importance d'avoir des outils créatifs qui ajoutent des idées inattendues au processus de travail. Ainsi, elle met en garde contre le fait de négliger d'autres types d'apprentissage automatique ou même des méthodes d'apprentissage non automatique pour travailler avec des données. Elle suggère que la construction avec les données et l'apprentissage automatique peut permettre aux gens de faire des choses qu'ils ne pouvaient pas faire auparavant et explore comment les applications créatives peuvent servir d'études de cas pour rendre les autres expériences des gens avec les données et l'apprentissage automatique plus stimulantes.

  • 00:50:00 Dans cette section, l'orateur répond à une question du public sur les défis de l'utilisation de l'apprentissage automatique avec le son. L'orateur reconnaît que le son présente des défis uniques en termes de subjectivité culturelle, mais dans l'ensemble, le son peut être abordé à l'aide de processus d'apprentissage automatique typiques avec des résultats similaires à ceux d'autres médias. L'orateur souligne que les données et la manière dont elles sont utilisées pour résoudre les problèmes sont plus importantes que le support lui-même. L'orateur explique également comment l'apprentissage automatique peut être utilisé comme interface pour créer des choses et l'importance de discuter de l'alignement humain avec les machines et de qui devrait définir les objectifs.

  • 00:55:00 Dans cette section, l'orateur discute de la difficulté de définir un objectif pour l'apprentissage automatique et de la mesure dans laquelle il s'agit d'un processus expérimental où le créateur crée un ensemble de données, essaie quelque chose, puis utilise les données pour orienter le modèle vers une certaine direction. L'aspect expérientiel du processus permet au créateur d'en apprendre davantage sur l'apprentissage automatique dans un contexte spécifique par essais et erreurs, et cet aspect peut être un outil puissant pour que les gens en apprennent davantage sur l'apprentissage automatique. Des recherches récentes de Carrie Cai et d'autres montrent également que des procédures exploratoires expérimentales similaires peuvent aider les gens à établir la confiance et à comprendre ce qui est modélisé, même dans des applications où ces personnes peuvent ne pas avoir d'expertise préalable en apprentissage automatique.
 

MIT 6.S192 - Conférence 9 : "Abstractions neurales" par Tom White



MIT 6.S192 - Conférence 9 : "Abstractions neurales" par Tom White

Dans cette vidéo, l'artiste et conférencier Tom White discute de son approche pour intégrer la perception de la machine et les réseaux de neurones dans sa pratique artistique. White partage son expérience dans l'étude des mathématiques et de la conception graphique au MIT et son travail actuel d'enseignement du codage créatif à l'Université Victoria. Il discute également de ses recherches sur la construction d'outils pour aider les autres à utiliser le médium de manière créative et de ses propres œuvres qui explorent la perception de la machine. White présente ses croquis et estampes, créés à l'aide d'algorithmes d'IA, et parle de ses collaborations avec des groupes de musique et de ses récentes expositions d'art. Il discute également des défis de la collaboration avec les réseaux de neurones et des conséquences involontaires de la mise à l'état sauvage de l'art généré par l'IA.

  • 00:00:00 Dans cette section de la vidéo, l'artiste et conférencier Tom White se présente et parle de son parcours, qui comprend des études de mathématiques et de graphisme au Media Lab du MIT. Il parle de son intérêt pour l'exploration de la programmation en tant que discipline créative et comment il enseigne maintenant le codage créatif à l'Université Victoria à Wellington. White mentionne également ses recherches, qui se concentrent sur la création d'outils pratiques pour aider les autres à utiliser le médium de manière créative. De plus, il parle de sa propre pratique artistique distincte, dont il dit qu'il discutera davantage dans son discours, et espère inspirer les étudiants intéressés à poursuivre des voies similaires.

  • 00:05:00 Dans cette section, l'orateur donne un aperçu de son exposé sur les abstractions neurales et de son œuvre qui explore la perception de la machine. Il explique que les machines ont leurs propres façons uniques de voir le monde, et son œuvre vise à exposer cela à un public plus large. L'orateur aborde également le sujet de la représentation et de l'abstraction de l'IA, et comment il étudie les représentations des systèmes de vision des réseaux neuronaux pour les transmettre dans un contexte artistique. Il illustre cela en montrant quelques-unes de ses œuvres d'art basées sur des ensembles de données d'images réelles, telles que des yeux, des visages et des poulets, et comment il introduit des diagnostics dans le processus pour comprendre le monde intérieur du système. L'exposé se termine par les implications de l'exploration de la perception des machines dans l'art et comment cela peut nous aider à apprécier les différentes façons dont les machines perçoivent le monde.

  • 00: 10: 00 Dans cette section, Tom White discute de certains de ses projets initiaux pendant son séjour au MIT, y compris son exploration des techniques d'apprentissage automatique pour créer des filtres vidéo en temps réel, sa création d'une interface manuelle personnalisée pour l'interaction multi-touch , et son projet artistique Stream of Consciousness, qui incorporait des techniques d'IA telles que WordNet pour trouver des mots apparentés. White parle également de son implication dans la création de la bibliothèque de logiciels de base Acu, qui a ensuite servi de base à des systèmes tels que Processing et OpenFrameworks, et comment son travail actuel consiste à créer des croquis et des dessins pour les processus d'apprentissage automatique.

  • 00: 15: 00 Dans cette section, l'orateur discute de la préséance dans l'art qui a inspiré leur travail, à commencer par l'artiste Stuart Davis, qui a pris des objets communs et s'est forcé à les peindre encore et encore jusqu'à ce qu'il y trouve quelque chose de nouveau. Harold Cohen était un autre artiste qui a expérimenté des systèmes de dessin génératif en codifiant ses idées sur la création de marques de manière formelle grâce à l'intelligence artificielle. Travaillant plus en tant que collaborateur avec ces systèmes plus tard dans la vie, la question centrale de Cohen restait "qu'est-ce qu'une image?" L'orateur parle ensuite de l'aspect technique du travail d'Andy Warhol et Roy Lichtenstein en sérigraphie en tant que technique qu'ils partagent dans l'exécution de leurs œuvres.

  • 00:20:00 Dans cette section, l'artiste et conférencier Tom White discute de sa technique artistique pour créer des impressions en utilisant la sérigraphie au lieu d'une technique au pinceau, qu'il crée à l'aide d'un système de vision par ordinateur qui optimise la perception pour créer des images qui ressemblent à des ventilateurs électriques ou des jumelles utilisant des algorithmes d'intelligence artificielle. White explique comment Stuart Davis a appris à percevoir et à représenter des objets familiers de nouvelles façons en regardant les mêmes objets tous les jours. Dans le même ordre d'idées, White cherche à utiliser des systèmes de vision par ordinateur pour introduire de nouvelles façons de percevoir et de représenter des objets familiers.

  • 00: 25: 00 Dans cette section de la vidéo, l'orateur discute de ses démonstrations d'utilisation d'un système de réseau neuronal pour créer des croquis simples en utilisant très peu de traits qui peuvent être manipulés pour créer différentes images. Il explique comment il a créé des croquis d'un requin marteau et d'un fer en utilisant le même nombre de coups, puis montre qu'en inversant la position des coups, il peut tromper les réseaux de neurones pour voir un fer comme un requin et vice versa. L'orateur montre comment le réseau de neurones peut créer des esquisses de différents objets et montre comment le système n'est pas affecté par l'orientation vers la gauche ou vers la droite, mais est influencé par les couleurs dans l'ensemble de données de formation fourni.

  • 00:30:00 Dans cette section, Tom White parle de différents exemples d'apprentissage automatique et de leur fonctionnement. Un exemple est un système de vision par ordinateur qui utilise un échantillon de tasses à mesurer qui sont principalement vertes, faisant croire au système que les tasses à mesurer vertes sont plus courantes qu'elles ne le sont en réalité. White discute également d'une impression qu'il a faite d'une tique qui s'est enregistrée plus fort que tous les exemples de validation, qu'il compare à l'art et au design où l'amplification par la simplification est utilisée pour créer une meilleure abstraction des concepts. Enfin, White présente sa série d'abstractions synthétiques, qui consiste en des impressions abstraites qui imitent des images explicites ou dangereuses pour le travail qui déclenchent des filtres dans les moteurs de recherche.

  • 00:35:00 Dans cette section, l'orateur partage des exemples de la façon dont ses systèmes fonctionnent avec des API en ligne, y compris des ensembles de données pour les baleines, les pingouins et les yeux. Il évoque également sa collaboration avec un groupe de musique où il a créé des ensembles de données personnalisés, ainsi que ses récentes expositions d'art présentant des groupes d'images que l'ordinateur pense être des nœuds, des fourmis ou d'autres objets. L'orateur poursuit en parlant de différentes approches des techniques génératives et de l'impact de ses œuvres sur le monde réel. Il mentionne son intérêt pour les réseaux de genre et comment il a créé une œuvre d'art en utilisant les sorties de réseaux neuronaux de visages.

  • 00:40:00 Dans cette section, Tom White parle de son exploration des réseaux génératifs et de son travail avec des étudiants diplômés pour créer un tableur qui utilise des échantillons d'un modèle génératif comme outil de créativité via l'interface d'un tableur. D'autres artistes comme Lena Sarin, Mario Klingemann, Robbie Barrett et Edmund Bellamy sont également mentionnés. White discute également des défis de la collaboration avec ces systèmes pour la création artistique, en insistant sur le rôle de l'artiste et du système dans le processus de co-création. Enfin, il parle des conséquences involontaires de la mise à l'état sauvage de l'art généré par l'IA et de la manière dont nous pouvons le comprendre grâce à des techniques de visualisation et en demandant au système ce qu'il voit.

  • 00:45:00 Dans cette section, l'orateur parle de techniques similaires au rêve profond où une image est introduite dans un système pour visualiser comment elle se rapporte. L'orateur mentionne comment leurs œuvres d'art se heurtent à des systèmes du monde réel comme le filtre de contenu pour adultes de Tumblr, l'API Amazon et les bureaux universitaires de Sloan Kettering. Ils discutent également d'exemples de la façon dont ces systèmes de vision s'effondrent en catégorisant les œuvres d'art sous la même étiquette qu'ils ont pour les objets du monde réel. L'orateur explique que l'idée centrale de leur œuvre est de la comprendre à travers les yeux des machines, ce qui crée de l'art pour et par les machines, permettant aux gens de l'apprécier indépendamment de leur expérience en apprentissage automatique.

  • 00:50:00 Dans cette section, Tom White explique pourquoi il a choisi la sérigraphie comme médium de prédilection pour ses œuvres d'art physique. Il souligne que le travail physique permet aux gens de s'y rapporter différemment des installations interactives avec écrans et caméras. Il explique également que la sérigraphie lui permet de créer un travail plus précis et qu'elle a un précédent pour les artistes pop dans le monde de l'art. Tom explique en outre que faire du travail physique est plus difficile à réaliser car il est difficile de gérer d'éventuelles photos, mais c'est un moyen intéressant de mener des attaques contradictoires dans le monde physique. De plus, il explique comment l'art peut aider à mieux comprendre les biais algorithmiques ou d'autres aspects de l'IA et de la cybersécurité.

  • 00: 55: 00 Dans cette section, Tom White explique comment le biais dans l'ensemble de données Celeb-A, les femmes étant plus susceptibles d'être étiquetées comme souriantes que les hommes, peut entraîner un biais dans les réseaux génératifs visant à modifier les expressions faciales. Il note que son travail ne se concentre pas sur des exemples contradictoires mais plutôt sur la visualisation et la compréhension des stimuli qui déclenchent les réseaux de neurones. White parle également d'expérimenter des représentations simples, telles que des traits minimaux, pour faciliter la génération de sorties visuelles. Il note que les gens peuvent reconnaître des images dans des formats basse résolution, s'inspirant de la recherche en psychologie qui a testé cette capacité.

  • 01:00:00 Dans cette section, Tom White encourage les téléspectateurs à consulter les recherches dans l'espace des abstractions neurales et les dirige vers les vidéos de l'atelier de l'année précédente pour plus d'informations. Il souligne la valeur de la recherche et accueille toutes les questions que les téléspectateurs pourraient avoir.
 

MIT 6.S192 - Conférence 10 : "Magenta : renforcer l'agence créative grâce à l'apprentissage automatique" par Jesse Engel



MIT 6.S192 - Conférence 10 : "Magenta : renforcer l'agence créative grâce à l'apprentissage automatique" par Jesse Engel

Jesse Engel, chercheur principal chez Google Brain, parle de Magenta, un groupe de recherche qui étudie le rôle de l'IA et de l'apprentissage automatique dans la créativité et la musique. Le groupe se concentre principalement sur les modèles d'apprentissage automatique qui génèrent des médias et les rendent accessibles via un code open source et un framework appelé magenta.js, qui permet la création de modèles créatifs interactifs en Javascript. Engel souligne l'importance de considérer la musique comme une plate-forme sociale et évolutive pour l'identité et la connexion culturelles plutôt que comme une marchandise à produire et à consommer à moindre coût. Ils explorent comment l'apprentissage automatique peut donner aux individus de nouvelles formes d'agence créative grâce à l'expressivité, l'interactivité et l'adaptabilité. La conférence couvre divers sujets, notamment la conception de modèles d'apprentissage automatique pour la musique, l'utilisation de la convolution dilatée pour les sorties prédictives, le traitement du signal numérique différentiable et la création de systèmes d'apprentissage automatique qui produisent de beaux échecs. De plus, il parle des défis de collaboration avec les artistes et du grand défi de sortir de la distribution et de la compositionnalité dans les modèles d'apprentissage.

  • 00:00:00 Dans cette section, Jesse Engel, chercheur principal chez Google Brain, parle de Magenta, un groupe de recherche qui étudie le rôle de l'IA et de l'apprentissage automatique dans la créativité et la musique. Le groupe se concentre principalement sur les modèles d'apprentissage automatique qui génèrent des médias et les rendent accessibles via un code open source et un framework appelé magenta.js, qui permet la création de modèles créatifs interactifs en Javascript. Engel souligne l'importance de considérer la musique comme une plate-forme sociale et évolutive pour l'identité et la connexion culturelles plutôt que comme une marchandise à produire et à consommer à moindre coût. Ils explorent comment l'apprentissage automatique peut donner aux individus de nouvelles formes d'agence créative grâce à l'expressivité, l'interactivité et l'adaptabilité.

  • 00:05:00 Dans cette section, Jesse Engel parle de la conception de modèles d'apprentissage automatique qui sont plus piratables et nécessitent moins de données pour s'entraîner, en particulier dans le contexte de la musique. Il discute des compromis entre les différentes facettes de la conception d'algorithmes, comme les rendre à faible latence avec des contrôles de causalité intuitifs, tout en restant expressifs et adaptatifs. Il compare deux modèles d'apprentissage automatique - l'openai Jukenbox qui modélise la forme d'onde audio brute de manière très réaliste au détriment de la nécessité de tonnes et de tonnes de données et de griffonnages qui modélisent la musique comme des données structurées mais avec des sons irréalistes. Il termine en discutant de l'approche adoptée par le groupe, qui consiste à utiliser la structure du modèle pour trouver un compromis entre l'interprétabilité et l'expressivité.

  • 00:10:00 Dans cette section, Jesse Engel discute de l'état de l'art antérieur des modèles de transcription audio et de la façon dont ils étaient limités lorsqu'il s'agissait de prédire avec précision les notes d'une manière qui correspondait à la perception humaine. Il démontre comment les erreurs dans les images individuelles n'ont pas autant d'importance que le moment où les notes commencent réellement, et comment une nouvelle architecture de réseau neuronal a été créée afin de mieux faire correspondre la fonction de perte à ce qui nous intéresse - comment la musique sonne quand nous la jouons. dos. Le nouveau modèle de pointe a été en mesure d'obtenir une transcription précise même lorsque l'audio était "à l'état sauvage", comme l'a démontré un pianiste jouant dans son téléphone portable.

  • 00:15:00 Dans cette section de la vidéo, Jesse Engel de Google Brain explique l'importance des ensembles de données dans les réseaux de neurones, en utilisant l'exemple d'un grand ensemble de données du concours international de piano électronique. Il discute de l'utilisation des réseaux de neurones, tels que les réseaux de neurones récurrents (RNN) et de l'architecture des transformateurs, pour modéliser des séquences musicales et du défi de la tokenisation des notes de musique. Pour relever ce défi, ils ont créé un vocabulaire pour reconnaître les événements musicaux individuels et les horodatages. En représentant avec précision la micro-synchronisation, la vélocité et les variations des données, les modèles sont capables de produire une musique au son plus naturel.

  • 00:20:00 Dans cette section de la conférence, Jesse Engel explique comment l'équipe Magenta a commencé avec juste un motif original et a utilisé un modèle autorégressif appelé LSTM pour prédire le jeton suivant compte tenu des jetons précédents. Cependant, en raison de la cohérence à long terme limitée du LSTM, ils ont implémenté le transformateur pour garder une trace de toutes les données précédentes afin d'améliorer la cohérence. Avec cela, ils pourraient transcrire l'audio brut pour obtenir des milliers d'heures de musique symbolique, leur permettant de former des modèles qui ont une cohérence beaucoup plus à long terme. Pour donner un contrôle plus intuitif, l'équipe a également extrait la mélodie et l'a utilisée comme un contrôle dont la génération dépend. Ils pourraient ensuite utiliser ce modèle comme synthétiseur neuronal pour différents sons, et les paramètres pourraient être réglés sur des ensembles de sons spécifiques.

  • 00:25:00 Dans cette section de la vidéo, Jesse Engel explique les aspects techniques des processus de convolution dilatée de Magenta pour un réseau de neurones afin de prédire les sorties basées sur des contrôles de haut niveau. En utilisant la convolution dilatée, le système est capable d'examiner une grande étendue de temps sans sous-échantillonnage et évite de perdre des informations tout en étant expressif. Cependant, le processus est lent et nécessite un conditionnement à plus long terme pour une structure à plus long terme. Grâce à l'utilisation du conditionnement des notes, le système est capable de générer des performances réalistes avec des représentations intermédiaires interprétables.

  • 00:30:00 Dans cette section, nous en apprenons plus sur le DDSP, ou traitement différentiable du signal numérique. Jesse Engel propose d'intégrer des méthodes traditionnelles de traitement du signal telles que des oscillateurs, des filtres et des synthétiseurs avec un apprentissage en profondeur pour créer un système plus efficace, réaliste et réactif. Au lieu d'avoir un réseau neuronal créant directement de l'audio, des éléments de traitement de signal connus sont utilisés, et un réseau neuronal les contrôle pour produire des sorties expressives. Les modules DDSP sont interprétables et efficaces, et le son peut être modélisé par ces oscillateurs sinusoïdaux à fréquence variable. DDSP utilise l'oscillation harmonique et les équations différentielles du second ordre pour plus de flexibilité avec la modélisation audio. Le DDSP n'est pas seulement des composants périodiques, mais comprend également des éléments de bruit, qui peuvent être mis en forme de manière aléatoire avec différents filtres. En contrôlant ces éléments de synthèse à l'aide d'un décodeur de réseau neuronal, un son peut être généré qui se compare favorablement au son d'origine.

  • 00:35:00 Dans cette section de la conférence, l'orateur explique comment il peut entraîner le décodeur pour créer une synthèse de haute qualité avec moins de données en exécutant des spectrogrammes à travers le modèle, puis en le re-synthétisant. Cela permet au modèle de transformer la hauteur et le volume en un son de flûte, un son de violon et même de transférer les timbres des styles de chant. Ils peuvent également désactiver différents composants du modèle, tels que la réverbération et les harmoniques, pour inspecter des attributs individuels. Le modèle peut être compressé jusqu'à des modèles de moins d'un mégaoctet pour la mise en œuvre d'opérations en temps réel sur un navigateur. Le modèle DDSP peut s'appliquer à un large éventail de cultures, ce qui lui permet de préserver les variations et les changements microtonaux.

  • 00:40:00 Dans cette section, Jesse Engel discute du projet Magenta et de son objectif de renforcer l'agence créative à l'aide de l'apprentissage automatique. Il explique qu'ils ont reçu des réponses positives de la part de musiciens qui trouvent l'outil utile dans leur processus créatif plutôt que de le remplacer. L'équipe Magenta se concentre sur la création d'un écosystème plus large, comprenant une interface Web pour les modèles de formation, le déploiement sur des applications Web et des plug-ins en temps réel pour les logiciels de musique. Engel note que le système est plus interactif, en temps réel et adaptatif, mais il y a encore place à l'amélioration en termes d'expressivité et de divers modèles interactifs. L'équipe explore des modèles non supervisés pour apprendre la structure et les étiquettes à partir des données. Ils ont plusieurs démos, logiciels et outils professionnels disponibles sur leur site Web pour que tout le monde puisse les essayer.

  • 00:45:00 Dans cette section, Jesse Engel explique que la création de systèmes d'apprentissage automatique qui produisent de beaux échecs est une façon de penser à la création de systèmes que les artistes peuvent utiliser. Par exemple, les limitations conçues dans les boîtes à rythmes originales se sont avérées être leur caractéristique déterminante, ce qui a poussé les musiciens hip-hop et électroniques à utiliser les sons de manière amusante et artistique. De plus, Engel discute de la relation entre l'interprétabilité et l'interactivité et suggère que le langage et les hypothèses utilisés par les modèles d'apprentissage automatique pourraient être la solution pour créer des API qui agissent comme intermédiaires entre le logiciel et l'utilisateur pour une interprétabilité maximale.

  • 00:50:00 Dans cette section de la vidéo, Jesse Engel discute des défis liés à l'application d'une structure de généralisation tout en concevant des modèles adaptés au public cible. Il explique comment les réseaux de neurones peuvent émuler la mécanique newtonienne dans un ensemble spécifique d'images, mais ont du mal à extrapoler lorsqu'un aspect de l'image change. Il évoque également à quel point la construction de modèles pouvant s'adapter à l'intensité de la musique ou au volume de la grosse caisse peut être une idée fascinante. La discussion sur les collaborations avec des artistes est également évoquée, mais Jesse explique que c'est difficile en raison des limites et de leur système de promotion basé sur la recherche. La discussion est liée au grand défi de sortir de la distribution et de la compositionnalité dans les modèles d'apprentissage.
 

MIT 6.S192 - Conférence 11 : "Biodiversité artificielle", Sofia Crespo et Feileacan McCormick



MIT 6.S192 - Conférence 11 : "Biodiversité artificielle", Sofia Crespo et Feileacan McCormick

Dans cette conférence sur la "biodiversité artificielle", Sofia Crespo et Feileacan McCormick explorent l'intersection de la technologie et de la nature pour produire des formes d'art uniques. Le duo discute de leur intérêt et de leur utilisation de l'apprentissage automatique et de son lien avec la beauté et met en évidence les limites de la perception humaine. Ils discutent également de leurs projets collaboratifs, y compris "Entangled Others", où ils préconisent de représenter à la fois les espèces individuelles et leurs enchevêtrements complexes pour créer une meilleure compréhension des systèmes écologiques. Les conférenciers soulignent l'importance de la durabilité et de la collaboration dans la pratique artistique et la relation entre les outils et l'art, affirmant que les algorithmes ne peuvent pas remplacer les artistes humains.

  • 00:00:00 Dans cette section, Sofia Crespo et Feileacan McCormick discutent du concept de biodiversité artificielle et explorent la question de savoir ce qui rend quelque chose beau dans le domaine de l'apprentissage automatique. Le duo se demande si la beauté se trouve dans l'ensemble de données utilisé pour entraîner les réseaux de neurones, le processus d'entraînement du modèle ou l'interaction entre les couches de neurones virtuels dans le cerveau. Ils établissent également des parallèles entre l'acte de formation d'un réseau de neurones et la méditation, car les deux impliquent la conservation d'un ensemble de données et l'exploration de modèles. Dans l'ensemble, la discussion met en lumière les façons dont la technologie et la nature peuvent se croiser pour produire des formes d'art uniques.

  • 00:05:00 Dans cette section, Sofia Crespo parle de sa fascination pour les méduses et des limites de la perception humaine en termes de couleur. Elle explique que son intérêt pour les méduses l'a amenée à explorer les méduses synthétiques grâce à des algorithmes d'apprentissage automatique. Elle réfléchit à la question de savoir ce que les réseaux de neurones artificiels peuvent nous apprendre sur nos processus cognitifs et le concept de "nature" et comment le visualiser. Crespo discute également de l'article d'Aaron Hertzmann sur l'indétermination visuelle dans l'art gan, qui explore comment des stimuli visuels significatifs peuvent être visuellement indéterminés et déclencher des réponses cognitives.

  • 00:10:00 Dans cette section, les conférenciers discutent de leur intérêt et de leur utilisation de l'apprentissage automatique et de son lien avec la beauté. Ils expliquent que lorsqu'ils travaillent avec l'apprentissage automatique, ils travaillent dans une sphère très humaine, en utilisant des ensembles de données créés par l'homme et, par conséquent, en traitant les hypothèses visuelles humaines sur la nature. Les conférenciers suggèrent que la technologie fait partie de la nature puisque les humains font partie de la nature, et cette idée que la technologie est une entité distincte de la nature est erronée. De plus, les conférenciers discutent de la définition de la vie artificielle et soulignent qu'elle peut être comprise dans diverses disciplines telles que les logiciels, l'art ou même les wetwares, le matériel et la génétique. Ils utilisent le travail de Karl Sim sur des créatures artificielles évoluées pour démontrer la capacité des primitifs à incarner des qualités réalistes et, avec leur comportement, émergent un sentiment de compétitivité et des actions axées sur des objectifs.

  • 00:15:00 Dans cette section, nous apprenons comment les réseaux de neurones artificiels peuvent créer des créatures et un langage fantastiques, un peu comme le Codex Seraphinianus de Luigi Serafini. Ces créations sont une recombinaison remixée des connaissances humaines de la botanique, de la zoologie, du langage et de l'architecture. Malgré leur caractère artificiel, ils montrent une remarquable diversité dans la diversité. La conférence traite également d'Anna Atkins, photographe et botaniste du XIXe siècle qui a créé la technique du cyanotype. L'orateur a combiné la technique d'Atkins avec le réseau neuronal convolutif pour générer des créatures réalistes, qui ont été imprimées à l'aide de la technique du cyanotype. Ce projet s'appelle Artificial Natural History, un livre qui montre comment les humains voyaient la nature avant l'existence des caméras.

  • 00:20:00 Dans cette section, Sofia Crespo et Feileacan McCormick discutent de leur projet collaboratif, "Entangled Others", où ils plaident pour la représentation non seulement des espèces individuelles, mais aussi de leurs enchevêtrements complexes pour créer une meilleure compréhension des systèmes écologiques. Ils expliquent leur premier projet, "Artificial Remnants", où ils ont généré des modèles 3D d'insectes et créé une expérience de réalité augmentée permettant aux gens d'interagir avec les créatures numériques. Le succès de ce projet a conduit à leur dernier effort, qui consistait à construire un écosystème et à explorer le concept abstrait d'exister dans une relation. Cependant, en raison de COVID-19, leurs plans d'exposition ont été modifiés.

  • 00:25:00 Dans cette section, les intervenants discutent de leur projet sur une "biodiversité artificielle" et comment ils se sont tournés vers les récifs coralliens comme exemple de l'interdépendance des écosystèmes. Cependant, faute de données, ils ont dû travailler avec un artiste pour créer du corail synthétique afin d'imiter la diversité des morphologies coralliennes. Ils reconnaissent qu'il s'agit d'une représentation subjective car ce n'est pas un reflet fidèle du système complexe d'un récif corallien mais cela nous rappelle quand même ses qualités. Ils parlent également de l'aspect fascinant de mettre la nature à l'honneur à travers une représentation abstraite des modèles de la nature et de travailler avec des biomatériaux était un défi d'apprentissage.

  • 00:30:00 Dans cette section, les conférenciers expliquent comment ils se sont efforcés de donner la priorité à la durabilité en collaborant avec un studio spécialisé dans la création de bioplastique à partir de noyaux d'olives mis au rebut. Ce matériau peut être fondu et réutilisé encore et encore, leur permettant de créer des expositions, puis de réutiliser le matériau pour de futurs projets. Ils soulignent qu'il est crucial pour les artistes travaillant avec la nature de penser de manière durable et de tenir compte des conséquences physiques des couches numériques, en particulier en utilisant l'apprentissage automatique dans la pratique artistique. Ils soulignent également l'importance de la collaboration et des interactions interdisciplinaires pour renforcer les liens et en créer de nouveaux, ce qui les a amenés à lancer un appel ouvert aux autres pour qu'ils les contactent pour des collaborations, des conversations, etc. La discussion touche aussi à la philosophie et fait référence à Platon et Deleuze et Guattari.

  • 00:35:00 Dans cette section, les artistes Sofia Crespo et Feileacan McCormick discutent de la relation entre les outils et l'art. Ils expliquent que tout comme un crayon façonne notre façon de dessiner, les outils numériques ont aussi des qualités de façonnage. Ils abordent également l'importance de ne pas oublier la perspective artistique lors de la création d'art génératif et numérique, et pourquoi il est nécessaire de remettre en question non seulement les solutions techniques, mais aussi le pourquoi, le comment et le quoi. Ils affirment qu'il est essentiel de se rappeler que l'art est fait pour être consommé par les humains et que les algorithmes ne peuvent remplacer les artistes humains.
 

MIT 6.S192 - Conférence 12 : "AI+Creativity, an Art Nerd's Perspective" par Jason Bailey



MIT 6.S192 - Conférence 12 : "AI+Creativity, an Art Nerd's Perspective" par Jason Bailey

Jason Bailey explique comment l'apprentissage automatique a un impact sur le domaine de l'art, de la détection des faux à la prévision des prix. Il exhorte les artistes à être conscients des préjugés inhérents à l'art axé sur les données et insiste sur le besoin de données de formation qui incluent toutes les perspectives.

  • 00:00:00 Jason Bailey est maître de conférences au MIT qui discutera de l'IA et de la créativité. Il vient d'une formation en ingénierie et en marketing et apporte cette expérience à son discours sur l'intersection de l'art et de la technologie. Bailey se concentrera sur trois domaines clés : l'histoire de l'art, la prévision des prix sur le marché de l'art et l'utilisation de l'IA et du ML dans les arts créatifs.

  • 00:05:00 Jason Bailey décrit comment il s'est intéressé au problème de la contrefaçon dans l'art et comment il a passé trois ans à numériser des livres grand format pour créer une base de données des œuvres complètes de l'artiste. Il explique à quel point ces CV de catalogue sont rares et difficiles à trouver, et comment récemment quelqu'un a réédité une version populaire pour environ 2 000 $.

  • 00:10:00 Le blog "artnome.com" de Jason Bailey explore les moyens d'utiliser les données pour mieux comprendre et critiquer l'art. En 2017, son blog a attiré l'attention de 538, qui a publié un article sur son projet "Ai for Art Scholarship: What Does That Look Like?" Après avoir partagé des liens vers ses projets et publications dans sa conférence, Bailey fournit un résumé en 1 paragraphe de son discours.

  • 00:15:00 Jason Bailey explique comment l'apprentissage automatique est utile dans l'histoire de l'art, en particulier pour analyser les peintures et comprendre l'histoire de l'art. Il parle également de son récent projet, qui impliquait la formation d'un modèle d'apprentissage automatique pour identifier les peintures emblématiques du même artiste dans différents musées.

  • 00:20:00 La conférence de Jason Bailey explore les relations entre les prix de la peinture et les pixels individuels qui composent les peintures, ainsi que les tendances du marché de l'art. Sa plateforme d'apprentissage automatique a pu prédire les prix des peintures du peintre espagnol Pablo Picasso avec une corrélation de 0,58.

  • 00:25:00 Jason Bailey discute de l'état actuel de l'apprentissage automatique et de son impact sur le monde de l'art. Il explique comment l'apprentissage automatique est utilisé pour créer un art plus réaliste et surréaliste, et comment cette innovation a récemment suscité un regain d'intérêt dans le domaine.

  • 00:30:00 Jason Bailey donne une conférence sur l'intelligence artificielle et la créativité, décrivant comment le rêve profond et le transfert de style peuvent être utilisés pour créer de l'art. Il parle de ses propres expériences avec ces technologies et du fait qu'elles ne l'ont pas autant enthousiasmé qu'au moment où il les a découvertes. Il termine la conférence en discutant du travail de l'artiste français Robbie Barrett.

  • 00:35:00 Jason Bailey donne une conférence sur l'IA et la créativité, expliquant comment la formation artistique traditionnelle est insuffisante pour faire face à l'époque actuelle, alors que l'IA et l'art génératif sont répandus. Il explique comment sa formation en art lui permet de se connecter avec des artistes et des promoteurs de l'art génératif, et comment son propre travail a été influencé par ces artistes.

  • 00:40:00 Jason Bailey explique comment la technologie et l'art se sont croisés dans le passé, et comment l'analyse des données peut aider les artistes à mesurer l'abstraction. Il mentionne également un projet auquel il a participé où ils ont calculé l'abstraction dans la carrière d'un peintre.

  • 00:45:00 Jason Bailey explique comment l'algorithme de son équipe peut être utilisé pour prédire les prix des peintures, en fonction d'un certain nombre de facteurs tels que la popularité historique de l'artiste, la complexité de la peinture et le matériau utilisé dans la peinture. Il note également que l'algorithme en est encore à ses débuts et que davantage de recherches sont nécessaires pour l'améliorer.

  • 00:50:00 Dans cette conférence, Jason Bailey explique comment il utilise les données des enchères pour étudier la créativité, ainsi que la façon dont il a intégré d'autres domaines, tels que l'art et la nature, dans ses modèles.

  • 00:55:00 Jason Bailey discute de l'impact de l'IA sur la créativité, soulignant le besoin de données de formation qui incluent toutes les perspectives. Il discute également des conséquences potentielles des algorithmes d'IA biaisés. Enfin, il exhorte les artistes à être conscients des préjugés inhérents à l'art axé sur les données.
 

MIT 6.S192 - Conférence 13 : "Surfaces, objets, procédures : intégration de l'apprentissage et des graphiques pour la compréhension des scènes 3D" par Jiajun Wu



MIT 6.S192 - Conférence 13 : "Surfaces, objets, procédures : intégration de l'apprentissage et des graphiques pour la compréhension des scènes 3D" par Jiajun Wu

Jiajun Wu, professeur adjoint à Stanford, discute de ses recherches sur la compréhension de la scène dans les machines grâce à l'intégration de l'apprentissage en profondeur et de la connaissance du domaine à partir de l'infographie. Wu propose une approche en deux étapes pour récupérer une géométrie d'objet 3D à partir d'une seule image en estimant la surface visible à travers la carte de profondeur et en complétant la forme en fonction des connaissances préalables d'un grand ensemble de données d'autres formes similaires. Wu propose également d'utiliser des cartes sphériques comme représentation de substitution pour les surfaces en 3D afin de mieux capturer les caractéristiques de surface, permettant au système de compléter les formes dans une sortie plus détaillée et plus fluide. De plus, Wu explique comment la reconstruction de formes dans des programmes de formes peut améliorer considérablement la modélisation et la reconstruction, en particulier pour les objets abstraits et artificiels. Enfin, Wu explique comment les connaissances du domaine issues de l'infographie peuvent être intégrées à l'apprentissage automatique pour améliorer la reconstruction des formes, la synthèse des textures et la compréhension des scènes.

  • 00:00:00 Dans cette section de la vidéo, Jiajun Wu, professeur adjoint à Stanford, discute de ses recherches sur la compréhension de la scène dans les machines grâce à l'intégration de l'apprentissage en profondeur et de la connaissance du domaine à partir de l'infographie. En reproduisant la cognition humaine, son objectif est de construire des machines qui ont une compréhension complète des scènes, y compris les catégories d'objets, la géométrie 3D, les propriétés physiques et les prédictions futures. Les recherches de Wu visent également à combler le fossé entre l'apprentissage automatique et l'art en créant un modèle hybride qui intègre les connaissances du domaine de l'infographie à l'apprentissage en profondeur. Cette approche offre de nouvelles possibilités dans l'édition et la génération d'images, ainsi que la créativité dans l'application de l'apprentissage en profondeur.

  • 00: 05: 00 Dans cette section de la conférence, Jiajun Wu aborde le problème de la récupération d'une géométrie d'objet 3D à partir d'une seule image, qui peut être considérée comme l'inverse du problème classique en infographie consistant à générer une image 2D à partir d'une forme 3D , texture, éclairage, matériau et point de vue. Alors qu'un réseau de neurones peut être formé pour effectuer la tâche, Wu suggère que l'intégration des connaissances antérieures de l'infographie pourrait améliorer les performances, l'efficacité et la généralisabilité. Il propose une approche en deux étapes pour résoudre le problème : premièrement, estimer la surface visible à travers la carte de profondeur, et deuxièmement, compléter la forme en fonction des connaissances préalables d'un grand ensemble de données d'autres formes similaires.

  • 00:10:00 Dans cette section, Jiajun Wu discute de l'importance d'utiliser la profondeur comme représentation intermédiaire pour capturer les surfaces des objets et les détails des formes. En formant un modèle sur l'ensemble de données ShapeNet et en échantillonnant aléatoirement des formes à partir de celui-ci, Wu démontre que cette approche améliore considérablement la précision de la sortie. Cependant, il reconnaît que la généralisation à des objets que le modèle n'a jamais vus auparavant peut être un défi, conduisant à des interprétations erronées des données. Pour résoudre ce problème, Wu propose de construire une couche différentielle qui rétroprojette une représentation 2D dans une représentation 3D, permettant au système de déterminer un processus déterministe et entièrement différentiable pour compléter les formes.

  • 00: 15: 00 Dans cette section, l'orateur discute des limites de l'utilisation d'une surface partielle pour les objets en 3D, en particulier du fait que de nombreuses zones de l'espace 3D sont vides, ce qui rend difficile la capture des caractéristiques de surface par le réseau de complétion. Pour résoudre ce problème, l'orateur propose d'utiliser des cartes sphériques comme représentation de substitution pour les surfaces en 3D, où chaque pixel correspond à un point sur la surface, et aucune représentation n'est gaspillée. Le pipeline prend une profondeur estimée et la projette dans une carte sphérique partielle, qui peut ensuite être complétée à l'aide d'un réseau de complétion dans un espace cartographique sphérique. Cette nouvelle méthode permet d'obtenir une sortie beaucoup plus fluide et détaillée, et peut être généralisée à des catégories d'objets qui n'ont pas été vues lors de la formation.

  • 00: 20: 00 Dans cette section, Jiajun Wu explique comment les représentations intermédiaires et la rétroprojection peuvent aider à construire un meilleur système de reconstruction de forme plus généralisable. À l'aide d'exemples de tests sur des humains et des chevaux, Wu note que le système est capable de reconstruire des objets de manière relativement raisonnable à partir d'une seule vue, sans avoir vu auparavant d'objets déformables, indiquant que le système peut être utilisé pour construire de meilleurs systèmes de vision. Wu explique également comment les représentations intermédiaires des surfaces et la projection vers l'avant peuvent aider à améliorer le rendu, permettant la synthèse de nouvelles formes et textures d'objets avec plus de contrôle sur les facteurs indépendants.

  • 00:25:00 Dans cette section, Jiajun Wu discute du processus de combinaison des techniques précédentes pour les étendre aux scènes. Premièrement, il utilise des systèmes d'inversion pour obtenir des représentations de la géométrie, de la pose et des textures des objets, y compris des représentations latentes pour des segments d'arrière-plan non ressemblant à des objets tels que des arbres ou le ciel. Ensuite, il édite ces représentations pour voir comment différents changements dans la scène, tels que le rapprochement d'une voiture ou la modification de sa texture, affectent l'image globale. Wu souligne l'importance de comprendre que les objets ont une géométrie 3D, car cela permet à la méthode de produire des résultats complets et précis. Enfin, il discute du défi de l'abstraction de forme lors de la reconstruction d'objets artificiels tels que des tables, et comment l'incorporation de représentations abstraites et de type programme peut conduire à de meilleurs résultats.

  • 00: 30: 00 Dans cette section, Wu explique comment la reconstruction de formes dans des programmes de formes peut améliorer considérablement la modélisation et la reconstruction, en particulier pour des objets tels que des meubles. De plus, il explique comment des structures procédurales telles que la réplication et la symétrie peuvent être exploitées pour la création de contenu, par exemple via un algorithme qui peut guider la projection 3D pour la conception de bâtiments. Pour connecter les images 2D brutes et l'espace 3D, l'équipe de Wu s'est inspirée d'une recherche stochastique pour détecter des primitives telles que des lignes et des triangles dans les données visuelles, et tente maintenant de synthétiser des formes de primitives 3D pour guider la détection d'images.

  • 00: 35: 00 Dans cette section, Jiajun Wu explique comment l'apprentissage interne peut être utilisé pour tout apprendre à partir d'une seule image à partir de statistiques d'image, en observant qu'au sein d'une même image, les patchs peuvent se répéter, et cette répétition peut se produire à travers les échelles. En utilisant des activations neuronales pour identifier des objets répétitifs dans une seule image, les primitives trouvées peuvent être des lignes, des rectangles, des sphères ou des cylindres, et les réseaux de neurones peuvent apprendre des fonctionnalités pour identifier et synthétiser des programmes au-dessus des centroïdes de ces objets répétés. Cela peut aider à résoudre un certain nombre de problèmes, tels que l'achèvement ou l'extrapolation d'image, et l'édition de régularité pour rendre les scènes plus irrégulières.

  • 00:40:00 Dans cette section, le conférencier explique comment appliquer son programme à des images 3D, ce qui est plus complexe qu'un seul plan. Le problème ici est de partitionner l'image en plusieurs plans tout en tenant compte de l'orientation et des niveaux de surface de chaque plan. L'orateur suggère d'utiliser des repères visuels, tels que des points de fuite et des images filaires, pour résoudre ce problème. Cependant, les fonctionnalités filaires peuvent être bruyantes et il peut y avoir plusieurs partitions de plan candidates possibles. En utilisant les connaissances descendantes de leur programme, ils peuvent rectifier les plans candidats en images 2D et effectuer une synthèse de programme pour trouver la partition correcte de l'image. Cela peut les aider à trouver les meilleurs résultats d'opération conjointe et de synthèse d'images, ce que les méthodes traditionnelles ne peuvent pas accomplir.

  • 00:45:00 Dans cette section, Jiajun Wu a expliqué comment les connaissances du domaine issues de l'infographie peuvent être intégrées à l'apprentissage automatique pour améliorer la reconstruction des formes, la synthèse des textures et la compréhension des scènes. Wu a souligné que la compréhension des scènes est basée sur la structure causale minimale mais universelle derrière les données visuelles : objets, surfaces, projections et occlusions. En intégrant l'apprentissage et l'apprentissage automatique, Wu pense qu'il existe un plus grand potentiel dans la création de modèles 3D améliorés qui vont au-delà des images 2D traditionnelles. Bien que Wu et son équipe ne se soient pas penchés sur l'impression 3D, ils s'intéressent à la modélisation de formes 3D et à la possibilité d'utiliser des procédures inférées derrière ces modèles.
 

MIT 6.S192 - Conférence 14 : "Vers la création de moteurs d'innovation ouverts sans cesse créatifs" par Jeff Clune



MIT 6.S192 - Conférence 14 : "Vers la création de moteurs d'innovation ouverts sans cesse créatifs" par Jeff Clune

Jeff Clune, chercheur à OpenAI, discute de son travail sur la création de moteurs d'innovation infiniment créatifs et ouverts dans cette conférence du MIT. Il cherche à créer des algorithmes capables d'exécuter l'évolution naturelle et la recette de la culture humaine consistant à partir d'un ensemble de choses, à générer de nouvelles choses, à évaluer pour conserver ce qui est intéressant et à le modifier pour conserver la nouveauté intéressante. Clune explore l'utilisation des réseaux de neurones pour reconnaître de nouvelles choses, parle de l'algorithme Map Elites et présente les réseaux de production de modèles de composition pour l'encodage. Il montre comment ces outils peuvent être combinés pour générer des images complexes et diverses, résoudre des problèmes difficiles et créer des algorithmes ouverts qui peuvent constamment innover leurs solutions aux défis.

  • 00:00:00 Dans cette section, Jeff Clune, professeur agrégé en informatique à l'Université de la Colombie-Britannique et chef d'équipe de recherche à OpenAI, discute de ses recherches sur la création de moteurs d'innovation infiniment créatifs et ouverts. Il réfléchit à son parcours personnel, en commençant par la philosophie, puis en s'orientant vers la construction de systèmes informatiques pour relever le grand défi de l'IA. Clune s'intéresse à la création d'algorithmes ouverts, qui innovent sans cesse et se retrouvent dans les créations sans fin de la nature, telles que les conceptions techniques complexes des jaguars et des faucons.

  • 00:05:00 Dans cette section, l'orateur aborde le concept de moteurs d'innovation qu'il définit comme la recette suivie à la fois par l'évolution naturelle et la culture humaine qui leur permet d'être créatifs. Cette recette consiste à partir d'un ensemble de choses, à générer quelque chose de nouveau, à évaluer si c'est intéressant, et à conserver et modifier les résultats intéressants. L'orateur vise à créer un algorithme capable d'effectuer ce processus automatiquement sans intervention humaine à long terme. Cependant, le plus grand défi est d'éviter de générer de la nouveauté sans intérêt et de ne générer que de la nouveauté intéressante. Le conférencier suggère d'utiliser les réseaux de neurones pour reconnaître un grand nombre de classes afin de reconnaître de nouveaux types de choses et de produire des résultats intéressants.

  • 00:10:00 Dans cette section, Jeff Clune discute d'un algorithme appelé Map Elites et de sa place dans le domaine de la recherche algorithmique. Il explique que de nombreux problèmes difficiles nécessitent d'explorer et de découvrir de nouvelles choses plutôt que de simplement optimiser pour un objectif, et que cela devrait se refléter dans les algorithmes. Clune et ses collègues ont travaillé sur un nouveau sous-domaine appelé Quality Diversity Algorithms, qui vise à trouver un ensemble large et diversifié de solutions qui sont toutes aussi bonnes que possible pour ce type de solution. L'algorithme cherche à passer d'un objectif à l'autre lorsqu'il progresse sur une autre tâche, estimant que cela peut être le seul moyen de résoudre des problèmes vraiment difficiles.

  • 00:15:00 Dans cette section, Jeff Clune, chercheur travaillant à l'intersection de la biologie et de l'intelligence artificielle, décrit l'algorithme Map Elites, qui permet d'optimiser des solutions selon certains critères. Clune explique que lui et ses collègues ont appliqué Map Elites à un problème de robotique, générant des morphologies de robots mous avec un algorithme génétique, résultant en une gamme variée de créatures. Cependant, l'équipe n'était pas satisfaite car elle s'est rendu compte que chaque créature était presque identique, et l'algorithme ne produisait une diversité de designs qu'en lançant une nouvelle recherche. Pour remédier à cela, Clune a appliqué l'algorithme Map Elites au même problème, en choisissant cette fois le nombre de voxels et la quantité d'un matériau particulier comme dimensions d'intérêt, au lieu d'utiliser l'algorithme d'optimisation canonique. Il a constaté que l'algorithme explorait un espace de possibilités beaucoup plus large et produisait finalement de bien meilleurs résultats. En outre, Clune a décrit comment l'encodage qu'ils utilisent, appelé le réseau de production de modèles de composition (CPPN), est essentiel pour résoudre le problème sur lequel ils travaillaient dans une section ultérieure.

  • 00:20:00 Dans cette section de la conférence, Jeff Clune discute du choix d'encodage dans l'apprentissage en profondeur et les algorithmes évolutionnaires. Dans le codage direct, chaque caractéristique de l'artefact final est représentée par un nombre sur le vecteur de paramètre, tandis que dans le codage génératif, les informations du vecteur de paramètre sont réutilisées pour produire le produit final, ce qui donne des produits plus réguliers ou à motifs. La nature utilise un codage génératif en utilisant des motifs géométriques pour déterminer le destin cellulaire, qui est le type de cellule que chaque cellule devient, en fonction de l'emplacement de la cellule dans le corps. Cette approche est considérée comme une lingua franca en biologie du développement, où des modèles préexistants sont combinés pour créer de nouveaux modèles dans le produit final.

  • 00:25:00 Dans cette section, Jeff Clune, chercheur d'OpenAI, explique comment utiliser efficacement la puissance de la biologie du développement pour créer des systèmes d'IA ouverts. Il suggère l'utilisation de réseaux de production de modèles de composition (CPPN), qui résument une grande partie de la puissance des systèmes naturels sans aucune des chimies sous-jacentes, pour coder les emplacements géométriques en fonction des éléments phénotypiques. En fournissant des coordonnées à un artefact pour optimiser les éléments phénotypiques, tels qu'un réseau de neurones ou la morphologie d'un robot, les CPPN peuvent produire une complexité arbitraire grâce au mélange et à l'appariement de thèmes asymétriques et symétriques et répétitifs. Clune et son équipe ont mis cette idée en trois dimensions, en créant un site Web appelé sans fin.com, où les utilisateurs peuvent choisir les formes évoluées des autres pour produire une archive croissante de tremplins.

  • 00:30:00 Dans cette section de la conférence, Jeff Clune discute de l'utilisation des CPPN pour automatiser la conception et imprimer en 3D des images complexes arbitraires, démontrant la puissance de ces outils pour éliminer les barrières techniques et générer facilement des conceptions créatives. Il applique ensuite les CPPN à la tâche de créer un algorithme ouvert et les optimise pour classer chacun des milliers de bacs dans ImageNet. Clune décrit comment l'hypothèse d'une meilleure performance a été testée, aboutissant à des images qui ressemblaient souvent à la catégorie à laquelle elles étaient associées ou évoquaient une interprétation artistique du concept. Malgré la génération de quelques "images trompeuses", ce processus de génération a permis à l'équipe d'explorer un espace esthétique entièrement nouveau tout en démontrant les défauts inhérents aux réseaux de neurones profonds qui ont conduit à des images contradictoires.

  • 00:35:00 Dans cette section, Jeff Clune discute des qualités de l'algorithme de diversité que lui et son équipe ont développé, qui est capable de générer des images diversifiées de haute qualité. L'algorithme produit un ensemble diversifié d'images, dont certaines sont esthétiquement intéressantes et peuvent être utilisées à des fins pratiques telles que les logos d'entreprise. Il explique également comment la capacité de changement d'objectif de l'algorithme permet à des radiations adaptatives de se produire, similaires à ce qui se produit dans les domaines de la biologie et de la technologie. Il donne un aperçu des processus évolutifs qui se déroulent au sein de l'algorithme, présentant des graphiques et des arbres phylogénétiques démontrant la naissance et l'évolution d'idées innovantes. De plus, il partage le fait que l'algorithme et ses résultats ont passé le test artistique de Turing, étant confondus avec de l'art créé par des humains plutôt que par l'IA.

  • 00:40:00 Dans cette section, Jeff Clune présente l'idée d'algorithmes de diversité de qualité (QD), qui peuvent produire diverses solutions qui fonctionnent bien et ont la capacité de changer d'objectifs. Il discute de leur utilisation pour résoudre des défis, tels que des robots capables de s'adapter aux dégâts et d'explorer des défis d'exploration difficiles comme Montezuma's Revenge and Pitfall. Il note que si les algorithmes QD ont le potentiel d'innover, ils ne sont pas encore évolutifs et sont contraints par l'environnement. Jeff Clune propose ensuite l'idée de créer des algorithmes ouverts, tels que l'algorithme Paired Open-Ended Trailblazer (POET), qui peut générer à l'infini des environnements d'apprentissage intéressants, complexes et divers et leurs solutions. L'algorithme POET est conçu pour générer de nouveaux environnements d'apprentissage qui ne sont ni trop faciles, ni trop difficiles pour la population actuelle d'agents, optimisant les agents pour mieux résoudre chacun des défis et permettant de changer d'objectif entre eux.

  • 00:45:00 Dans cette section, Jeff Clune discute du concept de "changement d'objectif" - la capacité d'un système à rivaliser dans un environnement, à progresser, puis à passer à un autre environnement. Il montre un algorithme RL traversant des terrains qui créent automatiquement des environnements de plus en plus durs. Clune explique que c'est un moyen de mesurer les progrès et de dépasser les optima locaux. Il présente l'algorithme du « poète » et montre comment c'est le seul moyen de résoudre des problèmes difficiles. Il démontre que la poésie est essentielle pour surmonter les optima locaux comme on le voit dans une tâche où un robot nouvellement optimisé envahit un ancien environnement, remplaçant l'incarnation précédente. Clune note que ce type d'innovation complexe pourrait ouvrir la voie à des simulations plus avancées.

  • 00:50:00 Dans cette section de la conférence, Jeff Clune discute du potentiel de combiner l'optimisation du corps avec la génération d'environnement pour créer des créatures optimisées pour des environnements particuliers de la même manière que les araignées troglodytes. Il suggère également d'associer des moteurs d'innovation comme Dali à des algorithmes qui inventent le défi et la solution, puis détectent ce qui est intéressant de nouveau dans les images, les vidéos, la musique ou la poésie produites. Clune mentionne que son équipe de recherche a également exploré les neurosciences ai, un domaine qui étudie à quel point les réseaux de neurones profonds comprennent les images qu'ils classent. Ils l'ont fait en synthétisant des images qui activent au maximum des neurones particuliers et ont pu explorer la notion d'étoile de mer à cinq pattes dans le réseau.

  • 00:55:00 Dans cette section de la conférence, Jeff Clune discute de l'évolution de la génération d'images d'apprentissage en profondeur, de l'ajout de contraintes à la génération d'images naturelles à l'utilisation de l'apprentissage en profondeur pour apprendre les a priori de l'image naturelle. Avec de légères modifications des algorithmes, des styles artistiques très différents sont produits à partir de chaque générateur. Les réseaux de neurones comprennent ce que signifie chaque objet dans un espace particulier, tel que l'espace des images naturelles, et peuvent produire des images d'une qualité photoréaliste supérieure. Cependant, peu de diversité est générée dans ces espaces d'images naturelles. Pour surmonter ce problème, des réseaux génératifs plug-and-play ont été introduits qui produisent une gamme beaucoup plus large d'images diverses que ce que l'on voyait auparavant dans l'apprentissage en profondeur.

  • 01:00:00 Dans cette section de la conférence, Jeff Clune discute des progrès réalisés dans les neurosciences de l'IA et de la création de processus créatifs ouverts. Il souligne comment l'IA peut reconnaître et apprendre des concepts dans notre monde, tels que les volcans ou une tondeuse à gazon, mais est susceptible de produire et de reconnaître des images contradictoires. Clune recommande le travail de Chris Ola et parle du travail de son équipe dans l'exploration de différents modes, tels que la parole et la vidéo. Il partage également son enthousiasme pour les progrès réalisés et le potentiel futur dans le domaine, notamment la génération d'images synthétiques qui activent les neurones dans un vrai cerveau de singe. Clune suggère que la science produit souvent des artefacts esthétiques et comment les outils modernes d'apprentissage automatique permettent la fusion de l'art et de la science. Enfin, il recommande la lecture des travaux de Ken Stanley et Joel Lehman aux étudiants intéressés à se joindre à la mission de créer des processus ouverts sans cesse créatifs.

  • 01:05:00 Dans cette section, Jeff Clune explique que les algorithmes ouverts ont le potentiel de soutenir les progrès de l'intelligence artificielle générale. Il recommande de lire son article AI Generating Algorithms, qui explore comment ces algorithmes pourraient être la voie pour produire une IA générale. Jeff encourage également les chercheurs à appliquer ces idées dans divers domaines et à utiliser des outils comme GPT-3 ou Dolly pour le faire. Il suggère que l'exploration de fruits à portée de main dans différents domaines, tels que la poésie ou l'architecture, pourrait conduire à des avancées passionnantes. Jeff répond également à la question de Joseph concernant l'utilisation de l'algorithme Poet dans un environnement multi-agents et discute des défis qui se posent, tels que la difficulté à mesurer les performances des agents dans un tel environnement.