Apprentissage Automatique et Réseaux Neuronaux - page 34

 

CS 198-126 : Cours 9 - Autoencodeurs, VAE, Modélisation Générative



CS 198-126 : Cours 9 - Autoencodeurs, VAE, Modélisation Générative

Dans cette conférence, le concept de modélisation générative est introduit, qui consiste à utiliser l'apprentissage automatique pour créer de nouvelles images basées sur un ensemble de données. Les auto-encodeurs, un type de réseau neuronal utilisé pour l'apprentissage des caractéristiques, sont expliqués, en se concentrant sur leur structure et sur la façon dont ils peuvent apprendre les caractéristiques des données d'entrée par compression et reconstruction. Le cours couvre également les auto-encodeurs variationnels et leurs avantages, ainsi que l'utilisation d'espaces latents structurés dans les auto-encodeurs pour interpoler entre les images. L'importance de la quantification vectorielle pour travailler avec des données discrètes est discutée, et la fonction de perte pour un auto-encodeur variationnel est expliquée, qui comprend une perte de reconstruction et une perte d'engagement pour empêcher le codage en dur des données d'entrée. La conférence se termine par un récapitulatif des sujets abordés.

  • 00:00:00 Dans cette section, la conférence introduit le sujet de la modélisation générative, qui consiste à utiliser l'apprentissage automatique pour générer de nouvelles images basées sur un ensemble de données. Cependant, il peut être difficile pour les machines de comprendre ce qui distingue différents objets, tels que les chats, les uns des autres. La conférence présente le concept d'auto-encodeurs et comment ils peuvent être utilisés pour compresser et décompresser des images, comme on le voit dans l'exemple de la compression JPEG. La conférence aborde également le sujet des auto-encodeurs variationnels, qui sera abordé dans la prochaine conférence.

  • 00:05:00 Dans cette section, le conférencier discute de la compression d'image et de la manière dont elle repose sur la compréhension des données à un certain niveau. La compression peut économiser de l'espace et réduire le nombre de bits nécessaires pour envoyer une image sur un réseau. L'algorithme JPEG fonctionne en supprimant certaines des informations de fréquence plus élevée et des relations pixel à pixel qui ne sont pas cruciales pour la perception humaine. Le conférencier suggère ensuite que pour des types d'images spécifiques, tels que les images de chat, des schémas de compression plus avancés pourraient être développés avec une connaissance plus approfondie de la façon dont l'image est structurée au-delà des simples corrélations de pixels. Dans l'ensemble, les algorithmes de compression soulignent l'importance de comprendre les données dans l'apprentissage automatique.

  • 00:10:00 Dans cette section, le conférencier aborde le concept d'auto-encodeurs, un type de réseau de neurones utilisé pour l'apprentissage des fonctionnalités qui utilise une structure d'encodeur-décodeur pour compresser les données d'entrée et les reconstruire ultérieurement. Il la compare à des techniques antérieures telles que les faces propres qui utilisaient l'ACP pour l'extraction de caractéristiques et montre la structure d'un réseau d'auto-encodeur. La partie codeur réduit les données d'entrée dans une couche de goulot d'étranglement, tandis que la partie décodeur les reconstruit dans sa forme d'origine. L'objectif est de minimiser la différence entre les données originales et reconstruites. Le conférencier soulève la question de savoir pourquoi un réseau qui produit la même sortie que l'entrée serait utile, et explique que la clé réside dans les caractéristiques apprises des données qui peuvent être utilisées pour d'autres tâches.

  • 00:15:00 Dans cette section de la conférence, l'instructeur explique le concept de couche de goulot d'étranglement dans les auto-encodeurs et comment il oblige le réseau à compresser les données d'entrée, apprenant ainsi certaines caractéristiques des données. Il discute également des limites de cette structure de réseau et des propriétés souhaitables du code, telles que sa petite taille et la similitude des codes pour des images similaires. L'instructeur présente le concept d'auto-encodeurs variationnels qui s'appuie sur les auto-encodeurs mais fournit des propriétés magiques qui permettent d'obtenir des résultats sensibles lorsque différentes opérations sont appliquées aux vecteurs latents. Il aborde ensuite le cadre génératif pour la génération d'images et de textes qui consiste à échantillonner le vecteur latent contenant les informations de l'image ou du texte à générer.

  • 00:20:00 Dans cette section de la conférence, l'orateur discute de l'utilisation de vecteurs latents comme moyen de représenter des traits ou des «gènes» dans un ensemble de données de visages. Le vecteur latent agit comme une sorte de distribution de probabilité sur des ensembles possibles de gènes pour un individu, et la structure faciale est fonction des gènes de cet ensemble. Le codeur prend une image d'entrée et produit un vecteur latent, et le décodeur prend ce vecteur latent et produit une estimation de l'image originale. Pour imposer une structure à l'espace latent, des codages probabilistes sont utilisés.

  • 00:25:00 Dans cette section de la conférence, l'orateur explique l'utilisation des distributions de probabilité pour mapper les entrées sur une région de sorties possibles afin de forcer les vecteurs proches dans l'espace latent à se décoder en images similaires. Ce concept est important dans les auto-encodeurs variationnels (VAE), qui utilisent une distribution gaussienne pour produire les paramètres d'un cercle dans l'espace latent à partir duquel un code est échantillonné. La perte VAE comprend un terme de reconstruction et un terme qui force la sortie du codeur à ressembler à une distribution normale, l'empêchant d'apprendre un seul point à sortir et encourageant à la place de grands ensembles qui doivent être codés au même point. L'orateur note les objectifs contrastés dans cette perte, dans laquelle l'auto-encodeur préférerait mapper chaque entrée sur un seul point, mais le terme supplémentaire oblige les points à être proches du centre du plan et à avoir une certaine variance, ce qui donne des disques au lieu de points individuels.

  • 00:30:00 Dans cette section de la conférence, l'orateur discute des avantages de l'utilisation d'espaces latents structurés dans les auto-encodeurs. En renforçant la structure dans l'espace latent, les encodeurs automatiques peuvent interpoler efficacement entre les images, ce qui est illustré dans une démo en ligne populaire où les utilisateurs peuvent faire glisser un curseur entre deux visages de célébrités et voir le curseur interpoler entre les deux visages de manière sensée. L'orateur explique que cela est rendu possible par l'utilisation d'un auto-encodeur variationnel, qui oblige les vecteurs latents à vivre ensemble dans le même espace et à décoder les points proches des vecteurs proches. L'orateur note que si les détails de formation des auto-encodeurs variationnels peuvent être délicats en raison de l'échantillonnage impliqué, l'approche est arbitraire et peut être modifiée pour s'adapter à diverses applications.

  • 00:35:00 Dans cette section de la conférence, l'orateur explique comment l'utilisation de jetons discrets est nécessaire pour certains domaines, tels que le traitement du langage naturel (TAL), car il est difficile de définir ce que signifie modifier un mot par un certain pourcentage. En conséquence, il discute de l'utilisation de la quantification vectorielle comme un hack pour étendre les auto-encodeurs variationnels (VAE) afin qu'ils fonctionnent avec des jetons discrets. Dans la quantification vectorielle, un livre de codes de jetons valides est utilisé pour arrondir tous les vecteurs de sortie du VAE au jeton le plus proche, permettant une meilleure représentation des données discrètes. Cependant, la sélection du livre de codes reste un défi.

  • 00:40:00 Dans cette section, l'orateur discute de la fonction de perte pour un auto-encodeur variationnel (VAE), qui est utilisé pour apprendre les emplacements des mots de code qui correspondent à différents clusters dans une distribution de données. La fonction de perte comprend une perte de reconstruction, qui garantit que la sortie du décodeur est similaire à l'entrée, et une perte d'engagement, qui garantit que les vecteurs issus du codeur sont proches des mots de code représentant les centres de ces clusters. Pour empêcher le réseau de coder en dur les données d'entrée, le codeur produit plusieurs mots de code pour chaque entrée, ce qui se traduit par un plus grand ensemble de mots de code et permet au réseau de générer une plus grande diversité de sorties.

  • 00:45:00 Dans cette section de la vidéo, le présentateur discute d'une méthode pour générer de nouvelles images avec VQ-VAE en échantillonnant du C à partir d'une distribution normale et en le faisant passer par le décodeur, ce qui donne une nouvelle image qui n'a pas été Déjà vu. De plus, le présentateur explique que l'échantillonnage uniforme des éléments du livre de codes peut ne pas être efficace car certains mots de code sont plus courants à utiliser que d'autres dans la véritable distribution des données. Par conséquent, l'apprentissage de l'a priori sur les mots de code peut être utile pour générer de nouvelles données. Enfin, le présentateur fournit un récapitulatif de la conférence, en commençant par les auto-encodeurs, en passant aux auto-encodeurs variationnels et en terminant par les auto-encodeurs variationnels à quantification vectorielle.
 

CS 198-126 : Cours 10 - GAN



CS 198-126 : Cours 10 - GAN

La conférence sur les GAN introduit le concept de deux réseaux, le discriminateur et le générateur, en compétition l'un contre l'autre dans une configuration de théorie des jeux. L'entrée du générateur est un bruit aléatoire, auquel il attribue une signification pour générer des images d'apparence réelle, et le travail du discriminateur consiste à juger si l'image est réelle ou fausse. Les GAN utilisent une fonction de perte qui correspond à une perte d'entropie croisée négative, le générateur voulant la minimiser et le discriminateur voulant la maximiser. La fonction de valeur représente la performance du générateur et doit être maximisée par le discriminateur en classant correctement les données fausses et réelles. La conférence couvre également les problèmes de formation des GAN et la perte non saturante qui permet au générateur d'avoir plus d'agence pour changer.

  • 00:00:00 Dans cette section, le conférencier passe en revue les variables latentes et les codes utilisés pour compresser et mapper des images dans des représentations plus compressées. L'idée d'utiliser des auto-encodeurs pour générer de nouvelles images à partir d'un vecteur latent est également introduite. Le conférencier note le défi de juger ce qui fait une bonne image réaliste, et c'est là que les GAN (Generative Adversarial Networks) entrent en jeu. Avec deux réseaux, l'un générant des données et l'autre essayant de déterminer s'il s'agit d'un vrai ou d'un faux, les réseaux s'affrontent dans une configuration de théorie des jeux. Le discriminateur gagne lorsqu'il classe correctement les images, et le générateur gagne lorsqu'il trompe le discriminateur.

  • 00:05:00 Dans cette section, l'instructeur explique le concept de haut niveau derrière les GAN, qui implique deux réseaux - le discriminateur et le générateur - en concurrence l'un contre l'autre. Contrairement aux encodeurs automatiques, où le goulot d'étranglement est au milieu, les GAN ont quelque chose au milieu entre le générateur et le discriminateur qui est beaucoup plus dimensionnel. L'entrée du générateur est une sorte de vecteur de bruit aléatoire échantillonné à partir d'une gaussienne multivariée. Le générateur reçoit ensuite la variable de bruit latent et décide comment lui attribuer une signification aléatoire afin qu'il puisse générer toute une série d'entrées, ou toute une série d'images d'apparence réelle. Les réseaux discriminateur et générateur sont formés conjointement via une descente de gradient, alternant entre les deux, dans le but de tromper l'autre réseau.

  • 00:10:00 Dans cette section, le conférencier explique comment fonctionnent les GAN en disposant d'un réseau qui reçoit des données réelles et fausses pour entraîner un générateur à découvrir des modèles qui donnent aux images un aspect réel. Le discriminateur est celui qui juge si l'image est réelle ou fausse, et au fur et à mesure qu'il apprend, il commence à remarquer des modèles et met à jour son jugement. L'espoir est que le générateur apprenne à s'améliorer en créant quelque chose avec plus de forme ou d'objets qui ont du sens dans le contexte de la scène. La fonction de perte pour les GAN consiste uniquement en une perte de classification du discriminateur, et le score du générateur en est l'opposé. Pour former le générateur, le discriminateur doit être bon pour juger une image afin de fournir une rétroaction au générateur.

  • 00:15:00 Dans cette section, le conférencier explique l'importance d'un discriminateur capable de classer les images avec précision pour améliorer le générateur. Le discriminateur peut avoir besoin d'être mis à jour plus que le générateur, afin qu'il puisse discerner une différence significative entre les images réelles et générées. L'enseignant décompose alors la fonction de perte, qui correspond à une perte d'entropie croisée négative, le générateur voulant la minimiser et le discriminateur voulant la maximiser. Le générateur gagne lorsque ses données semblent réelles, et le discriminateur gagne lorsqu'il différencie correctement les images réelles et fausses. Les deux réseaux sont dans un scénario de théorie des jeux où ils s'affrontent pour progresser et s'améliorer.

  • 00:20:00 Dans cette section de la vidéo, les présentateurs expliquent le concept de fonction de valeur dans les GAN, qui est l'opposé de la fonction de perte utilisée dans les modèles d'apprentissage automatique traditionnels. La fonction de valeur représente la performance du générateur et doit être maximisée par le discriminateur en classant correctement les données fausses et réelles. Les poids du générateur sont figés lors de la première étape afin que le discriminateur puisse être entraîné sur des lots de données réelles et fausses. Au cours de la deuxième étape, le discriminateur est gelé et les poids du générateur sont mis à jour pour générer des images factices légèrement meilleures. Ce processus est répété jusqu'à ce que le générateur produise des images réalistes que même le discriminateur ne peut pas classer comme fausses.

  • 00:25:00 Dans cette section, l'orateur discute des GAN conditionnels, qui fournissent une solution pour générer des images avec plus de contrôle sur les classes générées. La configuration GAN actuelle nécessite d'alimenter le générateur de manière répétée de manière aléatoire jusqu'à ce que l'objet ou l'image souhaité soit généré, mais pour les ensembles de données avec plus de classes, cette approche n'est pas idéale. En ajoutant un vecteur one-hot au vecteur de bruit aléatoire, cela permet au générateur d'avoir plus de contrôle sur la classe générée. Le vecteur one-hot correspond à la classe souhaitée, et le générateur est formé pour générer une image avec cette classe spécifique.

  • 00:30:00 Dans cette section de la conférence, l'orateur discute de l'idée d'inciter le générateur à utiliser une fonctionnalité spécifique dans le modèle GAN conditionnel. L'orateur explique qu'il ne suffit pas de dire au générateur de générer une image spécifique, car le générateur n'a aucune incitation à utiliser les informations fournies. La solution est de fournir également au discriminateur la même étiquette, en créant une stratégie pour qu'il identifie si une image générée correspond ou non à son étiquette. Cela oblige le générateur à prêter attention à l'étiquette car il veut éviter la détection par le discriminateur, ce qui entraîne une sortie qui correspond à l'étiquette donnée. L'architecture du générateur et du discriminateur est également discutée.

  • 00:35:00 Dans ce scénario, les poids du générateur finiraient par devenir nuls. De plus, le générateur peut déraper et être pris dans un effondrement de mode, dans lequel il ne produit qu'un petit ensemble d'exemples qui trompent bien le discriminateur. Ce problème survient en raison du fait que le discriminateur apprend des limites de décision extrêmement précises et que le générateur est incité à produire ces faux exemples à plusieurs reprises. Enfin, il existe également des problèmes de procédure de formation avec les GAN, car leur configuration vanille ne converge pas et leur fonction de perte devient plate.

  • 00:40:00 Dans cette section, le conférencier discute de certains problèmes courants avec les GAN, qui peuvent les rendre difficiles à former. Un problème est qu'il y aura toujours un compromis entre le générateur et le discriminateur, le discriminateur essayant de s'adapter à des caractéristiques spécifiques dans des images réelles, et il n'y a aucun moyen clair de savoir quand le GAN a terminé sa formation. Le conférencier passe ensuite en revue une perte non saturante, qui est une simple reformulation de l'objectif du générateur, et aborde le problème selon lequel le générateur n'obtient qu'une petite dérivée partielle lorsque le discriminateur reconnaît les images générées comme fausses. La perte non saturante maximise un terme alternatif et permet au générateur d'avoir plus d'agence pour changer.

  • 00:45:00 Dans cette section, le conférencier explique l'astuce mathématique derrière la perte d'entropie croisée utilisée dans les GAN. Au lieu d'essayer aveuglément de minimiser la perte d'entropie croisée négative, l'objectif du générateur est de maximiser la probabilité d'être classé comme un, en utilisant une sorte de perte d'entropie croisée de classe binaire. Cette perte non saturante donne des gradients de générateur plus importants, ce qui nous permet de nous entraîner plus rapidement lorsque le discriminateur vient juste d'arrêter le générateur. Cependant, le conférencier note qu'il s'agit de matériel avancé, sans quiz ni devoirs, mais ils sont disponibles pour parler davantage des techniques avancées de formation GAN.
 

CS 198-126 : Cours 11 - GAN avancés



CS 198-126 : Cours 11 - GAN avancés

Cette conférence sur les GAN avancés couvre diverses techniques pour améliorer la stabilité et la qualité des modèles GAN, y compris le suréchantillonnage bilinéaire, la convolution transposée, les GAN conditionnels, StyleGAN et CycleGAN. La conférence aborde également l'utilisation du bruit aléatoire contrôlé, la normalisation adaptative des instances et le traitement des vidéos dans les GAN. Pour obtenir une meilleure stabilité et de meilleurs résultats, le conférencier recommande d'utiliser de plus grandes tailles de lots et de tronquer la plage de bruit aléatoire pendant les tests, tout en mettant en garde contre un nerf excessif du discriminateur. De plus, il est suggéré de commencer par une large distribution de différentes tailles d'espace latent pour générer une variété d'images. Enfin, la conférence aborde le Big Gan, qui permet de générer des GAN à très grande échelle.

  • 00:00:00 Dans cette section, l'orateur introduit le sujet des GAN dans le contexte de la vision par ordinateur et discute de la construction d'une architecture GAN pour la vision par ordinateur. L'orateur se concentre sur le discriminateur, qui est un CNN de classification, et le générateur, qui est plus difficile en raison de la nécessité de suréchantillonner l'image vectorielle latente. L'orateur discute également des techniques de sous-échantillonnage et de sur-échantillonnage, y compris le sur-échantillonnage du voisin le plus proche, qui est une approche naïve qui duplique chaque cellule sur la carte d'entités existante, ce qui donne une image floue.

  • 00:05:00 Dans cette section, le conférencier discute des moyens de suréchantillonner les cartes de caractéristiques pour les générateurs dans les GAN. Il décrit d'abord le suréchantillonnage bilinéaire, où de nouvelles cartes d'entités sont créées en prenant une carte d'entités plus grande et vide et en la remplissant avec la moyenne de tous ses voisins les plus proches. Il introduit ensuite la convolution transposée, qui remplit la carte d'entités avec tellement de rembourrage qu'au moment où la fenêtre de convolution est glissée dessus, la carte d'entités de sortie finit par être plus grande que l'entrée. Le conférencier note que ce sont les moyens les plus courants de suréchantillonner les cartes d'entités et qu'ils sont généralement suffisants pour agrandir les générateurs.

  • 00:10:00 Dans cette section de la conférence, l'orateur discute des GAN conditionnels et de la manière de les gérer dans le générateur. Les entrées du générateur incluent désormais un vecteur latent et un vecteur conditionnel qui lui indiquent ce qu'il faut générer. L'orateur suggère de concaténer les vecteurs ensemble ou de les traiter séparément avant de les concaténer. Ils abordent également brièvement le passage de plusieurs choses à un discriminateur. La conférence passe ensuite à StyleGAN, une nouvelle architecture pour le générateur qui inclut une touche artistique et un prétraitement des vecteurs latents avant les opérations de convolution.

  • 00:15:00 Dans cette section, l'orateur discute de la nécessité d'alimenter le latent pour donner à toutes les différentes convolutions l'accès au style encodé pour produire de meilleures textures. La texture est un bruit aléatoire, et il serait beaucoup plus facile de fournir au modèle des sources aléatoires. Cette section présente l'architecture utilisée, qui décortique le générateur en deux composants différents. Le premier est celui souhaité, dont le vecteur latent alimente le générateur. L'introduction du composant souhaité consiste à pré-traiter la latente pour résoudre le problème des espaces latents inutilisables, ce qui rend difficile la génération de certaines images. Les pré-processus impliquent de faire passer le latent à travers des couches denses jusqu'à ce que nous ayons un nouveau latent modifié appelé W.

  • 00:20:00 Dans cette section, la vidéo aborde le concept de normalisation d'instance adaptative (AdaIN) et comment il introduit du style dans le réseau. AdaIN remplace la norme de lot et utilise un vecteur de style pour dicter la quantité à redimensionner et rebiaiser, permettant des résultats plus significatifs. Le vecteur de style est passé à travers une couche entièrement connectée, qui est utilisée pour redimensionner et rebiaiser toutes les activations. L'objectif final est d'augmenter l'accès au caractère aléatoire en générant un grand nombre de cartes de caractéristiques qui sont du bruit purement aléatoire.

  • 00:25:00 Dans cette section, le conférencier discute de l'ajout d'un bruit aléatoire contrôlé à chaque carte de caractéristiques, permettant au réseau d'augmenter ou de réduire la quantité de bruit en fonction des valeurs B apprises. Ce bruit aléatoire contrôlé aide à générer de meilleures textures et imperfections, permettant la génération de poils et de rides individuels. Le bruit contrôlé est ajouté après chaque convolution et permet au réseau de contrôler l'ampleur du bruit. La conférence aborde également les nouvelles innovations du style GAN, y compris le vecteur latent intégré à chaque couche, et l'utilisation de la normalisation d'instance adaptative pour introduire lentement le style.

  • 00:30:00 Dans cette section, le conférencier discute des deux techniques GAN avancées : StyleGAN et CycleGAN. StyleGAN génère des visages aléatoires avec de vastes améliorations de texture grâce au bruit aléatoire, tandis que CycleGAN transfère des images d'un ensemble de données à un autre. Un terme de perte est dédié au réalisme des images converties, et l'autre mesure si l'image peut être restaurée à son état d'origine. CycleGAN peut prendre des photos réalistes et les transformer en peintures de Monet, transformer des zèbres en chevaux et modifier les saisons d'une image. Bien qu'il n'y ait pas de cohérence entre les images de la vidéo, la technique peut toujours produire des résultats décents.

  • 00:35:00 Dans cette section, l'orateur explique que les vidéos peuvent être utilisées pour former un discriminateur pour identifier les vraies et les fausses vidéos, mais cela nécessite des calculs importants par rapport au traitement des images. La vidéo doit être traitée image par image, mais certaines images peuvent être ignorées pour rendre le processus plus efficace. Le discriminateur peut être utilisé pour assurer la cohérence des vidéos générées d'une image à l'autre. De plus, l'orateur conseille d'être prudent lors de l'utilisation de modèles GAN dans certaines démonstrations, telles que la conversion d'un singe en cheval, car cela peut ne pas toujours fonctionner efficacement et le résultat peut ne pas être celui attendu. Enfin, l'orateur explique comment le GAN évolue lorsque de plus grandes tailles de lots et plus de données sont lancées sur des modèles plus grands, et explique certains compromis entre stabilité, fiabilité, variété et qualité.

  • 00:40:00 Dans cette section, le conférencier discute de quelques astuces pour obtenir une meilleure stabilité et de meilleurs résultats avec les GAN. L'une des clés d'une meilleure stabilité consiste à utiliser des tailles de lots plus importantes, ce qui est particulièrement utile pour les tâches complexes telles que les GAN. Une autre astuce consiste à tronquer la plage de bruit aléatoire pendant les tests pour éviter des résultats qui ne correspondent pas à l'expérience du modèle. Cependant, cela vient avec le compromis de limiter la variété des images générées. Le conférencier souligne également qu'accepter une certaine instabilité pendant l'entraînement est nécessaire pour obtenir de bons résultats et met en garde contre le nerf excessif du discriminateur.

  • 00:45:00 Dans cette section, l'orateur met en garde contre l'utilisation d'une distribution étroite pour l'espace latent car le générateur peut générer des images similaires à plusieurs reprises, ce qui rend plus difficile la génération d'une variété d'images. L'orateur suggère de commencer par une large distribution de différentes tailles pour donner au modèle une excellente première idée de la façon de générer des images. De plus, ils partagent le fait que la fonction de discriminateur peut être bénéfique de plusieurs manières différentes en plus de générer une seule image de manière aléatoire. Enfin, ils introduisent le Big Gan, qui permet de générer des GAN à très grande échelle.
 

CS 198-126 : Cours 12 - Modèles de diffusion



CS 198-126 : Cours 12 - Modèles de diffusion

Dans cette conférence sur les modèles de diffusion, l'orateur discute de l'intuition derrière les modèles de diffusion - prédire le bruit ajouté à une image et le débruiter pour obtenir l'image originale. La conférence couvre le processus de formation, l'architecture améliorée et des exemples de modèles de diffusion dans la génération d'images et de vidéos. De plus, la conférence approfondit les modèles de diffusion latente, qui compriment le modèle dans un espace latent pour exécuter la diffusion sur la partie sémantique de l'image. Le conférencier donne également un aperçu des modèles connexes tels que Dolly Q, le modèle Imagine de Google et Make a Video de Facebook, et leur capacité à générer des modèles 3D à l'aide de texte.

  • 00:00:00 Dans cette section de la vidéo, l'intervenant présente les modèles de diffusion, une nouvelle classe de modèles génératifs. Ils expliquent que l'objectif des modèles génératifs est d'apprendre la distribution sous-jacente d'un ensemble de données donné afin que de nouvelles données puissent être générées à partir de la même distribution. L'orateur mentionne également deux principales méthodes d'apprentissage des distributions : la maximisation de la vraisemblance ou la minimisation de la métrique de divergence. La conférence plongera dans les mathématiques derrière les modèles de diffusion, et l'orateur note que cette conférence sera plus mathématiquement impliquée que les précédentes.

  • 00:05:00 Dans cette section de la conférence sur les modèles de diffusion, l'orateur discute de l'utilisation des auto-encodeurs variationnels (VAE) et des réseaux antagonistes génératifs (GAN) dans la modélisation des distributions qui imitent la distribution des données. L'orateur explique que les deux modèles fonctionnent en prenant un échantillon de bruit aléatoire et en le convertissant en quelque chose qui semble provenir de la distribution des données. Cependant, les modèles de diffusion prennent plusieurs petites étapes au lieu d'une grande étape au cours de ce processus, ce qui crée une chaîne de Markov plus facile à analyser. Le modèle de diffusion a un processus avant où du bruit est ajouté à une image, puis plus de bruit est ajouté pour créer une version bruyante de l'image. Il existe également un processus inverse où l'image est débruitée pour revenir à l'image d'origine.

  • 00:10:00 Dans cette section de la vidéo, le conférencier explique le concept de traitement inverse dans les modèles de diffusion, où une nouvelle image peut être générée en inversant la séquence des étapes de bruit. Le défi consiste à trouver la distribution inverse, qui est difficile à calculer en utilisant la distribution exacte, et par conséquent, une approximation est faite à travers la fonction Q et la fonction P. La fonction P est représentée par un réseau neuronal, qui essaie d'apprendre la moyenne et la variance de la distribution inverse, qui est supposée être gaussienne. La vidéo couvre également le processus de formation d'un modèle de diffusion, qui nécessite la minimisation ou la maximisation d'une fonction de perte.

  • 00:15:00 Dans cette section de la conférence, l'orateur discute de l'application de la limite inférieure variationnelle de variation aux modèles de diffusion, ce qui se traduit par une fonction de perte qui ressemble à une somme de fonctions de perte plus petites. Ils expliquent que les termes L de 0 à L de T-1 contribuent à la perte et qu'ils se concentreront sur l'analyse de L de T, qui est défini de 1 à T-1. L'orateur poursuit en expliquant comment la divergence KL entre Q de X de T-1 et la distribution que le réseau de neurones essaie de prédire aboutit à un terme qui mesure la perte L2 entre la moyenne apprise et la moyenne de la distribution conditionnelle. Les auteurs des articles de diffusion suggèrent de paramétrer mu de thêta, le mu appris, sous une forme similaire à Q de X de T-1 pour simplifier l'expression et permettre de prédire un seul terme au lieu de tout prédire à l'intérieur de la boîte rouge.

  • 00:20:00 Dans cette section, le conférencier explique l'intuition principale derrière les modèles de diffusion, qui est de prédire le bruit qui a été ajouté à une image, puis de le débruiter pour retrouver l'image d'origine. L'objectif est de minimiser le bruit entre le bruit d'origine et le bruit prédit, et le processus de formation consiste à ajouter du bruit aux images dans l'ensemble de données, à les faire passer à travers le modèle, à prédire le bruit et à minimiser la distance entre le bruit prédit et le bruit réel. Le modèle peut ensuite être utilisé pour synthétiser de nouvelles images en partant d'un bruit aléatoire et en le débruitant à l'aide du bruit prédit. L'enseignant note également que X de T, la variable étant diffusée, n'a pas à être une image.

  • 00:25:00 Dans cette section, l'orateur discute des modèles de diffusion et de leur capacité à prédire le bruit d'une image avec les mêmes dimensions que l'entrée/sortie. Un modèle qui a les mêmes dimensions est la même unité qui a été utilisée dans le cours sur la segmentation. Cependant, les auteurs de l'article ont ajouté de nombreuses astuces CV modernes, notamment des blocs resnet, des modules d'attention, une norme d'adhérence et des activations swish au modèle. Ils ont pu montrer que cela fonctionnait très bien, et plus de pas de temps ont été utilisés dans un article ultérieur pour améliorer encore sa qualité. L'orateur fournit également une image et un lien vers la diapositive contenant l'architecture du modèle.

  • 00:30:00 Dans cette section, il est expliqué que les chercheurs ont trouvé un moyen d'améliorer les résultats de l'utilisation de modèles de diffusion pour la génération d'images en modifiant les paramètres bêta qui contrôlent l'ajout de bruit dans le processus direct. Au lieu d'utiliser un programme linéaire, ils ont suggéré d'utiliser une fonction cosinus plus lente et d'accélérer plus tard pour convertir lentement les images en bruit, aidant ainsi le modèle à mieux apprendre le processus inverse. De plus, en apprenant la matrice de covariance via un réseau de neurones, il est possible d'améliorer la log-vraisemblance et d'obtenir de meilleures probabilités, qui peuvent être considérées comme une mesure de la diversité.

  • 00:35:00 Dans cette section de la conférence, l'orateur discute de certaines améliorations architecturales qui peuvent être apportées au modèle d'unité, qui est couramment utilisé dans différents articles. Ces améliorations incluent l'augmentation de la taille du modèle, l'utilisation de modules d'attention et la normalisation adaptative. L'orateur introduit également l'idée de guidage classifié, qui implique la formation d'un classificateur pour prédire les étiquettes de classe à partir d'images originales et bruitées, et l'utilisation du gradient résultant pour améliorer le modèle de diffusion. Enfin, le conférencier mentionne l'utilisation de métriques, telles que le FID et la précision et le rappel, pour mesurer la qualité des modèles génératifs.

  • 00:40:00 Dans cette section, l'orateur explique comment le modèle de diffusion a dépassé les modèles GAN dans la modélisation d'images en raison de sa capacité à capturer une meilleure fidélité et diversité de la distribution des données. Ils montrent des images de flamants roses où les images GAN se ressemblent beaucoup, tandis que les images de diffusion montrent une plus grande diversité dans leur sortie, indiquant de meilleures capacités de modélisation d'image. L'orateur mentionne également que les chercheurs ont trouvé de meilleures façons de guider le modèle de diffusion à travers un processus appelé guidage sans classificateur, où un modèle de diffusion conditionnelle est formé pour éviter d'échanger la diversité contre une qualité accrue, ce qui est inhérent au conditionnement du modèle sur certains étiquette de classe.

  • 00:45:00 Dans cette section, le conférencier discute du concept de modèles de diffusion latente, qui sont une autre classe de modèles de diffusion utilisés pour la formation sur des images de grande dimension, car il n'est pas possible de former un grand modèle de diffusion dans de tels cas. Le conférencier explique que les chercheurs ont découvert que plus de bits sont utilisés pour capturer les détails au niveau des pixels et moins pour capturer certains des détails sémantiques d'une image qui n'est pas utile. Afin de générer des images avec précision, un modèle génératif doit être exécuté sur la partie sémantique de l'image à la place. Le conférencier donne un aperçu de la manière dont cela peut être réalisé, ce qui implique d'apprendre l'espace latent et de compresser le modèle dans un espace latent pour y diffuser. Cela permet à une image d'être convertie en image latente et de revenir à l'image à l'aide d'un modèle d'encodeur et de décodeur.

  • 00:50:00 Dans cette section, le conférencier discute de plusieurs modèles liés à la diffusion, notamment Dolly Q, la génération d'images via le modèle Imagine de Google et la génération de vidéos via Make a Video de Facebook. De plus, Google a étendu le modèle Imagine pour générer également des vidéos. L'orateur mentionne également la possibilité de générer des modèles 3D à l'aide de texte, ainsi que d'appliquer la vision à RL, ce qui permet d'obtenir des résultats de pointe en RL hors ligne, selon un article publié plus tôt cette année. L'orateur fournit des liens vers des documents et des ressources pour un apprentissage plus approfondi.
 

CS 198-126 : Cours 13 - Introduction à la modélisation de séquences



CS 198-126 : Cours 13 - Introduction à la modélisation de séquences

Dans cette conférence sur la modélisation de séquences, le conférencier introduit l'importance de représenter les données de séquences et d'atteindre un nombre raisonnable de pas de temps sans perdre trop d'informations. Les réseaux de neurones récurrents (RNN) sont discutés comme une première tentative pour résoudre ces défis, qui ont la capacité de gérer des longueurs variables d'entrées et de sorties. Cependant, des problèmes avec les RNN les empêchent de fonctionner de manière optimale. L'incorporation de texte est introduite comme un moyen plus efficace de représenter des données textuelles, plutôt que d'utiliser un vecteur unique à haute dimension. De plus, le concept de codage positionnel est discuté comme un moyen de représenter l'ordre des éléments dans une séquence en utilisant des valeurs continues, plutôt que des valeurs binaires.

  • 00:00:00 Dans cette section, l'orateur présente les modèles de séquence et explique la raison pour laquelle ils sont importants. En particulier, ils mentionnent divers types de données de séquence, telles que les données de séries chronologiques, l'audio et le texte, et comment elles sont couramment utilisées dans les modèles de vision par ordinateur et de traitement du langage naturel. L'orateur discute également de l'importance de représenter les données de séquence et d'atteindre un nombre raisonnable de pas de temps sans perdre trop d'informations. En fin de compte, l'objectif est de créer des modèles de langage qui peuvent être formés sur des quantités massives de données textuelles extraites d'Internet, qui sont représentées sous la forme d'une séquence tokenisée de vecteurs uniques.

  • 00:05:00 Dans cette section, l'instructeur discute des défis de la représentation des données textuelles sous forme de vecteurs uniques et de l'inefficacité d'en avoir un pour chaque mot dans un dictionnaire. L'objectif de la modélisation de séquence est de gérer des données arbitrairement longues et des longueurs variables d'entrées et de sorties. L'instructeur fournit des exemples de différents paradigmes, y compris l'analyse des sentiments et la traduction, qui doivent gérer des longueurs variables de sorties. De plus, les relations à longue distance entre les mots d'une phrase doivent être prises en compte lors de l'analyse des données textuelles.

  • 00:10:00 Dans cette section, la vidéo aborde les défis de la modélisation de séquences, qui nécessitent de relier les idées de différentes parties d'une phrase et de gérer les relations à longue distance entre les séquences. Les réseaux de neurones récurrents (RNN) sont introduits comme une première tentative pour résoudre ces problèmes, et ils fonctionnent mais pas particulièrement bien en raison de problèmes qui les empêchent de fonctionner de manière optimale. La vidéo explique que les RNN utilisent une valeur de cellule partagée entre chaque élément de séquence, chaque cellule ayant exactement les mêmes poids qui traitent la séquence d'entrée. De plus, la sortie générée par le RNN peut être interprétée comme n'importe quoi, d'une probabilité à une traduction.

  • 00:15:00 Dans cette section, nous apprenons la forme de base d'un réseau de neurones récurrent (RNN) où nous prenons un élément de séquence de même longueur, faisons une couche linéaire dessus, prenons la sortie du pas de temps précédent et l'entrée à ce pas de temps pour faire une multiplication matricielle. Nous les empilons ensuite les uns sur les autres ou les additionnons pour produire la sortie. La fonction tahn est utilisée pour s'assurer que les sorties sont dans la plage et pour empêcher les valeurs d'exploser ou de devenir trop petites pendant la propagation vers l'avant ou vers l'arrière. En empilant plusieurs couches, nous pouvons commencer à apprendre des fonctions plus complexes.

  • 00:20:00 Dans cette section de la conférence, l'instructeur discute des défis et des solutions de création d'un modèle de séquence. En utilisant une fonction tanh sur la sortie de chaque cellule, les valeurs sont maintenues entre -1 et 1, ce qui évite les grandes valeurs qui peuvent poser problème lors de multiplications matricielles répétées. Le modèle peut gérer une taille d'entrée arbitraire, des longueurs de sortie variables et des relations à longue distance. L'instructeur présente ensuite les représentations vectorielles continues comme un moyen plus efficace de représenter des données textuelles, plutôt que d'utiliser un vecteur unidimensionnel de 100 000 dimensions. Des idées telles que le codage binaire et trinaire sont explorées comme une solution possible.

  • 00:25:00 Dans cette section, l'orateur présente le concept d'incorporation de texte et comment il peut être utilisé dans la modélisation de séquences. Au lieu d'utiliser des vecteurs uniques pour chaque mot du dictionnaire, un vecteur plus petit représentant le mot est appris et introduit dans le modèle. Cette compression de la représentation permet une réduction de la dimensionnalité et crée un vecteur intégré qui ressemble à un livre de codes. L'espoir est que ces incorporations permettent une représentation intelligente des mots, avec des mots similaires tels que "chat" et "chien" étant relativement proches, tandis que des mots avec peu de corrélation tels que "chat" et "herbe" sont plus éloignés. Bien qu'il n'y ait aucune garantie que cette relation de proximité existe, elle peut être utilisée pour faciliter la compréhension de la manière dont l'analyse des sentiments et d'autres modèles sont affectés par des choix de mots spécifiques.

  • 00:30:00 Dans cette section, le conférencier discute de l'utilisation de la descente de gradient sur un livre de codes de vecteurs intégrés pour regrouper des mots sémantiquement similaires. Il mentionne également le concept de codage positionnel, où le temps écoulé ou la position dans une séquence peut être important pour certains domaines, et discute de quelques méthodes pour représenter un vecteur chaud pour la position avant de passer à ce qui fonctionne bien, connu sous le nom de codage positionnel.

  • 00:35:00 Dans cette section de la conférence, l'instructeur discute de l'idée d'utiliser un horodatage dans la modélisation de séquence pour indiquer à quel point nous sommes dans la séquence. Cependant, l'utilisation d'un codage binaire comme horodatage peut devenir limitée pour des longueurs de séquence plus importantes car il ne peut représenter qu'un nombre limité de pas de temps uniques. Pour résoudre ce problème, l'instructeur suggère d'utiliser un analogique continu en remplaçant le codage binaire par des ondes sinus et cosinus de fréquences différentes. De cette façon, nous pouvons toujours utiliser un vecteur plus petit pour représenter un plus grand nombre de pas de temps uniques.

  • 00:40:00 Dans cette section, le concept de codage positionnel est discuté, qui est un moyen de représenter l'ordre des éléments dans une séquence en utilisant des valeurs continues plutôt que des valeurs binaires. Le processus consiste à évaluer les fonctions sinus et cosinus à différentes fréquences pour chaque élément de séquence, puis à les représenter graphiquement pour créer un analogue continu du codage positionnel binaire. Le graphique résultant alterne entre les valeurs hautes et basses, similaire à la version binaire, et peut être ajouté à chaque élément de la séquence. L'encodage positionnel peut être un peu déroutant, mais la conférence suggère de revoir les jeux de diapositives et d'expérimenter le concept pour une meilleure compréhension.
 

CS 198-126 : Cours 14 - Transformateurs et attention



CS 198-126 : Cours 14 - Transformateurs et attention

Cette conférence vidéo sur les transformateurs et l'attention couvre le concept et la motivation derrière l'attention, sa relation avec les transformateurs et son application dans la PNL et la vision. Le conférencier discute de l'attention douce et dure, de l'auto-attention, de l'attention locale et de l'attention multi-têtes, et de la manière dont elles sont utilisées dans l'architecture Transformer. Ils expliquent également le système clé-valeur-requête, l'importance des connexions résiduelles et de la normalisation des couches, ainsi que le processus d'application d'une couche linéaire pour obtenir kqv à partir des incorporations d'entrée. Enfin, la conférence couvre l'utilisation des intégrations de position et du jeton CLS dans des exemples de séquence à vecteur tout en soulignant l'efficacité de calcul et l'évolutivité du mécanisme d'attention.

  • 00:00:00 Dans cette section de la conférence vidéo, l'objectif est d'expliquer la motivation derrière l'attention et comment elle est liée aux modèles Transformer. L'attention est la pierre angulaire des transformateurs de vision modernes et est nécessaire pour concentrer les efforts et l'attention sur un certain emplacement. Le conférencier explique que l'attention utilise un système de valeur de clé de requête pour prendre des décisions plus éclairées sur les éléments auxquels prêter attention. Le système d'attention moderne est basé sur la façon dont les humains lisent, où ils se concentrent sur des mots séquentiels spécifiques et brouillent tout le reste.

  • 00:05:00 Dans cette section, le conférencier aborde le concept d'attention dans les modèles d'apprentissage automatique, en particulier dans le contexte de la PNL et des RNN. L'attention permet aux modèles de se concentrer sur les parties importantes d'une entrée, en faisant des inférences à l'aide d'un sous-ensemble spécifique de données au lieu de tout prendre dans son ensemble. Il existe deux types d'attention : l'attention dure, qui prédit quels indices sont pertinents à un certain pas de temps, et l'attention douce, qui crée un ensemble de poids doux avec la fonction softmax pour créer une distribution de probabilité basée sur les jetons d'entrée qui indiquent leur importance. L'attention douce est généralement utilisée et combine les représentations de différentes caractéristiques. La conférence aborde également le processus de traduction du français vers l'anglais comme exemple d'utilisation de l'attention.

  • 00:10:00 Dans cette section, l'orateur explique le processus d'encodage de chaque mot et de création d'une représentation latente des mots à l'aide d'un réseau d'encodeur-décodeur traditionnel qui implique un traitement séquentiel des entrées et un vecteur de contexte pour le décodage. Ils introduisent ensuite le concept d'attention douce, qui utilise un vecteur de contexte qui prend des informations de chaque représentation latente pour décoder en fonction des informations précédemment décodées. Le processus implique la création d'une fonction de score pour déterminer les similitudes entre le décodage précédent et l'encodage, et l'utilisation de différentes métriques pour trouver une importance relative, fournissant une représentation probabiliste de la relation d'une requête avec un groupe de clés.

  • 00:15:00 Dans cette section, le conférencier explique le concept d'attention locale, qui permet au modèle d'attention d'interroger uniquement une certaine fenêtre de jetons d'entrée, plutôt que tous, afin d'économiser les ressources de calcul. La conférence se penche également sur l'utilisation de l'attention pour la vision, y compris l'utilisation de réseaux de compression et d'excitation pour l'attention par canal et l'attention spatiale pour les images. De plus, la conférence aborde brièvement l'utilisation de l'attention pour générer des phrases qui décrivent des images, telles que l'utilisation de convolutions pour extraire des caractéristiques clés et de longs réseaux de mémoire à court terme pour maintenir les connexions entre les mots.

  • 00:20:00 Dans cette section, le conférencier discute de l'utilisation de l'attention dans diverses architectures, y compris l'attention spatiale et l'auto-attention. L'auto-attention consiste à rechercher des jetons à partir de la même entrée tout en prêtant attention aux relations entre les mots d'une phrase, ce qui permet une meilleure prédiction du mot suivant en fonction des mots précédents. Le conférencier introduit également le concept de transformateurs, qui utilisent le système d'attention clé-valeur-requête pour attendre différentes quantités de similarité lors de la sélection des fonctionnalités du noyau.

  • 00:25:00 Dans cette section de la vidéo, le conférencier présente le concept d'auto-attention et d'attention douce, qui sont utilisés dans le modèle Transformer. L'idée est de créer une distribution de probabilité qui se concentre sur certaines caractéristiques tout en ignorant les autres, afin de prédire certaines relations. Le conférencier explique ensuite comment les matrices sont utilisées au lieu d'une comparaison individuelle des requêtes et des clés dans les modèles Transformer. La conférence aborde également les limites des RNN telles que leur incapacité à paralléliser et à capturer de longues séquences, et comment l'attention peut aider à résoudre ces problèmes.

  • 00:30:00 Dans cette section de la conférence, le présentateur discute de l'architecture Transformer et de la manière dont elle utilise l'attention personnelle pour modéliser des séquences ou des groupes de jetons. Les entrées incluent une séquence d'intégrations de jetons et d'intégrations positionnelles, et l'objectif est de proposer une représentation qui peut être transmise au modèle Transformer. L'attention multi-tête est utilisée pour calculer l'importance de chaque jeton en fonction de la requête et de la clé, et l'étape d'anticipation est effectuée en parallèle pour faire ressortir les mérites du transformateur. L'architecture combine des connexions résiduelles et des normes de couche pour atténuer les gradients de fuite et fournir une représentation précise. Enfin, une couche linéaire est ajoutée à la fin pour calculer la sortie en fonction des repères, des clés et des valeurs des différentes représentations.

  • 00:35:00 Dans cette section, l'orateur explique le processus d'application d'une couche linéaire pour obtenir kqv à partir des incorporations d'entrée pour chaque mot du texte. Cela implique l'utilisation de différentes pondérations pour les clés, les requêtes et les valeurs réunies par multiplication matricielle. Après cela, un produit scalaire est trouvé entre les requêtes et les valeurs et chaque jeton s'occupe directement de tous les autres jetons, rendant les connexions entre les entrées évolutives à l'infini. Une distribution SoftMax est appliquée en fonction des valeurs du produit scalaire, puis les valeurs sont repondérées en fonction de cette distribution pour obtenir une valeur finale sur une base jeton par jeton. La mise à l'échelle de l'attention en divisant par un sur la racine carrée de D est utilisée pour normaliser les choses et s'assurer qu'il n'y a pas de petits gradients, et l'attention à plusieurs têtes est utilisée pour projeter chaque clé, requête et valeur correspondant à un jeton H fois. Enfin, l'abandon est utilisé pour éviter le surajustement et une transformation est appliquée aux vecteurs résultants avant de les envoyer à un réseau de neurones à anticipation.

  • 00:40:00 Dans cette section de la vidéo, le conférencier explique le mécanisme d'attention dans les transformateurs et l'importance d'ajouter des connexions résiduelles pour gérer les gradients de fuite dans les réseaux profonds. Ils discutent également des différences entre la normalisation par lots et la normalisation des couches, la normalisation des couches étant utilisée dans le mécanisme d'attention pour normaliser chaque dimension d'entité. Le conférencier explique également comment la somme pondérée des valeurs produit plusieurs vecteurs qui sont ensuite passés à travers une matrice pondérée pour obtenir une valeur singulière transmise au réseau de rétroaction. Dans l'ensemble, la conférence donne une explication approfondie du mécanisme d'attention et de ses différents composants dans les transformateurs.

  • 00:45:00 Dans cette section de la conférence sur les transformateurs et l'attention, l'orateur explique la mise en œuvre de l'architecture Transformer du réseau de neurones, qui consiste en des opérations de norme résiduelle et de couche, ainsi qu'une convolution une par une. Chaque perceptron multicouche est parallélisé et les intégrations de position d'entrée sont utilisées pour se concentrer sur des fenêtres spécifiques en fonction des informations de position. Un jeton factice est également utilisé dans certaines tâches NLP pour transformer une séquence en une mesure vectorielle.

  • 00:50:00 Dans cette section, la conférence traite des exemples séquence-vecteur et de l'utilisation des jetons CLS. La conférence explique les mathématiques derrière le mécanisme d'attention, qui implique la multiplication matricielle entre les entrées de requête, de clé et de valeur. Le résultat est une somme pondérée qui représente l'attention. Cette méthode est efficace en termes de calcul, ce qui la rend adaptée à la parallélisation sur les GPU et évolutive même pour les entrées volumineuses. La conférence se termine en discutant de l'architecture des transformateurs, des intégrations de position et en n'introduisant aucun biais inductif, ce qui est différent des modèles séquentiels.
 

CS 198-126 : Cours 15 - Transformateurs de vision



CS 198-126 : Cours 15 - Transformateurs de vision

Dans cette conférence, le conférencier discute de l'utilisation des transformateurs de vision (ViT) pour les tâches de traitement d'images. L'architecture ViT implique le sous-échantillonnage des images en patchs discrets, qui sont ensuite projetés dans des intégrations d'entrée à l'aide d'une sortie de couche linéaire avant de passer par un transformateur. Le modèle est pré-entraîné sur un grand ensemble de données étiqueté avant d'être ajusté sur l'ensemble de données réel, ce qui se traduit par d'excellentes performances avec moins de calcul que les méthodes de pointe précédentes. Les différences entre les ViT et les réseaux de neurones convolutifs (CNN) sont discutées, les ViT ayant un champ réceptif global et plus de flexibilité que les CNN. L'utilisation de l'apprentissage auto-supervisé et non supervisé avec Transformers pour les tâches de vision est également mise en évidence.

  • 00:00:00 Dans cette section, l'orateur discute de l'utilisation des transformateurs de vision et de la manière dont ils peuvent être appliqués aux images. Ils expliquent le concept de jetons, d'intégrations et de transformateurs, en fournissant un exemple concret de la manière dont ils peuvent être utilisés pour des tâches de traitement du langage naturel. Ils expliquent ensuite comment la même architecture peut être appliquée aux tâches de vision par ordinateur en prétraitant l'image sous la forme d'une chaîne de jetons et en utilisant l'évolutivité, l'efficacité de calcul et les champs réceptifs globaux de Transformer pour la traiter efficacement. L'orateur aborde également le prétraitement du texte par la tokenisation et la mise en correspondance de chaque mot avec un vocabulaire.

  • 00:05:00 Dans cette section de la conférence, le conférencier explique comment convertir les méthodes de tokenisation et d'intégration utilisées dans le traitement du langage naturel (NLP) en traitement d'image. La tokenisation consiste à convertir des mots ou des phrases dans un format numérique, qui est utilisé pour générer des vecteurs d'intégration. Cependant, ce processus n'est pas simple pour les images car les valeurs de couleur sont continues, ce qui rend difficile la création d'un tableau pour les rechercher. Ce défi peut être relevé en prétendant que les valeurs sont discrètes, car cela permet de traiter chaque pixel comme un jeton. De plus, le problème de la complexité temporelle est résolu en utilisant des images plus petites et en les entraînant de la même manière que les modèles de langage.

  • 00:10:00 Dans cette section, l'orateur discute de la mesure du succès du modèle Vision Transformer grâce à une classification semi-supervisée à l'aide d'un ensemble limité d'échantillons étiquetés. Le modèle est pré-formé sur des échantillons non étiquetés, puis passé à travers un classificateur linéaire avec les représentations d'image de sortie en entrée. Les représentations vectorielles continues de sortie doivent être suffisamment bonnes pour que le classifieur fonctionne correctement. Cette technique a permis d'obtenir une précision compétitive sans utiliser d'étiquettes, et elle a également été utilisée pour la génération d'images. Bien que le modèle réussisse, il nécessite une quantité importante de calculs et ne peut fonctionner que sur des images de résolution 64 par 64. L'attrait du modèle Transformer est son évolutivité par rapport au calcul, mais des moyens de mise en œuvre plus efficaces seront nécessaires pour les applications en aval.

  • 00:15:00 Dans cette section, l'orateur discute de l'architecture des transformateurs de vision, qui est une approche plus efficace et générale de la classification des images. Au lieu de quantifier les pixels, les images sont sous-échantillonnées en patchs, puis projetées directement dans les intégrations d'entrée à l'aide d'une sortie de couche linéaire. Les représentations incorporées de position et le jeton CLS sont ajoutés au-dessus du transformateur. La pré-formation est effectuée sur un grand ensemble de données étiquetées avant un réglage fin sur l'ensemble de données réel, ce qui se traduit par d'excellentes performances avec beaucoup moins de calcul que l'état de l'art précédent. L'approche est plus générale car elle a moins de biais inductifs.

  • 00:20:00 Dans cette section, les différences entre les réseaux de neurones convolutifs (CNN) et les transformateurs de vision (ViT) sont discutées. Les deux principales différences entre les CNN et les ViT sont la localité et la structure de voisinage bidimensionnelle. Les CNN ont tendance à privilégier les fonctionnalités proches les unes des autres en raison des limitations de la taille du noyau utilisé pour les interactions entre les pixels. D'autre part, les ViT projettent chaque pixel sur une intégration et permettent à chaque jeton de s'occuper de tous les autres jetons, quelle que soit sa position dans l'image, ce qui les rend moins biaisés vers les caractéristiques locales. Les ViT ont également des représentations uniques pour chaque jeton et des incorporations de position, qui affectent les représentations résultantes, les rendant plus flexibles et capables d'interpoler pendant le réglage fin.

  • 00:25:00 Dans cette section, nous découvrons certains des avantages des transformateurs de vision (ViT) par rapport aux réseaux de neurones convolutionnels (CNN) traditionnels. Les ViT sont capables d'apprendre de meilleures représentations d'images avec des ensembles de données plus volumineux car ils n'ont pas de biais pour le traitement des images au début, ce qui signifie qu'ils ne supposent pas un mode de données, contrairement aux biais d'ingénierie dans les CNN. C'est aussi la raison pour laquelle les ViT ont un compromis avec les données, les performances étant moins bonnes lorsqu'il y a moins de données et meilleures avec plus de données. De plus, les ViT ont un champ réceptif global, permettant des interactions sur toute l'image, ce qui n'est pas possible avec les CNN. Certaines fonctionnalités de ViT, telles que les intégrations de position et les représentations d'attention, le rendent plus interprétable à certains égards.

  • 00:30:00 Dans cette section, les différences entre les réseaux de neurones convolutionnels (CNN) et les transformateurs de vision sont expliquées. Les CNN utilisent une ou deux couches convolutionnelles qui limitent leur capacité à traiter les informations au-delà d'une petite zone. Par conséquent, les interactions entre les jetons dans les CNN ne se produisent qu'à la fin. En revanche, les transformateurs de vision utilisent un champ réceptif global où chaque jeton interagit avec tous les autres jetons depuis le début, leur permettant de s'occuper de tout. Cependant, les transformateurs de vision ont des inconvénients, tels que leur sortie étant moins fine en raison de l'utilisation de correctifs, ce qui entraîne des problèmes de classification et de segmentation des images à grain fin. L'objectif d'avoir des modèles plus généraux est souligné, où les modèles apprennent à partir des données au lieu d'être conçus à la main pour des domaines spécifiques, permettant une combinaison de domaines plus facile.

  • 00:35:00 Dans cette section, le conférencier discute des avantages de l'utilisation de l'apprentissage auto-supervisé et non supervisé avec Transformers, en particulier dans le contexte des tâches de vision. Avec l'accès à de grandes quantités de données non étiquetées sur Internet, les objectifs auto-supervisés et non supervisés permettent une formation efficace sans avoir besoin d'annotation. Le modèle résultant peut produire des représentations qui conservent la disposition de la scène et les informations sur les limites de l'objet, et peut être utilisé pour des tâches de classification d'images et de segmentation vidéo. Le conférencier souligne également l'utilisation réussie des transformateurs de vision dans diverses tâches de classification d'images, démontrant leur capacité à bien évoluer avec de grandes quantités de données.

  • 00:40:00 Dans cette section, le conférencier explique comment passer des architectures initiales des modèles Transformer aux meilleures du classement. Ils ont constaté que de meilleures échelles de représentation avec le temps de calcul, la taille du modèle et la taille de l'ensemble de données, et que les grands modèles sont plus efficaces en termes d'échantillons, ce qui signifie qu'ils ont besoin de moins d'échantillons d'apprentissage pour obtenir les mêmes performances. Le conférencier parle également de Vision Transformers et de CNN, qui sont une architecture hybride entre les deux. Ils ajoutent des biais inductifs dans les transformateurs visuels en utilisant des valeurs de pondération dépendant de la position relative pour traiter l'équivariance translationnelle manquante dans les transformateurs lorsqu'il n'y a pas suffisamment de données.

  • 00:45:00 Dans cette section, le conférencier discute de l'utilisation d'un vecteur de poids appris dans les modèles Transformer pour les images. Ce vecteur de poids appris permet un codage plus facile des caractéristiques qui dépendent uniquement du positionnement relatif plutôt que du positionnement absolu. De plus, le conférencier présente des solutions au problème du temps quadratique par rapport à la taille spatiale dans les transformateurs, telles que la mise en commun et la combinaison de blocs convolutifs avec des blocs transformateurs. Le modèle Vision Transformer avec ses programmes de formation auto-supervisés est considéré comme la prochaine étape dans la transition des fonctionnalités conçues à la main vers des modèles plus généraux, et il nécessite beaucoup de données comme les transformateurs ont tendance à le faire. Le modèle BTS est évolutif et fonctionne bien sur le matériel de calcul. L'enseignant confirme qu'il s'agit d'un algorithme d'apprentissage supervisé.
 

CS 198-126 : Cours 16 - Détection d'objet avancée et segmentation sémantique



CS 198-126 : Cours 16 - Détection d'objet avancée et segmentation sémantique

Dans cette conférence avancée sur la détection d'objets et la segmentation sémantique, le conférencier discute des avantages et des inconvénients des réseaux de neurones convolutifs (CNN) et des transformateurs, en particulier dans le traitement du langage naturel (NLP) et la vision par ordinateur. Alors que les CNN excellent dans le biais textural, les transformateurs gèrent efficacement les tâches de NLP et de vision par ordinateur en utilisant des couches d'auto-attention pour lier des concepts importants et se concentrer sur des entrées spécifiques. La conférence se penche ensuite sur les transformateurs de vision, qui privilégient la forme à la texture, les rendant résistants à la distorsion. Il explique en outre les avantages et les limites du Swin Transformer, une version améliorée du Vision Transformer, qui excelle dans la classification d'images, la segmentation sémantique et la détection d'objets. La conférence met l'accent sur l'importance de la généralisabilité dans les modèles qui peuvent gérer tout type de données, et les applications potentielles dans des domaines tels que les voitures autonomes.

  • 00:00:00 Dans cette section, le conférencier décrit le plan de la conférence du jour, qui comprend un examen des CNN et des transformateurs et de leurs avantages et inconvénients. La conférence couvrira également les contextes NLP, tels que BERT, et comment les intégrations sont générées, puis passera aux transformateurs de vision et les comparera aux CNN. Le Swing Transformer, une amélioration par rapport aux transformateurs de vision pour les applications de vision par ordinateur, sera discuté, y compris la fusion des patchs d'attention de fenêtre et l'attention de fenêtre décalée avec des intégrations positionnelles. Le cours peut également couvrir les méthodes de segmentation avancées, si le temps le permet.

  • 00:05:00 Dans cette section de la conférence, l'orateur discute du concept de CNN et de leur équivalence traductionnelle, ce qui signifie qu'ils adhèrent à une structure de voisinage bidimensionnelle et capturent des informations à différents points en fonction de la distance de foulée. L'orateur souligne également que les cnns ont montré une propension au biais de texture par rapport à la forme et que l'augmentation de la texture peut affecter leurs performances. L'orateur passe ensuite au contexte des Transformers pour les tâches PNL et comment l'attention nous permet de lier ensemble des choses importantes dans une phrase et de nous concentrer sur certaines parties de l'entrée. L'auto-attention dans Transformers nous permet de le faire dans une phrase, en soulignant l'importance des mots rencontrés précédemment.

  • 00:10:00 Dans cette section, la vidéo explique comment les couches d'auto-attention utilisent les requêtes, les clés et les valeurs pour calculer les informations d'attention et de pondération en fonction de la similarité ou de la différence. La section présente également les transformateurs de vision, qui utilisent le modèle Transformer pour gérer à la fois les tâches de NLP et de vision par ordinateur en aplatissant les images en patchs 16x16 et en les faisant passer à travers une couche linéaire pour générer des incorporations. Les informations de position sont apprises par le modèle, et ils utilisent un perceptron multicouche pour classer la sortie. La section compare les transformateurs de vision au CNNS et souligne que les couches d'auto-attention sont globales, tandis que seul le MLP compare les pixels voisins. Le modèle Transformer dans Vision Transformer ne fait pas la différence entre les entrées d'image et de mot et est généralisable pour une gamme de tâches.

  • 00:15:00 Dans cette section de la conférence, le concept de biais inductif dans les modèles d'apprentissage automatique est discuté. Le biais inductif fait référence aux hypothèses qu'un modèle fait sur les données sur lesquelles il a été formé et la réduction de ce biais permet à un modèle d'être plus généralisable. Il est important d'avoir des modèles qui peuvent être appliqués à plusieurs tâches sans supposer de connaissances préalables. Alors que les CNN surpassent les transformateurs sur des ensembles de données plus petits, le modèle Vision Transformer (ViT) fonctionne mieux sur des ensembles de données plus grands et plus complexes car il modélise mieux la vue humaine en donnant la priorité à la forme plutôt qu'à la texture. La robustesse contradictoire est également introduite en tant que métrique où les images sont déformées en introduisant du bruit de sorte que certains classificateurs ne sont plus en mesure de les classer.

  • 00:20:00 Dans cette section, les limites des transformateurs de vision dans la restauration d'images et la segmentation sémantique sont discutées. Lorsque les correctifs sont transmis et traités un par un, les informations de bordure peuvent être perdues et l'analyse fine des pixels dans un correctif est faible, car les informations appartenant à un correctif sont traitées de la même manière. Cependant, contrairement aux CNN qui privilégient la texture à la forme, les Vision Transformers privilégient la forme à la texture, ce qui les rend naturellement résistants aux distorsions visuelles, même lorsque du bruit ciblé est ajouté à une image. L'extraction des correctifs est un problème propre aux images, et pour les images plus grandes, le nombre de jetons d'image générés augmentera rapidement.

  • 00:25:00 Dans cette section, le conférencier discute des problèmes liés à l'utilisation de transformateurs de vision typiques pour la détection et la segmentation d'objets, en particulier lors du traitement d'images plus grandes car cela nécessite une grande puissance de traitement. Cependant, une solution a été introduite avec le transformateur de fenêtre décalée, qui utilise des fenêtres qui ne se chevauchent pas pour effectuer l'auto-attention au sein des groupes, puis les combine pour effectuer une attention croisée. Cela permet des connexions d'attention entre fenêtres, ce qui entraîne une complexité de calcul linéaire au lieu de N-carré, car la taille des patchs reste la même lorsqu'ils sont combinés. Cette méthode de segmentation d'image est couramment utilisée dans les technologies d'auto-conduite.

  • 00:30:00 Dans cette section, le concept de Swin Transformer est introduit, un modèle qui excelle dans la classification d'images, la détection d'objets et la segmentation sémantique. Le modèle de grand patch Swin a une taille de patch de 4, une capacité de 192, une taille de fenêtre de 7, et est formé sur ImageNet 22k et affiné sur ImageNet 1k. Le modèle utilise une couche multi-attention de fenêtre et une couche d'attention de fenêtre décalée, et un MLP avec des couches cachées qui utilisent une fonction d'activation GELU. La sortie de la fenêtre MSA est passée à travers une norme de couche pour normaliser les distributions des couches intermédiaires avant d'entrer dans le MLP.

  • 00:35:00 Dans cette section, l'orateur discute des avantages de l'utilisation de Layer Norm dans les modèles de formation pour la détection d'objets et la segmentation sémantique. Layer Norm applique une opération de lissage à la surface du dégradé, ce qui permet un apprentissage plus rapide et une meilleure précision de généralisation. L'orateur compare Layer Norm à d'autres techniques de lissage telles que Batch Norm et explique comment il se concentre sur les couches intermédiaires du processus. La discussion passe ensuite aux blocs d'auto-attention multi-têtes fenêtrés (WMSA), qui effectuent l'auto-attention dans chaque fenêtre d'une image. Le nombre de vecteurs de patch dans chaque fenêtre est garanti, ce qui entraîne une complexité linéaire de la taille de l'image, contrairement à la complexité quadratique de Vit (une technique concurrente). La deuxième étape de WMSA implique un processus de fusion de patchs dans lequel des blocs de pixels voisins sont concaténés dans une fenêtre plus petite, créant de nouvelles bordures de patchs et des fenêtres refaites.

  • 00:40:00 Dans cette section de la conférence, le présentateur explique la solution de Swin Transformer pour gérer l'augmentation du nombre de fenêtres générées après l'avancement des correctifs. Swin Transformer combine intelligemment ces fenêtres en réorganisant les blocs pour n'avoir que quatre fenêtres, réduisant le nombre total d'éléments de 64 à 16 tout en gardant la quantité totale d'informations cohérente. La technique d'optimisation implique un décalage cyclique, et une couche linéaire est utilisée pour augmenter la profondeur ou la dimension "C" de la taille d'enrobage après avoir réduit la décomposition des patchs. Cette technique permet des économies de puissance de calcul et évite la solution naïve de zéro-padding avant d'effectuer l'attention.

  • 00:45:00 Dans cette section, l'intervenant discute de deux optimisations proposées par les auteurs pour améliorer l'efficacité du traitement des images. La première optimisation consiste à décaler une image vers une certaine partie avant de calculer l'attention, puis à la reculer en marquant qu'elle a déjà été calculée. Cela optimise la puissance de calcul en évitant d'avoir à effectuer une opération entièrement nouvelle pour obtenir les valeurs souhaitées. La deuxième optimisation se fait par le biais d'intégrations positionnelles qui apprennent les informations de position des patchs au lieu d'être fournies explicitement, ce qui limite la portée de l'attention qui doit être calculée. Ces optimisations, ainsi que l'utilisation de vecteurs de biais et de manipulations de taille de canal, contribuent à la performance des calculs d'auto-attention dans le traitement d'image.

  • 00:50:00 Dans cette section, la conférence traite du processus de fusion des correctifs aux étapes deux, trois et quatre du modèle de transformateur Swin. En réduisant la dimensionnalité des patchs, ils sont réduits d'un quart pour atteindre 3136 patchs, et la taille d'encodage est doublée pour obtenir 384 encodages. Le processus est répété aux étapes trois et quatre et le dernier composant du processus est une couche de mise en commun des moyennes, suivie d'une tête de classification. La conférence soulève des inquiétudes quant à la réintroduction du biais inductif grâce à l'utilisation d'approches similaires aux CNN, mais des études ont montré que les modèles Swin fonctionnent bien en termes de robustesse à la corruption et ont un biais de forme inférieur à celui des transformateurs de vision. La généricité de l'architecture de Transformer permet de capturer des modèles avec précision, quel que soit le type de données ou le domaine, et plus de données se traduisent par de meilleures performances.

  • 00:55:00 Dans cette section, le conférencier explique les avantages et les inconvénients d'avoir un modèle capable de prendre n'importe quel type de données, de les traiter et d'en extraire des modèles, connus sous le nom de généralisabilité. L'idée d'un modèle général d'intelligence artificielle capable de gérer n'importe quelle entrée/sortie est discutée, et les applications potentielles dans des domaines tels que les voitures autonomes sont explorées. Le conférencier note également que le domaine de la robustesse contradictoire est encore en développement et que des tests supplémentaires sont nécessaires pour déterminer l'efficacité de modèles tels que Swin contre des attaques contradictoires plus avancées.
 

CS 198-126 : Cours 17 - Enquête sur la vision 3D, partie 1



CS 198-126 : Cours 17 - Enquête sur la vision 3D, partie 1

La vidéo traite de différentes représentations visuelles 3D et de leurs avantages et inconvénients, notamment les nuages de points, les maillages, les voxels et les champs de rayonnement. La conférence couvre également le raycasting, en avant et en arrière, ainsi que la colorisation et le rendu d'images pour des objets qui se croisent, avec différentes approches pour les solides et les transparences. Le conférencier aborde les limites du rendu différentiable et comment Radiance Fields peut créer une fonction pour chaque point XYZ avec une densité et une couleur physique, ce qui le rend plus facile à apprendre.

  • 00:00:00 Dans cette section, le conférencier discute de la nécessité d'étendre la vision par ordinateur à la 3D, car le monde réel est en trois dimensions. Il existe des applications illimitées pour la 3D, telles que l'auto-conduite, l'optimisation de la forme, les environnements virtuels, la génération d'avatars, etc. Différentes méthodes de représentation 3D sont ensuite présentées, notamment la 2.5D, les nuages de points, les maillages, les grilles de voxels et les champs de régions. La conférence se penche ensuite sur le modèle de caméra à sténopé, qui est important pour comprendre le fonctionnement de l'imagerie, puis comment rendre des objets 3D dans l'espace pour la simulation.

  • 00:05:00 Dans cette section de la conférence, le concept de suivi avant et arrière est introduit comme moyen de déterminer la position d'une caméra dans une scène. Le conférencier discute également des images RVB-D (2,5D) et de la manière dont elles contiennent des informations de profondeur qui peuvent être utilisées pour générer des nuages de points, qui peuvent ensuite être utilisés pour créer des maillages d'une surface. Les avantages et les limites de l'utilisation de nuages de points pour la création de maillage sont également explorés.

  • 00:10:00 Dans cette section, le conférencier décrit différentes représentations d'objets 3D. Ils commencent par discuter des structures de maillage et de la difficulté de les utiliser dans des environnements d'apprentissage automatique en raison du manque de techniques pour travailler avec des graphes. La conférence présente ensuite les voxels comme une structure spatiale 3D discrète composée de petits cubes ou "Legos" qui peuvent représenter des objets de manière binaire ou translucide. Cependant, l'utilisation de voxels à haute résolution peut être prohibitive en raison de la complexité des calculs. La conférence se termine par la présentation des champs de radiance, une fonction qui produit des couleurs et une densité RVB à des coordonnées XYZ spécifiques, comme solution pour représenter les détails à haute fréquence dans les objets 3D.

  • 00:15:00 Dans cette section, le conférencier aborde différentes représentations 3D, notamment les nuages de points, les maillages, les voxels et les champs de radiance. Chaque type a ses avantages et ses inconvénients, et il est essentiel de choisir la bonne représentation pour une tâche particulière. Après avoir discuté des représentations 3D, le cours passe au raycasting et aux deux types de raycasting : vers l'avant et vers l'arrière. Le raycasting vers l'avant est utile pour le rendu des nuages de points car il nous permet de voir chaque point de la scène. Inversement, le raycasting arrière est plus adapté au rendu des maillages ou des grilles de voxels car il nous permet de voir la surface qui croise le rayon en premier.

  • 00:20:00 Dans cette section de la vidéo, l'orateur discute du processus de colorisation et de rendu des images pour différents objets qui se croisent. Cela se fait en calculant trois intersections triangulaires pour chaque tableau, ce qui peut être efficace. Si les objets sont translucides, le processus consiste à considérer non seulement la couleur du premier point intersecté, mais également la densité du premier et du deuxième point. Pour les régions sans surfaces, telles que la fumée, l'échantillonnage des rayons est utilisé pour échantillonner différents points sur la ligne droite et utiliser le champ de radiance pour créer une fonction qui produit RVB et D, pour chaque point. Ces ensembles de couleurs et de densités sont ensuite agrégés à l'aide d'un rendu volumétrique pour créer un volume de pixels.

  • 00:25:00 Dans cette section, le conférencier discute du rendu différentiable et de ses limites. Alors que tout ce qui est discuté dans le rendu est différentiable, il n'est différentiable que pour les surfaces visibles que nous voyons dans l'image rendue. Les champs de rayonnement résolvent un problème avec cela car chaque point échantillonné aura un impact sur la couleur finale et aura donc un certain gradient de sortie. Le conférencier mentionne également que Radiance Fields existe depuis un certain temps et fonctionne comme un moyen de créer une fonction pour chaque point XYZ avec une densité et une couleur physique. Ensuite, le conférencier discutera de la modélisation f en tant que réseau de neurones pour rendre Radiance Fields apprenable.

  • 00:30:00 Dans cette section, l'orateur mentionne brièvement un retard d'une semaine dans les devoirs de Transformers, mais ne fournit aucun contexte ni explication.
 

CS 198-126 : Cours 18 - Enquête sur la vision 3D, partie 2



CS 198-126 : Cours 18 - Enquête sur la vision 3D, partie 2

Dans cette conférence sur la vision 3D, l'instructeur aborde les champs de rayonnement, en particulier les champs de rayonnement neuronal (NeRF), qui prennent position dans l'espace et produisent de la couleur et de la densité. L'orateur explique le processus de rendu, qui consiste à interroger du point de vue de la caméra et à utiliser la fonction de boîte noire pour déterminer à quoi ressemblera l'image. Les conférences discutent des défis liés à la représentation de perspectives cohérentes d'objets en vision 3D et de l'utilisation de MLP pour prendre en compte les données XYZ d'un objet et la direction de la vue pour la densité de sortie et les informations RVB. La conférence couvre également les défis du rendu volumétrique et de l'utilisation des dérivés Nerf pour améliorer la vision par ordinateur. L'instructeur termine en démontrant l'utilisation de la contraction de l'espace pour générer des images 3D réalistes à l'aide d'un réseau de neurones.

  • 00:00:00 Dans cette section de la conférence, les instructeurs discutent des champs de rayonnement, en particulier des NeRF (Neural Radiance Fields), qui prennent position dans l'espace et produisent de la couleur et de la densité. Le processus de rendu implique une interrogation du point de vue de la caméra et l'utilisation de la fonction de boîte noire pour déterminer à quoi ressemblera l'image. La couleur est une moyenne pondérée de tous les échantillons, et la visibilité est proportionnelle à la densité et inversement proportionnelle à la quantité d'objets devant la caméra. Les instructeurs donnent des exemples pour expliquer l'intuition derrière les champs de rayonnement, y compris comment l'objet le plus proche de la caméra contribue le plus à la couleur et l'effet de la densité sur le poids.

  • 00:05:00 Dans cette section, l'orateur explique comment créer un champ de rayonnement neuronal pour générer de nouvelles vues d'un objet à partir de plusieurs images de cet objet. L'objectif est de créer un champ de rayonnement neuronal qui peut être interrogé à des points de la scène pour créer de nouvelles images. Cependant, obtenir les positions des troupes au sol et les directions requises pour cela peut être une tâche difficile et longue. Il existe des programmes disponibles qui peuvent aider à ce processus, mais l'orateur note qu'il peut être considéré comme de la triche de se fier uniquement à ces outils.

  • 00:10:00 Dans cette section, le conférencier discute de l'utilisation de la vision 3D pour générer de nouvelles vues d'une scène. Ils expliquent que l'apprentissage d'un champ de rayonnement neuronal permet une cohérence de forme entre différentes vues, ce qui est important pour rendre de nouvelles vues d'un objet avec un apprentissage en profondeur. Sans ce goulot d'étranglement, il est difficile d'assurer la cohérence, comme le montre un exemple avec StyleGAN qui a produit des formes incohérentes dans différentes vues. Le conférencier soutient que l'apprentissage d'une représentation 3D d'un objet est nécessaire pour générer de nouvelles vues de l'objet avec une forme cohérente.

  • 00:15:00 Dans cette section, l'orateur discute des défis liés à la représentation de perspectives cohérentes d'objets en vision 3D. L'utilisation de Radiance Fields est expliquée comme un moyen de représenter des détails fins dans l'apparence de l'objet, tels que l'éblouissement et les réflexions sous différents angles, qui seraient difficiles à capturer autrement. L'orateur explique en détail comment ce processus implique de prendre en compte les données de position et de direction de visualisation pour créer une représentation plus précise de l'objet observé. Le concept d'utilisation des MLP de densité et de couleur pour représenter les différents aspects de l'objet est également expliqué.

  • 00:20:00 Dans cette section, l'orateur discute de l'utilisation des MLP (réseaux de neurones denses) pour prendre en compte les données XYZ d'un objet et sa direction de vue pour la densité de sortie et les informations RVB. Le réseau utilise un codage positionnel pour créer des limites de décision nettes, ce qui améliore la netteté de l'image recréée. L'utilisation d'une représentation binaire et de portes logiques permet des changements nets et des détails à haute fréquence dans l'image recréée. L'orateur note qu'il peut fournir une explication plus approfondie de l'encodage positionnel si nécessaire.

  • 00:25:00 Dans cette section, l'orateur détaille les différents aspects de la mise en œuvre d'un modèle Nerf (champs de rayonnement neuronal) pour la vision 3D, y compris l'utilisation du codage positionnel pour les limites nettes et la dépendance à la vue pour des effets tels que l'éblouissement et la réflexion. L'orateur discute également de l'optimisation du processus d'échantillonnage en deux tours et de l'utilisation d'un MLP séparé pour apprendre les détails les plus fins des bords. De plus, l'orateur explique la fonction de perte utilisée pour former le réseau, qui consiste à comparer les valeurs RVB des images de vérité au sol et à rendre un nombre limité de rayons en raison des limitations du GPU. Il n'y a pas de perte directe de densité, mais le réseau apprend toujours la densité correcte grâce à la relation indirecte entre la densité et l'exactitude des couleurs.

  • 00:30:00 Dans cette section de la conférence, l'orateur parle du processus de rendu volumétrique et de la façon dont il nécessite une couleur et une densité correctes afin de produire des prédictions précises. L'orateur explique que l'utilisation d'un nombre suffisant de caméras permet la triangulation de différents points sur l'objet et que le moyen le plus simple pour le réseau de produire une faible perte consiste à produire la couleur correcte et la haute densité pour le point d'intersection. L'orateur présente également un projet sur lequel il travaille qui utilise des scripts de prétraitement et une bibliothèque appelée nerfacto pour la formation au rendu en temps réel. L'orateur note que le prétraitement est difficile et peut parfois entraîner des directions incorrectes.

  • 00:35:00 Dans cette section, le conférencier aborde la vision 3D et les défis associés à la capture d'images dans toutes les directions. La vidéo se concentre sur l'utilisation de dérivés Nerf pour améliorer la vision par ordinateur et sur la façon dont cette technique peut être utilisée pour contracter l'espace autour d'une scène, ce qui permet au réseau d'apprendre plus facilement de bonnes valeurs. L'orateur explique que la boîte englobante autour de l'image aide à contraindre l'espace, de sorte que le réseau ne reçoit que des valeurs comprises entre -1 et 1. La vidéo illustre comment la contraction de l'espace fonctionne avec une formule qui prend un point dans l'espace et le mappe sur une balle unitaire, ce qui facilite l'apprentissage du point et des valeurs de la scène pour le réseau.

  • 00:40:00 Dans cette section de la vidéo, le conférencier démontre l'utilisation de la contraction de l'espace pour générer des images 3D réalistes à l'aide d'un réseau de neurones. Il présente une image d'une Campanilla et explique que le réseau s'aggrave progressivement lorsqu'il atteint la limite des données d'entraînement. Le conférencier mentionne également certaines avancées dans la génération d'images 3D qui prennent des secondes plutôt que des jours. Bien qu'il n'ait pas eu assez de temps pour expliquer pourquoi la fonction de densité est apprenable, il propose d'avoir des discussions avec le public après la conférence.