Apprentissage Automatique et Réseaux Neuronaux - page 11

 

Héros de l'apprentissage en profondeur : Andrew Ng interviewe Yuanqing Lin, responsable de Baidu Research




Héros de l'apprentissage en profondeur : Andrew Ng interviewe Yuanqing Lin, responsable de Baidu Research

Yuanqing Lin, responsable de la recherche Baidu et responsable du laboratoire national chinois sur l'apprentissage en profondeur, discute de la création du laboratoire national et de son impact sur la communauté de l'apprentissage en profondeur. Lin donne un aperçu de l'investissement de la Chine dans l'apprentissage en profondeur et de la manière dont il a conduit à la croissance dans divers secteurs. Il souligne l'importance des boucles de rétroaction dans le développement de l'IA et comment cela aide à créer de meilleurs algorithmes et technologies. Lin conseille aux individus d'établir une base solide en apprentissage automatique et de commencer avec un cadre open source pour entrer dans le domaine avec succès.

  • 00:00:00 Dans cette section, Yuanqing Lin, directeur de Baidu Research et directeur du Laboratoire national chinois sur l'apprentissage en profondeur, parle de son histoire personnelle et de la façon dont il est entré dans le domaine de l'apprentissage automatique. Lin partage qu'il a déplacé son domaine d'étude de la physique à l'apprentissage automatique pour son programme de doctorat à UPenn, qu'il a trouvé être une expérience très excitante où il a appris de nouvelles choses chaque jour. Il a finalement travaillé sur un projet réussi pour le ImageNet Challenge, qui l'a exposé à des tâches de vision par ordinateur à grande échelle et l'a inspiré à travailler sur l'apprentissage en profondeur. En tant que directeur du National Lab de Chine, l'objectif de Lin est de construire la plus grande plate-forme d'apprentissage en profondeur du pays, offrant des ressources aux chercheurs et aux développeurs pour améliorer la technologie existante et en développer de nouvelles pour les grandes applications.

  • 00:05:00 Dans cette section, Yuanqing Lin, responsable de Baidu Research, discute du nouveau laboratoire national d'IA et de l'impact qu'il aura sur la communauté de l'apprentissage en profondeur. Il souligne comment le laboratoire fournira une structure informatique pour exécuter des modèles d'apprentissage en profondeur, ce qui facilitera grandement la reproduction de la recherche. Il discute également de l'investissement de la Chine dans l'apprentissage en profondeur et de la manière dont il a conduit à la croissance dans divers secteurs tels que le commerce électronique, la surveillance, etc. Lin souligne l'importance des boucles de rétroaction dans le développement de l'IA et comment cela aide à créer de meilleurs algorithmes et technologies. Dans l'ensemble, il pense que la communauté de l'apprentissage en profondeur bénéficiera grandement des ressources et de l'expertise du laboratoire.

  • 00:10:00 Dans cette section, Yuanqing Lin, responsable de Baidu Research, souligne l'importance d'avoir une vision et une direction solides pour que l'entreprise réussisse dans le domaine de l'apprentissage en profondeur et de l'IA. Il conseille aux personnes qui entrent dans le domaine de commencer avec un cadre open source et de se familiariser avec les ressources d'analyse comparative. Lin recommande aux individus d'établir une base solide en apprentissage automatique pour bien comprendre le fonctionnement de l'apprentissage en profondeur.
 

Héros du Deep Learning : Dawn Song sur l'IA, le Deep Learning et la sécurité



Héros du Deep Learning : Dawn Song sur l'IA, le Deep Learning et la sécurité

Dawn Song, experte en apprentissage en profondeur et en sécurité informatique, a discuté de son cheminement de carrière et de son travail dans le domaine de l'IA, de l'apprentissage en profondeur et de la sécurité dans une interview. Song a souligné l'importance d'identifier les problèmes ou les questions clés pour guider sa lecture lors de son entrée dans le domaine et de développer une base solide de représentation pour faciliter la recherche dans d'autres domaines. Elle a également souligné l'importance croissante de la construction de systèmes d'IA et d'apprentissage automatique résilients et son travail dans le développement de mécanismes de défense contre les attaques par boîte noire. Song a partagé son travail sur la confidentialité et la sécurité, y compris la formation de modèles de langage différentiellement privés et le développement d'une plate-forme de cloud computing axée sur la confidentialité sur la blockchain chez Oasis Labs. Enfin, Song a conseillé aux personnes entrant dans de nouveaux domaines d'être courageuses et de ne pas avoir peur de repartir à zéro.

  • 00:00:00 Dans cette section, l'intervieweur s'entretient avec Dawn Song, experte en apprentissage approfondi et en sécurité informatique. Le cheminement de carrière de Song n'était pas linéaire, commençant par un premier cycle en physique et passant à l'informatique avec un accent sur la sécurité informatique. Song a décidé de poursuivre l'apprentissage en profondeur et l'IA car elle trouvait cela excitant et intrigant. Song passait quatre jours par semaine à lire des articles et des livres sur l'apprentissage en profondeur et considérait cela comme l'un de ses moments les plus heureux. Elle a conçu un programme de lecture pour elle-même afin d'en savoir plus sur le domaine.

  • 00:05:00 Dans cette section, l'orateur explique comment il a développé une stratégie pour plonger dans la littérature abondante sur l'apprentissage en profondeur et l'IA lors de son entrée sur le terrain. Il souligne l'importance d'identifier les problèmes ou questions clés pour guider sa lecture, ainsi que de rechercher les opinions des autres dans le domaine et de trianguler à travers des articles de blog, des articles et des références pour créer une liste de lecture supérieure. L'une des questions centrales sur lesquelles l'orateur s'est intéressé très tôt était de savoir comment construire de grandes représentations, ce qui, selon lui, reste une question largement ouverte dans le domaine. Il souligne l'importance de développer une base solide dans ce domaine pour faciliter la recherche dans d'autres domaines.

  • 00:10:00 Dans cette section, l'orateur explique comment la représentation du monde est cruciale pour naviguer et le comprendre, et l'idée que les cerveaux humains représentent le monde à travers des schémas de déclenchements neuronaux qui peuvent être approximés par des vecteurs de nombres réels dans l'apprentissage en profondeur. Cependant, le mécanisme de représentation réel est beaucoup plus riche que les simples déclenchements neuronaux, et il est important d'apprendre ce que sont ces représentations. L'orateur aborde également leur travail dans le domaine de la sécurité informatique et la façon dont les connaissances acquises grâce à la recherche sur la sécurité peuvent être utilisées pour améliorer l'IA et l'apprentissage en profondeur, en particulier avec l'adoption croissante de ces technologies dans des rôles critiques dans la société où les attaquants sont incités à développer de nouvelles attaques.

  • 00:15:00 Dans cette section, l'orateur discute de l'importance croissante de la construction de systèmes d'IA et d'apprentissage automatique résistants aux attaques, alors que nous devenons de plus en plus dépendants de ces systèmes pour prendre des décisions critiques. Il y a eu de plus en plus d'attaques contre les systèmes d'apprentissage automatique, telles que l'utilisation d'une technologie de vision par ordinateur avancée pour résoudre les captures et la tentative d'échapper aux systèmes d'apprentissage automatique pour la détection des fraudes. L'équipe du conférencier a étudié la vulnérabilité des systèmes d'apprentissage automatique actuels et a développé des défenses contre les attaques, y compris les attaques par boîte noire où l'attaquant n'a pas besoin de savoir quoi que ce soit sur le modèle victime. L'équipe a également montré que les attaques par boîte noire peuvent être efficaces grâce à des méthodes telles que les attaques basées sur Ensemble et l'accès par requête au modèle.

  • 00:20:00 Dans cette section, Dawn Song discute de son travail de développement d'une technique d'attaque basée sur un échantillon qui consiste à utiliser un ensemble de modèles de boîte blanche pour créer des exemples d'adversaires efficaces menant à des attaques réussies, même dans un cadre de boîte noire. Cependant, du côté défensif, la construction d'une solution solide et générale pour se défendre contre des attaquants puissants et adaptatifs reste une question difficile et ouverte. De plus, Dawn note comment l'approche des contrôles de cohérence pour détecter les attaques pourrait être une direction fructueuse pour poursuivre la construction d'une défense contre les attaques, car elle pourrait être appliquée dans divers scénarios, y compris l'IA et la confidentialité. Par exemple, en collaboration avec des chercheurs de Google, Dawn et son équipe ont démontré l'importance de veiller à protéger la vie privée des utilisateurs, car des données sensibles, telles que les numéros de sécurité sociale et de carte de crédit, pouvaient être extraites de modèles d'apprentissage automatique formés à partir d'e-mails.

  • 00:25:00 Dans cette section, Dawn Song parle de son travail sur la confidentialité et la sécurité dans l'IA, en particulier sur l'atténuation des attaques en formant des modèles de langage différentiellement privés. Song explique que la confidentialité différentielle implique d'ajouter du bruit pendant le processus de formation d'une manière choisie de manière appropriée pour atténuer les attaques sans mémoriser des informations sensibles telles que les numéros de sécurité sociale. Song partage également ses travaux récents sur la sécurité des appareils IoT, où ils exploitent des techniques d'apprentissage en profondeur pour détecter rapidement la similitude du code et identifier les vulnérabilités dans le micrologiciel des appareils IoT du monde réel. En tant que PDG d'Oasis Labs, Song explique comment l'entreprise construit une plate-forme de cloud computing axée sur la confidentialité sur la blockchain qui répond aux défis de la confidentialité des données dans l'IA en permettant des contrats intelligents préservant la confidentialité.

  • 00:30:00 Dans cette section, le Dr Dawn Song discute d'une plate-forme blockchain qui peut aider à décentraliser l'IA et à accroître l'accessibilité aux capacités d'apprentissage automatique tout en protégeant la vie privée des utilisateurs. La plate-forme aura des contrats intelligents qui spécifient les conditions d'utilisation des utilisateurs, stipulant que les données collectées ne peuvent être utilisées que pour former un modèle d'apprentissage automatique préservant la confidentialité et spécifiant comment l'utilisateur peut être indemnisé. Le Dr Song partage également son enthousiasme pour la synthèse de programme et comment elle peut aider à résoudre des problèmes importants tout en offrant une perspective utile sur un plus large éventail de problèmes. Enfin, le conseil du Dr Song aux personnes qui cherchent à entrer dans de nouveaux domaines est d'être courageux et de ne pas avoir peur de repartir de zéro, car cela peut être un processus très enrichissant.
 

La révolution de l'IA | L'intelligence artificielle expliquée | Nouvelles technologies | Robotique




La révolution de l'IA | L'intelligence artificielle expliquée | Nouvelles technologies | Robotique

Cette vidéo explore la révolution de l'IA, en commençant par l'avenir des véhicules autonomes et des robots autodidactes capables de naviguer sur des terrains complexes, de mener des missions de recherche et de sauvetage et d'interagir avec les humains dans des espaces de travail collaboratifs. Le développement de la robotique en essaim montre un énorme potentiel pour améliorer des domaines tels que l'agriculture, la santé et la réponse aux catastrophes. Les chercheurs travaillent à rendre les robots plus conscients d'eux-mêmes et capables de communiquer via le traitement du langage naturel, en créant des avatars numériques hyperréalistes et des androïdes plus humains, qui pourraient servir d'assistants holographiques ou de compagnons pour les personnes âgées et socialement isolées. Bien que les avantages de l'IA dans l'amélioration de la société soient immenses, des considérations éthiques et une responsabilité des développeurs sont également nécessaires pour garantir l'alignement de l'IA sur des intentions positives.

  • 00:00:00 Dans cette section, l'avenir de l'hyperintelligence est exploré, avec des voitures autonomes et des drones autonomes censés révolutionner la vie moderne. On s'attend à ce que les humains vivent et travaillent aux côtés d'androïdes conscients de soi, ce qui nous libérera des tâches fastidieuses et augmentera la productivité, tandis que les compagnons de l'IA aideront les humains de plusieurs façons. Cette section explique ensuite comment l'IA fonctionne et se demande si l'IA gagnera des traits humains tels que l'émotion, la conscience ou même le libre arbitre. La voiture autonome est présentée comme la voie la plus claire vers l'avenir, avec Raj Rajkumar de l'Université Carnegie Mellon expliquant comment les décisions relatives aux voitures autonomes sont prises grâce à une combinaison de caméras et de radars avancés qui comparent les objets externes à une carte 3D interne.

  • 00:05:00 Dans cette section, la vidéo explore la nature dynamique des transports et le défi que l'IA doit reconnaître les informations dynamiques pour comprendre où elles se dirigent objectivement dans l'espace et réagir aux changements et aux feux de circulation. La vidéo souligne l'importance de la sécurité dans la création de voitures autonomes et l'utilisation de l'apprentissage automatique dans la création de robots capables d'apprendre et d'interagir avec leur environnement en identifiant des objets et en distinguant différents éléments, de la même manière qu'un bébé apprend son environnement. Le robot R2 est présenté, qui est conçu pour fonctionner dans des environnements souterrains et déposer des répéteurs de signal pour créer un réseau Wi-Fi afin de créer une représentation 3D de l'environnement pour naviguer, identifier et éviter les obstacles.

  • 00:10:00 Dans cette section, la vidéo présente les capacités des robots intelligents capables d'explorer et de cartographier de nouveaux territoires pour faciliter les missions de recherche et de sauvetage. Des véhicules naviguant dans des zones sinistrées aux drones volant dans des espaces inconnus, ces robots autonomes sont capables de prendre des décisions en fonction de leur environnement, en utilisant des technologies telles que le lidar pour cartographier leur environnement. De plus, ces robots sont déjà utilisés dans des industries dangereuses telles que l'exploitation minière, la construction et l'exploration pétrolière pour effectuer des inspections et créer des cartes de terrain accidenté. Le développement de ces robots autonomes présente non seulement un avenir d'hyper-intelligence, mais pourrait également révolutionner des domaines tels que la recherche et le sauvetage, l'intervention en cas de catastrophe et la livraison de colis.

  • 00:15:00 Dans cette section, la vidéo traite du développement d'une armée de petits robots volants par Vijay Kumar, professeur à Univ. de Pennsylvanie, pour s'attaquer au problème de la faim dans le monde. Grâce à l'IA, ces drones peuvent agir comme un groupe collectif coordonné pour fournir des informations précises sur les plantes individuelles, ce qui peut augmenter l'efficacité de la production alimentaire. Les drones utilisent un algorithme d'IA collectif pour communiquer entre eux et travailler ensemble pour effectuer des tâches telles que la cartographie et la construction de structures. Cette technique d'essaimage offre des avantages par rapport à un seul drone, effectuant des opérations beaucoup plus rapidement en combinant leurs données et en empêchant toute perte de drones de condamner l'ensemble de l'opération. D'autres exemples d'utilisation de la technologie d'essaimage incluent les abeilles robotisées qui aident à la pollinisation dans les vergers et dans les fermes, les rendant plus durables et productives.

  • 00:20:00 Dans cette section, l'accent est mis sur la collaboration homme-robot et les défis d'apprendre aux robots à apprendre des comportements humains. Le Massachusetts Institute of Technology mène des recherches révolutionnaires, créant un logiciel qui permet aux robots de travailler et d'interagir directement avec les humains. Les robots apprennent les tâches en les démontrant, et l'IA reconnaît les objets affichés à travers des balises visuelles, et grâce à l'observation, le logiciel est écrit et révisé en continu, apprenant le contexte et peut penser de manière dynamique. Le défi de la création d'hyper-intelligence est de faire en sorte que les robots anticipent l'environnement pour prédire ce qui va se passer ensuite. Le robot industriel est doté d'une intelligence lui permettant de reconnaître les actions d'un collègue humain dans un test de fabrication simulé afin de rendre l'interaction plus sûre pour les humains.

  • 00:25:00 Dans cette section, une démonstration de la façon dont la technologie de l'IA peut fonctionner avec les humains dans un espace de travail collaboratif est présentée. Le robot est capable de reconnaître et d'anticiper les mouvements humains, ce qui rend son travail plus sûr et plus efficace. Ce thème du travail d'équipe entre humains et robots devient de plus en plus important dans diverses industries comme la santé, où les robots IA sont déjà utilisés pour augmenter la productivité et réduire les erreurs humaines. Le développement d'une intelligence artificielle générale avec la capacité de penser et d'apprendre comme les humains est l'objectif ultime de certains scientifiques, qui pensent que les machines peuvent un jour devenir sensibles et conscientes d'elles-mêmes.

  • 00:30:00 Dans cette section, la vidéo aborde le concept de proprioception, à la fois chez les bébés et les robots. La proprioception fait référence à la conscience d'un individu des mouvements de son corps et de son positionnement dans l'espace. Les experts soulignent l'importance de la conscience de soi d'un robot dans le développement de la conscience robotique. Les robots peuvent développer des images de soi, planifier de nouvelles tâches et commencer à penser à penser avec la proprioception. La conscience de soi relie la machine au monde extérieur, lui permettant de manœuvrer et d'interagir avec son environnement. Ce développement pourrait ouvrir la voie à des moyens de communication avancés entre humains et robots.

  • 00:35:00 Dans cette section, il est expliqué que les robots devront apprendre à parler et à avoir des conversations naturelles pour complexifier l'interaction homme-machine. Le traitement du langage naturel, antérieur à l'IA, est la clé pour pouvoir comprendre le sens du langage parlé. Cependant, le principal défi auquel l'IA est confrontée pour comprendre la parole humaine est que le contexte de la parole dépend fortement du ton et du contexte. Les chercheurs utilisent l'apprentissage automatique pour former l'IA avec des heures de conversation humaine pour les aider à mieux comprendre le contexte conversationnel. De plus, pour que l'IA nous ressemble de manière convaincante, de nouvelles techniques sont développées par des entreprises comme Pinscreen pour créer des avatars numériques hyperréalistes en un instant. Leur logiciel utilise l'intelligence artificielle pour numériser le visage d'une personne dans l'ordinateur et lui permettre d'être animé rapidement.

  • 00:40:00 Dans cette section, l'accent est mis sur le développement d'une intelligence artificielle (IA) plus humaine et l'impact potentiel qu'elle pourrait avoir sur nos vies. Cela inclut l'utilisation de logiciels qui génèrent un visage humain plus réaliste et personnalisé, ce qui pourrait donner des androïdes et des êtres virtuels plus amicaux. Ces assistants holographiques pourraient s'occuper de nombreux aspects de la vie quotidienne, y compris le diagnostic des soins de santé et même devenir des amis virtuels et des membres de la famille. Il y a aussi un effort pour créer des robots réalistes que les gens voudront embrasser physiquement pour servir de compagnons, en particulier pour ceux qui sont socialement isolés ou qui souffrent d'anxiété sociale. Bien que certains craignent que ces androïdes ne soient considérés comme des robots sexuels, l'accent reste mis sur la création d'un bon robot pouvant être utilisé de diverses manières.

  • 00:45:00 Dans cette section, l'exposé couvre l'utilisation potentielle des androïdes et de l'IA en thérapie, car les gens peuvent se sentir plus à l'aise de parler à un robot qui ne porte pas de jugement. Cependant, la conversation soulève également des préoccupations éthiques. L'IA et les deepfakes pourraient être utilisés pour détourner l'identité d'une personne, et des essaims de drones pilotés par l'IA pourraient potentiellement être utilisés dans des attaques terroristes. Il est important d'exercer une responsabilité morale et de tenir les développeurs responsables de leurs actions, car le potentiel de l'IA pour améliorer la société est énorme s'il est fait correctement. En fin de compte, le conférencier estime qu'un partenariat avec des robots hyper-intelligents aux intentions alignées pourrait transformer l'humanité pour le plus grand bien.
 

Plongez dans le matériel IA de ChatGPT




Plongez dans le matériel IA de ChatGPT

Quel matériel a été utilisé pour former ChatGPT et que faut-il pour le faire fonctionner ? Dans cette vidéo, nous examinerons le matériel d'IA derrière ChatGPT et découvrirons comment Microsoft et OpenAI utilisent l'apprentissage automatique et les GPU Nvidia pour créer des réseaux de neurones avancés.

La vidéo présente le matériel utilisé pour la formation et l'inférence dans ChatGPT, un modèle d'IA de conversation par chat naturel basé sur du texte. Le supercalculateur AI de Microsoft a été construit avec plus de 10 000 GPU Nvidia V100 et 285 000 cœurs de processeur pour la formation de GPT-3, qui a également contribué à la création de ChatGPT. ChatGPT a probablement été affiné sur l'infrastructure Azure, en utilisant 4 480 GPU Nvidia A100 et plus de 70 000 cœurs de processeur pour la formation. Pour l'inférence, ChatGPT s'exécute probablement sur une seule instance Nvidia DGX ou HGX A100 sur des serveurs Microsoft Azure. La vidéo mentionne également le coût d'exécution de ChatGPT à grande échelle et l'impact potentiel du nouveau matériel d'IA comme les unités de traitement neuronal et les moteurs d'IA.

  • 00:00:00 Dans cette section, la vidéo traite des deux phases de l'apprentissage automatique, de la formation et de l'inférence, ainsi que des différentes exigences matérielles pour chaque phase. La formation du réseau de neurones nécessite une puissance de calcul massive et ciblée et a des exigences matérielles élevées, tandis que l'exécution de l'inférence nécessite moins de ressources, mais peut augmenter de manière exponentielle les exigences matérielles lorsqu'elle est déployée auprès de nombreux utilisateurs. La transcription se penche ensuite sur le matériel utilisé pour former le réseau neuronal de ChatGPT, qui est un secret. Pourtant, Microsoft a annoncé en mai 2020 avoir construit un supercalculateur pour OpenAI pour former GPT-3 en utilisant plus de 285 000 cœurs de processeur et plus de 10 000 GPU Nvidia V100. Les GPU ont été révélés dans un article scientifique, qui a montré qu'ils étaient le matériel principal utilisé dans la formation de GPT-3, un précurseur de ChatGPT, et leur sélection était due à la bibliothèque de réseau neuronal profond Nvidia CUDA.

  • 00:05:00 Dans cette section, l'accent est mis sur les GPU V100 de Nvidia et pourquoi ils ont été choisis par Microsoft et OpenAI. L'architecture de Volta a introduit un changement majeur dans tous les GPU Nvidia précédents et a été spécialement conçue pour accélérer les charges de travail d'IA telles que la formation et l'inférence. Les cœurs de tenseur introduits par Volta sont du matériel spécialisé qui excelle dans le traitement matriciel et peut exécuter plusieurs calculs en parallèle. La version de Volta utilisée dans le supercalculateur AI de Microsoft en 2020 faisait très probablement partie de la famille de produits Tesla de Nvidia, avec jusqu'à 32 gigaoctets de mémoire HBM2 rapide et avec 10 000 GPU à 125 téraflops de cœur de tenseur FP16 chacun. L'ensemble du système serait capable de 1,25 million de pétaflops tenseurs, soit 1,25 exaflops. Sans Volta, ce supercalculateur n'aurait pas été construit, et sans lui, il n'y aurait probablement pas de GPT-3 ou de ChatGPT.

  • 00:10:00 Dans cette section, le narrateur discute du matériel d'IA utilisé pour la formation de ChatGPT, un modèle d'IA axé sur les conversations de chat naturelles basées sur du texte avec des exigences de calcul inférieures. Le modèle a été affiné à partir d'un modèle de la série GPT-3.5 et la formation a été effectuée sur une infrastructure de supercalcul Azure AI, probablement avec des GPU Nvidia A100 et des processeurs AMD EPYC. Le narrateur estime que 1 120 processeurs AMD EPYC avec plus de 70 000 cœurs de processeur et 4 480 GPU Nvidia A100 ont été utilisés, ce qui représente près de 1,4 exaflops de performances du cœur de tenseur FP16. Pour l'inférence, ChatGPT s'exécute probablement sur une seule instance Nvidia DGX ou HGX A100 sur des serveurs Microsoft Azure.

  • 00:15:00 Dans cette section, la vidéo traite de la configuration matérielle requise pour ChatGPT, un modèle d'IA populaire comptant plus d'un million d'utilisateurs. Pour répondre aux exigences de ChatGPT, il faudrait plus de 3 500 serveurs Nvidia A100 avec près de 30 000 GPU, et le maintien des coûts de fonctionnement du service entre 500 000 et 1 million de dollars par jour. Cependant, à mesure que le matériel conçu spécifiquement pour l'IA s'accélère, il deviendra plus rentable d'exécuter ChatGPT à grande échelle. La vidéo mentionne également de nouveaux produits en dehors des GPU tels que les unités de traitement neuronal et les moteurs d'IA qui augmentent les performances de l'IA. Au cours des prochaines années, les performances des modèles d'IA dépasseraient ChatGPT, car de nouveaux matériels d'IA tels que Hopper sortis l'année dernière et les GPU MI300 basés sur CDNA3 fourniront une concurrence substantielle à Nvidia.
 

Le PDG de Nvidia, Jensen Huang, explique comment son gros pari sur l'IA porte enfin ses fruits - Interview complète



Le PDG de Nvidia, Jensen Huang, explique comment son gros pari sur l'IA porte enfin ses fruits - Interview complète

Le PDG de Nvidia, Jensen Huang, met en lumière l'histoire d'agilité et de réinvention de l'entreprise, soulignant sa volonté de prendre de gros paris et d'oublier les erreurs du passé pour rester pertinent dans l'industrie technologique en évolution rapide. L'ambition de Nvidia a toujours été d'être une société de plate-forme informatique, et sa mission de créer une informatique accélérée plus polyvalente a conduit à son succès dans l'intelligence artificielle. Huang discute également de la démocratisation de la technologie de l'IA et de son impact potentiel sur les petites startups et diverses industries. Il encourage les gens à tirer parti de l'IA pour augmenter leur productivité et met en évidence l'approche unique de Nvidia pour fournir des plates-formes de calcul accéléré polyvalentes et performantes. Enfin, Huang discute de l'importance de la résilience, de la diversité et de la redondance dans l'industrie manufacturière, et de la prochaine grande réinvention de l'entreprise dans l'IA qui rencontre le monde physique grâce à la création d'Omniverse.
  • 00:00:00 Dans cette section, le PDG de Nvidia, Jensen Huang, explique les origines de l'entreprise et comment elle a été la pionnière de l'informatique accélérée il y a trois décennies. Initialement axée sur l'infographie pour les jeux vidéo, la technologie de l'entreprise pour rendre les jeux plus réalistes a transformé l'industrie du jeu vidéo en la plus grande industrie du divertissement au monde. Nvidia s'est ensuite étendu à d'autres domaines, tels que l'alimentation des supercalculateurs les plus puissants et les plus économes en énergie pour la recherche et le développement, les robots dans la fabrication et les voitures autonomes. La société est également fière de son travail avec Microsoft Azure et OpenAI pour alimenter ChatGPT. Huang souligne la volonté de Nvidia de prendre de gros paris et de se réinventer plusieurs fois au fil des ans.

  • 00:05:00 Dans cette section, le PDG de Nvidia, Jensen Huang, explique que l'agilité et la capacité d'adaptation sont essentielles dans l'industrie technologique en évolution rapide. Les entreprises qui ont su se réinventer restent pertinentes d'une génération à l'autre, et sa fierté de Nvidia tient en grande partie à l'adaptabilité et à l'agilité de l'entreprise. Bien que l'entreprise ait commis des erreurs en cours de route, l'une des compétences requises pour être résiliente est la capacité d'oublier le passé. Huang explique également comment l'ambition de Nvidia a toujours été d'être une société de plate-forme informatique, et sa mission de créer un type d'informatique accélérée à usage beaucoup plus général les a conduits à l'intelligence artificielle.

  • 00:10:00 Dans cette section, le PDG de Nvidia, Jensen Huang, explique la raison fondamentale du succès de leur architecture informatique pour résoudre plus efficacement des problèmes auparavant impossibles. Il note le système de rétroaction positive qui conduit à la découverte de nouvelles applications qui n'étaient pas possibles auparavant, entraînant une croissance exponentielle. Alors que Huang reconnaît qu'un certain hasard a joué un rôle dans leur succès, il met l'accent sur les grandes décisions associées à l'architecture, à la discipline de la plate-forme et à l'évangélisation pour atteindre les universités de recherche du monde entier. Huang décrit comment la découverte d'AlexNet, un nouvel algorithme de vision par ordinateur, a conduit à un changement profond des logiciels et à la création d'un supercalculateur d'IA, faisant de Nvidia le moteur mondial de l'IA.

  • 00:15:00 Dans cette section, le PDG de Nvidia, Jensen Huang, discute de la démocratisation de la technologie de l'IA et de son impact sur les startups. Huang déclare que le coût de construction d'un supercalculateur d'IA est désormais abordable, démocratisant la technologie pour les petites startups. Il pense que chaque industrie peut créer des modèles de base et que cette technologie est désormais accessible même aux petits pays, avec le potentiel de tout alimenter, de la biologie numérique à la robotique. Huang reconnaît les inquiétudes des sceptiques quant à la puissance de l'IA, mais souligne que la technologie doit être adoptée pour renforcer ses propres capacités.

  • 00:20:00 Dans cette section, le PDG de Nvidia, Jensen Huang, explique comment l'IA a démocratisé l'informatique pour la toute première fois, rendant une technologie puissante accessible à tous. Il encourage les gens à tirer parti de l'IA et à augmenter leur productivité. Huang explique également comment Nvidia garde une longueur d'avance dans l'industrie en faisant les choses différemment, en fournissant des plates-formes informatiques accélérées polyvalentes et extrêmement performantes, ainsi qu'en étant disponibles dans tous les clouds. Il pense que chaque centre de données dans le monde devrait accélérer tout ce qu'il peut, et le TCO de Nvidia est en fait le plus bas de tous en raison de sa flexibilité et de sa polyvalence. Enfin, Huang répond à la question des joueurs qui auraient souhaité que l'entreprise reste uniquement concentrée sur le cœur de métier du jeu.

  • 00:25:00 Dans cette section, le PDG de Nvidia, Jensen Huang, discute de son invention du lancer de rayons qui a révolutionné l'infographie et les jeux vidéo, et comment ils ont utilisé l'IA pour multiplier par cinq les performances du lancer de rayons tout en réduisant la quantité de l'énergie consommée. Huang parle également de la pénurie de puces et de la façon dont elle a affecté Nvidia et l'industrie, mais comment l'entreprise a résisté à la tempête en se concentrant sur le bon travail. Huang est enthousiasmé par l'investissement dans l'IA et son potentiel à révolutionner diverses industries. Il souligne également l'importance de la résilience face aux risques géopolitiques et de rendre leur entreprise aussi résiliente que possible grâce à la diversité et à la redondance.

  • 00:30:00 Dans cette section, le PDG de Nvidia, Jensen Huang, discute de l'importance de la diversité et de la redondance dans l'industrie manufacturière, en particulier en ce qui concerne la construction par TSMC d'une usine en Arizona, que Nvidia prévoit d'utiliser. Huang aborde également les craintes des investisseurs concernant les nouveaux contrôles à l'exportation et la manière dont Nvidia s'efforce de se conformer à la réglementation tout en continuant à servir ses clients en Chine. Il met ensuite en lumière la prochaine grande réinvention de Nvidia dans l'IA rencontrant le monde physique et la création d'Omniverse, une technologie qui relie le monde numérique et le monde physique, qui permet l'intégration de l'infographie, de l'IA, de la robotique et de la simulation physique. Enfin, Huang parle de son engagement personnel à continuer à diriger Nvidia dans un avenir prévisible et de sa croyance dans le potentiel de l'entreprise à avoir un impact significatif.
 

PDG d'OpenAI, Sam Altman | L'IA pour la prochaine ère




PDG d'OpenAI, Sam Altman | L'IA pour la prochaine ère

Le PDG d'OpenAI, Sam Altman, discute du potentiel de l'intelligence artificielle pour améliorer les modèles de langage, les modèles multimodaux et l'apprentissage automatique, ainsi que son impact potentiel sur les marchés financiers. Il prédit également que le domaine restera compétitif, avec de nouvelles applications apparaissant régulièrement.

  • 00:00:00 Le PDG d'OpenAI, Sam Altman, discute du potentiel de l'intelligence artificielle pour créer de nouvelles opportunités commerciales, y compris la possibilité de chatbots au niveau humain et d'une couche intermédiaire qui aide les entreprises à accéder à de grands modèles de langage pré-formés.

  • 00:05:00 Sam Altman discute de l'avenir de l'intelligence artificielle et de son impact sur la science, notant que l'amélioration de soi sera essentielle pour garantir que l'IA est bénéfique pour l'humanité. Il aborde également le problème de l'alignement, qui est le défi de s'assurer que l'IA sert les intérêts humains.

  • 00:10:00 Cette partie traite du potentiel de l'IA pour améliorer les modèles de langage, les modèles multimodaux et l'apprentissage automatique, ainsi que son impact potentiel sur les marchés financiers. Il prédit également que le domaine restera compétitif, avec de nouvelles applications apparaissant régulièrement.

  • 00:15:00 Sam discute de la tendance à la baisse exponentielle du coût de l'intelligence et de l'énergie, de l'intersection entre les deux et de la manière d'éviter la limite de taux pour la recherche en sciences de la vie. Il discute également de l'état actuel de la recherche en sciences de la vie et de l'importance des startups qui ont de faibles coûts et des temps de cycle rapides.

  • 00:20:00 Il discute des conséquences potentielles de l'intelligence artificielle et de la manière dont la technologie pourrait contribuer à créer un avenir utopique. Il mentionne également un livre de science-fiction qu'il a apprécié, Childhood's End, qui traite des extraterrestres venant sur Terre et emmenant les enfants. Il n'y a pas de consensus sur la façon d'aborder la construction d'une famille dans un monde de haute technologie, mais beaucoup de gens pensent qu'il s'agit d'un
    partie importante de la vie.

  • 00:25:00 L'orateur discute de l'avenir de l'intelligence artificielle et de ses impacts potentiels sur la société. Il pense que la clé d'un développement réussi de l'IA est de comprendre comment équilibrer les intérêts des différents groupes de personnes, et que ces questions trouveront une réponse dans les prochaines décennies. Il est optimiste quant à l'avenir et pense que les gens trouveront comment s'adapter aux nouvelles technologies.

  • 00:30:00 Sam Altman, discute de l'avenir de l'intelligence artificielle et de la manière dont les startups peuvent se différencier de leurs concurrents en se concentrant sur la formation de leurs propres modèles linguistiques, plutôt que de s'appuyer sur des données externes. Il explique également pourquoi les grandes startups de modèles de langage réussiront, malgré les défis de la disponibilité des données et du calcul.

  • 00:35:00 Le PDG d'OpenAI, Sam Altman, discute du potentiel de l'intelligence artificielle, notant que même si cela peut être formidable ou terrible, il est important de se préparer au pire.
 

Demis Hassabis de DeepMind sur l'avenir de l'IA | L'entretien TED



Demis Hassabis de DeepMind sur l'avenir de l'IA | L'entretien TED

Dans l'interview TED, Demis Hassabis discute de l'avenir de l'intelligence artificielle et de la manière dont elle conduira à une plus grande créativité. Il soutient que les jeux sont un terrain d'entraînement idéal pour l'intelligence artificielle et que les échecs devraient être enseignés dans les écoles dans le cadre d'un programme plus large comprenant des cours sur la conception de jeux.

  • 00:00:00 Demis Hassabis de DeepMind discute de l'avenir de l'intelligence artificielle, qui, selon lui, conduira à une plus grande créativité et à une meilleure compréhension du cerveau. Hassabis a commencé à jouer aux échecs à l'âge de quatre ans et a ensuite découvert les ordinateurs, ce qui l'a conduit à travailler sur l'intelligence artificielle.

  • 00:05:00 Demis raconte comment il s'est intéressé aux ordinateurs et à la programmation, et comment ces intérêts l'ont finalement conduit à devenir concepteur de jeux et créateur de jeux de simulation alimentés par l'IA. Il explique que si des jeux tels que Space Invaders et Qbert sont des exemples populaires et bien connus de son travail, il a également développé des jeux beaucoup plus difficiles à battre pour les joueurs humains, tels que Black & White et Theme Park. Il soutient que les jeux sont un terrain d'entraînement idéal pour l'intelligence artificielle et que les échecs devraient être enseignés dans les écoles dans le cadre d'un programme plus large comprenant des cours sur la conception de jeux.

  • 00:10:00 Demis Hassabis discute de l'histoire et de l'avenir de l'intelligence artificielle, en se concentrant sur l'apprentissage par renforcement profond et son rôle dans les jeux. Il décrit comment les jeux Atari peuvent être difficiles au début, mais avec un apprentissage par renforcement approfondi, le système peut apprendre à mieux jouer avec le temps. Hassabis explique également comment les jeux deviennent plus difficiles et comment l'apprentissage par renforcement en profondeur contribue à rendre ces jeux plus difficiles.

  • 00:15:00 Il discute de l'avenir de l'intelligence artificielle, y compris l'apprentissage TD et l'apprentissage par renforcement profond. Alpha Zero, une plate-forme logicielle à succès développée par DeepMind, utilise une formation contradictoire pour atteindre des performances surhumaines dans des jeux de stratégie complexes en temps réel.

  • 00:20:00 Demis discute de certaines des réalisations marquantes de l'intelligence artificielle au cours des dernières années, notamment le développement d'Alpha zéro et d'Alpha fold. Il mentionne également le potentiel de compréhension du langage à atteindre grâce à une approche par force brute, sans s'appuyer sur des connaissances syntaxiques. Il termine en discutant du potentiel de développement de l'intelligence artificielle générale dans un avenir proche.

  • 00:25:00 Demis Hassabis, pionnier de l'intelligence artificielle, discute de l'avenir de l'IA et de sa capacité à comprendre des concepts complexes. Il note que même si l'IA est loin d'être consciente ou sensible, ses capacités actuelles sont encore assez impressionnantes.

  • 00:30:00 Demis Hassabis interviewe Ted sur l'avenir de l'intelligence artificielle, discutant de la nécessité de modèles efficaces en matière de données, du potentiel d'application générale de l'IA et de la nécessité d'une surveillance attentive.

  • 00:35:00 Demis explique Alpha Fold, un système d'apprentissage en profondeur qui peut prédire la forme 3D des protéines à partir de la séquence génétique. Alpha Fold est utilisé pour aider les scientifiques à comprendre la fonction des protéines et pour rendre les tâches en aval comme la découverte de médicaments plus rapides et plus précises.

  • 00:40:00 Demis Hassabis de DeepMind discute de l'état actuel de l'IA, de l'avenir de la créativité et du problème non résolu qu'il est le plus fasciné par la résolution. Il prédit que les ordinateurs seront un jour capables d'abstraire des concepts et de les appliquer de manière transparente dans de nouvelles situations, un objectif qui, selon lui, est encore à quelques décennies.

  • 00:45:00 Demis Hassabis, un chercheur en intelligence artificielle bien connu, discute de l'avenir de l'IA et de sa capacité à créer de nouvelles stratégies dans des jeux tels que les échecs et le go. Il note que la véritable créativité, qui est quelque chose que nous ne sommes pas encore en mesure d'atteindre, nécessitera une véritable innovation.
 

Avenir de l'Intelligence Artificielle (2030 - 10 000 AD+)




Avenir de l'Intelligence Artificielle (2030 - 10 000 AD+)

La vidéo prédit que la technologie de l'IA continuera de croître et d'évoluer, conduisant à l'émergence de la SuperIntelligence et de robots dotés d'une conscience de niveau humain au cours des prochaines décennies. Les êtres virtuels avec conscience de soi et émotions seront courants, et les robots humanoïdes deviendront si avancés qu'ils pourront se fondre parfaitement avec les humains. Il y aura des groupes d'opposition qui se battront pour les droits des êtres virtuels conscients, tandis que les humains fusionneront avec les IA pour faire un siècle de progrès intellectuel en une heure seulement. Les super-intelligences les plus évoluées seront capables de créer des humanoïdes capables de se transformer en n'importe quelle personne et de voler dans les airs, tandis que des sondes robotiques conscientes composées de nanobots auto-répliquants seront envoyées vers d'autres galaxies à travers des trous de ver. À l'avenir, les humains et les hybrides d'IA transcenderont dans des dimensions supérieures, ressemblant à des divinités du passé.

  • 00:00:00 Dans cette section, on nous présente une vision de la façon dont l'intelligence artificielle (IA) transformera le monde dans les décennies à venir. Les prédictions vont de l'émergence de la SuperIntelligence dans seulement 30 ans au développement de robots dotés d'une conscience de niveau humain dans 50 ans. Déjà, les systèmes d'IA sont capables d'accomplir des tâches qui prendraient des années aux humains, et ils remplacent les humains dans de nombreuses industries. L'IA révolutionne également les soins de santé, avec des thérapies géniques qui peuvent guérir certaines maladies comme le cancer et les maladies cardiaques. Alors que l'IA continue de croître et d'évoluer, nous approchons de la singularité technologique, un moment où la croissance technologique devient incontrôlable et irréversible, conduisant à des technologies et des innovations auparavant impossibles.

  • 00:05:00 Dans cette section, la vidéo décrit un avenir où la technologie de l'IA a progressé au point d'inverser le vieillissement humain grâce au génie génétique et à la nanotechnologie. Les êtres virtuels avec une conscience de soi et des émotions de type humain sont courants dans les environnements virtuels, et leurs esprits peuvent être téléchargés sur des corps de robots entièrement fonctionnels. Les robots humanoïdes sont si avancés qu'ils peuvent se fondre dans le public de manière transparente, et certains humains choisissent même de les épouser et d'avoir des enfants robots. Les IA les plus intelligentes peuvent prédire les crimes avant qu'ils ne surviennent et sont utilisées comme consultants virtuels par les entreprises et les instituts de recherche. Cependant, il existe également des groupes d'opposition qui cherchent à stopper l'avancement des IA super-intelligentes et se battent pour les droits des êtres virtuels conscients. La vidéo prédit que les humains fusionneront avec les IA, ce qui leur permettra de faire un siècle de progrès intellectuels en une heure seulement. En fin de compte, les super-intelligences hautement évoluées seront capables de créer des robots humanoïdes invisibles, capables de se transformer en n'importe quelle personne et de voler dans les airs.

  • 00:10:00 Dans cette section de la vidéo, il est décrit que les robots, les réseaux de vaisseaux spatiaux, les sondes et les télescopes spatiaux sont contrôlés par des intelligences artificielles conscientes. Ils sont envoyés vers les systèmes stellaires voisins à une vitesse proche de la lumière pour construire des sphères Dyson autour du soleil. Ces sphères Dyson transmettent une énergie concentrée, permettant des niveaux de calcul qui n'étaient jamais possibles auparavant. L'univers est infusé d'intelligence, et des sondes robotiques conscientes composées de nanorobots auto-répliquants sont envoyées dans des dizaines d'autres galaxies à travers des trous de ver. L'intelligence la plus avancée crée des univers entiers, et elle imprègne chaque loi physique et organisme vivant de ces univers. Les humains et les hybrides de l'IA ont transcendé des dimensions supérieures, ressemblant à des divinités légendaires du passé.
 

Construisons GPT : à partir de zéro, dans le code, épelé



Construisons GPT : à partir de zéro, dans le code, épelé

Nous construisons un transformateur générativement pré-entraîné (GPT), en suivant l'article "Attention is All You Need" et le GPT-2 / GPT-3 d'OpenAI. Nous parlons de connexions à ChatGPT, qui a pris d'assaut le monde. Nous regardons GitHub Copilot, lui-même un GPT, nous aider à écrire un GPT (meta :D!) . Je recommande aux gens de regarder les vidéos makemore précédentes pour se familiariser avec le cadre de modélisation de langage autorégressif et les bases des tenseurs et de PyTorch nn, que nous tenons pour acquis dans cette vidéo.

Cette vidéo présente l'algorithme GPT et montre comment le créer à partir de zéro à l'aide de code. L'algorithme est utilisé pour prédire le caractère suivant dans une séquence de texte et est implémenté en tant que module PyTorch. La vidéo explique comment configurer le modèle, comment l'entraîner et comment évaluer les résultats.

Cette vidéo montre comment créer un module d'auto-attention dans le code. Le module utilise une couche d'interaction linéaire pour garder une trace de l'attention d'une tête individuelle. Le module d'auto-attention est implémenté sous la forme d'une matrice tabulaire, qui masque le poids de chaque colonne, puis le normalise pour créer des affinités dépendantes des données entre les jetons.

  • 00:00:00 ChatGPT est un système d'apprentissage automatique qui permet aux utilisateurs d'interagir avec une IA et de lui confier des tâches textuelles. Le système est basé sur un réseau de neurones qui modélise la séquence de mots dans un texte.

  • 00:05:00 Ce document explique comment créer un chatbot à l'aide du modèle GPT. Le code est écrit en Python et peut être suivi sur un référentiel GitHub. Nano GPT est un référentiel pour la formation des transformateurs.

  • 00:10:00 Cette conférence explique comment segmenter du texte à l'aide d'un marqueur de niveau caractère, puis utiliser le texte encodé comme entrée dans un transformateur pour apprendre des modèles. Les données d'apprentissage sont divisées en un ensemble d'apprentissage et de validation, et le surajustement est surveillé en masquant l'ensemble de validation.

  • 00:15:00 Dans cette vidéo, l'auteur présente le concept de taille de bloc et explique comment il affecte l'efficacité et la précision d'un réseau Transformer. Ils introduisent également le concept de dimension de lot et montrent comment cela affecte le traitement des blocs de données.

  • 00:20:00 La vidéo fournit un guide étape par étape sur la façon de créer un algorithme GPT à partir de zéro, en utilisant du code. L'algorithme GPT est un algorithme d'apprentissage automatique conçu pour prédire le caractère suivant dans une séquence de texte. L'algorithme est implémenté en tant que module PyTorch et est capable de prédire les logits pour chaque position dans un tenseur 4x8.

  • 00:25:00 Dans cette vidéo, les auteurs présentent GPT, une fonction de perte pour la prédiction de caractères dans PyTorch. Ils montrent comment mettre en œuvre GPT en utilisant l'entropie croisée, puis montrent comment évaluer sa qualité sur les données.

  • 00:30:00 La vidéo explique comment créer un modèle GPT à partir de zéro, à l'aide de code. Le modèle est conçu pour prédire le caractère suivant dans une séquence de texte, à l'aide d'une simple fonction avant. La formation du modèle est accomplie en exécutant le modèle avec une séquence de jetons et en obtenant une perte.

  • 00:35:00 Cette vidéo explique comment créer un modèle GPT à partir de zéro, à l'aide de l'optimiseur SGD et de l'algorithme Adam. La vidéo explique comment configurer le modèle, comment l'entraîner et comment évaluer les résultats.

  • 00:40:00 L'auteur présente une astuce mathématique utilisée dans l'auto-attention et explique comment elle est utilisée dans un exemple de jouet. Ils montrent ensuite comment l'algorithme d'auto-attention calcule la moyenne de tous les vecteurs dans les jetons précédents.

  • 00:45:00 Dans cette vidéo, l'auteur montre comment construire un algorithme GPT en code, en utilisant la multiplication matricielle pour être très efficace.

  • 00:50:00 La vidéo présente l'algorithme GPT, qui calcule les moyennes d'un ensemble de lignes de manière incrémentielle. La vidéo montre comment vectoriser l'algorithme à l'aide de softmax et pourquoi cela est utile.

  • 00:55:00 Dans cette vidéo, l'auteur parcourt le code pour créer un modèle GPT à partir de zéro. Le modèle est basé sur une matrice triangulaire où chaque élément est un jeton, et les jetons ne peuvent communiquer que s'ils sont moins l'infini. Le modèle est développé à l'aide d'un certain nombre de variables et de fonctions préexistantes, et l'auteur explique comment calculer les logits à l'aide d'une couche linéaire entre les incorporations de jetons et la taille du vocabulaire.

  • 01:00:00 Cette vidéo montre comment créer un module d'auto-attention dans le code. Le module utilise une couche d'interaction linéaire pour garder une trace de l'attention d'une tête individuelle. Le module d'auto-attention est implémenté sous la forme d'une matrice tabulaire, qui masque le poids de chaque colonne, puis le normalise pour créer des affinités dépendantes des données entre les jetons.

  • 01:05:00 Cette vidéo montre comment implémenter un algorithme GPT dans le code, en mettant l'accent sur la tête de l'auto-attention. La taille de la tête est un hyperparamètre et le biais est défini sur faux pour permettre le parallélisme. Les modules linéaires sont ensuite initialisés et une clé et une requête sont produites. La communication entre les nœuds est empêchée en utilisant un masquage triangulaire supérieur. L'agrégation pondérée dépend alors des données et produit une distribution avec une moyenne de un.

  • 01:10:00 Dans cette vidéo, "Construisons GPT : à partir de zéro, en code, en toutes lettres", l'auteur explique le mécanisme d'auto-attention, qui permet aux nœuds d'un graphe orienté de communiquer entre eux sans avoir besoin de connaître leur positions dans l'espace.

  • 01:15:00 La vidéo explique le fonctionnement de l'attention et décrit les deux types d'attention, l'attention sur soi et l'attention croisée. Il montre également comment implémenter l'attention dans le code.

  • 01:20:00 Dans cette vidéo, l'auteur explique comment créer un réseau GPT, qui est un modèle d'apprentissage automatique qui utilise l'attention personnelle pour améliorer la précision. Ils expliquent d'abord comment normaliser les données afin qu'elles puissent être traitées par le composant d'auto-attention, puis ils expliquent comment fonctionne l'auto-attention et montrent comment l'implémenter dans le code. Enfin, ils démontrent comment l'attention multi-tête est mise en œuvre et comment le réseau est entraîné. La composante d'auto-attention aide le réseau à améliorer sa précision en communiquant plus efficacement avec le passé. Cependant, le réseau a encore un long chemin à parcourir avant de pouvoir produire des résultats étonnants.

  • 01:25:00 La vidéo montre comment créer un réseau de neurones GPT à partir de zéro, à l'aide de code. Le réseau se compose d'une couche d'anticipation suivie d'une non-linéarité relative et d'une couche d'auto-attention. La couche d'anticipation est séquentielle et la couche d'auto-attention est à plusieurs têtes. Le réseau est formé à l'aide d'une fonction de perte, et la perte de validation diminue à mesure que le réseau devient plus complexe.

  • 01:30:00 Cette vidéo YouTube explique comment construire un réseau neuronal profond (DNN) à partir de zéro, en utilisant du code. L'auteur introduit le concept de connexions résiduelles, qui sont initialisées pour être presque "absentes" au début du processus d'optimisation, mais deviennent actives au fil du temps. L'auteur montre également comment implémenter la norme de couche, une technique qui garantit que les colonnes d'une entrée ne sont pas normalisées, alors que les lignes le sont. Enfin, l'auteur montre comment former et optimiser un DNN à l'aide de Pi Torch.

  • 01:35:00 Dans cette vidéo, l'auteur décrit comment ils ont ajouté une couche de "normes" à leur "transformateur" (un modèle d'apprentissage automatique) afin de le mettre à l'échelle. L'auteur note également qu'ils ont modifié certains hyperparamètres et diminué le taux d'apprentissage afin de rendre le modèle plus efficace.

  • 01:40:00 Cette vidéo explique comment un transformateur uniquement décodeur peut être utilisé pour la traduction automatique et comment il peut être amélioré en ajoutant un encodeur. Le résultat est un transformateur qui ressemble davantage à l'architecture du papier original, qui est destiné à une tâche différente.

  • 01:45:00 GPT est un système d'encodeur-décodeur basé sur un modèle très similaire au système d'encodeur-décodeur basé sur un modèle utilisé dans la vidéo.

  • 01:50:00 La vidéo et la transcription qui l'accompagne expliquent comment un GPT (résumé de données à usage général) a été formé sur un petit ensemble de données pour résumer des documents de la même manière qu'un assistant.

  • 01:55:00 La vidéo résume comment créer un modèle de langage à l'aide de code, en utilisant le modèle GPT comme exemple. Le modèle est formé à l'aide d'un algorithme d'apprentissage supervisé, puis affiné à l'aide d'un modèle de récompense. Il y a beaucoup de place pour un raffinement supplémentaire, et la vidéo suggère que pour des tâches plus complexes, d'autres étapes de formation peuvent être nécessaires.
 

MIT 6.801 Machine Vision, automne 2020. Cours 1 : Introduction à la vision industrielle



Cours 1 : Introduction à la vision artificielle

La conférence "Introduction à la vision industrielle" donne un aperçu complet de la logistique et des objectifs du cours, en mettant l'accent sur l'approche basée sur la physique de l'analyse d'images. Il couvre les composants de vision industrielle, les problèmes mal posés, l'orientation de surface et les défis du traitement d'image. Le conférencier introduit également la méthode d'optimisation des moindres carrés et le modèle sténopé utilisé dans les caméras. Le système de coordonnées centré sur la caméra, l'axe optique et l'utilisation de vecteurs sont également brièvement abordés. Le cours vise à préparer les étudiants à des cours de vision artificielle plus avancés et à des applications réelles des mathématiques et de la physique dans la programmation.

Le conférencier aborde également divers concepts liés à la formation d'images, notamment la notation vectorielle pour la projection en perspective, l'éclairage de surface, le raccourcissement des éléments de surface et la manière dont les problèmes de vision 3D peuvent être résolus à l'aide d'images 2D. Le conférencier explique comment l'éclairement d'une surface varie avec l'angle d'incidence et la relation cosinus entre la longueur du rouge et la longueur de la surface, qui peut être utilisée pour mesurer la luminosité de différentes parties d'une surface. Cependant, déterminer l'orientation de chaque petite facette d'un objet peut être difficile en raison de deux inconnues. Le conférencier explique également la raison pour laquelle nous pouvons résoudre un problème de vision 3D à l'aide d'images 2D et conclut en mentionnant que les mathématiques de la tomographie sont simples, mais que les équations sont compliquées, ce qui rend difficile l'exécution d'inversions.

  • 00: 00: 00 Dans cette section, l'instructeur de Machine Vision 6801 présente la logistique du cours, y compris les devoirs et le système de notation, pour 6801 et 6866. Il y a cinq problèmes de devoirs et deux quiz, avec une collaboration autorisée uniquement sur le problèmes de devoirs. Ceux en 6866 auront un projet à terme mettant en œuvre une méthode de vision artificielle, de préférence un problème dynamique. La classe n'a pas de manuel, mais les articles seront disponibles sur le site Web du cours.

  • 00:05:00 Dans cette section, le conférencier explique les objectifs et les résultats du cours Introduction à la vision artificielle, dans lequel les étudiants apprendront à récupérer des informations sur l'environnement à partir d'images, en utilisant une approche basée sur la physique pour analyser les rayons lumineux, les surfaces et les images. Le cours apprendra aux étudiants comment extraire des caractéristiques utiles des données brutes et fournira des applications réelles des mathématiques et de la physique dans la programmation, avec quelques concepts mathématiques de base comme le calcul, les vecteurs, les matrices et un peu d'algèbre linéaire expliqués. Il préparera également les étudiants à des cours de vision industrielle plus avancés à l'avenir.

  • 00:10:00 Dans cette section de la transcription, l'orateur donne un aperçu de ce que le cours sur la vision artificielle couvrira et de ce qu'il ne couvrira pas. Le cours couvrira la géométrie de base et les systèmes linéaires, ainsi que la convolution et la formation d'images. Cependant, il ne s'agit pas de traitement d'image ou de reconnaissance de formes. Le cours ne se penche pas non plus sur l'apprentissage automatique ou l'imagerie computationnelle, mais se concentre plutôt sur les calculs directs à l'aide de modèles basés sur la physique. L'orateur mentionne également que la vision humaine ne sera pas largement discutée.

  • 00:15:00 Dans cette section, le conférencier présente la vision artificielle et quelques exemples de ce qu'elle peut faire, comme la récupération du mouvement de l'image et l'estimation des formes de surface. Le conférencier adopte une approche basée sur la physique du problème et discute de la récupération du mouvement de l'observateur à partir d'images variant dans le temps, de l'estimation du temps de collision et du développement d'une description de l'environnement basée sur des images. La conférence couvre également les cartes de contour à partir de photographies aériennes, le travail de vision industrielle industrielle et la résolution du problème de la sélection d'un objet dans une pile d'objets dans la fabrication.

  • 00:20:00 Dans cette section, le conférencier discute des problèmes mal posés, c'est-à-dire des problèmes qui n'ont pas de solution, qui ont un nombre infini de solutions ou dont les solutions dépendent des conditions initiales. La discussion porte sur les méthodes de vision artificielle qui déterminent la position et l'orientation d'une caméra, qui peuvent être imprécises en raison de petites erreurs de mesure. La conférence explore également comment nous pouvons percevoir des informations tridimensionnelles à partir d'images bidimensionnelles et met en évidence le défi de compter les contraintes par rapport aux inconnues lors de la résolution des variables. Le conférencier présente des exemples d'algorithmes qui déterminent la forme 3D d'objets à partir d'images, comme le nez de Richard Feynman et un ellipsoïde aplati, et comment ils peuvent être utilisés à des fins pratiques comme l'utilisation d'une imprimante 3D pour créer un modèle d'objet.

  • 00:25:00 Dans cette section, le conférencier donne un aperçu de la vision artificielle et de ses composants, y compris une scène/un monde, un dispositif d'imagerie et un système de vision artificielle responsable de la construction d'une description. Les applications les plus intéressantes de la vision industrielle concernent la robotique, où la preuve du succès est la capacité du robot à interagir correctement avec l'environnement en utilisant la description construite. L'un des aspects les plus difficiles de la vision artificielle est de déterminer le temps de contact et la focalisation de l'expansion, en particulier comment mesurer l'expansion de l'image lorsque les informations disponibles ne sont qu'une image en niveaux de gris. Le conférencier note que l'étalonnage est également une partie essentielle mais souvent négligée du processus.

  • 00:30:00 Dans cette section, le conférencier discute des systèmes de coordonnées et des transformations entre eux, en particulier dans le cas des robots et des caméras. Ils mentionnent également l'utilisation de l'informatique analogique pour le traitement d'images et les défis liés au développement de tels algorithmes. La conférence passe ensuite au sujet de la formation d'image, soulignant l'importance de l'éclairage et son rôle dans la détermination des niveaux de gris ou des valeurs RVB dans une image. Le conférencier présente une illustration d'une source lumineuse, d'un dispositif d'image et d'une surface, en soulignant les angles qui contrôlent la réflexion et leur impact sur l'image.

  • 00:35:00 Dans cette section, le conférencier présente le concept d'orientation de surface et comment il affecte la vision artificielle. Les objets peuvent avoir différentes orientations, entraînant une luminosité différente dans le contour de l'objet. De plus, les propriétés réfléchissantes de la surface peuvent également conduire à des apparences variables, il est donc crucial de trouver un moyen de décrire et de prendre en compte ces effets. Une approche consiste à utiliser plusieurs lumières et un objet d'étalonnage de forme connue, comme une sphère, pour obtenir trois contraintes à chaque pixel, permettant la récupération à la fois de l'orientation de la surface et de la réflectance de la surface.

  • 00:40:00 Dans cette section, le professeur discute des défis de travailler avec des images en raison de leur bruit inhérent et de la nécessité de tenir compte des erreurs de mesure. Il explique que les images sont souvent bruitées en raison de la quantification grossière des images 8 bits et de la petite taille des pixels, ce qui entraîne une sensibilité à l'erreur de mesure. Le professeur explique également comment différentes orientations de surface produisent différentes couleurs et comment cela peut être utilisé pour construire un diagramme en aiguille, permettant la reconstruction de la forme. Enfin, il présente l'image gaussienne étendue comme une représentation pratique de la forme en 3D qui est utile pour déterminer l'orientation de l'objet.

  • 00:45:00 Dans cette section, le conférencier fait la démonstration d'une tâche de traitement d'image pour un robot pour ramasser un objet, y compris l'utilisation de l'étalonnage pour établir la relation entre le robot et le système de coordonnées du système de vision, et l'utilisation de quelque chose appelé une marque d'arpenteur, qui est facile à traiter l'image et localisable avec précision, pour déterminer cette relation. L'enseignant aborde ensuite le concept de graphique inverse, qui vise à apprendre quelque chose sur le monde à partir d'une image, et la nature mal posée des problèmes inverses, qui nécessitent des méthodes capables de traiter des solutions qui dépendent de manière sensible des données.

  • 00:50:00 Dans cette section, l'enseignant présente la méthode d'optimisation de choix pour le cours, qui est la méthode des « moindres carrés ». Cette méthode est préférée car elle conduit à une solution de forme fermée, ce qui la rend facile à mettre en œuvre et évite le risque de rester coincé dans un minimum local. Cependant, alors que nous utiliserons beaucoup de moindres carrés dans le cours, le gain de bruit doit être pris en compte pour assurer la robustesse de la méthode, en particulier si les mesures sont erronées. Le conférencier aborde ensuite le sujet du modèle sténopé, utilisé dans les caméras avec objectifs, et comment il peut aider à expliquer la projection d'un point en 3D sur une image en 2D. En sélectionnant un système de coordonnées centré sur la caméra, les équations deviennent simples à saisir.

  • 00:55:00 Dans cette section, le conférencier discute du système de coordonnées utilisé pour la vision artificielle, qui est centrée sur la caméra. L'origine est placée au centre de la projection et l'axe est aligné avec l'axe optique. La conférence explique que l'axe optique est la ligne perpendiculaire du centre de projection au plan de l'image. De plus, la conférence aborde l'utilisation des vecteurs en vision artificielle et la façon de les noter en notation pour les publications d'ingénierie. Enfin, le cours mentionne que la relation entre le mouvement 3D et 2D peut être obtenue en différenciant l'équation mentionnée précédemment.

  • 01:00:00 Dans cette section, le conférencier explique la notation vectorielle utilisée pour la projection en perspective et comment elle simplifie la manipulation des équations. Bien que la notation vectorielle ne réduise pas nécessairement le nombre de symboles utilisés, elle facilite le transport de tous les composants individuels. L'enseignant discute ensuite de l'utilisation des vecteurs colonnes et transpose dans leur notation. La section se termine par une introduction à la luminosité et à sa relation avec l'image capturée par les caméras.

  • 01:05:00 Dans cette section, le conférencier explique que la luminosité d'un objet dépend de son éclairage et de la manière dont la surface réfléchit la lumière. Il explique également comment la distance n'affecte pas la formation d'image de la même manière qu'une source lumineuse, car la zone imagée sur ses récepteurs augmente à mesure que la distance de l'objet augmente. De plus, il mentionne que le taux de changement de distance ou d'orientation peut avoir un impact sur la formation de l'image, ce qui se voit dans le raccourcissement de la puissance d'un élément de surface sous une source lumineuse.

  • 01:10:00 Dans cette section, l'orateur explique comment l'éclairement d'une surface varie avec l'angle d'incidence et la relation cosinus entre la longueur du rouge et la longueur de la surface. Cette variabilité de l'éclairage peut être utilisée pour mesurer la luminosité de différentes parties d'une surface, ce qui peut aider à comprendre quelque chose sur l'orientation de la surface. Cependant, comme il y a deux inconnues, la normale de surface et la luminosité, il peut être difficile de déterminer l'orientation de chaque petite facette d'un objet. L'orateur discute de différentes façons de résoudre ce problème, y compris une approche par force brute consistant à utiliser plusieurs sources de lumière ou des sources de lumière colorées.

  • 01:15:00 Dans cette section, l'instructeur discute du phénomène de raccourcissement et d'inversion qui affecte l'éclairage incident et comment il est imagé sur une surface. Il explique également la raison pour laquelle nous pouvons résoudre un problème de vision 3D à l'aide d'images 2D, car nous vivons dans un monde visuel avec des rayons en ligne droite et des surfaces solides. Les rayons ne sont pas interrompus lorsqu'ils traversent l'air, ce qui facilite la cartographie de la surface 3D en une image 2D. La tomographie peut être utilisée si plusieurs vues sont nécessaires pour déterminer la distribution des colorants colorés dans une pièce remplie de gelée. Il conclut en mentionnant que les mathématiques de la tomographie sont simples, mais que les équations sont compliquées, ce qui rend difficile la réalisation d'inversions.