Apprentissage Automatique et Réseaux Neuronaux - page 18

 

Cours 6. Recherche : Jeux, Minimax et Alpha-Bêta



6. Recherche : Jeux, Minimax et Alpha-Beta

La vidéo traite de l'histoire du jeu dans l'IA, en commençant par la célèbre citation de Dreyfus selon laquelle les ordinateurs ne peuvent pas jouer aux échecs. Les conférenciers expliquent comment les règles si-alors ne sont pas efficaces dans les programmes de jeu, et une analyse et une stratégie plus approfondies sont nécessaires. Ils introduisent l'algorithme minimax et le concept d'élagage alpha-bêta pour optimiser l'efficacité de la recherche de jeux. La vidéo explore également des techniques telles que la minimisation du coût des polices d'assurance et l'approfondissement progressif. L'orateur conclut que si l'intelligence du bulldozer est importante, ce n'est pas nécessairement le même type d'intelligence que les humains ont dans leur propre tête.

  • 00:00:00 Dans cette section, les conférenciers discutent de l'histoire des débuts du jeu dans l'IA, mettant en évidence une citation célèbre d'Hubert Dreyfus selon laquelle les ordinateurs ne peuvent pas jouer aux échecs. Cependant, les conférenciers soutiennent que les jeux peuvent modéliser certains éléments de l'intelligence, et ils expliquent donc comment un ordinateur peut jouer aux échecs. Ils envisagent d'utiliser des règles si-alors pour aborder un jeu, une méthode qui n'est pas très efficace, mais qui a été mise en œuvre avec succès dans certains programmes de jeu de dames. Les conférenciers concluent finalement qu'une analyse et une stratégie plus approfondies ainsi que des tactiques et de la vitesse sont nécessaires dans les programmes de jeu, qu'ils exploreront plus loin dans la section.

  • 00:05:00 Dans cette section, l'orateur discute de la troisième façon de créer un programme de jeu d'échecs solide, qui consiste à regarder vers l'avenir et à évaluer toutes les conséquences possibles des mouvements pour déterminer la meilleure situation possible sur l'échiquier. Cela nécessite une fonction qui combine les caractéristiques de l'échiquier pour produire une valeur statique utilisée pour déterminer la meilleure situation d'échiquier. L'orateur explique que la façon la plus populaire de former une valeur statique consiste à utiliser un polynôme de notation linéaire. Cependant, la méthode utilisée n'a pas à classer les situations du conseil ou à leur donner des numéros; il lui suffit de déterminer le meilleur. L'orateur parle également du facteur de ramification des arbres de déplacement et de la façon de calculer le nombre de nœuds terminaux ou feuilles.

  • 00:10:00 Dans cette section, l'orateur explique les limites de l'algorithme du British Museum aux échecs en raison du grand nombre de nœuds feuilles dans l'arbre de décision du jeu. Selon Claude Shannon, il y a environ 10 à 120 nœuds feuilles aux échecs, ce qui rend impossible l'utilisation du traitement du British Museum pour évaluer le meilleur coup. Pour mettre ce nombre en perspective, l'orateur calcule que même si tous les atomes de l'univers effectuaient des évaluations statiques à des vitesses nanosecondes depuis le début du Big Bang, il nous manquerait encore 14 ordres de grandeur. Ainsi, l'orateur conclut que nous devons regarder en avant aussi loin que possible si nous voulons évaluer le meilleur coup aux échecs.

  • 00:15:00 Dans cette section, l'orateur explique l'algorithme minimax, qui consiste à attribuer des valeurs aux nœuds feuilles d'un arbre de jeu et à les "sauvegarder" niveau par niveau pour déterminer le meilleur coup possible pour chaque joueur. Le joueur qui maximise veut conduire le jeu vers la plus grande valeur, tandis que le joueur qui minimise veut le pousser vers la plus petite valeur. En calculant ces valeurs et en décidant du meilleur plan d'action, l'algorithme peut être utilisé pour jouer à des jeux contradictoires tels que les échecs. L'orateur illustre l'algorithme avec un arbre de jeu simple et montre également un exemple de l'algorithme en action avec un arbre de jeu plus grand.

  • 00:20:00 Dans cette section de la vidéo, l'accent est mis sur la recherche de moyens d'aller aussi loin que possible dans l'arbre de recherche pour clarifier les mesures brutes de la qualité du conseil qui peuvent donner une assez bonne idée de la prochaine étape à faire . La solution pour couper de grandes parties de l'arbre de recherche réside dans l'algorithme alpha-bêta, qui est une couche au-dessus de minimax. Alpha-bêta utilise deux paramètres, alpha et bêta, pour couper des sections de l'arbre de recherche, permettant une recherche plus efficace. Cet algorithme n'est pas une alternative au minimax, mais plutôt un moyen de le rendre plus efficace. Un exemple est donné pour démontrer comment l'algorithme alpha-bêta fonctionne dans la pratique.

  • 00:25:00 Dans cette section, l'orateur discute du processus de recherche de jeu et comment il peut être optimisé grâce à l'utilisation d'algorithmes comme minimax et alpha-bêta. L'exemple utilisé est un arbre de profondeur quatre ou plus, où le locuteur encercle les nombres qui doivent être calculés, révélant que certaines branches n'ont pas besoin d'être évaluées en raison de situations de coupure. Cela économise du temps de calcul et permet une recherche de jeu plus efficace. L'orateur introduit également le concept de coupure profonde, où les nombres sont comparés à des niveaux séparés dans l'arbre et certaines branches sont jugées non pertinentes. Bien que cela puisse sembler difficile à croire, le processus est efficace et peut grandement améliorer l'efficacité de la recherche de jeux.

  • 00:30:00 Dans cette section, la vidéo aborde le concept d'élagage alpha-bêta et comment il peut économiser du temps de calcul dans les algorithmes de jeu. En évaluant les états de la carte, le minimiseur et le maximiseur peuvent décider du meilleur mouvement possible à effectuer. Le minimiseur obtient un 8 dans une certaine direction et le maximiseur peut obtenir un 9 dans une autre direction, créant une situation de coupure. L'élagage alpha-bêta permet à l'algorithme de passer par les arbres, avec alpha et bêta rétrécissant autour de la situation, ce qui économise le calcul. Bien que cette méthode ne fonctionne que dans la situation optimale où le facteur de branchement est constant, elle économise encore beaucoup de temps et de calcul, ce qui en fait un outil nécessaire pour les programmes de jeu.

  • 00:35:00 Dans cette section, nous apprenons à minimiser le coût des polices d'assurance pour les calculs d'arbre de jeu. En calculant les valeurs statiques un niveau au-dessus du bas et pas tout en bas, cela donne une police d'assurance pour assurer un bon mouvement sans avoir à calculer b aux d nœuds feuilles. Le coût de la police d'assurance est calculé en additionnant le nombre de feuilles à chaque niveau de l'arbre. Cependant, pour minimiser le coût, il y a une limite au nombre de niveaux que la police doit couvrir à partir du premier niveau. En utilisant l'algèbre, on trouve que le calcul requis pour la politique du plus haut niveau est égal à b au d moins 1 sur b moins 1, ce qui est un calcul gérable.

  • 00:40:00 Dans cette section, le concept d'approfondissement progressif est introduit comme moyen d'optimiser le résultat des polices d'assurance dans l'arbre de jeu. En ayant toujours un mouvement disponible à chaque niveau comme police d'assurance contre le fait de ne pas passer au niveau suivant, l'approfondissement progressif illustre comment les algorithmes à tout moment ont toujours une réponse prête à l'emploi dès qu'elle est demandée. De plus, Christopher suggère d'utiliser des valeurs temporaires pour améliorer les performances de l'alpha-bêta, une idée qui s'est avérée plus tard être une réinvention d'un concept important. Le programme Deep Blue n'est pas très différent des autres programmes de jeu, à l'exception de son utilisation de l'informatique parallèle et de techniques spéciales pour le jeu final.

  • 00:45:00 Dans cette section, l'orateur discute du développement d'un arbre inégal au cours d'un jeu et comment il n'est pas nécessaire que l'arbre descende à un niveau fixe. Il parle de Deep Blue battant Kasparov en 1997 en raison des fioritures supplémentaires que Deep Blue avait. Cependant, il mentionne que ce type de calcul dans lequel on effectue des calculs de la même manière qu'un bulldozer traite du gravier, est différent de l'intelligence humaine. Les maîtres d'échecs humains jouent aux jeux différemment, reconnaissant les schémas plutôt que d'entreprendre de longs calculs. L'orateur conclut qu'il est important de comprendre l'intelligence du bulldozer, mais ce n'est pas nécessairement le même type d'intelligence que les humains ont dans leur propre tête.
6. Search: Games, Minimax, and Alpha-Beta
6. Search: Games, Minimax, and Alpha-Beta
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonIn this lecture, we consider stra...
 

Cours 7. Contraintes : Interpréter les dessins au trait



7. Contraintes : interprétation des dessins au trait

La vidéo traite du développement d'un problème de satisfaction de contraintes pour l'interprétation des dessins au trait, qui a commencé avec la tentative de créer un ordinateur capable de voir des objets simples. Le travail de l'expérimentateur Guzman a été analysé, ce qui a conduit à l'approche de David Huffman consistant à travailler dans un monde mathématique simple avec des contraintes qui lui ont permis de développer une meilleure théorie que le programme de Guzman. La vidéo explore le vocabulaire utilisé pour cataloguer et catégoriser les lignes et les jonctions dans les dessins, la possibilité d'avoir cinq octants remplis de choses et l'utilisation de contraintes pour tester la constructibilité des objets. La vidéo aborde également le défi d'utiliser des étiquettes pour interpréter les dessins au trait, l'algorithme de Waltz et le processus de traitement des sommets de fourche dans l'analyse des dessins. Les contraintes développées dans ce projet ont des applications dans la résolution de problèmes avec beaucoup de contraintes, comme la coloration de cartes et la planification.

  • 00:00:00 Il interpréterait les dessins au trait et déterminerait le nombre d'objets qu'ils contiennent. Cette idée a été affinée par Dave Huffman, Dave Waltz et Jane Froydter. Le travail sur ce projet a été initialement motivé par une tentative de créer un ordinateur qui pourrait voir, en commençant par des objets simples comme des blocs pour enfants. Dans cette section de la transcription, Patrick Winston partage l'histoire derrière la lutte pour développer l'une des méthodes les plus puissantes sur le sujet, qui comprend des problèmes de satisfaction de contraintes, et comment tout a commencé avec la tentative de rendre un ordinateur capable de voir.

  • 00:05:00 Dans cette section, l'orateur discute du travail de Guzman qui a recherché des dessins au trait et comment les interpréter. Guzman a découvert que ces dessins avaient tendance à avoir beaucoup de jonctions de type flèche et de jonctions de type fourche, et il les a utilisées comme preuve pour déduire quelles faces appartiennent au même objet. Guzman a proposé une théorie sur l'utilisation de "liens" comme quanta de preuves pour résoudre ce problème. Il a rejeté la théorie à un lien et a constaté que la théorie à deux liens était trop conservatrice, ce qui l'a conduit à une troisième théorie de deux longueurs répétées. Cependant, il y avait de nombreuses situations où cette méthode ne fonctionnait pas, et la question de savoir pourquoi cela fonctionnait et quand cela ne fonctionnait pas a été soulevée. Il a été constaté que cela fonctionnait parce que le monde est plein de jonctions à trois faces, ou sommets.

  • 00:10:00 Dans cette section, la vidéo traite de l'approche de David Huffman pour développer une théorie autour de l'interprétation des dessins au trait après avoir analysé le programme de l'expérimentateur Guzman. Huffman a décidé de travailler dans un monde mathématique simple avec plusieurs caractéristiques, comme un monde en position générale qui ne contenait que des sommets trièdres formés à partir de l'intersection de trois plans, et de distinguer quatre types de lignes : concave, convexe et frontière étiquetée avec plus, moins et flèches, respectivement. Ces contraintes lui ont permis de gérer le problème manuellement tout en développant une théorie différente et meilleure que le programme de Guzman.

  • 00:15:00 Dans cette section, le professeur Patrick Winston discute du vocabulaire utilisé pour cataloguer et catégoriser les lignes et les jonctions dans les dessins, y compris les sommets, les arêtes, les jonctions et les lignes. Il poursuit en expliquant qu'il n'y a que 18 façons d'organiser les étiquettes autour d'une jonction, et que tout le reste est exclu. Il fournit également des exemples des six L, cinq fourches, quatre T et trois flèches qui sont légitimes pour étiqueter les jonctions. Les différentes manières d'étiqueter les jonctions dépendent des octants, le nombre d'octants remplis déterminant le type de jonction.

  • 00:20:00 Dans cette section, l'orateur discute des possibilités d'avoir cinq octants remplis de trucs et explique comment voir un objet sous trois perspectives différentes afin d'analyser ce qui est observé. En regardant l'objet du point de vue d'une craie violette, il y a une jonction de flèche avec deux concaves et un convexe ; de la craie bleue, il y a une ligne concave et une frontière, tandis que l'autre côté est un
    opposé symétrique de la perspective bleue. L'orateur examine en outre les sommets qui peuvent créer des jonctions de style fourche et de style L ainsi que les objets obscurcissants qui peuvent créer des formes en T avec la ligne restante comme limite. Enfin, l'orateur mentionne que des sommets à six faces peuvent également être créés lorsque des objets se rejoignent en un point.

  • 00:25:00 Dans cette section, l'orateur discute des contraintes et de la manière dont elles peuvent être utilisées pour déterminer si un objet particulier est constructible ou non. En étudiant la disposition des lignes et des flèches autour d'un carrefour, un catalogue de toutes les dispositions possibles est créé. À l'aide de ce catalogue, l'orateur montre comment étiqueter les lignes et les flèches autour d'un objet qui ressemble à la plaque d'immatriculation. Cependant, face à une jonction qui ne rentre pas dans le catalogue, l'objet est déterminé comme impossible à construire. Cette méthode fournit un moyen de tester la constructibilité des objets, bien que la réussite du test ne soit pas suffisante pour garantir la constructibilité.

  • 00:30:00 Dans cette section, la vidéo explore le problème de l'interprétation des dessins au trait en vision par ordinateur. L'approche initiale consistait à étiqueter les jonctions avec quatre faces, mais certains dessins n'ont pas pu être étiquetés en raison du manque de faces. L'étudiant diplômé David Waltz a entrepris de résoudre ce problème et a ajouté d'autres considérations telles que les fissures, les ombres et les sommets non trièdres. Cela a entraîné une augmentation du nombre d'étiquettes de quatre à plus de 50, rendant difficile le travail à la main. Les travaux de Waltz ont montré l'importance d'avoir un problème, une méthode qui fonctionne et un principe généralisable.

  • 00:35:00 Dans cette section, l'orateur discute du défi d'utiliser des étiquettes pour interpréter les dessins au trait. Il partage un exemple de dessin au trait et explique comment l'algorithme de Waltz, qui consiste à utiliser la recherche en profondeur d'abord pour explorer toutes les étiquettes possibles et leurs combinaisons, peut être utilisé pour l'interpréter. L'algorithme, cependant, s'avère coûteux en calcul, et après un an et demi, Waltz a dû proposer une nouvelle méthode capable de gérer l'espace de recherche exponentiel. L'orateur note que l'efficacité de l'algorithme était due à la combinaison de l'ensemble d'étiquettes de Waltz et de sa nouvelle méthode.

  • 00:40:00 Dans cette section, l'orateur discute de l'algorithme de Waltz et de la manière dont il vérifie les jonctions voisines pour voir si les lignes qui viennent d'être placées sur la jonction deux sont compatibles avec celles des jonctions voisines. Sur les six possibilités initiales, la moitié d'entre elles sont éliminées en raison de lignes de démarcation non autorisées entre les jonctions un et deux. Les possibilités restantes sont vérifiées par rapport à la jonction trois, et à partir de là, toutes les contraintes supplémentaires sur les jonctions sont vérifiées, ce qui donne une seule interprétation pour toutes les jonctions et les lignes entre elles.

  • 00:45:00 Dans cette section, l'orateur discute du processus de traitement des sommets de la fourche dans l'analyse du dessin. Après les avoir placées, l'orateur conclut qu'il a une interprétation unique pour toutes les jonctions et identifie quelles lignes sont convexes ou concaves. L'orateur démontre ensuite le processus pour les dessins avec plus d'ambiguïté et note que l'activité de propagation des contraintes est similaire à la façon dont les humains interprètent les dessins au trait, révélant que nous pouvons avoir un appareil de propagation des contraintes que nous utilisons dans la vision. Enfin, l'orateur discute de la façon dont ce type de mécanisme pourrait être utilisé dans la résolution de problèmes impliquant beaucoup de contraintes, notamment dans la coloration des cartes qui a des applications dans l'ordonnancement.
 

Cours 8. Contraintes : recherche, réduction de domaine



8. Contraintes : recherche, réduction de domaine

Cette vidéo traite du concept de contraintes dans la résolution de problèmes, en particulier dans le contexte de la recherche et de la réduction de domaine. L'orateur utilise l'exemple de l'attribution de couleurs aux états sur une carte pour illustrer comment les contraintes peuvent être utilisées pour réduire les possibilités avant même de commencer la recherche. L'orateur explore également différentes approches pour gérer les contraintes, telles que vérifier uniquement les affectations ou tout considérer, et introduit le concept de planification des ressources comme une autre application de la résolution de problèmes basée sur les contraintes. Dans l'ensemble, la vidéo fournit un aperçu complet de la façon dont les contraintes peuvent être utilisées pour résoudre efficacement des problèmes complexes.

  • 00:00:00 Dans cette section de la vidéo, l'orateur discute de la difficulté du problème de coloration de la carte, en utilisant un exemple de carte avec 26 états. Il note qu'une recherche en profondeur d'abord avec des choix de couleurs rotatifs prendrait un temps extrêmement long pour trouver une coloration appropriée, et démontre le problème avec un diagramme. Cependant, il introduit le concept de propagation de contraintes, qui peut réduire les possibilités pour la couleur de chaque état avant même de commencer la recherche. L'orateur travaille ensuite sur le problème du Texas, montrant comment la propagation des contraintes peut aider à éviter de se retrouver coincé dans une recherche impossible.

  • 00:05:00 Dans cette section, l'orateur montre comment utiliser les contraintes pour résoudre un problème d'attribution de couleurs aux états sur une carte. En utilisant le principe des arts martiaux et en tenant compte des contraintes locales, l'orateur s'assure qu'aucun état adjacent n'a la même couleur. L'orateur introduit également un vocabulaire important, notamment des variables, des valeurs et des domaines. La notion de domaine est un sac de valeurs que peut prendre une variable, et le locuteur utilise ce vocabulaire pour montrer comment on peut faire des choix qui ne causeront pas de problèmes en aval.

  • 00:10:00 Dans cette section, l'orateur explique comment les contraintes fonctionnent dans le contexte de la recherche et de la réduction de domaine. Les contraintes sont des limitations sur les paires de valeurs variables, qui sont souvent utilisées dans les problèmes de coloration de carte. Chaque état est une variable, les couleurs sont des valeurs et les possibilités de couleurs restantes sont les domaines. La contrainte dans ce cas est qu'aucun état partageant une frontière ne peut avoir la même couleur. L'orateur poursuit ensuite en formalisant son approche de la recherche et de la réduction en profondeur en l'écrivant en pseudocode. Le pseudocode implique de considérer une variable pour chaque affectation, de considérer tous les choix restants et de s'assurer que tout ce qui reste dans le domaine est acceptable pour une sélection dans les autres états.

  • 00:15:00 Dans cette section, l'orateur explique comment gérer les contraintes sur un algorithme de recherche. Ils expliquent que pour chaque valeur de la recherche, l'algorithme doit vérifier si elle satisfait les contraintes placées. Si aucune valeur adjacente ne satisfait la contrainte, l'algorithme supprime la valeur du domaine. Si le domaine devient vide, alors l'algorithme doit revenir en arrière. L'orateur explore différentes façons d'aborder le problème, notamment en ne considérant rien, en considérant tout et en ne vérifiant que les affectations, trouvant finalement que seule la vérification des affectations est rapide mais peut entraîner des erreurs, tout en considérant que tout vérifie toutes les valeurs adjacentes mais peut être exagéré.

  • 00:20:00 Dans cette section, l'orateur discute de l'algorithme de réduction de domaine dans le contexte de la résolution d'un problème de mappage de couleurs. Ils expliquent que la vérification des voisins de l'affectation, c'est-à-dire la vérification des options de couleur disponibles pour les États voisins, est essentielle pour résoudre le problème. L'orateur suggère également de propager à travers des variables avec des domaines réduits pour rendre le processus plus efficace. De plus, en vérifiant les voisins des voisins, le processus de résolution de problèmes peut être encore simplifié. L'orateur note que les algorithmes de réduction de domaine peuvent aider à résoudre des problèmes complexes, mais reconnaît également les limites et le potentiel d'impasses.

  • 00:25:00 Dans cette section, l'orateur discute de la réduction de domaine et de la manière de décider à travers quelles variables se propager. Au lieu de se propager à travers toutes les variables avec des domaines réduits, l'algorithme ne se propage qu'à travers celles avec le plus grand rétrécissement, jusqu'à une seule valeur. Ce faisant, il réduit le nombre de contraintes vérifiées, ce qui conduit à des temps de résolution plus rapides. L'orateur introduit également quelques "sales petits secrets", comme organiser un problème dans un certain ordre pour le rendre plus difficile à résoudre. Le choix entre commencer par la variable la plus contrainte ou la moins contrainte est laissé au choix de l'utilisateur.

  • 00:30:00 Dans cette section de la vidéo, l'orateur explique comment travailler d'abord sur la moindre contrainte et comment ils ont réorganisé les choses pour avoir l'état le moins contraint en premier. Ils n'ont vérifié que 1732 contraintes et avaient 59 impasses, ils ont donc essayé dans l'autre sens en vérifiant uniquement les premières affectations les plus contraintes. Cependant, ils mentionnent que si les états étaient classés du plus contraint au moins contraint, la recherche ordinaire en profondeur d'abord fonctionnerait bien. L'orateur présente ensuite un problème de planification des ressources avec Jet Green, une nouvelle compagnie aérienne, et explique en quoi il est analogue au problème de coloration de la carte. Jet Green veut voler principalement entre Boston et New York et veut voler occasionnellement vers Los Angeles tout en essayant de se débrouiller avec le plus petit nombre d'avions.

  • 00:35:00 Dans cette section, l'orateur présente un exemple de planification de vols entre villes, qui peut être résolu en appliquant les concepts du problème de coloration de carte. Le défi consiste à organiser les quatre avions pour opérer efficacement sur les routes souhaitées. L'orateur met en évidence les contraintes du problème : deux avions ne peuvent pas voler en même temps, chaque avion doit être utilisé de la même manière et il existe des contraintes de temps au sol. De plus, l'orateur démontre que le choix de la stratégie de recherche, la réduction de domaine, la vérification des voisins et le premier type le plus contraint peuvent avoir un impact sur l'efficacité de la solution.

  • 00:40:00 Dans cette section, l'instructeur introduit le concept d'utilisation de contraintes minimales et maximales pour déterminer le nombre approprié de ressources nécessaires pour une tâche. En fixant un nombre minimum et maximum de ressources, l'algorithme peut converger rapidement sur une plage étroite où la recherche est longue, ce qui permet d'être sûr qu'il se situe dans cette plage. L'instructeur recommande également d'utiliser d'abord la plupart des contraintes et de les propager à travers des domaines réduits à un seul algorithme pour obtenir une bonne allocation des ressources. En faisant plusieurs choses à la fois, il est possible de déterminer rapidement les ressources nécessaires pour une tâche.
8. Constraints: Search, Domain Reduction
8. Constraints: Search, Domain Reduction
  • 2021.04.23
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010Instructor: Patrick WinstonView the complete course: https://ocw.mit.edu/6-034F10YouTube Playlist: https://www.yo...
 

Cours 9. Contraintes : reconnaissance visuelle d'objets



9. Contraintes : Reconnaissance visuelle d'objets

Dans cette vidéo, Patrick Winston discute des défis de la reconnaissance des objets visuels, y compris les idées de David Marr de former une description basée sur les contours des objets, des normales de surface et des cylindres généralisés. L'orateur se penche également sur différentes méthodes de reconnaissance visuelle d'objets, y compris la théorie de l'alignement et l'utilisation d'algorithmes de corrélation pour calculer l'emplacement des caractéristiques de taille intermédiaire. Winston souligne les défis de la reconnaissance d'objets naturels qui n'ont pas les mêmes dimensions et l'importance du contexte et de la narration dans la reconnaissance visuelle, en utilisant l'exemple d'un chat qui boit. Tout au long de la vidéo, il fournit des démonstrations et des exemples pour expliquer divers concepts. Globalement, le conférencier insiste sur les difficultés de la reconnaissance visuelle et encourage les étudiants à poursuivre leurs recherches dans le domaine.

  • 00:00:00 Dans cette section, Patrick Winston aborde les défis de la reconnaissance d'objets visuels, tels que les visages. Il présente un programme qui peut faire varier l'apparence de l'image d'un politicien, montrant comment il s'interpole parmi les images stockées. Winston plonge ensuite dans l'histoire de la reconnaissance d'objets, en commençant par les idées de David Marr, qui proposaient que la première étape de la reconnaissance visuelle consiste à former une description de l'objet basée sur les contours, connue sous le nom de croquis primal. Marr a ensuite suggéré de décorer l'esquisse primaire avec des normales de surface pour montrer l'orientation de l'objet, l'appelant l'esquisse à deux D et demi. Cela a été suivi par la conversion du croquis de deux D et demi en cylindres généralisés, ce qui nous a rapprochés de la reconnaissance des objets visuels.

  • 00:05:00 Dans cette section, l'orateur parle de différentes approches de la reconnaissance visuelle d'objets, en commençant par l'idée d'un cylindre régulier comme une zone circulaire se déplaçant le long d'un axe, puis en discutant du concept de théorie de l'alignement. La théorie de l'alignement de la reconnaissance est basée sur l'idée que le fait d'avoir trois images d'un objet permet la reconstruction de n'importe quelle vue de cet objet en projection orthographique, qui peut être utilisée pour reconnaître un objet dans une bibliothèque. L'orateur affirme que les endroits correspondants sur différents objets peuvent être choisis, et l'alignement des images et de l'objet inconnu peut être utilisé pour déterminer si l'objet inconnu est le même que l'objet d'origine.

  • 00:10:00 Dans cette section, Patrick Winston explique comment générer une équation pour différents objets en utilisant alpha, bêta, gamma et tau comme constantes. Il montre comment cette équation fonctionne pour quatre points de couleurs différentes, et en choisissant les mêmes valeurs alpha, bêta, gamma et tau pour tous les points, il peut utiliser avec succès des opérations linéaires pour relier des points dans différents objets. Il explique ensuite que les coordonnées sont des projections 2D de l'objet sur un dessin et répond aux questions sur la façon dont les surfaces courbes pourraient être identifiées dans la reconnaissance visuelle d'objets.

  • 00:15:00 Dans cette section, Patrick Winston explique comment les contraintes peuvent aider à prédire l'emplacement d'un objet afin d'en faciliter la reconnaissance. Il explique qu'en utilisant les variables alpha, bêta, gamma et tau, qui peuvent être dérivées de quatre équations linéaires et de quatre inconnues, les points correspondants peuvent être correctement identifiés pour fournir des informations précieuses sur la position de l'objet inconnu. Winston démontre cette méthode, expliquant que si les points correspondants sont correctement identifiés, cela fournit une forte indication que l'objet est le bon, comme un obélisque ou un organe.

  • 00:20:00 Dans cette section, l'orateur montre comment calculer le mouvement de la coordonnée x dans une image d'un objet 3D lors de sa rotation autour de l'axe z. Ils commencent par définir une position standard et identifient les coordonnées x et y dans cette position, puis font pivoter l'objet pour créer trois positions différentes (a, b et c) et déterminent l'angle de rotation pour chacune. Le locuteur utilise ensuite des rotations vectorielles pour calculer comment la coordonnée x change lorsque l'objet tourne autour de l'axe z. Le processus implique l'utilisation des fonctions cosinus et sinus et la prise en compte des projections des coordonnées x et y du vecteur lors de sa rotation.

  • 00:25:00 Dans cette section, l'orateur simplifie l'équation qui décrit la reconnaissance visuelle d'objets par projection orthographique, qui est une projection le long de l'axe des x sans aucune perspective. Il soutient que les facteurs inconnus, tels que le cosinus et le sinus des angles thêta, sont des constantes et peuvent être représentés comme des multiplicateurs alpha et bêta pour x sous a et x sous b. Lorsqu'on lui donne le scénario permettant la translation et la rotation, l'orateur note que le tau constant supplémentaire doit être identifié en soustrayant deux équations.

  • 00:30:00 Dans cette section, Patrick Winston discute de différentes méthodes de reconnaissance d'objets. Il parle du problème de la reconnaissance d'objets naturels qui n'ont pas des dimensions identiques, contrairement aux objets manufacturés où l'on peut prendre des photos et enregistrer les coordonnées de certains des points de reconnaissance. Il présente ensuite la théorie de Shimon Ullman basée sur la corrélation où l'on peut prendre deux images, en appliquer une comme masque de corrélation à l'autre image et localiser l'objet principal. Cependant, cette idée a des limites car elle ne peut pas localiser les fonctionnalités inhabituelles, mais uniquement les fonctionnalités courantes. Winston explore davantage l'idée en dessinant des exemples de deux visages de citrouille et discute des problèmes liés à l'idée de reconnaître des objets en fonction de l'identification de caractéristiques spécifiques comme les yeux et le nez.

  • 00:35:00 Dans cette section, l'orateur explique comment fonctionne la reconnaissance visuelle d'objets et comment cela dépend de la taille des caractéristiques reconnues. Bien que les images trop petites ou trop grandes ne fournissent pas d'informations utiles, des caractéristiques de taille intermédiaire telles que des combinaisons de deux yeux et d'un nez peuvent être utiles. Le défi devient alors de trouver ces caractéristiques intermédiaires dans une mer d'images. L'orateur suggère d'utiliser des algorithmes de corrélation pour déterminer le décalage dans l'image où la caractéristique se produit. En maximisant un paramètre x, l'intégrale du visage et de l'image peut être calculée pour déterminer l'emplacement de la caractéristique.

  • 00:40:00 Dans cette section de la vidéo, le présentateur explique comment la corrélation fonctionne dans la reconnaissance visuelle d'objets en utilisant des images avec du bruit comme exemples. La corrélation implique la multiplication et l'intégration sur l'étendue du visage avec un décalage. Lorsque le décalage est égal, le programme multiplie l'image par elle-même et intègre sur le visage. En maximisant les paramètres de traduction x et y, il est possible de sélectionner des caractéristiques spécifiques d'une image, telles que le visage d'une personne, malgré le bruit ajouté. La démonstration a montré que même avec du bruit supplémentaire, le programme était toujours capable de sélectionner les bonnes fonctionnalités.

  • 00:45:00 Dans cette section, Patrick Winston aborde les défis de la reconnaissance visuelle, en particulier la capacité à reconnaître les personnes sous différents angles. Il note que bien qu'il ne soit pas clair comment nous sommes capables de reconnaître les visages sous différents angles, retourner les visages ou les étirer pourrait potentiellement briser la théorie de la corrélation. Cependant, il suggère que des questions plus difficiles résident dans la façon dont nous pouvons déterminer visuellement ce qui se passe. Il met les élèves au défi de déterminer quelle action il effectue dans une expérience, mettant en évidence les défis actuels de la vision par ordinateur.

  • 00:50:00 Dans cette section, l'orateur utilise l'exemple d'un chat qui boit pour démontrer comment notre pouvoir de narration influence notre reconnaissance visuelle. Malgré les différences visuelles considérables, les humains peuvent facilement identifier le chat comme buvant en comprenant le récit présenté dans l'image. Le bas de notre système de vision fournit suffisamment d'informations pour que notre appareil d'histoire reconnaisse l'action de boisson du chat, prouvant l'importance du contexte et de la narration dans la reconnaissance visuelle des objets.
9. Constraints: Visual Object Recognition
9. Constraints: Visual Object Recognition
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonWe consider how object recognitio...
 

Cours 10. Introduction à l'apprentissage, les voisins les plus proches



10. Introduction à l'apprentissage, les voisins les plus proches

Dans cette vidéo YouTube, le professeur Winston présente le sujet de l'apprentissage et discute de deux types d'apprentissage : l'apprentissage basé sur la régularité et l'apprentissage basé sur la rétroaction. Il se concentre sur les techniques d'apprentissage basées sur la régularité comme l'apprentissage par le plus proche voisin, les réseaux de neurones et le boosting. L'apprentissage du voisin le plus proche implique un détecteur de caractéristiques, générant un vecteur de valeurs, qui est ensuite comparé aux vecteurs d'une bibliothèque de possibilités pour trouver la correspondance la plus proche et déterminer ce qu'est un objet. L'orateur donne divers exemples d'application de cette méthode. Il explique en outre comment les limites de décision peuvent être utilisées pour identifier la catégorie d'un objet. Le principe de similarité entre différents cas est introduit, et l'importance de la gestion du sommeil est soulignée car elle affecte grandement l'apprentissage. Enfin, il aborde le problème de la non-uniformité, le problème de "ce qui compte" et l'importance de normaliser les données à l'aide de techniques statistiques.

  • 00:00:00 Dans cette section, le professeur Winston présente le thème de l'apprentissage et deux types d'apprentissage : l'apprentissage basé sur les régularités et l'apprentissage basé sur les commentaires. Il se concentre sur le premier et discute des techniques d'apprentissage basées sur la régularité telles que l'apprentissage par le plus proche voisin, les réseaux de neurones et le boosting. L'apprentissage par le plus proche voisin est une technique bien établie dans le domaine de la reconnaissance de formes et est la première chose à essayer lors de la résolution d'un problème d'apprentissage. Le professeur présente également deux énigmes à considérer, à savoir comment créer un programme informatique capable de boire du café et à quoi un chien penserait qu'un coca light est destiné. Enfin, il mentionne l'importance d'aborder le sujet du sommeil et de bien le gérer car il affecte grandement l'apprentissage.

  • 00:05:00 Dans cette section, l'orateur introduit le concept d'apprentissage par le plus proche voisin, qui est un type de reconnaissance de formes. Cela implique un détecteur de caractéristiques qui génère un vecteur de valeurs, qui est ensuite comparé aux vecteurs d'une bibliothèque de possibilités pour trouver la correspondance la plus proche et déterminer ce qu'est un objet. L'orateur donne un exemple d'utilisation de cette méthode pour trier les couvertures électriques sur une chaîne de montage en mesurant leur surface et la surface des trous. Il s'agit d'une forme d'apprentissage basé sur la régularité, qui ressemble à un bulldozer traitant des informations. L'orateur note que ce n'est pas nécessairement le meilleur modèle d'apprentissage humain, qui implique des idées basées sur la contrainte et permet un apprentissage ponctuel et un apprentissage basé sur des explications.

  • 00:10:00 Dans cette section, l'instructeur utilise l'exemple de l'assemblage de couvercles avec différentes zones de trous pour expliquer le concept des limites de décision. Il montre comment diviser l'espace à l'aide de bissectrices perpendiculaires, ce qui peut aider à identifier la catégorie d'un objet en fonction de sa description idéalisée la plus proche. De plus, les limites de décision peuvent également être utilisées pour identifier la catégorie d'un nouvel objet en mesurant l'un de ses attributs et en le comparant aux catégories créées par les limites de décision.

  • 00:15:00 Dans cette section, l'orateur introduit le principe de similitude entre différents cas, déclarant que si quelque chose est similaire à certains égards, il est probable qu'il soit également similaire à d'autres égards. Ce principe est à la base de la plupart des apprentissages, que ce soit dans les contes de fées, les cas juridiques ou commerciaux, ou même les cas médicaux. L'idée est de reconnaître les similitudes avec une situation actuelle pour appliquer un précédent ou une connaissance. Le principe peut être appliqué dans divers domaines. Par exemple, il peut être utilisé dans l'identification des cellules, où les cellules peuvent être placées dans un espace de grande dimension et évaluées pour la similitude en fonction de diverses propriétés. De même, le principe peut être utilisé dans la recherche d'informations, où des articles de magazines peuvent être comparés en fonction du nombre de mots pour répondre à des questions spécifiques.

  • 00:20:00 Dans cette section, le concept d'utilisation des voisins les plus proches est exploré lors de la tentative de détermination de l'article le plus proche d'un article inconnu. Le problème se pose lorsque tous les articles de Town and Country sont déterminés comme étant les plus proches. Au lieu de cela, la classe discute de l'utilisation d'une métrique différente, telle que l'angle entre les vecteurs, pour résoudre le problème. Le cosinus de l'angle entre deux vecteurs peut être calculé par un calcul simple, qui peut être utile dans de nombreuses situations, y compris le contrôle du bras robotique. Le but est de déplacer un bras pour contrôler la trajectoire d'une balle à une vitesse et une accélération spécifiques, ce qui implique de déterminer deux angles, thêta 1 et thêta 2.

  • 00:25:00 Dans cette section, l'orateur discute des problèmes rencontrés lors de la traduction des coordonnées (x, y) souhaitées d'une balle dans l'espace θ1 et θ2 avec les positions, vitesses et accélérations souhaitées. Ils introduisent le concept des forces de Coriolis, qui sont le résultat de la géométrie compliquée impliquée dans les équations du mouvement. Pour résoudre ce problème, l'orateur propose de construire un grand tableau de combinaisons de mouvement pour le bras, puis de diviser la trajectoire souhaitée en petits morceaux et de trouver la correspondance la plus proche du tableau, y compris les couples associés. Cette méthode a été précédemment rejetée en raison d'une puissance informatique insuffisante, mais elle a été revisitée ces derniers temps et fonctionne bien pour des mouvements similaires.

  • 00:30:00 Dans cette section, le conférencier explique comment fonctionne le processus d'apprentissage au fur et à mesure que le robot traverse son "enfance" et s'améliore progressivement dans la tâche. L'amélioration est obtenue grâce à l'utilisation d'un tableau qui enregistre de meilleures versions des mouvements requis afin que le robot puisse s'y référer ultérieurement. L'orateur montre ensuite un graphique qui montre la vitesse d'apprentissage du robot. Le sujet de l'utilisation de la même méthode d'enregistrement en mémoire pour enregistrer les lancers de baseball est également brièvement abordé.

  • 00:35:00 Dans cette section, le professeur Patrick Winston discute du nombre de neurones et de synapses dans le cerveau, en particulier dans le cervelet, liés au contrôle moteur, et comment il peut fonctionner comme une table gigantesque pour l'apprentissage des habiletés motrices. Il explore ensuite la question des données normalisées dans l'apprentissage automatique et comment cela peut affecter la diffusion des données dans différentes dimensions. La solution consiste à calculer la variance et à normaliser les données à l'aide de techniques issues des statistiques.

  • 00:40:00 Dans cette section, l'orateur discute des problèmes potentiels qui peuvent survenir lors de l'utilisation des voisins les plus proches dans l'apprentissage. L'un de ces problèmes est le problème de non-uniformité lorsque les données ne dépendent pas de la nouvelle variable. Le deuxième problème est le problème "ce qui compte" où l'algorithme peut mesurer une distance qui confond la réponse. Enfin, le troisième problème survient lorsque les données disponibles sont indépendantes de la question, comme si vous essayiez de faire un gâteau sans farine. L'orateur aborde ensuite l'importance du sommeil et l'importance cruciale de bonnes habitudes de sommeil, en particulier pour des individus comme les Rangers de l'armée. De plus, il explique comment la privation de sommeil peut entraîner des erreurs dans la distinction des cibles, ce qui a été observé lors d'analyses d'après-guerre.

  • 00:45:00 Dans cette section, l'orateur discute des effets de la perte de sommeil sur l'esprit et le corps humains. Il explique qu'après 72 heures, la capacité et les performances d'un individu chutent de 30% par rapport au départ. La perte de sommeil s'accumule et après 20 jours de privation de sommeil d'une heure, votre capacité chute à 25 %. L'orateur examine également l'efficacité de la caféine et des siestes, soulignant que la caféine offre une certaine aide. Il met en garde contre la corrélation confuse avec la cause et comment les animaux comme les chiens et les chats peuvent faire l'erreur que les boissons diététiques provoquent un gain de poids en raison d'une corrélation qu'ils voient.
 

Cours 11. Apprentissage : Arbres d'identification, désordre



11. Apprentissage : arbres d'identification, désordre

Le professeur du MIT, Patrick Winston, explique le concept de construction d'un mécanisme de reconnaissance pour identifier les vampires à l'aide de données et l'importance de créer un arbre d'identification petit et rentable qui satisfait le rasoir d'Occam. Il propose d'utiliser des mécanismes heuristiques pour construire l'arbre puisque le calcul de tous les arbres possibles est un problème NP. Winston suggère d'utiliser un test d'ombre, un test d'ail, un test de teint et un test d'accent pour identifier les individus qui sont des vampires et explique comment mesurer le désordre dans des ensembles pour trouver la qualité globale d'un test basé sur la mesure du désordre. La vidéo explique également comment les arbres d'identification peuvent être utilisés avec des données numériques, et l'arbre peut être converti en un ensemble de règles pour créer un mécanisme simple basé sur un comportement basé sur des règles.

  • 00:00:00 Dans cette section, le professeur du MIT Patrick Winston introduit le concept d'utilisation des données pour construire un mécanisme de reconnaissance pour identifier les vampires. Il souligne les différences entre cet ensemble de données et l'ensemble de données de couverture électrique avec lequel ils ont travaillé dans la classe précédente, notant que cet ensemble de données n'est pas numérique mais symbolique, rendant les techniques du plus proche voisin inutilisables. Il souligne également d'autres défis dans l'identification des vampires, tels que le coût de certains tests et l'incertitude quant aux caractéristiques qui comptent réellement.

  • 00:05:00 Dans cette section, Patrick Winston explique le concept d'arbres d'identification ou d'arbres de décision et souligne l'importance de construire un petit arbre qui est rentable et produit des sous-ensembles uniformes de données. L'objectif est de trouver le meilleur arrangement possible de tests pour produire une petite explication simple qui satisfait le rasoir d'Occam, qui stipule que l'explication la plus simple est souvent la meilleure explication. Il suggère également d'utiliser un mécanisme heuristique pour construire l'arbre puisque le calcul de tous les arbres possibles est un problème NP. Enfin, Winston prévient que le petit ensemble d'échantillons utilisé en classe n'est pas adapté aux applications du monde réel.

  • 00:10:00 Dans cette section, un test d'ombre, un test d'ail, un test de teint et un test d'accent sont utilisés pour identifier les individus qui sont des vampires. Les tests sont appliqués à un petit échantillon de population, et en regardant comment les tests divisent les données, il est possible de déterminer quel test produit les groupes les plus homogènes. Le but ultime est de trouver un test capable d'identifier avec précision tous les vampires de l'échantillon de population. Le test de l'ombre divise la population entre ceux qui projettent et ceux qui ne projettent pas d'ombre, un seul individu ne projetant pas d'ombre, indiquant qu'il est un vampire. Le test de l'ail détermine que tous les vampires de l'échantillon de population ont répondu négativement à la consommation d'ail. Le test de teint et le test d'accent aident également à identifier les individus les plus susceptibles d'être des vampires.

  • 00:15:00 Dans cette section, la vidéo explique un exemple de création d'un arbre d'identification en divisant un groupe d'individus en ensembles homogènes en sélectionnant des caractéristiques uniques à l'un ou l'autre groupe. L'exemple implique des vampires et des non-vampires et les tests utilisés pour identifier chaque groupe. La vidéo aborde également des questions sur la façon d'appliquer ce concept à des ensembles de données plus importants et met en évidence les limites de l'exemple en classe.

  • 00:20:00 Dans cette section, le concept de mesure du désordre dans les ensembles est introduit. Afin de trouver un moyen de mesurer le désordre des ensembles qui se trouvent au bas des branches de l'arbre, les théoriciens de l'information sont sollicités pour obtenir des conseils. Le désordre d'un ensemble, selon les théoriciens de l'information, se calcule en prenant en compte le nombre total de positifs et de négatifs, et en multipliant le nombre de positifs par le log des positifs divisé par le nombre total, par rapport à une base de 2 Cette méthode peut aider à trouver une qualité globale d'un test basé sur la mesure du trouble.

  • 00:25:00 Dans cette section, l'orateur explique la formule pour mesurer le désordre dans un ensemble de données en utilisant des ratios de positifs et de négatifs. Après avoir calculé les valeurs pour des ensembles de données complètement mélangés et complètement positifs, l'orateur confirme l'importance de prêter attention à ces courbes pour travailler rapidement les questions du quiz. Enfin, en utilisant la règle de L'Hôpital, l'orateur calcule une troisième valeur lorsque le rapport des négatifs au total approche 0, ce qui permet de tracer graphiquement une courbe à trois points.

  • 00:30:00 Dans cette section, l'orateur explique comment mesurer la qualité globale d'un test et comment mesurer le désordre dans chaque ensemble produit par le test. L'orateur propose d'additionner le désordre de chaque ensemble produit par le test, mais note que cette méthode n'est peut-être pas la meilleure car elle donne un poids égal à une branche qui n'a presque rien en bas qu'à une branche qui a presque tout en bas. Pour résoudre ce problème, l'orateur propose de pondérer la somme en fonction de la fraction d'échantillons qui aboutissent dans cette branche. L'orateur illustre cette méthode avec un exemple de problème et conclut que le désordre d'un ensemble homogène est nul.

  • 00:35:00 Dans cette section, l'accent est mis sur la qualité des tests qui identifient et divisent les données données en sous-ensembles. Le désordre ou le désarroi d'un ensemble est nul lorsque tous les échantillons sont identiques et est égal à un lorsque les échantillons sont également un mélange égal de deux types. En multipliant la probabilité des sous-ensembles par le désordre respectif des ensembles, la qualité de chaque test peut être calculée. Cette métrique de qualité est ensuite utilisée pour décider quel test est le plus efficace pour diviser les données en sous-ensembles homogènes, ce qui est essentiel pour construire l'arbre le plus simple possible. Cependant, l'accent est mis sur l'intuition derrière l'analyse des données plutôt que sur la théorie de l'information ou l'entropie.

  • 00:40:00 Dans cette section, la vidéo explique comment les arbres d'identification peuvent encore être utilisés avec des données numériques en mettant des seuils sur les données. Cela permet de créer des tests binaires, similaires aux tests utilisés avec des données catégorielles. L'ordinateur peut essayer différentes valeurs de seuil et déterminera quel seuil fonctionne le mieux pour séparer les données en groupes homogènes. Contrairement à d'autres méthodes, telles que les voisins les plus proches, les limites de décision sont parallèles à un axe ou à un autre, plutôt que de suivre la forme des données elles-mêmes.

  • 00:45:00 Dans cette section, nous découvrons les arbres d'identification, leurs vertus et comment ils peuvent être convertis en un ensemble de règles pour les rendre plus simples pour ceux qui sont orientés vers les règles. L'arbre peut être converti en un ensemble de règles en descendant chaque branche jusqu'à une feuille, et si une règle teste à la fois l'ombre et l'ail, nous pouvons nous débarrasser de certaines des clauses pour créer un mécanisme simple basé sur des règles comportement.
11. Learning: Identification Trees, Disorder
11. Learning: Identification Trees, Disorder
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonIn this lecture, we build an iden...
 

Cours 12a : Réseaux de neurones



12a : Réseaux de neurones

Cette vidéo couvre une gamme de sujets liés aux réseaux de neurones. Le conférencier commence par discuter de l'histoire des réseaux de neurones, en soulignant le travail essentiel effectué par Geoff Hinton qui a transformé le domaine. L'anatomie d'un neurone est ensuite discutée, ainsi que la manière dont les entrées sont collectées et traitées. La vidéo explique ensuite comment les réseaux de neurones fonctionnent comme approximateurs de fonctions et comment les performances peuvent être améliorées en utilisant l'escalade et la descente de gradient. La règle de la chaîne est introduite pour faciliter le calcul des dérivées partielles, et l'orateur montre comment le réseau de neurones le plus simple au monde peut être entraîné à l'aide de cette approche. La constante de vitesse optimale pour un réseau de neurones est également discutée, et l'orateur introduit un réseau de neurones plus complexe avec deux entrées et sorties. Enfin, le principe de réutilisation est introduit pour résoudre le problème de l'explosion exponentielle potentielle des chemins à travers de grands réseaux. Dans l'ensemble, la vidéo souligne que les bonnes idées dans les réseaux de neurones sont souvent simples et faciles à ignorer, même si elles peuvent avoir un impact significatif sur le terrain.

  • 00:00:00 Dans cette section, le professeur décrit l'histoire des réseaux neuronaux et mentionne qu'au départ, beaucoup pensaient que les modèles neuronaux de l'époque n'étaient pas des modèles précis du cerveau humain et que personne n'avait réussi à créer un modèle neuronal qui valait n'importe quoi. Poursuivant, le professeur mentionne que deux ans plus tard, Geoff Hinton de l'Université de Toronto a stupéfié le monde avec un travail neuronal qu'il avait fait sur la reconnaissance et la classification des images, et a publié un article avec quelques exemples. La vidéo montre quelques exemples d'images que le réseau neuronal de Toronto a pu reconnaître et d'autres où il a eu des difficultés.

  • 00:05:00 Dans cette section, l'orateur discute des réseaux de neurones et de la manière dont ils se sont considérablement améliorés au cours des trois dernières années en raison d'efforts et d'intérêts accrus. Il explique comment nous nous sommes inspirés de nos propres systèmes neuronaux et décrit la structure d'un neurone, y compris son axone, son arbre dendritique et les connexions synaptiques entre eux. L'orateur discute ensuite de la façon dont les connexions synaptiques sont modélisées dans les réseaux de neurones à l'aide d'entrées binaires et de poids qui reflètent la force de la connexion.

  • 00:10:00 Dans cette section, l'orateur explique comment modéliser la manière dont les entrées sont collectées dans un neurone à l'aide d'un modèle simple qui utilise des poids synaptiques, un sommateur et une boîte à seuil qui détermine si le neurone se déclenchera ou non. Bien que ce modèle s'inspire du fonctionnement du cerveau humain, il existe encore de nombreuses inconnues et complexités qui ne sont pas encore entièrement comprises par les neurobiologistes. Ce modèle n'est qu'un moyen de comprendre l'essence générale du fonctionnement des neurones et de leur fonctionnement collectif en tant que réseau.

  • 00:15:00 Dans cette section, l'orateur explique comment un réseau de neurones fonctionne comme un approximateur de fonction, où les entrées traversent le réseau et deviennent des sorties. Le vecteur de sortie est une fonction du vecteur d'entrée, du vecteur de poids et d'un vecteur de seuil. La fonction de performance est construite en comparant le vecteur de sortie souhaité avec le vecteur de sortie réel, et le but est toujours de minimiser la fonction de performance. La conférence explique le processus d'optimisation des poids et des seuils dans un réseau neuronal simple utilisant l'escalade, mais reconnaît que cette méthode n'est pas réalisable pour les réseaux neuronaux avec un grand nombre de paramètres, tels que le réseau neuronal de Hinton avec 60 millions de paramètres.

  • 00:20:00 Dans cette section, le narrateur explique comment la descente de gradient peut être utilisée pour apporter de petites améliorations à la fonction de performance en prenant des dérivées partielles de la fonction par rapport à certains poids. Cependant, cette méthode n'est efficace que pour les surfaces continues et non pour les surfaces discontinues, ce qui est le cas pour les réseaux de neurones. La solution a été introduite par Paul Werbos en 1974, qui consiste à ajouter une autre entrée au neurone avec un poids de W0, connectée à une entrée qui est toujours -1. Cette entrée déplace efficacement le seuil à zéro et permet une fonction de transition plus douce pour le réseau neuronal.

  • 00:25:00 Dans cette section, la vidéo explique la fonction sigmoïde et son utilisation dans les réseaux neuronaux. La fonction sigmoïde est utilisée comme fonction d'activation pour les neurones et fournit l'apparence et la forme correctes requises par les mathématiques. Les dérivées partielles sont ensuite calculées, maintenant que le seuil problématique a été supprimé, pour essayer d'entraîner le réseau de neurones. Le réseau de neurones le plus simple au monde est décrit comme composé de deux neurones et de quelques paramètres qui donnent une fonction de performance. La vidéo présente ensuite la règle de la chaîne pour réécrire les dérivées partielles dans le calcul des variables intermédiaires afin de déterminer dans quelle mesure elles se tortillent par rapport aux autres, et finalement former le réseau neuronal.

  • 00:30:00 Dans cette section, l'orateur efface et réécrit les dérivées partielles à l'aide de la règle de la chaîne, fournissant des expressions qui permettent de résoudre un réseau de neurones simple. Les dérivées sont transformées en un format de produit pour plus de commodité, et le locuteur procède à la recherche de la dérivée partielle de p2 par rapport à w2, qui est égale à Y. La dérivée partielle de Z par rapport à p2 est encore inconnue car elle implique un fonction de seuil. Pour le comprendre, le locuteur détruit le neurone et travaille avec la fonction bêta, qui est égale à 1 sur 1 plus e au moins alpha.

  • 00:35:00 Dans cette section, l'orateur passe en revue la dérivée par rapport à alpha bêta, puis procède à la démonstration du plus petit réseau neuronal du monde en action en l'entraînant à ne rien faire. La sortie de la fonction sigmoïde est simplifiée car la dérivée peut être écrite exclusivement en termes de sortie. Le réseau de neurones est formé pour rendre la sortie identique à l'entrée, mais rien ne se passe en conséquence.

  • 00:40:00 Dans cette section de la vidéo, l'orateur discute du processus de détermination de la constante de vitesse optimale pour un réseau de neurones. En partant d'un réseau de neurones avec des poids aléatoires, le locuteur teste diverses constantes de vitesse et observe leur effet sur les performances du réseau. Si la constante de vitesse est trop petite, il faut beaucoup de temps pour atteindre des performances optimales, mais si elle est trop grande, le réseau peut sauter trop loin et devenir instable. L'orateur note que la constante de vitesse devrait varier avec la progression vers des performances optimales. L'orateur présente également un réseau de neurones plus complexe avec deux entrées et sorties et discute des interactions entre les flux et les poids.

  • 00:45:00 Dans cette section, nous apprenons l'explosion exponentielle potentielle des chemins à travers un réseau avec un grand nombre de neurones. Cependant, nous pouvons réutiliser le calcul et ne pas avoir une explosion exponentielle puisque l'influence des changements de P sur les performances ne peut se produire qu'à travers une colonne fixe de neurones, ce qui signifie que nous réutilisons le calcul déjà effectué. La quantité de calcul nécessaire pour une colonne à largeur fixe est linéaire et profonde, mais proportionnelle au carré de la largeur de la colonne. Il est également noté par l'orateur que ce principe a été négligé pendant 25 ans.

  • 00:50:00 Dans cette section, l'orateur explique à quel point les grandes idées dans les réseaux de neurones sont souvent simples, mais nous, en tant qu'humains, ne proposons souvent qu'une astuce ou une observation au lieu d'en cascader quelques-unes pour créer quelque chose de miraculeux. Le principe de réutilisation est à l'œuvre dans ce cas car le miracle était la conséquence de deux tours et d'une observation. Dans l'ensemble, le message est que les bonnes idées sont simples et faciles à ignorer, et ont été ignorées pendant un quart de siècle.
12a: Neural Nets
12a: Neural Nets
  • 2016.04.20
  • www.youtube.com
*NOTE: These videos were recorded in Fall 2015 to update the Neural Nets portion of the class.MIT 6.034 Artificial Intelligence, Fall 2010View the complete c...
 

Cours 12b : Réseaux de neurones profonds



12b : Réseaux de neurones profonds

Cette vidéo couvre plusieurs sujets liés aux réseaux de neurones profonds, y compris le processus de calcul impliqué, les réseaux de neurones convolutionnels, les algorithmes d'auto-codage, l'ajustement des paramètres dans la couche de sortie, softmax et la rétropropagation avec les réseaux convolutifs. La vidéo explore également des concepts tels que les maxima locaux, l'élargissement des réseaux et l'apprentissage des réseaux neuronaux, tout en démontrant le fonctionnement des réseaux neuronaux profonds dans le traitement d'images. Dans l'ensemble, la vidéo donne un aperçu complet des principaux concepts impliqués dans les réseaux de neurones profonds, y compris leurs forces et leurs limites.

  • 00:00:00 Dans cette section, le conférencier aborde le processus de calcul dans un petit réseau de neurones et met en évidence le fait que les performances de ce réseau reposent sur un nombre fini de variables de sortie. L'orateur poursuit en montrant des équations qui démontrent la dépendance des performances sur des poids spécifiques et souligne qu'il y a beaucoup de redondance dans le processus de calcul. Au fur et à mesure que vous reculez des sorties vers les entrées, une grande partie du calcul effectué précédemment est réutilisée, ce qui entraîne la réutilisation de plusieurs éléments de calcul qui ont été effectués dans les changements de poids en aval.

  • 00:05:00 Dans cette section, l'orateur discute des calculs impliqués dans les réseaux de neurones et souligne le calcul fondamental qui a lieu dans nos têtes, le produit scalaire, qui est également utilisé dans les réseaux de neurones. Il explique également le concept de réseaux de neurones convolutifs, qui sont utilisés pour le traitement d'images, et note qu'ils sont constitués d'un assemblage spécifique de composants qui tend à réapparaître dans le domaine des réseaux de neurones. L'orateur mentionne également la performance d'un réseau neuronal profond en 2012, qui avait un taux d'erreur d'environ 15 % ou 37 % selon la définition de « bonne réponse ».

  • 00:10:00 Dans cette section de la vidéo, l'orateur explique comment la convolution et la mise en commun fonctionnent dans les réseaux de neurones. Le processus consiste à faire passer un neurone sur une image, produisant une sortie associée à un endroit particulier de l'image. C'est ce qu'on appelle la convolution, et les points résultants sont utilisés pour trouver la valeur maximale dans les voisinages locaux, créant une cartographie de l'image en utilisant cette valeur maximale. C'est ce qu'on appelle la mise en commun maximale. Plusieurs noyaux peuvent être utilisés pour produire de nombreuses sorties, qui peuvent ensuite être introduites dans un réseau neuronal pour indiquer la probabilité qu'un objet soit présent dans l'image. Cette méthode est beaucoup plus avancée que l'ancienne méthode consistant à utiliser une petite grille de pixels comme entrées pour les neurones.

  • 00:15:00 Dans cette section, le conférencier explique l'idée du codage automatique où un réseau de neurones compare l'entrée à la sortie jusqu'à ce que les valeurs souhaitées correspondent. Le conférencier décrit un algorithme dans lequel un réseau peut identifier des animaux en fonction de la hauteur de leur ombre sur un tableau noir dans un exemple simple qui montre comment fonctionne l'algorithme de codage automatique. Le réseau "apprend" à reconnaître les ombres des animaux en compressant les valeurs d'entrée dans une couche cachée plus petite qui est ensuite étendue pour créer les valeurs de sortie. L'algorithme obtient des résultats étonnamment efficaces, même lorsqu'il s'agit de grands ensembles de données d'entrée qui contiennent un nombre considérable de classes et d'exemples pour chaque classe.

  • 00:20:00 Dans cette section, l'orateur démontre l'exécution d'un réseau neuronal simple avec des entrées aléatoires et une rétropropagation simple. Après seulement un millier d'itérations, le taux d'erreur diminue considérablement et le net est capable de reconnaître la nature des objets qu'il voit dans l'environnement en se basant uniquement sur la hauteur de leur ombre. Cependant, il semble que plutôt que des généralisations faites par les neurones de la couche cachée, une sorte de généralisation codée se produit, ce qui rend difficile pour les chercheurs de comprendre comment le réseau neuronal est capable de reconnaître des objets spécifiques. Malgré ce mystère, le codage automatique, qui implique une formation couche par couche, offre une technique prometteuse pour former des réseaux de neurones profonds.

  • 00:25:00 Dans cette section de la vidéo, l'orateur discute de la dernière couche d'un réseau neuronal profond et de l'importance d'ajuster les valeurs de seuil et de poids pour optimiser la classification des échantillons. En modifiant la valeur de seuil, la fonction sigmoïde est décalée, tandis que la modification de la valeur de poids modifie la pente de la courbe. Ces ajustements, à leur tour, affectent la probabilité d'exemples positifs et négatifs dans l'ensemble de données. Pour maximiser la probabilité de classer correctement les données, les valeurs T et W doivent être optimisées par des dérivées partielles.

  • 00:30:00 Dans cette section, l'instructeur explique le concept d'ajustement des paramètres dans la couche de sortie pour maximiser la probabilité des données d'échantillon dont nous disposons. Cela implique de considérer la valeur de sortie comme quelque chose lié à la probabilité de voir une classe et d'ajuster les paramètres en conséquence. L'instructeur démontre le processus à l'aide d'une courbe sigmoïde et d'un algorithme de descente de gradient. Le but est d'associer une sorte de probabilité à chaque classe afin que nous puissions trouver la plus probable. La probabilité réelle d'une classe est calculée en divisant la sortie de la fonction sigmoïde pour cette classe par la somme de toutes les fonctions. Cela s'appelle diviser par un facteur de normalisation et convertit chaque valeur de sortie en probabilité.

  • 00:35:00 Dans cette section, l'orateur explique le processus d'utilisation de softmax pour donner une gamme de classifications et associer une probabilité à chacune pour classer les images. L'orateur discute également de la combinaison de l'idée softmax avec l'idée d'auto-codage en gelant la couche d'entrée et en entraînant la couche de sortie à l'aide de la courbe sigmoïde. De plus, ils mentionnent l'idée d'abandon pour empêcher les réseaux de neurones de rester bloqués dans un état maximal local. La section conclut en notant que malgré la sophistication des couches de sortie et la formation à l'aide d'auto-codage ou de machines Boltzmann, la rétropropagation avec des réseaux convolutifs semble fonctionner tout aussi bien, et l'orateur démontre un réseau profond en classe avec cinq couches et une rétropropagation pour classer les images de animaux.

  • 00:40:00 Dans cette section, la vidéo montre comment un réseau de neurones peut se coincer dans un maximum local et comment l'élargissement du réseau peut l'aider à ramper dans le vaste espace sans se coincer. L'orateur explique qu'il y a eu une percée dans l'apprentissage des réseaux neuronaux car il peut désormais transformer les maxima locaux en points de selle, ce qui lui permet d'apprendre plus efficacement. La vidéo explore ensuite si les réseaux neuronaux peuvent "voir" comme les humains en montrant des exemples de la façon dont même de petits changements de pixels peuvent faire en sorte qu'un réseau neuronal fasse la différence entre des objets avec des niveaux de confiance élevés. La démonstration montre qu'un réseau de neurones peut être trompé en pensant qu'une image n'est pas ce qu'elle est réellement.

  • 00:45:00 Dans cette section, l'orateur explique comment les réseaux de neurones profonds fonctionnent dans le traitement d'images en utilisant des exemples tirés de l'article de Google sur la mise en légende des images. Les réseaux neuronaux identifient un objet, tel qu'un autobus scolaire ou une balle de baseball, en détectant les caractéristiques locales et la texture de l'image. Cependant, l'incapacité des réseaux neuronaux à comprendre le contexte d'une image, comme le démontrent d'autres exemples d'identification erronée, est présentée comme une limitation de la technologie. L'orateur discute ensuite du travail de leur laboratoire sur la suppression de rectangles à partir d'images tout en conservant l'impression du réseau neuronal de l'image. La capacité du réseau neuronal à identifier un objet est également mise en évidence à travers des images de différents niveaux de mutilation, les réseaux neuronaux fonctionnant admirablement même lorsque des parties de l'image sont supprimées.
12b: Deep Neural Nets
12b: Deep Neural Nets
  • 2016.04.20
  • www.youtube.com
*NOTE: These videos were recorded in Fall 2015 to update the Neural Nets portion of the class.MIT 6.034 Artificial Intelligence, Fall 2010View the complete c...
 

Cours 13. Apprentissage : Algorithmes génétiques



13. Apprentissage : Algorithmes génétiques

Cette vidéo aborde le concept d'algorithmes génétiques, qui imitent l'évolution et nous permettent de résoudre des problèmes complexes. Le processus d'héritage génétique à travers les chromosomes est décomposé et simulé à l'aide de chromosomes binaires avec des choix pour les mutations et les croisements. Les probabilités de survie et le classement des candidats sont expliqués avec un exemple, montrant l'efficacité lorsqu'il est exécuté correctement. Le défi de surmonter les maximums locaux et l'introduction de la technique de recuit simulé sont discutés. Des applications pratiques d'algorithmes génétiques sont présentées, notamment un projet sur la construction d'un système expert basé sur des règles et l'évolution de créatures constituées d'objets en forme de blocs. Le conférencier réfléchit sur les origines et le succès des algorithmes génétiques, notant que la diversité est un élément clé de leur succès.

  • 00:00:00 Dans cette section, le professeur Patrick Winston du MIT parle de l'imitation de l'évolution par des algorithmes génétiques. Il commence par parler des bases de la mitose et de la reproduction. Il introduit ensuite le concept d'algorithmes génétiques, qui sont des tentatives naïves d'imiter l'évolution. Ces algorithmes nous permettent de résoudre des questions complexes en imitant le modèle d'évolution. Il dit que les étudiants ne verront pas cela dans leur prochain quiz, mais ils auront des questions à ce sujet lors de l'examen final pour tester s'ils étaient présents en classe et éveillés.

  • 00:05:00 Dans cette section de la vidéo, l'orateur explique les bases des algorithmes génétiques en décomposant le processus d'héritage génétique à travers les chromosomes. Il compare le processus d'héritage génétique aux algorithmes génétiques et explique comment il simplifie et simule les chromosomes dans le but de construire un système qui imite le processus d'héritage génétique en utilisant des chromosomes binaires. Il poursuit en expliquant comment des choix peuvent être faits dans ce processus, comme le nombre de mutations ou de croisements autorisés par chromosome, conduisant à une population de chromosomes modifiés. La prochaine étape est de passer du génotype à la transition phénotypique.

  • 00:10:00 Dans cette section, nous apprenons comment le génotype détermine le phénotype et la forme physique variable qui accompagne chaque individu. Une fois les fitness notés, les informaticiens peuvent utiliser des nombres pour calculer les probabilités de survie dans la génération suivante. Pour garantir que les probabilités totalisent un, nous avons besoin d'une mesure de probabilité produite à partir des fitness. Lors de la construction d'un algorithme génétique qui recherche des valeurs optimales dans un espace avec une fonction de x et y, la fitness est déterminée par le sinus de certains temps constants x, quantité au carré, multiplié par le sinus d'une constante y, quantité au carré, e à le plus x plus y divisé par une constante.

  • 00:15:00 Dans cette section, Patrick Winston explique comment fonctionnent les algorithmes génétiques et comment ils évoluent. Il décrit le processus de mutation et de croisement et comment ils peuvent être utilisés pour faire évoluer les populations vers le haut sur le graphique de fitness. À l'aide d'un exemple, il démontre comment les algorithmes génétiques peuvent rester bloqués sur des maxima locaux en raison de leur mécanisme fondamental d'escalade. Les étudiants suggèrent d'utiliser le croisement, mais même cela ne semble pas fonctionner. Malgré cela, Winston note l'importance de garder l'esprit ouvert aux idées qui peuvent ne pas sembler efficaces au départ.

  • 00:20:00 Dans cette section, le conférencier explore le concept de traduction de la condition physique en probabilité de survie, soulignant que l'utilisation d'une caractéristique de condition physique réelle n'est pas nécessairement efficace. Par conséquent, il propose que le classement des candidats en fonction de leur niveau de forme physique puisse être une meilleure approche. Il explique ce mécanisme en détail, déclarant que la probabilité que l'individu le mieux classé entre dans la génération suivante est déterminée par une constante. De plus, il exécute 100 générations pour tester cette méthode et explique les résultats, montrant l'efficacité de la stratégie lorsqu'elle est exécutée correctement.

  • 00:25:00 Dans cette section, la vidéo explique comment les algorithmes génétiques se coincent parfois dans des maximums locaux et ont besoin d'un moyen d'augmenter la diversité afin de trouver une meilleure solution. Ceci est similaire à la façon dont certaines espèces restent bloquées sans évoluer pendant des millions d'années. La technique de recuit simulé est ensuite introduite pour réduire progressivement la taille du pas et permettre de trouver une solution. Cependant, la vidéo démontre que parfois le recuit simulé n'est pas suffisant pour échapper à un maximum local, et un nouveau mécanisme est nécessaire pour augmenter la diversité au sein de la population. La vidéo suggère de mesurer la diversité de la population et de sélectionner les individus en fonction non seulement de leur condition physique, mais également de leur unicité par rapport aux autres individus déjà sélectionnés.

  • 00:30:00 Dans cette section, l'orateur utilise une combinaison de classement de fitness et de classement de diversité pour démontrer comment les algorithmes génétiques fonctionnent en utilisant une petite taille de pas et en les exécutant sur 100 générations. En rampant jusqu'au coin supérieur droit, la pièce de diversité maintient les choses réparties tout en trouvant une forme physique élevée. Lorsque la diversité est désactivée, cela prend 600 millions d'années. Cependant, cela fonctionne bien lors de la gestion du problème des douves car il dispose du mécanisme de croisement pour combiner le meilleur des x et des y. L'orateur explique comment la mutation fait essentiellement de l'escalade et qu'il existe des choix pour gérer cela, y compris la quantité de croisement à faire. Mais l'orateur note que les algorithmes génétiques ne capturent qu'une idée très naïve de l'évolution selon laquelle il y a encore beaucoup de magie dans la transition génotype à phénotype que personne ne comprend pleinement, ce qui laisse beaucoup d'interventions aux concepteurs.

  • 00:35:00 Dans cette section, l'orateur discute de quelques applications pratiques des algorithmes génétiques. Un exemple est la planification, où deux séries d'étapes peuvent être combinées pour produire un nouveau plan. Un autre exemple est le projet d'un étudiant sur la construction d'un système expert basé sur des règles qui prédit les gagnants des courses de chevaux, en utilisant des mutations et des croisements pour faire évoluer les règles. L'orateur démontre également l'évolution des créatures constituées d'objets ressemblant à des blocs, où différents bits du chromosome sont interprétés comme le nombre, la taille, la structure et le contrôle des objets. La diversité des créatures est mesurée en calculant la distance métrique de tous les candidats à la prochaine génération.

  • 00:40:00 Dans cette section, Patrick Winston explique le fonctionnement des algorithmes génétiques en combinant la probabilité de survie et la probabilité d'être classé en fonction de leur différence par rapport aux individus de la génération suivante. Il démontre ensuite un exemple de ces algorithmes avec une vidéo de créatures nageuses évoluant en fonction de leur vitesse de déplacement et de leur déplacement sur terre. La vidéo montre des créatures évoluant ensemble et se disputant la nourriture. Certaines créatures ont réussi à développer des méthodes exotiques, mais d'autres se sont embrouillées et ont oublié la nourriture. La vidéo est un exemple de ce qui peut être réalisé avec des ordinateurs super puissants comme ceux utilisés par la société qui a créé la vidéo.

  • 00:45:00 Dans cette section, le conférencier réfléchit sur les origines des algorithmes génétiques et leur succès dans la génération de solutions à divers problèmes. Il note que même si les algorithmes sont impressionnants, le vrai crédit peut résider dans la richesse de l'espace de solution et l'ingéniosité du programmeur. La diversité est également mise en évidence comme un élément clé dans les calculs d'algorithmes génétiques réussis.
13. Learning: Genetic Algorithms
13. Learning: Genetic Algorithms
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonThis lecture explores genetic alg...
 

Cours 14. Apprentissage : espaces clairsemés, phonologie



14. Apprentissage : espaces clairsemés, phonologie

Dans cette section de la vidéo, le professeur Winston présente le concept d'espaces clairsemés et de phonologie en tant que mécanismes liés à la recherche sur la façon dont les humains apprennent. Il discute de l'interaction entre ce que nous voyons et ce que nous entendons lorsqu'il s'agit de l'apprentissage du langage, en utilisant des exemples pour illustrer comment les repères visuels peuvent influencer ce que nous percevons dans le langage. L'orateur explique les éléments et les connexions d'une machine conçue pour reconnaître et produire des sons vocaux, y compris des registres, un ensemble de mots, des contraintes et un tampon pour les phonèmes. Il explique également la technique de généralisation des modèles en phonologie en utilisant des exemples positifs et négatifs pour apprendre, en utilisant un exemple en classe de regarder les caractéristiques distinctives associées aux mots "chats" et "chiens". Enfin, il discute de l'importance de créer des contraintes qui correspondent à la fonction du mécanisme, et d'incorporer une représentation visuelle pour mieux comprendre et résoudre un problème.

  • 00:00:00 Dans cette section de la vidéo, le professeur Winston présente deux mécanismes ou idées liés à l'apprentissage, les espaces clairsemés et la phonologie. Avant d'en discuter, il passe brièvement en revue certaines méthodes de base, notamment les plus proches voisins et les arbres d'identification, ainsi que certains mimiques biologiques, tels que les réseaux de neurones et les algorithmes génétiques. Il explique que même si ces dernières ne sont pas toujours efficaces, elles valent tout de même la peine d'être connues. Le professeur Winston se concentre ensuite sur les mécanismes liés à la recherche sur la façon dont les humains apprennent, et en particulier, comment nous sommes capables d'identifier et de créer des mots pluriels dans des langues que nous avons apprises plus tard dans la vie. Il utilise des exemples pour illustrer que des individus comme Krishna peuvent pluraliser des mots en anglais sans même se rendre compte qu'ils le font correctement, puis il explique comment de tels phénomènes peuvent être abordés d'un point de vue technique.

  • 00:05:00 Dans cette section, nous apprenons les règles phonologiques et comment elles sont acquises par une machine. La phonologie traite des sons syllabiques et sous-syllabiques, et les règles phonologiques déterminent quel téléphone ou quelle combinaison de caractéristiques binaires une personne dit. Il existe environ 14 caractéristiques distinctives qui pourraient déterminer quel téléphone est dit, produisant environ 16 000 combinaisons possibles dans une langue. Cependant, aucune langue n'a plus de 100 téléphones, et certains choix sont exclus pour des raisons physiques, ce qui est étrange car la plupart d'entre eux ne le sont pas. Il est fascinant de voir combien de ces caractéristiques distinctives sont hallucinées ou injectées dans la boucle de rétroaction à partir d'autres modalités, et l'effet McGurk montre comment il y a souvent une déconnexion entre la parole et la vidéo.

  • 00:10:00 Dans cette section, l'orateur explique l'interaction entre ce que nous voyons et ce que nous entendons en matière d'apprentissage des langues. Il explique comment les repères visuels peuvent influencer ce que nous percevons, en utilisant des exemples de sons de vaches allemandes et anglaises. Il donne ensuite un aperçu de ce que les phonologues savent des caractéristiques distinctives qui forment des séquences phonémiques pour des mots tels que "pommes". En bas des colonnes, il contient les traits tels que voisé, syllabique ou strident, et en traversant on a le temps. L'orateur parle également de la machine qui interprète le son et des choses que les gens voient pour produire des sons de langage, ce qui déciderait qu'il y a deux pommes là-bas, stockées dans des registres qui contiennent des valeurs pour des concepts tels que le nom, le verbe et le pluriel.

  • 00:15:00 Dans cette section, l'orateur explique les éléments et les connexions d'une machine conçue pour reconnaître et produire des sons vocaux. La machine est composée de registres, d'un ensemble de mots, de contraintes et d'un buffer pour les phonèmes. La contrainte plurielle est l'objectif principal, ayant la capacité de s'actualiser lors de l'observation de choses plurielles. Les informations peuvent circuler dans plusieurs directions à travers les ports reliant les éléments. L'orateur montre ensuite comment la machine réagit lorsqu'elle est présentée avec le concept de "deux pommes", décrivant le flux d'informations du système de vision vers le lexique des mots et le registre pluriel.

  • 00:20:00 Dans cette section de la vidéo, l'orateur explique comment une machine peut utiliser des règles phonologiques pour exprimer l'idée qu'il y a des pommes en vue. La machine utilise des connexions réversibles et des propagateurs exprimés en contraintes, ce qui permet à l'information de circuler dans n'importe quelle direction. Cependant, la grande question est de savoir comment apprendre ces règles. Pour cela, l'orateur fournit un exemple simple en classe d'examen des caractéristiques distinctives associées aux mots "chats" et "chiens", tels que syllabique, voisé, persistant et strident, pour fournir des exemples positifs et négatifs pour l'apprentissage de ces règles.

  • 00:25:00 Dans cette section, la vidéo traite de la formation des mots au pluriel en anglais, en examinant pourquoi certains mots prennent un son "s" et d'autres prennent un son "z". La vidéo explique que cela est dû à la rareté de l'espace des phonèmes, avec seulement 40 phonèmes possibles parmi les 14 000 choix possibles. De plus, la vidéo explique comment le problème a été abordé de manière informatique et finalement distillé en un algorithme qui impliquait de collecter des exemples positifs et négatifs à partir desquels apprendre.

  • 00:30:00 Dans cette section, l'orateur explique une méthode pour généraliser les modèles en phonologie en utilisant un exemple positif appelé une graine, et en transformant progressivement certains éléments en symboles indifférents jusqu'à ce qu'un exemple négatif soit couvert. La technique consiste à choisir des endroits dans la matrice de phonèmes qui n'ont pas d'importance et qui sont les moins susceptibles d'influencer le résultat de la pluralisation. Une technique de recherche est utilisée pour décider laquelle de ces généralisations effectuer, les phonèmes adjacents étant les plus influents. Un exemple phonologique est fourni à l'aide d'une matrice à 14 traits distinctifs, où le trait déterminant qui sépare les exemples positifs et négatifs est le trait non voisé et non strident du dernier téléphone du mot mis au pluriel, ce qui se traduit par un "ss" son.

  • 00:35:00 Dans cette section, l'orateur discute d'autres expériences avec le système et explique qu'en utilisant une recherche de faisceau, il contrôle un espace de grande dimension et clairsemé. Cette technique est utilisée pour séparer les ensembles d'exemples positifs des exemples négatifs et apprendre au système comment traiter différents scénarios de pluralisation en phonétique. Cette approche est expliquée par l'utilisation de divers exemples, tels que des espaces à une, deux et trois dimensions, et comment un hyperplan dans de tels exemples pourrait être utilisé pour séparer des ensembles variés de données.

  • 00:40:00 Dans cette section, Sussman et Yip suggèrent que le langage humain utilise un espace de phonème clairsemé. En effet, cela augmente la capacité d'apprentissage et, lorsque le langage est placé de manière égale au hasard, cela garantit que les phonèmes sont facilement séparés. Cependant, les voyelles sont difficiles à séparer car elles n'ont qu'un seul trait distinctif par rapport aux sons constants. Cet exemple montre comment faire de l'IA d'une manière conforme au catéchisme de Marr en commençant par le problème, en apportant des caractéristiques uniques au problème, en concevant une approche, en écrivant un algorithme et enfin en menant une expérience.

  • 00:45:00 Dans cette section de la vidéo, l'orateur explique comment forcer un mécanisme comme les réseaux de neurones à résoudre un problème spécifique qui ne correspond pas à sa fonction ne fonctionnera pas bien. La clé pour trouver une bonne représentation est de créer des contraintes qui sont exposées par la représentation, ce qui permet un meilleur traitement et un chemin plus clair vers une solution. De plus, il est essentiel d'avoir une représentation qui intègre un critère de localité, ce qui signifie que la description de la réponse est visible à travers une approche semblable à celle d'une paille de soude, ce qui facilite la compréhension du problème. En fin de compte, avoir une bonne représentation fait de quelqu'un un ingénieur et un scientifique plus intelligent, lui permettant d'éviter d'étudier les mécanismes de manière naïve, ce qui ne conduira jamais à des solutions satisfaisantes.
14. Learning: Sparse Spaces, Phonology
14. Learning: Sparse Spaces, Phonology
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonWhy do "cats" and "dogs" end with...