Apprentissage Automatique et Réseaux Neuronaux - page 19

 

Cours 15. Apprentissage : quasi-accidents, conditions de félicité



15. Apprentissage : quasi-accidents, conditions de félicité

Dans cette vidéo, le professeur Patrick Winston discute du concept d'apprentissage à partir des quasi-accidents et des conditions de félicité. Il utilise différents exemples, notamment la construction d'une arche et l'identification des contraintes spécifiques nécessaires pour qu'elle soit considérée comme une arche. Il explique également comment un programme informatique pourrait identifier les principales caractéristiques d'un train en utilisant l'apprentissage heuristique. L'orateur insiste sur l'importance de l'auto-explication et de la narration, en particulier sur la façon dont l'intégration des deux dans les présentations peut faire ressortir une idée et la rendre célèbre. En fin de compte, il pense que l'emballage d'idées n'est pas seulement une question d'IA, mais aussi de faire de la bonne science, de se rendre plus intelligent et de devenir plus célèbre.

  • 00:00:00 Dans cette section, le professeur Patrick Winston explique une nouvelle façon d'apprendre à partir d'un seul exemple en un seul coup. L'exemple d'une arche en classe est utilisé pour démontrer comment il est possible d'apprendre quelque chose de précis à partir de chaque exemple en utilisant un modèle et ce qu'il appelle un "quasi-accident". Ce processus implique de faire abstraction de tous les détails qui n'ont pas d'importance, tels que la hauteur et le matériau, pour supprimer les informations sur les imperfections de la surface et rendre la structure explicite. Cette approche conduit finalement à un apprentissage plus efficace et a des implications pour l'apprentissage humain et pour devenir plus intelligent.

  • 00:05:00 Dans cette section, le concept d'apprentissage à partir des quasi-accidents et des conditions de félicité est discuté. L'orateur utilise l'exemple de la construction d'une arche pour illustrer son propos. Au fur et à mesure qu'ils parcourent différents exemples d'arches et de quasi-accidents, ils commencent à identifier les contraintes spécifiques nécessaires pour que quelque chose soit vraiment considéré comme une arche. De la présence de relations de soutien à l'interdiction des relations de toucher, l'orateur expose les éléments clés de la construction d'arches. De plus, la couleur du haut de l'arc est identifiée comme un impératif. À travers ce processus d'identification de ce qui est nécessaire et de ce qui ne l'est pas, l'orateur souligne comment les contraintes peuvent être apprises en quelques étapes, plutôt qu'à travers d'innombrables essais.

  • 00:10:00 Dans cette section, l'orateur explique comment créer un nouveau modèle en considérant la nature du monde dans lequel on travaille. Par exemple, dans un monde de drapeau où seules trois couleurs sont disponibles, si toutes les couleurs ont été vu, le modèle évolutif est ajusté en conséquence. L'orateur présente des exemples de blocs de l'enfant et explique comment la hiérarchie des parties peut être représentée pour faire une généralisation conservatrice. L'orateur oppose ensuite ce type d'apprentissage aux réseaux de neurones et présente un exemple de tâche à effectuer par les humains, qui consiste à donner une description des trains du haut qui les distingue et les sépare des trains du bas.

  • 00:15:00 Dans cette section, l'orateur explique comment un programme informatique pourrait identifier les principales caractéristiques d'un train à toit fermé grâce à un processus d'apprentissage heuristique. Le programme reçoit des ensembles d'exemples positifs et négatifs et un exemple "semence" est choisi pour commencer à construire une description qui couvre autant d'exemples positifs que possible tout en excluant les négatifs. Les heuristiques, ou règles, appliquées à la graine peuvent être combinées de différentes manières pour former un grand arbre de solutions possibles, qui doivent être maîtrisées à l'aide de techniques telles que la recherche par faisceau. L'orateur introduit également un vocabulaire pour l'heuristique développé par son ami, y compris l'heuristique "require link" qui aide à identifier les caractéristiques essentielles d'un modèle.

  • 00:20:00 Dans cette section, le professeur Patrick Winston explique comment les différentes heuristiques, telles que "interdire le lien", "étendre l'ensemble", "supprimer le lien" et "escalader l'arbre", peuvent être utilisées pour se spécialiser ou se généraliser dans l'apprentissage . Il aborde également l'idée de quasi-accidents et d'exemples, et comment ils sont liés à la généralisation et à la spécialisation. L'utilisation de ces heuristiques peut aider à faire correspondre moins ou plus de choses, et selon le problème, peut être mieux adaptée aux humains ou aux ordinateurs avec des mémoires plus grandes. La façon de déterminer quelle méthode est la meilleure dépend du problème spécifique que l'on essaie de résoudre.

  • 00:25:00 importance des quasi-accidents et des conditions de félicité dans le processus d'apprentissage. Dans cette section, le professeur Patrick Winston explique comment l'enseignant et l'élève doivent établir des alliances entre eux afin de transformer l'état initial de connaissances de l'élève en un nouvel état de connaissances. Grâce à l'utilisation d'un modèle de réseau qui représente l'état des connaissances de l'élève, l'enseignant peut identifier les types d'erreurs commises par l'élève et fournir une rétroaction en conséquence. Ce faisant, l'enseignant peut efficacement repousser le front d'onde des connaissances de l'élève et améliorer la capacité de l'élève à apprendre et à appliquer de nouvelles informations.

  • 00:30:00 Dans cette section, l'orateur explique à quel point il est important de comprendre la capacité de calcul de l'élève lors de son enseignement. Cela inclut la prise en compte de la capacité limitée d'un élève de troisième année à stocker des informations par rapport à un ordinateur. Ils expliquent également comment les alliances, telles que la confiance et la compréhension du style de l'enseignant, sont nécessaires pour qu'un élève apprenne efficacement. Le conférencier explique en outre comment se parler à soi-même, ou construire des descriptions, est crucial pour l'apprentissage. Une expérience menée par Michelene Chi a montré les avantages de se parler quand il s'agit d'apprendre la physique élémentaire.

  • 00:35:00 Dans cette section, l'accent est mis sur la façon dont l'auto-explication peut affecter la capacité de résolution de problèmes. Les individus les plus intelligents, qui ont obtenu un score deux fois plus élevé que les moins intelligents, se parlaient trois fois plus que les participants du groupe au score inférieur. L'auto-explication peut se décomposer en deux catégories, celles liées à la physique et d'autres liées à la surveillance au lieu de la physique. Plus quelqu'un se parle à lui-même, mieux il semble réussir à résoudre des problèmes. Bien qu'il n'y ait aucune indication claire que se parler à soi-même pour encourager de meilleurs scores fonctionne, des preuves anecdotiques suggèrent que se parler davantage pourrait aider. Enfin, la discussion passe aux idées d'emballage, particulièrement utiles si vous voulez que votre idée soit bien connue, et à cinq qualités qui facilitent le processus, à commencer par la nécessité d'un symbole ou d'une poignée visuelle associée à votre travail.

  • 00:40:00 Dans cette section, le professeur Patrick Winston discute de l'importance d'une surprise et d'un point saillant pour faire connaître une idée. Il explique qu'une bonne idée doit avoir quelque chose qui ressort pour devenir célèbre, et qu'il est essentiel d'incorporer une histoire dans des présentations qui peuvent plaire au public. De plus, il clarifie le terme "saillant" en déclarant que bien qu'il indique l'importance, il signifie explicitement "se démarquer". Il suggère que l'éducation consiste essentiellement à raconter des histoires et exhorte les individus à envisager d'intégrer ces qualités dans leurs présentations pour les rendre plus efficaces. En fin de compte, il pense qu'être célèbre n'est pas immoral, tant que les idées sont bien présentées pour avoir les meilleures chances de succès.

  • 00:45:00 Dans cette section, l'orateur raconte une histoire sur le fait d'être assis à côté de Julia Child et de lui demander d'être célèbre. L'enfant a répondu qu'on s'y habitue, ce qui a fait penser à l'expérience inverse d'être ignoré. Il insiste sur l'importance d'emballer des idées et sur le fait qu'il ne s'agit pas seulement d'IA, mais aussi de faire de la bonne science, de se rendre plus intelligent et plus célèbre.
15. Learning: Near Misses, Felicity Conditions
15. Learning: Near Misses, Felicity Conditions
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonTo determine whether three blocks...
 

Cours 16. Apprentissage : machines à vecteurs de support



16. Apprentissage : Soutenir les machines à vecteurs

Dans la vidéo, Patrick Winston explique comment fonctionnent les machines à vecteurs de support (SVM) et comment elles peuvent être utilisées pour optimiser une règle de décision. Il explique que l'algorithme SVM utilise une transformation, Phi, pour déplacer un vecteur d'entrée, x, dans un nouvel espace où il est plus facile de séparer deux vecteurs similaires. La fonction noyau, k, fournit le produit scalaire de x sub i et x sub j. Tout ce qui est nécessaire est la fonction, k, qui est une fonction noyau. Vapnik, un immigrant soviétique qui a travaillé sur SVM au début des années 1990, est crédité d'avoir ravivé l'idée du noyau et d'en avoir fait un élément essentiel de l'approche SVM.

  • 00:00:00 Les machines à vecteurs de support sont un moyen sophistiqué de diviser un espace pour déterminer les limites de décision. Ils ont été développés par Vladimir Vapnik et sont très importants car ils permettent une prise de décision plus précise.

  • 00:05:00 La vidéo explique le fonctionnement des machines à vecteurs de support et fournit une règle de décision lorsqu'un échantillon est positif ou négatif.

  • 00:10:00 Dans cette vidéo, Patrick Winston présente le concept d'une machine à vecteurs de support (SVM), qui est un algorithme d'apprentissage automatique qui aide à trouver une solution optimale à un problème. La première équation d'un SVM est une fonction de coût, qui est une fonction qui prend un vecteur de variables et génère un nombre. La fonction de coût est multipliée par un vecteur de poids, qui est un vecteur qui correspond à l'importance de chaque variable dans la fonction de coût. La deuxième équation dans un SVM est le problème d'optimisation, qui est une fonction qui prend en compte la fonction de coût et un vecteur de poids et essaie de trouver la meilleure solution. Le problème d'optimisation est résolu en minimisant la fonction de coût. L'équation finale dans un SVM est le vecteur de sortie, qui est la sortie du SVM.

  • 00:15:00 La vidéo traite de l'utilisation de machines à vecteurs de support (SVM) pour résoudre des problèmes et montre comment calculer la largeur d'une rue à l'aide de cette technique.

  • 00:20:00 Dans cette vidéo, Patrick Winston explique comment les multiplicateurs de Lagrange fonctionnent pour optimiser une fonction avec des contraintes. La vidéo explique également comment les multiplicateurs de Lagrange sont utilisés pour trouver l'extremum d'une fonction avec des contraintes.

  • 00:25:00 Dans cette vidéo, une somme linéaire d'échantillons est découverte comme étant égale à une somme linéaire des composants des échantillons. De plus, les dérivées du Lagrangien par rapport à différentes variables sont différenciées, et on montre que la somme des alpha i fois y sous i est égale à 0, ce qui implique que le vecteur w est égal à la somme de certains alpha i, certains scalaires, fois cette variable moins 1 ou plus 1 fois x sous i sur i.

  • 00:30:00 Dans cette vidéo, il explique comment résoudre un problème d'optimisation quadratique à l'aide de machines à vecteurs de support. On explique que le vecteur de décision est une somme linéaire des échantillons, et que l'algèbre est facile. L'élève explique que pour chaque terme du problème, l'algèbre est simplifiée en prenant la somme des alpha i fois y sub i fois x sub i.

  • 00:35:00 Dans cette vidéo, un mathématicien explique comment l'optimisation d'une règle de décision ne dépend que du produit scalaire de paires d'échantillons. Cela démontre que l'analyse mathématique est faisable et que l'algorithme d'optimisation trouvera une ligne droite séparant les deux solutions optimales.

  • 00:40:00 Dans les machines à vecteurs de support, une transformation, Phi, est utilisée pour déplacer un vecteur d'entrée, x, dans un nouvel espace où il est plus facile de séparer deux vecteurs similaires. La fonction noyau, k, fournit le produit scalaire de x sub i et x sub j. Tout ce qui est nécessaire est la fonction, k, qui est une fonction noyau.

  • 00:45:00 La vidéo explique comment fonctionnent les machines à vecteurs de support (SVM) et comment un noyau peut être utilisé pour améliorer les performances de SVM. Vapnik, un immigrant soviétique qui a travaillé sur SVM au début des années 1990, est crédité d'avoir ravivé l'idée du noyau et d'en avoir fait un élément essentiel de l'approche SVM.
16. Learning: Support Vector Machines
16. Learning: Support Vector Machines
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonIn this lecture, we explore suppo...
 

Cours 17. Apprentissage : Booster



17. Apprentissage : dynamiser

La vidéo traite de l'idée de booster, qui consiste à combiner plusieurs classificateurs faibles pour créer un classificateur fort. L'idée est que les classificateurs faibles votent et que le classificateur fort est celui qui a le plus de votes. La vidéo explique comment utiliser un algorithme de boosting pour améliorer les performances des classificateurs individuels.

  • 00:00:00 La vidéo traite de l'idée du boosting, qui consiste à combiner plusieurs classificateurs faibles pour créer un classificateur fort. L'idée est que les classificateurs faibles votent et que le classificateur fort est celui qui a le plus de votes.

  • 00:05:00 La vidéo YouTube explique comment utiliser un algorithme de boosting pour améliorer les performances des classificateurs individuels. L'algorithme implique la formation de chaque classificateur sur un ensemble de données différent, puis la combinaison des résultats. La vidéo explique également comment éviter le surajustement lors de l'utilisation de cet algorithme.

  • 00:10:00 Dans la vidéo, l'orateur explique comment améliorer la précision d'un algorithme d'apprentissage automatique en le "boostant". L'amplification consiste à examiner un ensemble d'échantillons déformés, où ceux que l'algorithme se trompe ont un effet exagéré sur le résultat. Cela permet à l'algorithme d'apprendre de ses erreurs et d'améliorer sa précision.

  • 00:15:00 Dans la vidéo YouTube, l'orateur explique comment le boosting peut être utilisé pour créer un lot de tests. Il explique également comment le taux d'erreur est calculé et comment les poids peuvent être utilisés pour exagérer l'effet de certaines erreurs.

  • 00:20:00 L'orateur explique comment construire un classificateur en combinant plusieurs classificateurs, chacun avec son propre poids. Il explique que c'est l'état de l'art pour les classificateurs et que c'est plus efficace que de simplement ajouter des classificateurs ensemble.

  • 00:25:00 La vidéo traite des différentes étapes de l'algorithme d'apprentissage boosting. Ces étapes incluent la sélection d'un classificateur qui minimise le taux d'erreur, le calcul de la valeur alpha et l'utilisation du classificateur pour produire des poids révisés. L'objectif global de l'algorithme est de produire un classificateur qui produit un ensemble parfait de conclusions sur toutes les données de l'échantillon.

  • 00:30:00 La vidéo explique comment apprendre à une machine à améliorer ses performances en minimisant les taux d'erreur. Il le démontre à travers une série d'exemples, montrant comment le taux d'erreur peut être réduit de manière exponentielle.

  • 00:35:00 Dans cette vidéo, l'orateur explique comment utiliser la valeur alpha pour calculer de nouveaux poids. Il parle du fonctionnement du programme et de la nécessité de savoir faire les calculs pour trouver de meilleures façons de faire ce genre de choses. Il explique également comment la racine carrée du taux d'erreur divisée par 1 moins le taux d'erreur est le multiplicateur du poids si la réponse est correcte, et la racine carrée de 1 moins le taux d'erreur divisé par le taux d'erreur est le multiplicateur de la poids si la réponse est incorrecte.

  • 00:40:00 La somme des poids des échantillons correctement classés est de 1/2 et la somme des poids des échantillons mal classés est de 1/2.

  • 00:45:00 Le boosting est une méthode utilisée pour améliorer les performances des modèles d'apprentissage automatique. Cela fonctionne en combinant plusieurs modèles faibles pour créer un modèle plus fort. Le boosting est efficace pour réduire le surajustement et est souvent utilisé dans des domaines tels que la reconnaissance de l'écriture manuscrite et la compréhension de la parole.

  • 00:50:00 Cette vidéo traite du concept de "boosting" qui est une méthode d'amélioration des performances des algorithmes d'apprentissage automatique. Le boosting consiste à former une série de classificateurs faibles, puis à combiner leurs prédictions. Cela se traduit généralement par une amélioration significative des performances par rapport à l'utilisation d'un seul classificateur puissant.
17. Learning: Boosting
17. Learning: Boosting
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonCan multiple weak classifiers be ...
 

Cours 17. Apprentissage : Booster



17. Apprentissage : dynamiser

La vidéo traite de l'idée de booster, qui consiste à combiner plusieurs classificateurs faibles pour créer un classificateur fort. L'idée est que les classificateurs faibles votent et que le classificateur fort est celui qui a le plus de votes. La vidéo explique comment utiliser un algorithme de boosting pour améliorer les performances des classificateurs individuels.

  • 00:00:00 La vidéo traite de l'idée du boosting, qui consiste à combiner plusieurs classificateurs faibles pour créer un classificateur fort. L'idée est que les classificateurs faibles votent et que le classificateur fort est celui qui a le plus de votes.

  • 00:05:00 La vidéo YouTube explique comment utiliser un algorithme de boosting pour améliorer les performances des classificateurs individuels. L'algorithme implique la formation de chaque classificateur sur un ensemble de données différent, puis la combinaison des résultats. La vidéo explique également comment éviter le surajustement lors de l'utilisation de cet algorithme.

  • 00:10:00 Dans la vidéo, l'orateur explique comment améliorer la précision d'un algorithme d'apprentissage automatique en le "boostant". L'amplification consiste à examiner un ensemble d'échantillons déformés, où ceux que l'algorithme se trompe ont un effet exagéré sur le résultat. Cela permet à l'algorithme d'apprendre de ses erreurs et d'améliorer sa précision.

  • 00:15:00 Dans la vidéo YouTube, l'orateur explique comment le boosting peut être utilisé pour créer un lot de tests. Il explique également comment le taux d'erreur est calculé et comment les poids peuvent être utilisés pour exagérer l'effet de certaines erreurs.

  • 00:20:00 L'orateur explique comment construire un classificateur en combinant plusieurs classificateurs, chacun avec son propre poids. Il explique que c'est l'état de l'art pour les classificateurs et que c'est plus efficace que de simplement ajouter des classificateurs ensemble.

  • 00:25:00 La vidéo traite des différentes étapes de l'algorithme d'apprentissage boosting. Ces étapes incluent la sélection d'un classificateur qui minimise le taux d'erreur, le calcul de la valeur alpha et l'utilisation du classificateur pour produire des poids révisés. L'objectif global de l'algorithme est de produire un classificateur qui produit un ensemble parfait de conclusions sur toutes les données de l'échantillon.

  • 00:30:00 La vidéo explique comment apprendre à une machine à améliorer ses performances en minimisant les taux d'erreur. Il le démontre à travers une série d'exemples, montrant comment le taux d'erreur peut être réduit de manière exponentielle.

  • 00:35:00 Dans cette vidéo, l'orateur explique comment utiliser la valeur alpha pour calculer de nouveaux poids. Il parle du fonctionnement du programme et de la nécessité de savoir faire les calculs pour trouver de meilleures façons de faire ce genre de choses. Il explique également comment la racine carrée du taux d'erreur divisée par 1 moins le taux d'erreur est le multiplicateur du poids si la réponse est correcte, et la racine carrée de 1 moins le taux d'erreur divisé par le taux d'erreur est le multiplicateur de la poids si la réponse est incorrecte.

  • 00:40:00 La somme des poids des échantillons correctement classés est de 1/2 et la somme des poids des échantillons mal classés est de 1/2.

  • 00:45:00 Le boosting est une méthode utilisée pour améliorer les performances des modèles d'apprentissage automatique. Cela fonctionne en combinant plusieurs modèles faibles pour créer un modèle plus fort. Le boosting est efficace pour réduire le surajustement et est souvent utilisé dans des domaines tels que la reconnaissance de l'écriture manuscrite et la compréhension de la parole.

  • 00:50:00 Cette vidéo traite du concept de "boosting" qui est une méthode d'amélioration des performances des algorithmes d'apprentissage automatique. Le boosting consiste à former une série de classificateurs faibles, puis à combiner leurs prédictions. Cela se traduit généralement par une amélioration significative des performances par rapport à l'utilisation d'un seul classificateur puissant.
17. Learning: Boosting
17. Learning: Boosting
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonCan multiple weak classifiers be ...
 

Cours 18. Représentations : classes, trajectoires, transitions



18. Représentations : classes, trajectoires, transitions

Dans cette vidéo, le professeur Patrick Winston discute du concept d'intelligence humaine, de la capacité à former des représentations symboliques et de sa relation avec le langage, et de l'utilisation de réseaux sémantiques pour représenter le langage intérieur et les pensées. Winston souligne l'importance de comprendre les modèles fondamentaux et de développer un vocabulaire du changement pour aider à comprendre différents objets et leur comportement. De plus, il discute de l'utilisation de cadres de trajectoire pour décrire des actions impliquant un mouvement d'une source à une destination et de l'importance des représentations multiples pour mieux comprendre une phrase. Enfin, Winston propose des conseils sur la façon d'améliorer la rédaction technique, en particulier pour les anglophones non natifs, en évitant le langage ambigu, les pronoms confus et le changement de mots.

  • 00:00:00 Dans cette section, Patrick Winston commence par réfléchir sur la nature de l'intelligence humaine par rapport à l'intelligence artificielle. Il explique que même si les machines peuvent effectuer des tâches intelligentes grâce à des méthodes telles que les machines à vecteurs de support et le boosting, elles ne comprennent pas ce qu'elles font et n'offrent pas un aperçu de l'intelligence humaine. Winston discute ensuite de la perspective évolutive de l'intelligence humaine, soulignant la taille croissante du cerveau dans notre arbre généalogique. Cependant, il note que la taille du cerveau n'est pas suffisante pour expliquer l'intelligence humaine car les Néandertaliens, qui avaient un cerveau plus gros que les humains modernes, n'avaient pas beaucoup d'influence. Au lieu de cela, c'est un groupe d'Homo Sapiens en Afrique australe qui a développé quelque chose que personne d'autre n'avait et a rapidement pris le relais, comme en témoignent les outils et les œuvres d'art.

  • 00:05:00 Dans cette section, l'orateur discute de l'idée que la capacité à former des représentations symboliques a permis aux humains de raconter et de comprendre des histoires. Cette capacité, qui était liée au développement du langage, a permis à notre espèce de devenir spéciale, car nous pouvions prendre deux concepts et les assembler pour en former un troisième, sans limite. Il discute également du concept de "langue intérieure" - la langue avec laquelle nous pensons, qui peut ne pas être la même que la langue avec laquelle nous communiquons. L'orateur propose l'utilisation de réseaux sémantiques, qui sont des réseaux de nœuds et de liens porteurs de sens, pour représenter le langage intérieur et les pensées. Il fournit des exemples de réseaux sémantiques, comme celui qui note les relations de support et un autre qui suit les événements dans Macbeth.

  • 00:10:00 Dans cette section, l'orateur aborde le concept de réseaux sémantiques, leurs éléments et leur application en intelligence artificielle. Les réseaux sémantiques sont un moyen de représenter des informations à l'aide de nœuds et de liens, avec des liens reliant les nœuds. Ils permettent de traiter les connexions entre les liens comme des objets pouvant être le sujet ou l'objet d'autres liens. Un autre concept est la "réification", qui est le processus de traitement des liens comme des objets. L'orateur souligne l'importance de mettre une couche de localisation au-dessus du concept de réseaux combinateurs. L'utilisation de la classification est l'un des éléments les plus utiles du langage interne des réseaux sémantiques, s'appliquant à des choses comme les pianos, les outils et les cartes. Il y a aussi un risque de sémantique parasite, où l'on projette notre compréhension sur la machine, qui n'est fondée sur aucun contact avec le monde physique.

  • 00:15:00 Dans cette section, le professeur Patrick Winston discute du concept de niveaux dans notre compréhension des objets. Il souligne que nous connaissons différentes choses à différents niveaux et que certains objets sont plus faciles à visualiser que d'autres en raison de la spécificité de leur catégorisation. Par exemple, il est difficile de former une image d'un outil, mais un marteau à panne ronde est plus spécifique et, par conséquent, plus facile à visualiser. Winston note également que nous utilisons des éléments dans une hiérarchie pour accrocher des connaissances sur des objets, et le niveau de base dans une hiérarchie est celui où nous accrochons la plupart de nos connaissances, comme le mot "piano". De plus, Winston explique comment nous parlons d'objets à différents niveaux dans une hiérarchie, en utilisant l'exemple d'une voiture qui s'écrase contre un mur, ce qui implique de réfléchir à diverses choses comme la vitesse de la voiture, la distance au mur et l'état de la voiture. voiture.

  • 00:20:00 Dans cette section, l'orateur explique comment un vocabulaire de changement peut être utilisé pour comprendre des objets à différentes périodes, comme avant, pendant et après un événement comme un accident de voiture. Le vocabulaire comprend des éléments tels que diminuer, augmenter, changer, apparaître et disparaître, qui sont tous étroitement liés à la vision. Les analogies sont également utilisées pour aider à comprendre différents concepts tels que le fonctionnement d'un appareil photo. L'orateur introduit également la trajectoire comme troisième élément de représentation, qui implique des objets se déplaçant le long de trajectoires. Dans l'ensemble, le conférencier souligne l'importance de comprendre les schémas fondamentaux et de développer un langage qui peut nous aider à comprendre différents objets et leur comportement.

  • 00:25:00 Dans cette section, l'orateur discute de l'utilisation de trames de trajectoire pour décrire des actions impliquant un mouvement d'une source à une destination. Ces cadres sont constitués de divers éléments dont l'objet, l'agent et l'instrument, entre autres. L'orateur note que les prépositions sont souvent utilisées pour agrémenter ces éléments dans des langues comme l'anglais. De plus, l'orateur discute des cadres de rôles, qui n'ont pas de trajectoire mais contiennent toujours des éléments tels que les instruments et les bénéficiaires. Le conférencier explique que ces cadres se retrouvent couramment dans le Wall Street Journal Corpus et peuvent être utilisés pour analyser la densité des transitions et des trajectoires dans un texte donné. Enfin, l'orateur introduit le concept de séquences d'histoires et donne un exemple de nom non sexiste choisi pour éviter les ennuis.

  • 00:30:00 Dans cette section, la vidéo traite de l'importance des représentations multiples et de la manière dont elles peuvent conduire à une meilleure compréhension d'une phrase. L'exemple donné est celui de Pat réconfortant Chris, qui peut être décomposé en un cadre de rôle et un cadre de transition qui implique un objet (Chris) dont l'humeur est vraisemblablement améliorée. La vidéo explore également comment changer l'action en quelque chose de négatif (comme terroriser) affecterait les images. De plus, la vidéo introduit l'idée d'un cadre de trajectoire en tant que type d'image mentale qui peut être formée à partir d'une phrase comme "Pat a embrassé Chris".

  • 00:35:00 Dans cette section, le professeur Jordan Peterson explique comment les humains utilisent des séquences d'événements pour créer une représentation d'une histoire. Il explique comment cette représentation peut aller d'un simple acte comme embrasser ou poignarder à des histoires complexes, et comment elle varie selon le contexte dans lequel un événement se produit. Il parle également de l'importance de la séquence dans la narration et comment notre mémoire est enracinée dans l'idée de séquences. Enfin, il explique comment les bibliothèques d'histoires peuvent aider les humains à mieux comprendre les histoires qu'ils rencontrent en fonction de la super classe à laquelle ils appartiennent, comme les cadres d'événements, les cadres de catastrophes et les cadres de fêtes.

  • 00:40:00 Dans cette section, l'orateur explique comment les événements peuvent être regroupés en types de cadres, tels que les fêtes et les catastrophes. Chaque cadre a des emplacements spécifiques à remplir avec des types d'informations, telles que les décès ou les noms des mariés. Cependant, comprendre les histoires peut être difficile en raison des défis syntaxiques dans les antécédents des pronoms. L'orateur souligne l'importance de ne pas ajouter de difficultés syntaxiques inutiles à la narration, car cela peut entraver la compréhension. Les journalistes de journaux écriraient des articles de manière claire et concise pour s'assurer que les lecteurs peuvent facilement comprendre l'information.

  • 00:45:00 Dans cette section, Patrick Winston propose des conseils sur la façon d'améliorer la rédaction technique, en particulier pour les écrivains russes et allemands qui cherchent à écrire clairement en anglais. Il suggère d'éviter les pronoms pour réduire l'ambiguïté et la confusion pour les lecteurs, en utilisant plutôt des noms clairs. Il insiste également sur l'importance d'éviter les mots comme « ancien » et « dernier » qui obligent les lecteurs à se référer pour identifier ce qu'ils signifient et d'éviter de changer de mots comme « pelle » et « bêche ». Selon Winston, en suivant ces règles simples, les rédacteurs techniques peuvent rendre leur écriture plus claire et plus facile à comprendre pour les lecteurs.
 

Cours 19. Architectures : GPS, SOAR, Subsumption, Society of Mind



19. Architectures : GPS, SOAR, Subsumption, Society of Mind

Cette vidéo traite de diverses architectures pour créer des systèmes intelligents, y compris le résolveur de problèmes général et l'architecture SOAR, qui intègre fortement des expériences de psychologie cognitive et se concentre sur la résolution de problèmes. L'orateur discute également de "Emotion Machine" de Marvin Minsky, qui considère la réflexion sur de nombreuses couches, y compris les émotions, et l'hypothèse du bon sens qui plaide pour doter les ordinateurs d'un bon sens comme les humains. L'architecture de subsomption, inspirée de la structure du cerveau humain, est également abordée, le Roomba étant un exemple réussi. La capacité d'imaginer et de percevoir les choses est liée à la capacité de décrire les événements et de comprendre la culture, et la langue joue un rôle crucial dans la construction des descriptions et des combinaisons. L'importance de s'engager dans des activités telles que regarder, écouter, dessiner et parler pour exercer les zones de traitement du langage du cerveau est soulignée, et l'orateur met en garde contre les locuteurs rapides qui peuvent bloquer le processeur de langage et conduire à des décisions impulsives.

  • 00:00:00 Dans cette section, le professeur discute de diverses architectures alternatives pour créer un système intelligent. Il commence par parler de la cyberattaque estonienne en 2007 et du fait qu'aucun ordinateur ne peut comprendre l'histoire qui se cache derrière, à l'exception d'une dont il fera la démonstration plus tard. Il poursuit en parlant du résolveur de problèmes général développé par Newell et Simon à Carnegie Mellon, dans lequel un système intelligent fonctionne en mesurant la différence symbolique entre l'état actuel et l'état cible et en sélectionnant des opérateurs pour passer de l'état intermédiaire à un meilleur état, en répétant le processus jusqu'à ce que l'objectif soit atteint. La section se termine par l'explication de l'idée qui sera abordée dans la prochaine conférence, qui se concentrera sur la façon d'éviter de faire faillite lors du démarrage d'une entreprise dans le secteur de l'IA.

  • 00:05:00 Dans cette section, nous découvrons le concept d'analyse moyens-fins, qui consiste à identifier la différence entre l'état actuel et un état final souhaité et à sélectionner l'opérateur approprié pour minimiser la différence. L'exemple d'utilisation de l'analyse moyens-fins pour résoudre le problème du retour à la maison du MIT est présenté, illustrant le processus récursif d'identification des différences et de sélection des opérateurs jusqu'à ce que l'état final souhaité soit atteint. Alors que le concept général de résolution de problèmes était une idée passionnante à l'époque, il ne s'est pas avéré comme prévu en raison de la difficulté de construire le tableau qui relie les différences aux opérateurs. Cela a conduit au développement de la nouvelle architecture SOAR, qui signifie "State Operator And Result", bien que les partisans de l'architecture affirment qu'il ne s'agit que d'une étiquette et non d'un acronyme.

  • 00:10:00 Dans cette section, l'accent est mis sur l'architecture SOAR et ses différents composants. SOAR se compose d'une mémoire à long terme et à court terme, d'un système de vision, d'un système d'action et d'un système de préférences. L'architecture intègre fortement des expériences de psychologie cognitive et son objectif principal est la résolution de problèmes. De plus, SOAR dispose d'un sous-système élaboré pour rompre les liens dans les systèmes basés sur des règles, et il est centré sur l'idée que les gens sont des manipulateurs de symboles. Le système est conçu pour résoudre les problèmes de manière systématique et dispose d'un système de préférences élaboré pour rompre les liens dans les systèmes basés sur des règles.

  • 00:15:00 Dans cette section, l'orateur discute de diverses architectures fortement orientées vers la résolution de problèmes, notamment SOAR et l'architecture de Newell. Cependant, l'architecture la plus importante, selon l'orateur, est "The Emotion Machine" de Marvin Minsky, qui met en évidence comment la résolution de problèmes peut se dérouler en plusieurs couches. L'orateur donne un exemple de l'architecture de Marvin à travers une courte vignette, où une femme traverse une route. L'architecture de Marvin met en évidence les différents niveaux de pensée vécus par la femme, allant d'une réaction instinctive à l'audition d'un son à une réflexion réflexive dans un contexte social.

  • 00:20:00 Dans cette section, l'architecture SOAR se concentre sur la résolution de problèmes tandis que la "Emotion Machine" de Minsky considère la réflexion sur plusieurs couches, y compris les émotions. Cependant, le développement du bon sens pose un obstacle à la réalisation d'une telle réflexion, car les ordinateurs n'en ont jamais eu beaucoup. Ainsi, l'hypothèse du bon sens soutient que pour que les ordinateurs aient de tels processus de pensée intelligents, ils doivent être équipés de bon sens comme les humains. Cela a engendré le projet d'esprit ouvert et la collecte de bon sens à partir du World Wide Web comme moyen de parvenir à une réflexion en couches. En revanche, Rod Brooks et son architecture de subsomption pensent que les robots ne peuvent pas faire grand-chose parce que les gens pensent à construire des robots de la mauvaise manière, avec un système de vision encapsulé, un système de raisonnement et un système d'action. Au lieu de cela, Brooks suggère d'avoir des couches d'abstraction axées sur la gestion du monde, comme éviter les objets, errer, explorer et chercher.

  • 00:25:00 Dans cette section, l'orateur discute de l'architecture proposée par Rodney Brooks qui s'inspire de la façon dont le cerveau humain est construit, avec les anciennes parties en profondeur et le néocortex superposé. Brooks a émis l'hypothèse que l'on pourrait faire en sorte qu'une machine agisse aussi intelligemment qu'un insecte sans nécessairement avoir besoin de représentation de la manière dont nous nous sommes concentrés sur la représentation dans le cours. Son idée était d'utiliser le monde au lieu d'un modèle, donc tout ce que l'on fait est réactif plutôt que d'avoir une carte de la pièce dans la tête. Les mécanismes dans leur forme la plus pure ne sont que des machines à états finis. Brooks a nommé cette idée architecture de subsomption, qui a été utilisée dans le robot Roomba qui a connu un grand succès. Le Roomba utilise des capteurs de proximité infrarouges pour la navigation, ce qui permet d'éviter les contrôleurs centralisés et le besoin d'un modèle mondial.

  • 00:30:00 Dans cette section de la vidéo, l'orateur discute de l'architecture de subsomption, qui est illustrée par un robot capable de trouver une canette et de la ramasser. Le robot utilise un traceur de lumière laser pour localiser la canette et possède des capteurs dans son bras pour saisir la canette d'une manière spécifique. Le robot utilise également une boussole magnétique pour revenir à son point de départ. L'orateur mentionne également d'autres architectures comme SOAR et GPS et présente l'architecture de la genèse, qui est centrée sur le langage et guide les systèmes perceptuels.

  • 00:35:00 Dans cette section, l'orateur explique comment la capacité d'imaginer et de percevoir les choses est liée à la capacité de décrire des événements, de raconter et de comprendre des histoires et, finalement, de comprendre la culture. Il donne des exemples de la façon dont les gens connaissent des choses qui ne leur sont pas explicitement enseignées, comme le danger de porter des gants lors de l'utilisation d'une scie à table. Il propose « l'hypothèse de l'histoire forte » comme explication possible de l'épanouissement de notre espèce il y a 50 000 ans, qui, selon lui, nous a permis de raconter des histoires et de les comprendre.

  • 00:40:00 Dans cette section, nous découvrons une expérience considérée comme la plus importante série d'expériences jamais réalisée en psychologie cognitive et développementale. L'expérience consiste à placer de la nourriture dans des paniers à deux coins opposés d'une pièce rectangulaire et à faire tourner un rat, un petit enfant et un adulte pour voir où ils vont. Ils ont tous tendance à aller aux deux coins avec la nourriture, sauf lorsqu'un mur est peint en bleu. Le rat et l'enfant vont toujours dans les deux coins diagonaux avec une probabilité égale, tandis que l'adulte ne va que dans le coin avec la nourriture. L'enfant devient adulte lorsqu'il commence à utiliser les mots gauche et droite pour décrire le monde.

  • 00:45:00 Dans cette section, l'orateur mène une expérience avec un volontaire qui démontre comment la langue joue un rôle crucial dans la construction des descriptions et des combinateurs. L'expérience consiste à lire un passage d'un livre pendant que le volontaire le répète simultanément, bloquant son processeur de langage, ce qui l'empêche de relier certaines formes et couleurs. L'orateur conseille que s'engager dans des activités telles que regarder, écouter, dessiner et parler peut exercer les mêmes zones du cerveau responsables du traitement du langage et vous rendre plus intelligent. De plus, l'orateur met en garde contre les locuteurs rapides et comment ils peuvent bloquer votre processeur de langage, vous amenant à prendre des décisions de manière impulsive.
19. Architectures: GPS, SOAR, Subsumption, Society of Mind
19. Architectures: GPS, SOAR, Subsumption, Society of Mind
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonIn this lecture, we consider cogn...
 

Cours 21. Inférence probabiliste I



21. Inférence probabiliste I

Dans cette vidéo sur l'inférence probabiliste, le professeur Patrick Winston explique comment la probabilité peut être utilisée en intelligence artificielle pour faire des inférences et calculer des probabilités en fonction de divers scénarios. Il utilise des exemples tels que l'apparition d'une statue, un chien qui aboie après un raton laveur ou un cambrioleur, et la fondation du MIT en 1861 avant JC pour démontrer l'utilisation d'une table de probabilité conjointe, comment calculer les probabilités à l'aide d'axiomes et de la règle de la chaîne, et les concepts d'indépendance et d'indépendance conditionnelle. L'orateur insiste sur la nécessité d'énoncer correctement l'indépendance des variables et propose l'utilisation de réseaux de croyances comme moyen de représenter la causalité entre les variables tout en simplifiant les calculs de probabilité.

  • 00:00:00 Dans cette section de la vidéo, le professeur Patrick Winston discute de l'utilisation de la probabilité dans l'intelligence artificielle, en particulier en ce qui concerne l'observation d'événements aléatoires. Il utilise l'exemple de l'observation de l'apparition d'une statue sur le campus et construit un tableau pour suivre les combinaisons possibles d'événements qui pourraient conduire à l'apparition de la statue. Il note que le nombre de lignes dans le tableau est égal à 2 pour le nombre de variables, et que de longues périodes d'observation pourraient être utilisées pour déterminer la probabilité que chacun de ces événements se produise. En fin de compte, la probabilité d'un événement donné est simplement la fréquence de son apparition divisée par le nombre total d'observations.

  • 00:05:00 Dans cette section, le présentateur montre comment utiliser une table de probabilité conjointe pour calculer diverses probabilités. L'exemple utilisé consiste à connaître la probabilité d'apparition d'une statue, étant donné que certaines conditions sont remplies, comme la présence d'une exposition d'art et d'un hack. Le présentateur effectue également des calculs similaires pour la probabilité qu'un raton laveur apparaisse en fonction d'un chien qui aboie, et la probabilité que le chien aboie compte tenu de la présence d'un raton laveur. La démonstration montre comment une table de probabilité conjointe peut être utilisée pour faire des inférences et calculer des probabilités en fonction de différents scénarios.

  • 00:10:00 Dans cette section, l'orateur discute de l'utilisation d'une table de probabilité conjointe pour calculer des inférences probabilistes. Malgré l'utilité de cet outil, le nombre élevé de lignes requises pour des situations plus complexes peut être difficile à gérer, ce qui oblige à envisager d'autres méthodes en plus de l'inférence probabiliste. L'orateur présente également un scénario hypothétique dans lequel le MIT a été fondé en 1861 av. J.-C. et discute des méthodes expérimentales qui auraient pu être utilisées pour déterminer quels objets flottent.

  • 00:15:00 Dans cette section, l'orateur discute des bases de la probabilité et des axiomes qui la sous-tendent. Ils expliquent que les probabilités doivent être supérieures à 0 et inférieures à 1, et que dans un monde binaire, la probabilité de vrai est 1 et faux est 0. L'orateur introduit également le troisième axiome, qui stipule que la probabilité de A plus la probabilité de B moins la probabilité de A et B est égal à la probabilité de A ou B. Ils notent que cette compréhension de base de la probabilité sert de fondement à des calculs plus complexes utilisés dans l'inférence probabiliste.

  • 00:20:00 Dans cette section, l'orateur explique l'approche formelle du traitement des probabilités à l'aide d'axiomes, et comment elle peut être reflétée par des intuitions qui impliquent des discussions sur les espaces. La probabilité de a est associée à la taille du cercle par rapport à la surface totale dans le rectangle, et les axiomes un à trois ont un sens en termes de cette image. L'orateur explique ensuite la probabilité conditionnelle et comment elle est définie comme la probabilité d'un b donné, qui est égale à la probabilité de a et b divisée par la probabilité de B. Cette définition a du sens car elle limite l'univers de considération à cela. partie de l'univers originel.

  • 00:25:00 Dans cette section, l'orateur introduit l'idée de diviser l'espace de probabilité en trois parties et explique comment la probabilité de a, b et c peut être déterminée. En développant la formule, la probabilité que tout soit ainsi est décomposée en un produit de trois probabilités conditionnelles. Le locuteur généralise ensuite cette idée dans la règle de la chaîne, qui stipule que la probabilité d'un groupe de choses peut être écrite comme un produit de probabilités conditionnelles. Même si l'orateur n'est qu'à la moitié de son diagramme, il montre qu'il progresse bien. Le prochain concept dont ils discutent est l'idée de probabilité conditionnelle.

  • 00:30:00 Dans cette section, le professeur explique la définition de l'indépendance et de l'indépendance conditionnelle. L'indépendance, c'est quand la probabilité de a ne dépend pas de ce qui se passe avec b. Par exemple, si a et b sont indépendants, alors a donné b est égal à a. L'indépendance conditionnelle signifie que si le monde est restreint à être en z, alors la probabilité de a ne dépend pas de la valeur de b. Le professeur illustre ces concepts à l'aide de diagrammes intuitionnistes, en utilisant les aires des diagrammes pour dénoter des probabilités.

  • 00:35:00 Dans cette section, le conférencier discute de l'indépendance conditionnelle dans l'inférence probabiliste et comment elle conduit à déduire les probabilités conjointes des variables. Il explique le concept en utilisant l'exemple d'un chien qui aboie après un raton laveur ou un cambrioleur, et comment l'ajout de deux variables supplémentaires conduit à la nécessité d'une grande table de probabilité conjointe. Il introduit ensuite l'idée de réseaux de croyances comme moyen de représenter la causalité entre les variables, et souligne la nécessité d'affirmer correctement que chaque nœud est indépendant de ses variables non descendantes.

  • 00:40:00 Dans cette section, l'orateur discute du concept d'indépendance compte tenu des parents de non-descendants et de l'importance de comprendre ce langage dans l'inférence probabiliste. L'orateur crée ensuite un modèle pour déterminer les probabilités de divers événements tels que l'apparition d'un cambrioleur ou l'aboiement d'un chien en fonction de la présence d'autres facteurs tels qu'un raton laveur. L'orateur note que seuls 10 nombres sont nécessaires pour spécifier le modèle, ce qui économise des efforts considérables par rapport à la tentative de construire immédiatement une table de probabilité conjointe.

  • 00:45:00 Dans cette section, l'orateur discute de l'utilisation de la règle de la chaîne dans le calcul de la table de probabilité conjointe complète. Ils expliquent comment, en utilisant la connaissance de l'indépendance conditionnelle, ils sont capables de supprimer certaines probabilités de la formule puisqu'ils ne dépendent pas d'un descendant. En organisant la formule d'une manière spécifique, l'orateur est capable de calculer la table de probabilité conjointe complète sans inventer de chiffres ni prendre beaucoup de mesures. L'orateur note que dans ce cas particulier, ils n'avaient qu'à concevoir 10 nombres sur 32 et se demande combien d'économies seraient réalisées s'il y avait plus de propriétés.
21. Probabilistic Inference I
21. Probabilistic Inference I
  • 2014.01.10
  • www.youtube.com
* Please note: Lecture 20, which focuses on the AI business, is not available.MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://oc...
 

Cours 21. Inférence probabiliste I



21. Inférence probabiliste I

Dans cette vidéo sur l'inférence probabiliste, le professeur Patrick Winston explique comment la probabilité peut être utilisée en intelligence artificielle pour faire des inférences et calculer des probabilités en fonction de divers scénarios. Il utilise des exemples tels que l'apparition d'une statue, un chien qui aboie après un raton laveur ou un cambrioleur, et la fondation du MIT en 1861 avant JC pour démontrer l'utilisation d'une table de probabilité conjointe, comment calculer les probabilités à l'aide d'axiomes et de la règle de la chaîne, et les concepts d'indépendance et d'indépendance conditionnelle. L'orateur insiste sur la nécessité d'énoncer correctement l'indépendance des variables et propose l'utilisation de réseaux de croyances comme moyen de représenter la causalité entre les variables tout en simplifiant les calculs de probabilité.

  • 00:00:00 Dans cette section de la vidéo, le professeur Patrick Winston discute de l'utilisation de la probabilité dans l'intelligence artificielle, en particulier en ce qui concerne l'observation d'événements aléatoires. Il utilise l'exemple de l'observation de l'apparition d'une statue sur le campus et construit un tableau pour suivre les combinaisons possibles d'événements qui pourraient conduire à l'apparition de la statue. Il note que le nombre de lignes dans le tableau est égal à 2 pour le nombre de variables, et que de longues périodes d'observation pourraient être utilisées pour déterminer la probabilité que chacun de ces événements se produise. En fin de compte, la probabilité d'un événement donné est simplement la fréquence de son apparition divisée par le nombre total d'observations.

  • 00:05:00 Dans cette section, le présentateur montre comment utiliser une table de probabilité conjointe pour calculer diverses probabilités. L'exemple utilisé consiste à connaître la probabilité d'apparition d'une statue, étant donné que certaines conditions sont remplies, comme la présence d'une exposition d'art et d'un hack. Le présentateur effectue également des calculs similaires pour la probabilité qu'un raton laveur apparaisse en fonction d'un chien qui aboie, et la probabilité que le chien aboie compte tenu de la présence d'un raton laveur. La démonstration montre comment une table de probabilité conjointe peut être utilisée pour faire des inférences et calculer des probabilités en fonction de différents scénarios.

  • 00:10:00 Dans cette section, l'orateur discute de l'utilisation d'une table de probabilité conjointe pour calculer des inférences probabilistes. Malgré l'utilité de cet outil, le nombre élevé de lignes requises pour des situations plus complexes peut être difficile à gérer, ce qui oblige à envisager d'autres méthodes en plus de l'inférence probabiliste. L'orateur présente également un scénario hypothétique dans lequel le MIT a été fondé en 1861 av. J.-C. et discute des méthodes expérimentales qui auraient pu être utilisées pour déterminer quels objets flottent.

  • 00:15:00 Dans cette section, l'orateur discute des bases de la probabilité et des axiomes qui la sous-tendent. Ils expliquent que les probabilités doivent être supérieures à 0 et inférieures à 1, et que dans un monde binaire, la probabilité de vrai est 1 et faux est 0. L'orateur introduit également le troisième axiome, qui stipule que la probabilité de A plus la probabilité de B moins la probabilité de A et B est égal à la probabilité de A ou B. Ils notent que cette compréhension de base de la probabilité sert de fondement à des calculs plus complexes utilisés dans l'inférence probabiliste.

  • 00:20:00 Dans cette section, l'orateur explique l'approche formelle du traitement des probabilités à l'aide d'axiomes, et comment elle peut être reflétée par des intuitions qui impliquent des discussions sur les espaces. La probabilité de a est associée à la taille du cercle par rapport à la surface totale dans le rectangle, et les axiomes un à trois ont un sens en termes de cette image. L'orateur explique ensuite la probabilité conditionnelle et comment elle est définie comme la probabilité d'un b donné, qui est égale à la probabilité de a et b divisée par la probabilité de B. Cette définition a du sens car elle limite l'univers de considération à cela. partie de l'univers originel.

  • 00:25:00 Dans cette section, l'orateur introduit l'idée de diviser l'espace de probabilité en trois parties et explique comment la probabilité de a, b et c peut être déterminée. En développant la formule, la probabilité que tout soit ainsi est décomposée en un produit de trois probabilités conditionnelles. Le locuteur généralise ensuite cette idée dans la règle de la chaîne, qui stipule que la probabilité d'un groupe de choses peut être écrite comme un produit de probabilités conditionnelles. Même si l'orateur n'est qu'à la moitié de son diagramme, il montre qu'il progresse bien. Le prochain concept dont ils discutent est l'idée de probabilité conditionnelle.

  • 00:30:00 Dans cette section, le professeur explique la définition de l'indépendance et de l'indépendance conditionnelle. L'indépendance, c'est quand la probabilité de a ne dépend pas de ce qui se passe avec b. Par exemple, si a et b sont indépendants, alors a donné b est égal à a. L'indépendance conditionnelle signifie que si le monde est restreint à être en z, alors la probabilité de a ne dépend pas de la valeur de b. Le professeur illustre ces concepts à l'aide de diagrammes intuitionnistes, en utilisant les aires des diagrammes pour dénoter des probabilités.

  • 00:35:00 Dans cette section, le conférencier discute de l'indépendance conditionnelle dans l'inférence probabiliste et comment elle conduit à déduire les probabilités conjointes des variables. Il explique le concept en utilisant l'exemple d'un chien qui aboie après un raton laveur ou un cambrioleur, et comment l'ajout de deux variables supplémentaires conduit à la nécessité d'une grande table de probabilité conjointe. Il introduit ensuite l'idée de réseaux de croyances comme moyen de représenter la causalité entre les variables, et souligne la nécessité d'affirmer correctement que chaque nœud est indépendant de ses variables non descendantes.

  • 00:40:00 Dans cette section, l'orateur discute du concept d'indépendance compte tenu des parents de non-descendants et de l'importance de comprendre ce langage dans l'inférence probabiliste. L'orateur crée ensuite un modèle pour déterminer les probabilités de divers événements tels que l'apparition d'un cambrioleur ou l'aboiement d'un chien en fonction de la présence d'autres facteurs tels qu'un raton laveur. L'orateur note que seuls 10 nombres sont nécessaires pour spécifier le modèle, ce qui économise des efforts considérables par rapport à la tentative de construire immédiatement une table de probabilité conjointe.

  • 00:45:00 Dans cette section, l'orateur discute de l'utilisation de la règle de la chaîne dans le calcul de la table de probabilité conjointe complète. Ils expliquent comment, en utilisant la connaissance de l'indépendance conditionnelle, ils sont capables de supprimer certaines probabilités de la formule puisqu'ils ne dépendent pas d'un descendant. En organisant la formule d'une manière spécifique, l'orateur est capable de calculer la table de probabilité conjointe complète sans inventer de chiffres ni prendre beaucoup de mesures. L'orateur note que dans ce cas particulier, ils n'avaient qu'à concevoir 10 nombres sur 32 et se demande combien d'économies seraient réalisées s'il y avait plus de propriétés.
 

Cours 22. Inférence probabiliste II



22. Inférence probabiliste II

Dans cette vidéo, le professeur Patrick Winston explique comment utiliser les réseaux d'inférence, également appelés "réseaux de Bayes", pour effectuer des inférences probabilistes. Il explique comment ordonner les variables dans un réseau bayésien en utilisant la règle de la chaîne pour calculer la probabilité conjointe de toutes les variables. L'orateur montre comment accumuler des probabilités en exécutant des simulations et comment générer des probabilités à l'aide d'un modèle. Il discute également de la règle de Bayes et de la façon dont elle peut être utilisée pour résoudre des problèmes de classification, sélectionner des modèles et découvrir des structures. La vidéo met l'accent sur l'utilité de l'inférence probabiliste dans divers domaines tels que le diagnostic médical, la détection de mensonges et le dépannage des équipements.

  • 00:00:00 Dans cette section, le professeur Patrick Winston discute de l'utilisation des réseaux d'inférence, également connus sous le nom de "réseaux de Bayes", qui sont utilisés pour faire une inférence probabiliste. Il commence par examiner le tableau des probabilités conjointes, qui peut être utilisé pour décider d'une probabilité en cliquant sur les cases appropriées, mais le problème est qu'il devient difficile et fastidieux de composer ou de collecter les nombres lorsque de nombreuses variables sont impliquées. Il passe ensuite à l'utilisation des réseaux d'inférence pour effectuer des calculs afin d'obtenir la probabilité que les événements se produisent ensemble. La règle de la chaîne est utilisée ici, et cette section se termine par une explication de cette règle.

  • 00:05:00 Dans cette section, l'orateur parle du processus de classement des variables dans un réseau bayésien et comment cela peut être utilisé avec la règle de la chaîne pour calculer la probabilité conjointe de toutes les variables. En organisant les variables de manière à ce qu'aucun de ses descendants n'apparaisse à sa gauche dans un ordre linéaire et en utilisant la règle de la chaîne, il est capable de calculer la probabilité de toute combinaison particulière de ces variables. Il affirme que toutes les probabilités conditionnelles dans ce scénario sont des non-descendants et que l'élimination des variables basées sur les dépendances peut aider à calculer n'importe quelle entrée dans le tableau.

  • 00:10:00 Dans cette section, l'orateur explique comment utiliser un petit réseau pour faire tout ce qui peut être fait avec une table, et les probabilités nécessaires pour y parvenir. Il explique comment il étend les tableaux pour garder une trace des décomptes nécessaires pour calculer la probabilité que le chien aboie ou B se produise, et utilise des résultats expérimentaux pour donner des marques ou des décomptes dans les sections pertinentes du tableau, conduisant finalement à une démonstration de le processus.

  • 00:15:00 Dans cette section de la vidéo, le professeur commence par démontrer comment accumuler les probabilités d'un réseau en exécutant des simulations. Il explique comment interpréter le tableau et garder une trace de ce que les éléments de données vous disent sur la fréquence d'apparition d'une combinaison particulière. Il exécute plusieurs simulations pour obtenir des probabilités plus précises. Il montre ensuite comment simuler le système générant une combinaison de valeurs pour toutes les variables en allant et venant des tables de probabilités supérieures et en lançant une pièce.

  • 00:20:00 Dans cette section, l'orateur discute du processus de génération de probabilités pour un scénario en sélectionnant la ligne appropriée dans un tableau de probabilités. L'orateur poursuit ensuite en expliquant comment ces probabilités peuvent être générées à l'aide d'un modèle sur la gauche, qui peut être utilisé pour produire des données pour calculer les probabilités sur la droite. Cependant, l'orateur reconnaît qu'il peut y avoir plusieurs modèles corrects pour un scénario donné, ce qui rend difficile de déterminer lequel est correct. Pour résoudre ce problème, l'orateur introduit le concept d'inférence bayésienne naïve, qui consiste à réécrire les probabilités conditionnelles de manière à permettre leur calcul à l'aide du théorème de Bayes.

  • 00:25:00 Dans cette section, la vidéo explique comment la règle de Bayes peut être utilisée pour résoudre un problème de classification. Par exemple, lors du diagnostic d'une maladie, la probabilité de la maladie compte tenu de la preuve peut être calculée en divisant la probabilité de la preuve compte tenu de la maladie par la probabilité globale de la preuve, puis en la multipliant par la probabilité a priori de la maladie donnée. Si plusieurs éléments de preuve indépendants sont présents, la probabilité conjointe de preuve pour la maladie donnée divisée par la probabilité globale de preuve peut être calculée, puis les probabilités de toutes les classes pertinentes peuvent être comparées.

  • 00:30:00 Dans cette section, le conférencier raconte une histoire sur la sélection de deux pièces, une biaisée avec une probabilité de face de 0,8 et une juste avec une probabilité de face de 0,5. Après avoir lancé la pièce, le conférencier utilise la probabilité bayésienne pour déterminer quelle pièce a été sélectionnée en fonction des probabilités antérieures et des preuves des lancers. La conférence montre comment les preuves peuvent être utilisées pour déterminer la probabilité de différentes hypothèses dans l'inférence probabiliste.

  • 00:35:00 Dans cette section, le professeur montre comment les probabilités de différentes pièces varient avec une série de lancers et comment la prépondérance des preuves peut modifier la probabilité d'obtenir face. La loi des grands nombres s'installe et la probabilité que la pièce choisie soit en jeu devient de plus en plus proche de 1. Le professeur utilise ensuite ce concept pour créer un classificateur de parti parent en examinant le parti politique d'un enfant et en faisant des déductions sur le partie à laquelle appartient le parent. Dans l'ensemble, le concept d'inférence probabiliste peut être appliqué dans divers scénarios pour faire des prédictions et tirer des conclusions.

  • 00:40:00 Dans cette section de la vidéo, l'orateur discute de l'utilisation du hack bayésien pour comparer deux modèles et sélectionner le meilleur en fonction des données. Le processus consiste à simuler des tirages à partir d'un modèle et à calculer la probabilité de chaque modèle compte tenu des données. L'orateur passe ensuite à la découverte de la structure, où il commence sans variables liées et utilise une recherche aléatoire pour modifier et comparer les modèles jusqu'à ce qu'il en trouve un qui est préféré. Ce processus nécessite d'utiliser la somme des logarithmes des probabilités au lieu du produit pour éviter de perdre des informations sur une machine 32 bits. Cependant, la recherche de la structure optimale peut être difficile en raison du grand espace et des maxima locaux.

  • 00:45:00 Dans cette section, l'orateur discute de l'utilité de l'inférence probabiliste et de la découverte de structures dans divers domaines tels que le diagnostic médical, la détection de mensonges et le dépannage d'équipement. Il explique comment les calculs probabilistes sont la bonne approche à utiliser lorsque les informations sont limitées, et comment cette méthode peut être utilisée pour déterminer la cause la plus probable d'un problème en fonction des symptômes observés. L'orateur fait également allusion à de futures discussions sur la façon dont cette méthode peut être utilisée pour découvrir des modèles et des histoires.
22. Probabilistic Inference II
22. Probabilistic Inference II
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonWe begin with a review of inferen...
 

Cours 23. Fusion de modèles, couplage intermodal, résumé du cours



23. Fusion de modèles, couplage intermodal, résumé du cours

Dans cette vidéo, le professeur Patrick Winston parle de fusion de modèles, de couplage intermodal et réfléchit sur le matériel du cours. Il discute de l'importance de découvrir la régularité sans être trop obsédé par la probabilité bayésienne et des avantages potentiels du couplage intermodal pour comprendre le monde qui nous entoure. Il propose également des suggestions pour de futurs cours et souligne l'importance de se concentrer sur la création de nouveaux revenus et de nouvelles capacités avec des personnes et des ordinateurs travaillant ensemble, plutôt que de viser uniquement à remplacer les personnes. En outre, il souligne l'importance d'identifier d'abord le problème et de sélectionner la méthodologie appropriée pour le résoudre. Enfin, le professeur s'interroge sur les limites de la réduction de l'intelligence à un modèle réplicable et artificiel et souligne le travail exceptionnel de son équipe.

  • 00:00:00 Dans cette section, Patrick Winston parle de fusion de modèles et de couplage intermodal. Il démontre l'idée de la fusion d'histoires bayésiennes en montrant comment découvrir la structure dans des situations où vous ne la trouveriez peut-être pas autrement, comme découvrir des événements dans deux histoires et les assembler en deux graphiques d'histoire. Il parle également de la capacité à découvrir des concepts à travers plusieurs niveaux qui utilise l'apprentissage automatique et le cloud computing pour plus d'efficacité. Enfin, il présente le programme de Michael Coen qui utilise de multiples modalités et correspondances entre elles pour trier les deux modalités contributives dans les chansons de diamant mandarin.

  • 00:05:00 Dans cette section, le concept de couplage intermodal est expliqué à travers l'exemple d'association de gestes qui produisent des sons de voyelle avec les sons eux-mêmes. La transformée de Fourier d'une voyelle produit des formants, et une ellipse autour de la bouche forme la seconde modalité. Avec les données de couplage intermodal, il est possible de regrouper les sons et d'associer les formes des lèvres aux sons sans aucune donnée balisée. Une démonstration des travaux de Coen montre comment des clusters peuvent être formés en utilisant des projections et des vecteurs comme composants d'une métrique.

  • 00:10:00 Dans cette section, l'orateur discute du concept de couplage intermodal et comment il peut aider à comprendre le monde qui nous est présenté. Il suggère qu'il est possible de découvrir la régularité sans être obsédé par la probabilité bayésienne et que ce type d'idée de couplage est probablement lié à notre compréhension du monde qui nous entoure. Le conférencier résume également le matériel du cours, soulignant l'importance des perspectives techniques et scientifiques dans la création d'applications sophistiquées pour l'intelligence artificielle. Il souligne également la nécessité de se concentrer sur la création de nouveaux revenus et de nouvelles capacités avec des personnes et des ordinateurs travaillant en tandem, plutôt que de viser uniquement à remplacer les personnes.

  • 00:15:00 Dans cette section, le conférencier discute des avantages uniques qu'offre la programmation pour créer des modèles et mener des expériences. Plus précisément, la programmation fournit des métaphores et la possibilité de créer des modèles qui permettent l'expérimentation pour tester les implications de ces modèles. L'orateur souligne également l'importance d'identifier d'abord le problème, puis de sélectionner la méthodologie ou les mécanismes appropriés à utiliser, plutôt que de tomber dans l'envie d'un mécanisme et de se concentrer sur des méthodes spécifiques. Enfin, le conférencier passe brièvement en revue le format de l'examen et offre quelques rappels aux étudiants, comme apporter une montre et une calculatrice, et la possibilité de porter des costumes pendant l'examen.

  • 00:20:00 Dans cette section, le professeur donne quelques suggestions sur ce qu'il faut faire le semestre prochain, notamment en prenant le sujet de Marvin Minsky, Society of Mind, ou les sujets de Bob Berwick sur la compréhension et l'évolution du langage, ou le sujet du système symbolique à grande échelle de Gerry Sussman. Il promeut également son propre cours de printemps, Human Intelligence Enterprise. Le professeur décrit son cours comme un cours de sciences humaines et n'a pas de cours magistraux, mais plutôt une conversation avec lui. Il aborde certains des sujets abordés dans le cours, tels que l'emballage et les éléments communs trouvés dans divers systèmes d'intelligence.

  • 00:25:00 Dans cette section, le conférencier discute de l'importance de l'emballage et de la façon dont il peut faire une différence dans la réussite d'une personne, quel que soit son cheminement de carrière. L'orateur mentionne un événement, appelé la conférence "Comment parler", qui est une conférence non linéaire d'une heure qui peut avoir un impact significatif sur la capacité d'une personne à faire des présentations, des conférences et des entretiens d'embauche en offrant des conseils tels que quand raconter une blague ou comment pour ouvrir une présentation. De plus, l'orateur parle du système Genesis de son groupe, qui est sur le point de se déplacer dans des zones capables de détecter l'apparition d'une éventuelle maladie.

  • 00:30:00 Dans cette section, une démonstration en direct montre comment un système peut lire et comprendre une histoire sous plusieurs angles, ce qui permet de détecter les problèmes potentiels et d'intervenir pour prévenir les catastrophes. Deux personnages avec des formations différentes identifient ce qui est explicitement dans l'histoire et infèrent d'autres concepts en gris. En raison de leurs antécédents uniques, ils ont des perspectives différentes sur l'histoire et peuvent même négocier les uns avec les autres, enseigner d'autres domaines et éviter les catastrophes avant qu'elles ne surviennent. Le système détecte également les opérations de vengeance potentielles et les victoires à la Pyrrhus, illustrant sa capacité à anticiper les problèmes potentiels et à intervenir.

  • 00:35:00 Dans cette section, nous apprenons à utiliser des vecteurs de concepts au lieu de comptes de mots-clés pour la recherche d'informations en comprenant des histoires à plusieurs niveaux. L'architecture du propagateur est utilisée pour empêcher les individus d'aller trop loin dans leur travail, et l'implication des étudiants dans le groupe MIT est saluée. En ce qui concerne les autres programmes d'études supérieures, il faut réfléchir à qui ils veulent faire leur apprentissage et trouver un programme avec un objectif différent, comme l'IA, pour élargir leurs horizons dans le domaine.

  • 00:40:00 Dans cette rubrique, le professeur Winston donne des conseils aux étudiants postulant aux études supérieures en physique théorique et intelligence artificielle, insistant sur l'importance des visites de sites pour les premiers et d'être concentré sur un domaine spécifique pour les seconds. Il partage également une anecdote sur un cas extrême de la théorie des défauts de la sélection de carrière en IA, dans lequel un chercheur en vision par ordinateur est incapable de reconnaître sa femme en raison de sa spécialisation en reconnaissance d'objets. Enfin, le professeur Winston réfléchit à l'utilité et à la simplicité des idées puissantes en informatique et aborde l'argument selon lequel la compréhension du langage ne nécessite pas nécessairement une véritable intelligence.

  • 00:45:00 Dans cette section, l'orateur parle des limites de la réduction de l'intelligence à quelque chose qui peut être reproduit artificiellement. Il utilise son raton laveur de compagnie comme exemple d'un animal très intelligent qu'il ne s'attendait pas à pouvoir construire une machine tout aussi intelligente. L'idée que l'intelligence artificielle est impossible est souvent basée sur des arguments réductionnistes qui ne tiennent pas compte des connaissances et de la magie qui découlent d'un programme en cours d'exécution s'exécutant dans le temps. Le conférencier prend également un moment pour saluer le travail exceptionnel de son équipe et souhaite bonne chance aux étudiants pour leur examen final.
23. Model Merging, Cross-Modal Coupling, Course Summary
23. Model Merging, Cross-Modal Coupling, Course Summary
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonThis lecture begins with a brief ...