Apprentissage Automatique et Réseaux Neuronaux - page 20

 

Méga-R1. Systèmes basés sur des règles



Méga-R1. Systèmes basés sur des règles

Cette vidéo se concentre sur Mega-Recitation, qui est une conférence de style tutoriel pour aider les étudiants à travailler avec le matériel couvert dans les conférences et les récitations. La vidéo couvre plusieurs sujets liés aux systèmes basés sur des règles, notamment le chaînage en amont, le chaînage en aval, l'ordre de départage des règles et le processus de correspondance. Le processus de chaînage en arrière consiste à examiner le conséquent d'une règle et à ajouter les antécédents nécessaires pour atteindre l'objectif principal, et le bris d'égalité et la désambiguïsation sont cruciaux pour l'arbre d'objectifs. La vidéo traite également du chaînage en avant et des règles de correspondance avec les assertions à l'aide d'une série d'assertions. L'orateur insiste sur l'importance de vérifier les assertions avant d'utiliser une règle et d'éviter les règles impuissantes qui ne font rien. Le processus de correspondance implique l'utilisation d'un chaînage arrière pour déterminer quelles règles correspondent aux assertions données, et le système donnera la priorité aux règles de numéro inférieur, qu'elles soient nouvelles ou non.

  • 00:00:00 Dans cette section, Mark Seifter présente le concept de Mega-Recitation, qui est une conférence de style tutoriel conçue pour aider les étudiants à travailler avec le matériel couvert dans les conférences et les récitations. L'objectif est d'aider les élèves à comprendre et à travailler avec les algorithmes qui sont cruciaux pour la classe et de démontrer leur compréhension sur des quiz. L'accent est mis sur un problème de quiz de l'année dernière qui a fait trébucher de nombreux étudiants, et Marx passe en revue les astuces qui les ont pris dans l'espoir d'empêcher que ces erreurs ne se reproduisent. Enfin, il explique la différence entre deux notations, in-fixe et préfixe, pour écrire des règles, et pourquoi les étudiants doivent en être conscients.

  • 00:05:00 Dans cette section, nous découvrons les six règles étiquetées avec des P, chacune avec une déclaration si-alors correspondante. La première règle stipule que si X est ambitieux et X est un cracmol, alors X a un mauvais terme. Le point d'interrogation dans le X ou le Y indique une variable en attente d'être liée. Un chaînage en amont et en aval sera utilisé pour déterminer la liaison de ces variables. Quatre affirmations nous sont également données pour travailler, y compris Millicent vivant dans le donjon de Serpentard et Seamus étant dans la tour Gryffondor et étiquetant Millicent. L'importance de vérifier les assertions avant d'utiliser une règle est soulignée car c'est une erreur qui a fait trébucher certaines personnes l'année dernière.

  • 00:10:00 Dans cette section, le présentateur explique le concept de chaînage arrière et met en évidence ses différences avec le chaînage avant. Travaillant sur l'hypothèse, le chaîneur arrière essaie de trouver une assertion correspondante dans la liste des assertions, et s'il n'y a pas de correspondance, il essaiera de trouver une règle avec un conséquent correspondant. Le présentateur poursuit en donnant des exemples de problèmes faciles, puis aborde un problème de la vie réelle, où Millicent devient l'amie d'Hermione. Tout au long de l'exemple, le présentateur insiste sur l'importance du départage et de la désambiguïsation dans l'arbre des objectifs.

  • 00:15:00 Dans cette section, la vidéo traite du processus de chaînage en arrière dans les systèmes basés sur des règles. Le chaînage en arrière consiste à examiner le conséquent d'une règle et à ajouter les antécédents nécessaires pour atteindre l'objectif principal. La vidéo souligne l'importance de rechercher quelque chose qui a l'objectif actuel dans son conséquent et de le rechercher dans les affirmations avant de vérifier d'autres règles. Le processus implique une recherche en profondeur, en partant du nœud de gauche et en descendant s'il y a des enfants, et en recherchant une règle qui correspond à l'objectif actuel. La vidéo explique également comment ajouter correctement des nœuds à l'arborescence des objectifs, comme un nœud de fin avec un nœud ou en bas.

  • 00:20:00 Dans cette section, l'orateur discute d'une recherche en profondeur tout en utilisant un diagramme en arbre pour identifier si Millicent est un protagoniste ou un méchant, essayant finalement de prouver qu'elle est un méchant. Ils suivent d'abord la branche de gauche et essaient de trouver une règle pour savoir si Millicent est un protagoniste. Puisqu'il n'y a aucune règle correspondant à leur critère, ils remontent au nœud "ou" et reviennent sur le fait que Millicent est un méchant. Même si ce n'est pas dans les affirmations, ils suivent la branche pour voir s'il existe une règle avec cela comme conséquence. Finalement, ils trouvent une règle indiquant que Millicent est un méchant mais doit continuer pour trouver la réponse ultime.

  • 00:25:00 Dans cette section, l'orateur explique la focalisation unique de l'enchaînement en arrière et son manque d'intérêt pour les autres affirmations ou antécédents. Le chaîneur en arrière vise uniquement à prouver la possibilité que Millicent soit un méchant, et il ne se soucie pas des autres conséquences, comme Millicent étant ambitieux. Il est à noter que cela peut entraîner des calculs inutiles, mais c'est un moyen simple et efficace de coder le système. L'utilisation potentielle d'une table de hachage est discutée, mais il est conclu que cela ne vaut peut-être pas l'effort supplémentaire.

  • 00:30:00 Dans cette section, la classe discute de la mise en œuvre d'une table de hachage pour augmenter la vitesse d'exécution du système basé sur des règles. Cependant, cette approche présente des problèmes potentiels, car elle perd l'ordre dans lequel les assertions du tableau se déclenchent, et certaines règles dépendent de l'ordre de ces assertions. La conférence aborde également une question de la foule sur la résolution de règles lorsqu'il y a une affirmation qui énonce le contraire de ce qui a été affirmé précédemment, et comment résoudre ce problème. La classe conclut que c'est la raison pour laquelle ils n'ont pas d'instructions de suppression sur les quiz et qu'ils n'ajoutent pas d'affirmations mais vérifient à la place toutes les choses dans l'arbre des objectifs jusqu'à ce qu'elles soient prouvées ou réfutées.

  • 00:35:00 Dans cette section, l'oratrice passe rapidement en revue les parties restantes de l'exemple de Millicent, la protagoniste, et comment utiliser des systèmes basés sur des règles pour déterminer si elle devient ou non l'amie d'Hermione. Cela inclut de répondre à quelques questions, telles que la détermination du nombre minimum d'assertions supplémentaires nécessaires pour que Millicent devienne l'amie d'Hermione sans ajouter d'assertion qui corresponde à un conséquent d'une règle. Cette section traite également d'une situation peu courante qui survient en raison de l'ajout d'une assertion et de la nécessité de la corriger en supprimant une assertion contradictoire. Enfin, le chaînage arrière est brièvement mentionné, et l'orateur demande au public de résoudre un problème lié à la liaison variable, où le but est de déterminer si Millicent a un mauvais terme.

  • 00:40:00 Dans cette section, le narrateur discute du chaînage vers l'avant, qui implique l'ajout de nouvelles assertions au fur et à mesure qu'elles arrivent, et de l'ordre de départage des règles. L'ordre de départage des règles va de 0 à 5, et si la même règle peut se déclencher avec plusieurs assertions différentes, les règles sont utilisées dans l'ordre numérique. Le narrateur montre comment faire correspondre les règles aux assertions en utilisant une série d'assertions, et comment on déclencherait une règle. Le narrateur nous dit également que les règles impuissantes, ou les règles qui ne font rien, ne doivent pas être renvoyées, mais à la place, il faut passer à la règle suivante dans l'ordre. Enfin, le narrateur explique comment ils ont fait correspondre les règles et les assertions, et comment ils ont ajouté de nouvelles assertions.

  • 00:45:00 Dans cette section de la vidéo, l'intervenant discute du processus d'appariement pour les systèmes basés sur des règles. L'exemple donné est celui d'une question de quiz, avec des règles et des affirmations numérotées. Le système utilise le chaînage arrière pour déterminer quelles règles correspondent aux assertions données, et dans ce cas, seules les règles 1, 2, 3 et 5 correspondent. L'orateur répond également à la question de savoir si les nouvelles assertions avec un numéro de règle inférieur doivent être traitées en premier, expliquant que le système donnera la priorité aux règles de numéro inférieur, qu'elles soient nouvelles ou non.
Mega-R1. Rule-Based Systems
Mega-R1. Rule-Based Systems
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterIn this mega-recitation, we cover Pr...
 

Méga-R2. Recherche de base, recherche optimale



Méga-R2. Recherche de base, recherche optimale

Cette vidéo YouTube couvre divers algorithmes et techniques de recherche, y compris la recherche en profondeur d'abord, la recherche en largeur d'abord, la recherche optimale et l'algorithme A*. La vidéo utilise un exemple amusant d'un Evil Overlord Mark Vader à la recherche d'un nouveau bastion pour illustrer ces concepts. Le présentateur souligne l'importance de l'admissibilité et de la cohérence dans la recherche de graphes et explique l'utilisation de listes étendues pour empêcher la réévaluation des nœuds. La vidéo aborde les erreurs et les questions courantes du public et encourage les téléspectateurs à en demander davantage. Dans l'ensemble, la vidéo fournit une introduction approfondie à ces algorithmes et techniques de recherche.

  • 00:00:00 Dans cette section, la vidéo présente le problème d'Evil Overlord Mark Vader à la recherche d'un nouveau bastion, en utilisant les techniques de recherche de départ qu'il a apprises en classe. Vader commence par son bastion actuel, l'étoile de recherche de la profondeur d'abord, et veut atteindre la forteresse 6:03, qui n'a aucune faiblesse et possède toutes les caractéristiques souhaitables telles que des sbires asservis, des requins avec des faisceaux laser et une excellente voie d'évacuation. La vidéo présente un graphique des choix d'exploration, où les bords rejoignent les bastions qui diffèrent par une seule caractéristique, et les téléspectateurs se voient proposer plusieurs méthodes pour effectuer une recherche, y compris l'approche fiable mais plus lente et l'approche rapide mais plus sujette aux erreurs.

  • 00:05:00 Dans cette section, le présentateur vidéo discute de différentes approches pour résoudre la recherche en profondeur d'abord. Bien qu'il existe une approche très rapide, elle est plus sujette aux erreurs et n'est généralement pas utilisée. Au lieu de cela, le présentateur recommande d'utiliser l'arbre d'objectifs et de commencer par le nœud de départ et de se terminer au nœud d'objectif, ce qui est un peu plus rapide que de dessiner tout l'agenda. Le présentateur explique également le concept de lexicographie et comment il est utilisé pour rompre les liens dans l'ordre alphabétique lors d'une recherche. De plus, la vidéo met en garde contre le fait de se mordre la queue, ce qui est une erreur courante lors de la mise en œuvre de règles dans un système. Enfin, le présentateur insiste sur l'importance de ne pas faire apparaître deux fois le même nœud dans le même chemin, car cela peut entraîner des erreurs.

  • 00:10:00 Dans cette section, l'orateur explique comment résoudre un problème de recherche en profondeur en utilisant un arbre d'objectifs au lieu d'une file d'attente. Ils commencent au nœud s et demandent au public de l'aide pour comprendre les choix à ce nœud. L'orateur insiste sur l'importance de vérifier la connectivité et de lire les instructions. Ils utilisent le tie-break lexicographique pour décider à quel nœud aller ensuite et revenir en arrière lorsqu'ils se trouvent dans une impasse. Ils mettent également en garde contre l'erreur de double comptage des retours en arrière et rappellent au public de faire attention au nombre de fois qu'ils reviennent en arrière.

  • 00:15:00 Dans cette section, l'orateur explique l'importance de l'algorithme lors d'une recherche, car il peut affecter le nombre d'étapes nécessaires pour trouver la solution. Ils discutent également de la technique de retour en arrière et donnent des conseils sur la façon d'en garder une trace pendant la recherche. L'orateur poursuit ensuite en démontrant comment effectuer une recherche en profondeur d'abord et suggère un moyen rapide de résoudre la question de recherche en profondeur d'abord. Ils soulignent que le chemin trouvé lors d'une recherche en largeur d'abord est garanti d'avoir le moins de sauts, et ils demandent d'étendre le graphique niveau par niveau de gauche à droite. Enfin, l'orateur clarifie l'utilisation de l'ordre type-rank dans une recherche en largeur d'abord.

  • 00:20:00 Dans cette section, l'intervenant insiste sur l'importance de ne pas trier les chemins de la file d'attente pour l'algorithme de recherche utilisé dans la vidéo. Ils expliquent que la meilleure recherche en premier ne rompra les liens que lorsqu'elle atteindra un nœud et qu'ils ajoutent toujours tout à la fin de la file d'attente, ce qui signifie qu'ils n'ont pas à revenir en arrière. Ils mentionnent également que si l'ordre graphique joue un rôle dans la recherche, il ne le fait que de manière subtile et sournoise. Enfin, ils discutent de la possibilité d'une recherche en largeur avec une liste étendue, qui peut être utilisée pour empêcher le programme de réévaluer les nœuds qu'il a déjà visités.

  • 00:25:00 Dans cette section de la vidéo, l'orateur discute de la recherche optimale en utilisant un exemple de Mark essayant de trouver le chemin le plus court de son univers actuel à son univers cible avec des coûts énergétiques variables entre les univers. Le graphique comprend les distances et les valeurs heuristiques données à chaque nœud, et l'orateur explique que l'algorithme utilisera les valeurs heuristiques pour guider la recherche vers le nœud cible tout en tenant compte du coût réel pour atteindre chaque nœud. L'algorithme utilisé est l'algorithme A-star qui étend les nœuds avec le coût réel et heuristique combiné le plus bas. L'orateur explique également l'importance d'utiliser une liste étendue pour éviter la répétition de la recherche et répond à une question sur l'ordre dans lequel les nœuds sont ajoutés à la recherche.

  • 00:30:00 Dans cette section, Mark introduit le concept de programmer le plus petit nombre de sauts d'univers qui l'amèneront au but sans utiliser trop d'énergie. Il explique sa simple recherche de branche et de liaison qui ressemble à une pizza au fromage, tandis qu'une recherche A-star est comme une pizza pour les amateurs de viande avec des garnitures supplémentaires. Cependant, ils peuvent s'affecter mutuellement, il est donc crucial de choisir le chemin actuellement le plus court. Dans l'exemple, l'ordinateur ajoute le nœud C à la liste étendue, le marquant comme le seul chemin d'une longueur de 0. La longueur de SB est de 3 et son coût de chemin est de 103, tandis que f est de 4 avec un coût de 14. Malgré l'ignorance des bris d'égalité dans l'ordre lexicographique, le chemin le plus court est choisi, et une fois que B est dépensé, il va à D avec une longueur de 4, et donc la longueur de chemin mise à jour vers G est de 7.

  • 00:35:00 Dans cette section, le locuteur continue avec l'algorithme de recherche optimal, en élargissant les chemins S, B, F et D. Le chemin E est ensuite étendu à H et A, et le chemin le plus court s'avère être SFHIG . L'orateur mentionne également l'utilisation de A-star comme algorithme de recherche plus efficace et répond aux questions du public sur l'expansion des nœuds qui figurent déjà sur la liste étendue. La bonne réponse est finalement obtenue, malgré une certaine confusion initiale quant à savoir si le chemin se connecte à C et D.

  • 00:40:00 Dans cette section, l'orateur discute de certaines erreurs commises dans la section précédente qui ont entraîné l'exclusion de certains nœuds de l'arbre final créé. Il précise que le nœud devrait également aller à "e", et que cela aurait fait une différence s'ils avaient demandé combien de fois un nœud avait été exécuté car il ne figurait pas sur la liste étendue. Ils abordent ensuite l'algorithme A-star et le calcul des valeurs heuristiques. Il est souligné qu'il est important de ne pas ajouter de valeurs heuristiques pour chaque nœud de la liste, mais plutôt d'ajouter le chemin jusqu'à présent à la valeur heuristique finale. Ils précisent également que la décision d'étendre le nœud "G" est une question de goût et un détail d'implémentation qui ne fera pas perdre de points sur le problème posé. Enfin, ils résolvent la recherche d'étoiles A et le gagnant final est déterminé comme étant le nœud "D" avec une valeur de 57.

  • 00:45:00 Dans cette section, la vidéo résume un algorithme de recherche appelé A* et montre comment l'utiliser de manière optimale pour trouver le chemin le plus court dans un graphe. La vidéo traite de l'importance d'avoir des heuristiques admissibles à chaque point du graphique. Admissible signifie que l'estimation de la quantité de travail restante est toujours une sous-estimation ou une prédiction exacte. Une heuristique qui est une surestimation amènera l'algorithme à penser qu'il doit faire plus de travail que nécessaire et pourrait ne pas explorer des nœuds importants. La vidéo parle également de cohérence, ce qui signifie que la distance entre les nœuds adjacents dans un graphique est inférieure à la différence d'heuristique entre ces nœuds. La vidéo souligne l'importance de comprendre ces concepts car ils seront probablement sur le quiz.

  • 00:50:00 Dans cette section, l'orateur explique les notions d'admissibilité et de cohérence dans la recherche de graphes. L'admissibilité est comme la cohérence, mais elle nécessite une cohérence entre chaque nœud et le nœud d'objectif. Tout graphe cohérent est toujours admissible, mais tous les graphes admissibles ne sont pas cohérents. Une liste étendue fonctionnera sur les graphiques admissibles car elle vérifie les estimations pour chaque nœud jusqu'au nœud d'objectif. Cependant, si les estimations dans les nœuds sont incorrectes, les parcourir dans le désordre viole l'hypothèse formulée lors de la décision d'utiliser la liste étendue. Le graphique présenté dans la vidéo est conçu de manière experte pour être un nœud d'objectif de goulot d'étranglement et contient des incohérences entre les nœuds, y compris I et H, qui s'avèrent être les seules incohérences importantes. Enfin, le conférencier encourage les téléspectateurs à poser toutes les questions qu'ils pourraient avoir sur ce sujet.
Mega-R2. Basic Search, Optimal Search
Mega-R2. Basic Search, Optimal Search
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterThis mega-recitation covers Problem ...
 

Méga-R3. Jeux, Minimax, Alpha-Bêta



Méga-R3. Jeux, Minimax, Alpha-Bêta

Cette vidéo couvre divers sujets liés à la théorie des jeux et à l'algorithme minimax, y compris le minimax régulier, les ajouts alpha-bêta, l'élagage alpha-bêta, l'évaluation statique, l'approfondissement progressif et la réorganisation des nœuds. L'instructeur fournit des explications et des démonstrations de ces concepts à l'aide d'exemples et demande au public de participer à la détermination des valeurs à différents nœuds dans un arbre de jeu. La vidéo se termine par une discussion sur les failles potentielles des fonctions heuristiques et des conseils pour le quiz à venir.

  • 00:00:00 Dans cette section, le conférencier introduit le concept de jeux et mentionne que l'accent sera mis sur les différentes composantes des jeux. Ils expliquent ensuite l'algorithme minimax régulier et comment déterminer la valeur minimax à un point particulier dans un arbre de jeu. À l'aide d'un exemple d'arbre de jeu, le conférencier guide le public à travers l'algorithme et détermine la valeur minimax à différents nœuds. Le principe de Blanche-Neige et la clause de grand-père sont également brièvement mentionnés.

  • 00:05:00 Dans cette section de la vidéo, l'orateur explique les ajouts alpha et bêta à la formule minimax dans la théorie des jeux. Il compare l'addition de ces chiffres à la guerre froide, où chaque camp essayait de trouver le meilleur résultat possible tout en se préparant au pire. Alpha et bêta représentent des nombres qui fournissent une sécurité intégrée ou le pire scénario pour chaque côté. L'orateur suggère que la recherche alpha-bêta est plus compliquée que minimax et peut être un défi pour certaines personnes. Cependant, il mentionne également que la maîtrise de la recherche alpha-bêta peut aider à comprendre et à résoudre les problèmes minimax.

  • 00:10:00 Dans cette section, le conférencier explique le concept d'alpha et de bêta comme options nucléaires pour le Maximizer et le Minimizer, respectivement. Définir alpha comme infini négatif et bêta comme infini positif crée une sécurité intégrée qui garantit que le Maximizer et le Minimizer examineront le premier chemin qu'ils voient à chaque fois. Au fur et à mesure que l'algorithme progresse, la valeur d'alpha et de bêta change en fonction du résultat potentiel du jeu. Lorsque la bêta devient inférieure à l'alpha ou que l'alpha devient inférieur à la bêta, l'algorithme élague la branche, signalant que l'un des joueurs ne veut plus explorer cette branche. Le conférencier note également qu'il existe différentes méthodes pour dessiner des nombres alpha et bêta à différents nœuds de l'arbre de jeu.

  • 00:15:00 Dans cette section, le conférencier explique le principe de Blanche-Neige utilisé dans l'algorithme alpha-bêta. Le principe consiste à hériter des valeurs alpha et bêta des nœuds parents mais en prenant la meilleure valeur pour soi en remontant vers un nœud parent. Les valeurs alpha et bêta par défaut ont également été discutées, l'alpha étant l'infini négatif et le bêta étant l'infini positif. L'orateur montre ensuite un exemple d'élagage alpha-bêta et demande au public de déterminer les valeurs alpha et bêta à chaque nœud de l'arbre de recherche. Une question piège est posée pour souligner que l'algorithme alpha-bêta peut éviter de rechercher certains nœuds en fonction des valeurs héritées des nœuds parents.

  • 00:20:00 Dans cette section, l'orateur explique le principe de l'élagage alpha-bêta, qui consiste à couper les branches d'un arbre de décision qui ne sont pas susceptibles de conduire à un meilleur résultat. L'orateur donne un exemple impliquant les options d'attaque nucléaire d'un ennemi et détermine les choix à élaguer en se basant sur le principe de l'élagage alpha-bêta. De plus, l'orateur fournit un test de santé mentale pour déterminer si une branche peut être élaguée ou non, et la capacité du Maximizer à déterminer s'il faut sauter une branche ou non, contrairement au minimiseur qui commence par l'infini dans le jeu de l'arbre de décision.

  • 00:25:00 Dans cette section de la vidéo, l'orateur discute du processus de détermination des valeurs alpha et bêta dans un algorithme minimax en analysant les valeurs à différents nœuds dans un arbre de jeu. L'orateur explique que lorsqu'il rencontre un nœud minimiseur, la valeur bêta est définie sur l'infini positif, et lorsqu'il rencontre un nœud maximiseur, la valeur alpha est définie sur l'infini négatif. L'orateur utilise ensuite des valeurs spécifiques dans un arbre de jeu pour démontrer comment l'algorithme fonctionne et comment les nœuds sont élagués lorsque la valeur alpha est supérieure ou égale à la valeur bêta. Enfin, l'orateur discute de l'ordre dans lequel les nœuds sont évalués dans un arbre de jeu en utilisant l'approfondissement progressif.

  • 00:30:00 Dans cette section, l'orateur explique le concept d'évaluation statique, qui est essentiellement la fonction chargée d'attribuer des valeurs numériques aux nœuds feuilles. L'évaluateur statique attribue ces valeurs au bas des feuilles et l'ordre d'évaluation se réfère uniquement aux feuilles. L'orateur explique également le principe de Blanche-Neige, selon lequel chaque nœud commence par prendre la valeur du même type de son grand-parent (alpha ou bêta). Le maximiseur n'a aucun contrôle sur le chemin à emprunter ; c'est le minimiseur qui sélectionne le chemin à suivre. Le concept d'évaluation statique est crucial pour la technique d'élagage alpha-bêta car il aide à déterminer s'il faut éliminer ou non un chemin particulier. Essentiellement, l'évaluation statique contribue à l'efficacité de l'algorithme, permettant à l'élagage alpha-bêta de gagner plus de temps en se débarrassant de quelques évaluations statiques.

  • 00:35:00 Dans cette section, l'orateur explique le concept des évaluations statiques, qui sont utilisées pour évaluer la position de l'échiquier dans des jeux comme les échecs. L'évaluation prend beaucoup de temps et nécessite une analyse minutieuse de l'état du jeu. Les nœuds feuilles de l'arbre de recherche sont appelés statiques car ce sont des suppositions heuristiques de la valeur basées sur l'analyse de l'état du jeu. L'orateur introduit également le concept d'approfondissement progressif sur un arbre qui n'a que deux niveaux de profondeur et demande comment l'arbre peut être réorganisé pour permettre à l'alpha-bêta de s'élaguer autant que possible.

  • 00:40:00 Dans cette section, l'instructeur explique comment utiliser l'algorithme minimax pour optimiser le processus de recherche du meilleur nœud en réorganisant les branches en fonction du gagnant potentiel, car il est plus facile de rejeter rapidement toutes les mauvaises lorsque le gagnant éventuel est choisi en premier. L'instructeur illustre ce concept en attribuant une valeur binaire à chaque nœud feuille et utilise les valeurs pour calculer le gagnant ultime pour chaque sous-arbre, trouvant ainsi le mouvement optimal. La combinaison de cette approche avec un approfondissement progressif réduirait considérablement le nombre de nœuds à évaluer.

  • 00:45:00 Dans cette section, le conférencier discute de l'approfondissement progressif et de la possibilité de réorganiser les nœuds pour améliorer l'élagage alpha-bêta. Alors que l'approfondissement progressif peut être une perte de temps pour les petits arbres non ramifiés, il est essentiel pour les arbres plus grands et plus complexes. Cependant, le concept de réorganisation des nœuds en fonction des résultats d'approfondissement progressif dépend de la précision de la fonction heuristique. Le conférencier souligne qu'aucune fonction heuristique n'est parfaite et qu'une fonction heuristique défectueuse pourrait conduire à de pires résultats lors de la réorganisation des nœuds. Enfin, le conférencier explique comment la mise en cache des valeurs heuristiques peut être effectuée pour des fonctions heuristiques cohérentes, comme dans les cas où la même valeur heuristique sera toujours associée à un état de jeu particulier, quelle que soit la manière dont l'état a été atteint.

  • 00:50:00 Dans cette section de la vidéo, l'instructeur discute de l'inconvénient potentiel de l'utilisation d'une heuristique qui donne toujours le pire coup au lieu du meilleur coup. Bien que cela puisse aider à minimiser les risques, cela pourrait également entraîner la pire taille possible, entraînant un manque de succès garanti. L'instructeur mentionne que le quiz à venir sera intéressant et comportera des défis variés. Cependant, il conseille aux étudiants de ne pas trop stresser et de profiter de leur week-end.
Mega-R3. Games, Minimax, Alpha-Beta
Mega-R3. Games, Minimax, Alpha-Beta
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterThis mega-recitation covers Problem ...
 

Méga-R4. Réseaux neuronaux



Méga-R4. Réseaux neuronaux

La vidéo couvre divers aspects des réseaux de neurones, y compris leurs représentations, la confusion sur les entrées et les sorties, les fonctions sigmoïdes et de performance, les poids et les biais, la rétropropagation, la modification des fonctions sigmoïdes et de performance, les poids de seuil, la visualisation et le potentiel des réseaux de neurones. L'instructeur explique diverses formules nécessaires au quiz et comment calculer et ajuster les deltas de manière récursive. Il discute également des types de réseaux de neurones nécessaires pour résoudre des problèmes simples et mentionne une application récente des réseaux de neurones dans le monde réel lors d'un concours de jeu à l'Université du Maryland. Enfin, il mentionne que si les réseaux de neurones sont tombés en disgrâce en raison de leurs limites et de leur complexité dans la recherche, ils sont toujours utiles pour les quiz.

  • 00:00:00 Dans cette section, Patrick présente une nouvelle façon de dessiner des réseaux de neurones pour les problèmes de 603. Il montre deux représentations différentes du même réseau de neurones et explique pourquoi celle de droite est préférable. Il discute également de certains problèmes que les étudiants rencontrent couramment lorsqu'ils travaillent avec des réseaux de neurones, tels que la confusion entre les entrées et les sorties et la multiplication implicite avec des poids. Patrick fournit un guide de conversion pour les étudiants qui travaillent avec des quiz plus anciens et travaille sur les formules nécessaires pour le quiz. Enfin, il mentionne la possibilité que la fonction sigmoïde soit changée en une fonction différente et conseille aux étudiants de la changer en plus si cela se produit.

  • 00:05:00 Dans cette section, l'instructeur explique la fonction sigmoïde, qui est 1 sur 1 plus e au moins x, et sa propriété importante, où la dérivée de sigmoïde est elle-même. La fonction de performance, qui indique aux réseaux de neurones à quel point leurs résultats sont erronés, est également discutée. Ils ont choisi que leur fonction de préférence soit 1/2 D, qui est la sortie souhaitée moins la sortie réelle au carré, et la raison en est que la dérivée de la performance est négative, ce qui facilite le calcul. L'instructeur parle ensuite de changer la fonction sigmoïde en une autre fonction et d'analyser ce qui arrive aux fonctions de rétropropagation, en particulier le nouveau calcul de poids, qui implique de changer les poids progressivement vers le résultat souhaité.

  • 00:10:00 Dans cette section, le conférencier explique les poids et les biais utilisés dans les réseaux de neurones. Les pondérations sont représentées par des noms tels que "w1I" et "w2B", où "I" et "B" sont des nœuds du réseau. Les décalages de biais sont toujours attachés à -1, et la valeur d'alpha, qui détermine la taille des étapes d'escalade, est donnée sur les quiz. Les entrées des nœuds sont représentées par "I" et elles sont multipliées par delta, qui est le changement de la sortie du réseau neuronal dû à un changement d'un poids spécifique. Les deltas sont calculés à l'aide de dérivées partielles pour déterminer dans quelle mesure les pondérations contribuent à la performance du net.

  • 00:15:00 Dans cette section, l'orateur discute du processus d'utilisation des dérivées et de la règle de la chaîne pour obtenir les poids finaux dans le dernier niveau des réseaux de neurones. La dérivée de la fonction sigmoïde est utilisée et les poids des couches précédentes doivent également être pris en compte afin de calculer les deltas pour les nouveaux poids. L'orateur propose une solution récursive, qui consiste à additionner tous les enfants d'un nœud donné, ce qui à son tour affecte la sortie. Ce processus est effectué de manière récursive jusqu'à l'obtention des deltas des poids finaux.

  • 00:20:00 Dans cette section, l'instructeur explique comment la modification de la fonction sigmoïde et de la fonction de performance peut avoir un impact sur les équations utilisées dans le réseau neuronal. Il explique que si la fonction sigmoïde est modifiée, la seule chose qui change est l'équation Delta F, qui est remplacée par la nouvelle dérivée de la fonction sigmoïde. De même, si la fonction de performance est remplacée, seule l'équation Delta F doit être ajustée. L'instructeur poursuit ensuite en expliquant la différence entre les poids de seuil et les poids réguliers dans un réseau neuronal et leur impact sur la fonction globale du réseau.

  • 00:25:00 Dans cette section, le conférencier explique comment visualiser les réseaux de neurones et comment il est important d'avoir une représentation qui a du sens pour vous afin de résoudre efficacement les problèmes. Il explique comment fonctionne un nœud additionneur et que sa dérivée n'en est qu'une. Il fournit une formule pour Delta F et Delta a et explique le processus de la partie B, qui consiste à calculer la sortie d'un réseau neuronal et à effectuer une propagation en arrière en une étape pour trouver les nouveaux poids. Il demande aux élèves de poser des questions pour clarifier leurs doutes car il ne pourra pas faire appel à tout le monde pour vérifier s'ils suivent.

  • 00:30:00 Dans cette section, la vidéo traite des nouveaux poids du réseau neuronal et de ce que serait la sortie après une étape de rétropropagation. Les nouveaux poids ont été calculés à l'aide des anciens poids, de la constante du taux d'apprentissage et des valeurs delta. La sortie a finalement été déterminée comme étant 3. La vidéo soulève ensuite la question de ce qui se passerait si le réseau était formé pour apprendre les données données et explique comment les réseaux de neurones peuvent tracer des lignes sur des graphiques pour chacun des nœuds du réseau. Cependant, il est à noter que prédire ce que ce filet va dessiner est un peu délicat.

  • 00:35:00 Dans cette section de la transcription, l'orateur discute d'un réseau de neurones qui se résume à un seul nœud car il s'additionne à chaque fois et ne prend jamais de seuil, ce qui le rend analogique au lieu de numérique. La forme simplifiée du réseau neuronal contient des nœuds représentés par des cercles où chaque cercle a un sigmoïde. Il y a un problème où ABCDEF doit être mis en correspondance avec un à six en utilisant chacun une seule fois. L'orateur explique que chaque nœud sigmoïde peut tracer une ligne dans l'image, qui peut être diagonale s'il reçoit les deux entrées ou horizontale/verticale si une entrée est reçue. Les nœuds de niveau secondaire peuvent effectuer une opération booléenne logique telle que et/ou sur les deux premiers. L'orateur procède ensuite à l'identification du problème le plus simple, qui est le problème 6, et conclut qu'il existe une cartographie individuelle de chaque réseau à un problème, qui peut résoudre les six problèmes ensemble.

  • 00:40:00 Dans cette section, l'orateur explique à quel point il est difficile de créer un X ou un réseau de neurones car il est difficile de faire la distinction entre les deux entrées qui doivent être élevées dans un seul nœud. Cependant, il existe de nombreuses possibilités, et l'orateur suggère d'utiliser le nœud 3 et le nœud 4 pour donner des valeurs et le nœud 5 pour fournir une combinaison de seuil qui se traduit par un XOR. L'orateur explique également que l'appariement de deux lignes horizontales comme B est impossible, mais comme D doit tracer une ligne horizontale et une ligne verticale, il doit utiliser B pour créer deux lignes horizontales.

  • 00:45:00 Dans cette section, l'orateur explique le but de l'exercice de dessin pour les réseaux de neurones. En dessinant des problèmes simples, les gens peuvent voir les types de réseaux de neurones qui peuvent être nécessaires pour les résoudre. Cela peut aider les gens à éviter de concevoir des réseaux de neurones trop simples ou trop complexes pour un problème donné. L'orateur donne également un exemple d'une application récente dans le monde réel des réseaux de neurones dans une compétition de jeu à l'Université du Maryland.

  • 00:50:00 Dans cette section de la vidéo, l'orateur discute du potentiel des réseaux de neurones dans l'apprentissage de différentes tâches et règles. Il décrit une expérience où un réseau de neurones a été formé pour apprendre quoi que ce soit à partir d'un ensemble de données aléatoires, et bien que les résultats de l'expérience n'étaient pas clairs, d'autres participants à l'étude ont tenté de trouver les propriétés fondamentales des règles grâce à des tests expérimentaux. L'orateur poursuit en expliquant que les réseaux de neurones ont été utilisés dans de nombreux domaines de recherche, notamment les sciences cognitives et l'intelligence artificielle, mais qu'ils sont tombés en disgrâce en raison de leurs limites et de leur complexité. Malgré cela, l'orateur mentionne qu'ils créent des réseaux simples à des fins de quiz, bien qu'il précise que tout réseau neuronal réel utilisé dans la recherche aujourd'hui serait trop compliqué pour un quiz.
Mega-R4. Neural Nets
Mega-R4. Neural Nets
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterWe begin by discussing neural net fo...
 

Méga-R5. Soutenir les machines vectorielles



Méga-R5. Soutenir les machines vectorielles

La vidéo explique les machines à vecteurs de support (SVM), qui déterminent la ligne de démarcation ou les limites de décision dans les données en trouvant les vecteurs de support qui ne sont pas identiques à tout autre point de données. Il inclut également l'utilisation de fonctions du noyau qui permettent au noyau de calculer le produit scalaire sans manipuler directement les vecteurs. Le professeur clarifie l'objectif de trouver les Alphas qui fournissent le meilleur W pour la route la plus large et comment W est la limite de décision pour SVM. Les étudiants se renseignent sur l'intuition derrière SVM, et l'optimisation basée sur Alphas crée la route la plus large pour une meilleure classification des données. SVM Kernel aide également à optimiser le processus, le rendant plus efficace.

  • 00:00:00 Dans cette section, l'orateur présente les machines à vecteurs de support (SVM) et déclare qu'elles sont l'une des choses les plus difficiles à apprendre dans le cours. Cependant, il explique qu'il existe maintenant des raccourcis disponibles qui peuvent aider à résoudre certains problèmes sans avoir à traiter de vastes ensembles complexes d'équations. Le problème à résoudre nécessite d'encercler les vecteurs de support, de dessiner les bords de la rue, d'illustrer la ligne pointillée au milieu et de donner à la fois W et B. L'orateur explique ensuite les équations importantes dans les SVM et comment trouver la ligne pointillée en utilisant deux coefficients et une équation linéaire, où W1 et W2 sont deux coefficients et X1 et X2 sont deux composantes du vecteur X.

  • 00:05:00 Dans cette section, la vidéo traite de l'équation d'une ligne en coordonnées cartésiennes et de son lien avec l'équation W point X plus B égal à 0 dans les machines à vecteurs de support. La vidéo explique que les alphas sont utilisés pour déterminer l'importance de chaque point dans la création de la frontière, et que les alphas positifs sont égaux aux alphas négatifs. La vidéo fournit également des équations à utiliser lors de la résolution de W et B, et mentionne que les vecteurs de support sont importants pour déterminer la solution. Le présentateur précise que les vecteurs de support sont des vecteurs sur les lignes de démarcation et que le but est de les encercler.

  • 00:10:00 Dans cette section, l'orateur aborde la question de savoir ce qu'est un vecteur de support et précise que dans les problèmes plus complexes, où il existe de nombreuses dimensions, les vecteurs sont utilisés pour représenter les points de données lorsqu'ils ne peuvent pas être représentés graphiquement sur deux -plan dimensionnel. L'orateur explique que les vecteurs de support sont les points qui lient l'hyperplan et sont trouvés en essayant d'avoir l'espace le plus large possible entre les points de données positifs et négatifs. De plus, l'orateur note que parfois le troisième vecteur de support peut ne pas exister, et ils illustrent leur propos avec un exemple d'une paire de points sur un plan.

  • 00:15:00 Dans cette section, l'orateur explique comment trouver W et B dans une machine à vecteurs de support. Au lieu d'utiliser l'ancienne méthode consistant à insérer des points dans une équation, l'orateur introduit une stratégie bon marché en convertissant l'équation sous la forme y = mx + b. En posant y = x - 1, l'orateur montre comment cela peut être utilisé pour trouver une nouvelle équation y = -w1/w2 - b/w2. En utilisant cette forme, le locuteur montre qu'il existe une infinité d'équations possibles et que w1/w2 est un multiple scalaire de -1 et B/w2 est un multiple scalaire de 1.

  • 00:20:00 Dans cette section, l'orateur explique comment déterminer la valeur de K afin de calculer W1, W2 et B pour une machine à vecteurs de support. L'amplitude de W peut être calculée en utilisant la racine carrée de la somme des composants au carré, ce qui équivaut à la racine 2 sur 4. Puisque le rapport de W1 et W2 est égal à moins 1, lorsqu'il est au carré, W1 au carré est égal à W2 au carré. Ainsi, en utilisant cette formule, W1 est calculé comme étant négatif 1/4, et puisque W1 est négatif, W2 et B sont égaux à 1/4 positif. L'orateur suggère également que les valeurs alpha plus et alpha moins sont égales sur la base d'une équation.

  • 00:25:00 Dans cette section, l'orateur continue à travailler à travers des exemples de machines à vecteurs de support. L'orateur note que dans l'exemple numéro deux, un signe moins supplémentaire a été ajouté. Ils expliquent ensuite comment déterminer le vecteur de support compte tenu de ce nouveau signe négatif. Les calculs pour déterminer la distance sont affichés, et la magnitude de W se trouve être la racine 2 sur 3. L'orateur note que les alphas prennent plus de temps à calculer dans cet exemple en raison de l'ajout de nouveaux points, mais la réponse finale est obtenue .

  • 00:30:00 Dans cette section, l'accent est mis sur l'utilisation de machines à vecteurs de support sur un vecteur unidimensionnel, ce qui rend une ligne de base linéaire inadaptée à la classification des données. Pour résoudre ce problème, une fonction noyau est utilisée pour amener les données dans une nouvelle dimension. La fonction est généralement appelée Phi et, lorsqu'elle est appliquée au vecteur X, elle l'amène dans cette nouvelle dimension. Dans cette nouvelle dimension, une ligne droite peut être tracée pour classer les données. L'inventeur des SVM s'est rendu compte qu'il n'était pas nécessaire de travailler avec la fonction Phi, même si c'est un monstre affreux, puisque le noyau peut être utilisé pour calculer le produit scalaire entre deux vecteurs dans la nouvelle dimension sans calculer explicitement Phi.

  • 00:35:00 Dans cette section, l'orateur explique comment utiliser une fonction noyau pour trouver le produit scalaire de deux vecteurs dans un espace régulier, ce qui élimine le besoin d'utiliser directement les vecteurs eux-mêmes. En mettant les vecteurs X et Z dans le noyau, la fonction résultante renverra Phi de X en pointillé avec Phi de Z, qui remplace le produit scalaire des deux vecteurs. L'orateur donne un exemple de fonction noyau et invite le public à trouver la fonction Phi correspondante afin de résoudre le quiz. L'orateur note également que bien que le calcul des alphas pour les SVM puisse être compliqué, l'utilisation de la fonction noyau est un raccourci utile pour éliminer le besoin de manipulation vectorielle directe.

  • 00:40:00 Dans cette section, l'orateur discute de la représentation graphique des points dans une nouvelle dimension en utilisant leurs valeurs de cosinus et de sinus. Les plus et les moins sont affichés ainsi que leurs valeurs respectives de cosinus et de sinus. Il y a trois points dans le deuxième quadrant et trois points dans le troisième quadrant. L'orateur discute ensuite de la distinction entre deux négatifs et de la manière de localiser les vecteurs de support, qui se trouvent être les points négatifs et positifs sur la bissectrice perpendiculaire. Les deux points négatifs sont sur la même ligne et sont encerclés au lieu d'être sur les côtés opposés de la bissectrice.

  • 00:45:00 Dans cette section, le professeur explique l'idée derrière les vecteurs de support et leur utilisation dans SVM. Il précise qu'un vecteur de support n'est pas le même qu'un autre point de données et que la ligne de démarcation ou les limites créées par SVM sont déterminées par ces vecteurs. Dans les données de test, la ligne pointillée est la limite de décision pour SVM. L'algorithme optimise les Alphas en vérifiant mathématiquement la combinaison des Alphas qui donne le meilleur W pour la route la plus large. Les étudiants interrogent l'intuition derrière SVM, et le professeur explique que W est la frontière de décision, et l'optimisation basée sur Alphas crée la voie la plus large pour mieux classer les données. Le SVM Kerne aide également à optimiser le processus d'optimisation, le rendant plus simple et efficace.
Mega-R5. Support Vector Machines
Mega-R5. Support Vector Machines
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterWe start by discussing what a suppor...
 

Méga-R6. Booster



Méga-R6. Booster

Dans la vidéo "Mega-R6. Boosting", l'orateur explique le concept de boosting dans l'apprentissage automatique et montre le processus de sélection des bons classificateurs pour minimiser les erreurs. Ils donnent un exemple d'identification des vampires en fonction de certaines qualités et discutent de la manière de choisir les classificateurs les plus efficaces. Les classificateurs sélectionnés sont utilisés pour créer un classificateur final qui est appliqué aux points de données pour déterminer combien sont classés correctement. L'orateur souligne également qu'il est important de choisir quand arrêter le processus et reconnaît qu'il n'est pas toujours possible d'atteindre une précision totale.

  • 00:00:00 Dans cette section, l'orateur aborde le concept de boosting dans l'apprentissage automatique, qui implique une série de classificateurs différents. Le problème utilisé comme exemple consiste à identifier les vampires en fonction de diverses qualités telles que le mal, l'emo, l'éclat et le nombre d'intérêts romantiques. La clé du boosting est que pour tout classificateur possible, tant qu'il ne s'agit pas d'une répartition 50/50 des données, il peut être utilisé d'une manière ou d'une autre pour créer un classificateur supérieur. De plus, l'orateur note qu'il y a en fait plus de classificateurs que ceux répertoriés, car beaucoup d'entre eux ont des versions opposées qui sont ignorées pour ce problème particulier.

  • 00:05:00 Dans cette section, l'orateur explique comment une répartition 50/50 pour le boost est inutile car c'est aussi bon que de lancer une pièce. Cependant, dans certains cas, un classificateur qui est pire que 50/50 est toujours meilleur qu'un classificateur 50/50. Les cycles ultérieurs de boosting nécessitent de modifier les poids de chaque point de données, et le classificateur qui fonctionne le mieux sera celui qui obtiendra le plus de poids. Bien que les classificateurs qui obtiennent moins de la moitié du poids correct conviennent généralement, l'orateur recommande d'utiliser leurs inverses pour obtenir plus de la moitié du poids correct.

  • 00:10:00 Dans cette section, l'orateur passe en revue chaque classificateur et détermine quels points de données sont mal classés. En supposant que toutes les choses perverses sont des vampires et que toutes les choses non perverses ne sont pas des vampires, ils déterminent qu'ils se trompent sur les anges, Edward Cullen, Saya Otonashi et Lestat de Lioncourt lorsque le mal est égal à non. Une logique similaire est appliquée aux personnages emo et aux personnages transformants. Cependant, lorsque brillant est égal à oui, ils se trompent de un, deux, quatre, cinq, six, sept et huit, et lorsque le nombre d'intérêts romantiques est supérieur à deux, ils se trompent sur Searcy et Edward Cullen. En ce qui concerne le nombre d'intérêts romantiques supérieurs à quatre, aucun personnage n'entre dans cette catégorie, donc aucun n'est mal classé.

  • 00:15:00 Dans cette section de la vidéo, l'orateur discute de la classification des vampires et des classificateurs susceptibles d'être incorrects. L'orateur note qu'il existe certains classificateurs positifs qui conduiront inévitablement à des classificateurs négatifs incorrects. L'orateur énumère ensuite plusieurs classificateurs et affirme que dans leurs rêves les plus fous, les individus n'en utiliseraient jamais que six. L'orateur demande l'avis des téléspectateurs sur les classificateurs qu'ils jugent utiles et encercle ceux qui valent la peine d'être utilisés. Les classificateurs considérés comme utiles sont ceux qui ne se trompent que très peu, comme les classificateurs E et F.

  • 00:20:00 Dans cette section, l'orateur explique le processus de sélection des six points de données corrects pour le boosting dans Mega-R6. Un point clé est que bien qu'il existe de nombreux points de données différents parmi lesquels choisir, certains d'entre eux sont strictement meilleurs que d'autres. Par exemple, le point de données F est toujours pire que E, il ne doit donc jamais être choisi. L'orateur note également que lors de la sélection des six points de données, il est important de choisir ceux qui n'ont pas un sous-ensemble strict des mêmes réponses incorrectes. Le processus de sélection des six points de données nécessite un examen attentif du poids de chaque point de données afin de minimiser les erreurs.

  • 00:25:00 Dans cette section de la vidéo, le présentateur explique le processus de boosting et comment sélectionner les meilleurs classificateurs pour la tâche. Il explique comment rayer tous les classificateurs inutiles et comment choisir ceux qui minimisent l'erreur. Le présentateur passe ensuite à la démonstration du processus de renforcement, en commençant par pondérer les dix points de données de manière égale et en sélectionnant le classificateur E comme le meilleur. L'erreur est alors calculée à un cinquième et le processus continue à partir de là.

  • 00:30:00 Dans cette section de la vidéo, le présentateur explique comment prendre toutes les décisions prises par un classificateur droit. Ce processus implique de changer les poids de chaque décision pour qu'ils soient 1/2 pour ceux qui étaient corrects et 1/2 pour ceux qui étaient incorrects. Le présentateur décrit une méthode pour automatiser ce processus, qui consiste à réécrire les poids de manière à faciliter leur addition et à choisir la meilleure décision. Dans cet exemple, la décision avec la plus petite quantité d'erreur est choisie.

  • 00:35:00 Dans cette section, l'orateur discute du processus de détermination du meilleur classificateur dans le jeu de boost Mega-R6. La transcription comprend des calculs impliquant la somme des nombres à l'intérieur et à l'extérieur des cercles et le processus de modification des nombres dans le cercle pour faciliter la détermination du meilleur classificateur. L'orateur déclare qu'il est important d'ignorer les tours précédents et de ne considérer que les poids actuels lors de la détermination d'un classificateur. L'orateur explique également que les classificateurs ne peuvent pas être utilisés deux fois de suite et explique la raison de cette caractéristique de conception. Le meilleur classificateur est déterminé comme étant A car il a eu le moins de mauvaises réponses.

  • 00:40:00 Dans cette section de la transcription, l'orateur explique comment calculer le classificateur final à l'aide de la méthode de renforcement. Le classificateur final est une combinaison des classificateurs pondérés qui ont été utilisés pour le créer. L'orateur applique ensuite le classificateur final à dix points de données pour déterminer combien sont classés correctement, en utilisant un simple vote pour déterminer la sortie. Un point de données, Edward Cullen de Twilight, est incorrect car deux classificateurs sur trois ne l'ont pas classé comme vampire.

  • 00:45:00 Dans cette section de la vidéo, l'orateur discute de divers personnages comme étant soit mauvais, emo ou vampire en fonction de leurs caractéristiques et de leurs intérêts amoureux, et de la précision d'un algorithme de renforcement pour les classer. La discussion mène à une question sur l'utilisation de plusieurs classificateurs pour accélérer le processus de classification, ce qui, selon l'orateur, est correct dans une certaine mesure, mais nécessite de passer par un plus grand nombre de classificateurs. L'orateur souligne également que le processus de convergence pour que tout soit correct n'est pas toujours facile et peut nécessiter de choisir de s'arrêter après un certain nombre de tours.
Mega-R6. Boosting
Mega-R6. Boosting
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterThis mega-recitation covers the boos...
 

Méga-R7. Quasi-accidents, Arch Learning



Méga-R7. Quasi-accidents, Arch Learning

Dans la vidéo, le concept d'apprentissage quasi-accidentel est introduit, impliquant l'apprentissage de différents types de sources lumineuses et de leurs caractéristiques. L'approche Arch Learning utilise six heuristiques pour affiner un modèle, notamment le lien requis, le lien interdit, l'arbre grimpant, l'ensemble étendu, l'intervalle fermé et le lien supprimé. La vidéo traite de diverses techniques utilisées dans l'apprentissage automatique, telles que l'ensemble étendu, l'arbre grimpant, l'intervalle fermé et le lien de suppression. Les conférenciers évoquent également les problèmes liés à la fragilité et à la vulnérabilité du modèle Arch Learning à la commande, ce qui entraîne des réactions incohérentes face à des informations contradictoires. La vidéo aborde également le concept de généralisation pour le Mega-R7 et en quoi il diffère des modèles précédents. De plus, les compromis entre l'apprentissage irlandais et l'apprentissage en réseau en termes de capacité à exprimer des sous-ensembles d'informations sont discutés, ainsi que l'enseignement du système à l'aide de plusieurs modèles avec différents détails de mise en œuvre.

  • 00:00:00 Dans cette section, le concept d'arbre d'apprentissage quasi-accidentel est introduit, qui implique l'apprentissage de différents types de sources lumineuses et de leurs caractéristiques. Le modèle de départ est une ampoule à incandescence à culot plat et abat-jour, alimentée à l'électricité. L'approche d'apprentissage d'arche implique l'utilisation de six heuristiques, notamment le lien requis, le lien interdit, l'arborescence grimpante, l'ensemble étendu, l'intervalle fermé et le lien de suppression. Require link fait d'une fonctionnalité précédemment non pertinente une exigence, et forbid link interdit une fonctionnalité. Ces heuristiques aident à affiner le modèle en rendant certaines fonctionnalités nécessaires ou inutiles, et peuvent aider à identifier les scénarios de quasi-accident.

  • 00:05:00 Dans cette section, l'orateur discute de diverses techniques utilisées dans l'apprentissage automatique, notamment l'ensemble étendu, l'arbre grimpant, l'intervalle fermé et le lien de suppression. La technique de l'ensemble étendu consiste à créer un ensemble d'exemples positifs mais en interdisant certains éléments pour gagner de la place. La technique de l'arbre grimpant remonte dans l'arbre pour créer un modèle plus généralisé, tandis que l'intervalle fermé couvre tout l'intervalle pour le rendre acceptable. La technique du drop link permet au système d'être parcimonieux en droppant un lien si tous les éléments sont acceptables. L'orateur passe ensuite en revue l'utilisation de chaque technique et souligne l'importance des connaissances en apprentissage automatique pour rendre le modèle plus acceptant de nouveaux exemples et pour accélérer le temps du quiz.

  • 00:10:00 Dans cette section, la vidéo discute de l'idée d'un généraliseur et de la manière dont il peut être étendu à des exemples positifs ou agrandi pour des intervalles rapprochés. Cependant, s'il y a un exemple négatif, cela peut compliquer le système et la mise en œuvre peut devoir s'adapter. La vidéo fournit ensuite un exemple de lampe et comment le modèle peut être adapté à l'aide de l'heuristique de généralisation pour généraliser l'intervalle lorsqu'il existe un exemple positif. S'il y a un exemple négatif, la mise en œuvre peut devoir utiliser l'approche de liaison directe pour que le système fonctionne efficacement.

  • 00:15:00 Dans cette section de la vidéo, les conférenciers discutent de quelques problèmes liés au modèle Arch Learning, qui est un type de modèle d'apprentissage automatique développé dans les années 1960. Ils décrivent à quel point le système est fragile et particulièrement vulnérable à l'ordre, ce qui signifie que l'ordre dans lequel les données sont présentées peut avoir un impact considérable sur la capacité d'apprentissage du système. De plus, ils expliquent comment le système peut être incohérent et mal réagir à des informations contradictoires. Les conférenciers expliquent également un type d'apprentissage alternatif appelé apprentissage en réseau, qui stocke tous les exemples qu'il a vus et les compare et les oppose à de nouveaux exemples, ce qui lui permet d'identifier des modèles et d'affiner sa compréhension d'un sujet.

  • 00:20:00 Dans cette section, la vidéo aborde le concept d'arch learning, un système qui intentionnellement ne se souvient pas des choses pour rechercher l'élégance et la simplicité. Cette section compare l'idée à un bébé qui ne peut pas vous parler d'un bloc avec lequel il a joué auparavant car il ne stocke pas et ne se souvient pas de tout ce qu'il a vécu. Cependant, les humains sont de bons enseignants et offrent des exemples appropriés dont une machine peut apprendre. La vidéo explique également comment généraliser le coup en grimpant à l'arbre au lieu de définir l'étendue pour qu'elle soit plus parcimonieuse, élégante et simple. Enfin, un exemple de lampe fluorescente est discuté, et l'heuristique utilisée pour la généralisation est de grimper l'arbre d'une base plate à un support de base lui-même.

  • 00:25:00 Dans cette section, l'orateur discute d'un nouveau modèle pour le Mega-R7 et en quoi il diffère des précédents. Ils passent en revue quelques exemples de quasi-accidents, qui sont des cas où le système rencontre des entrées similaires mais pas tout à fait identiques à ce qu'il a vu auparavant. Le conférencier explique que ces quasi-accidents ne nécessitent aucune modification du modèle et qu'il est acceptable de les laisser tels quels. De plus, l'orateur répond à une question de savoir si un exemple négatif, tel que fluorescent, serait considéré comme un quasi-accident, auquel il répond que ce ne serait pas le cas parce que le système est sans mémoire et ne sait pas que fluorescent était un exemple positif. .

  • 00:30:00 Dans cette section, l'orateur discute des compromis entre l'apprentissage irlandais et l'apprentissage en réseau en termes de capacité à exprimer des sous-ensembles d'informations. L'apprentissage de l'irlandais, tout en étant sans mémoire, ne peut pas exprimer un sous-ensemble comme acceptable sans en voir un exemple positif, ce qui peut entraîner une perte d'expressivité. Cependant, ce problème est résolu dans l'apprentissage par treillis, mais il a son propre ensemble de problèmes. L'orateur souligne également comment enseigner le système, par exemple en présentant plusieurs modèles qui répondent à l'exigence d'avoir un support de base tout en utilisant différentes ampoules et sources d'électricité. Les détails de mise en œuvre doivent être demandés et clarifiés, car choisir l'un plutôt que l'autre pourrait conduire à des résultats différents.
Mega-R7. Near Misses, Arch Learning
Mega-R7. Near Misses, Arch Learning
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterThis mega-recitation covers a questi...
 

AlphaGo - Le film | Documentaire complet primé



AlphaGo - Le film | Documentaire complet primé

Un documentaire sur le développement du programme informatique AlphaGo, conçu pour battre les joueurs humains au jeu de Go. Le film suit la victoire du programme sur un joueur humain champion du monde dans un match de cinq matchs. Certains téléspectateurs pensent que la victoire d'AlphaGo pourrait annoncer la fin de la race humaine telle que nous la connaissons, car les machines deviennent de plus en plus performantes pour effectuer des tâches cognitives.

  • 00:00:00 Cette vidéo parle d'AlphaGo, un programme informatique qui a battu un joueur humain champion du monde au jeu de Go. La vidéo décrit l'importance de la victoire d'AlphaGo et montre des images de l'ordinateur jouant contre un joueur humain. La société derrière AlphaGo, DeepMind, souhaite inviter le joueur de go le plus fort au monde, Demyster Harbis, à visiter ses bureaux à Londres pour voir le projet en action. Si vous êtes intéressé à y assister, ils vous en seraient très reconnaissants !

  • 00:05:00 AlphaGo, un programme informatique développé par DeepMind, bat le joueur professionnel de Go Lee Sedol dans un match de cinq matchs. Le documentaire suit les efforts de l'équipe pour développer et former le programme, et le match lui-même.

  • 00:10:00 AlphaGo, un programme informatique développé par Google, bat le champion d'Europe de Go Lee Sedol dans un match de cinq matchs. Le documentaire suit le développement d'AlphaGo et les préparatifs du match. Malgré le scepticisme initial, le public est largement impressionné par les performances d'AlphaGo, certains y voyant même un signe de la fin de la domination humaine dans le domaine de l'intelligence artificielle.

  • 00:15:00 AlphaGo, un programme informatique conçu pour battre des champions humains au jeu de Go, a été publiquement battu par un joueur humain, Lee Sedol, lors d'un match organisé la semaine dernière. La vidéo traite de l'importance de la perte, ainsi que des efforts continus de l'équipe AlphaGo pour améliorer son système.

  • 00:20:00 AlphaGo, un programme informatique dont on dit qu'il est "le meilleur joueur de go du monde", affronte un joueur humain professionnel dans un match de cinq matchs. Fanway est un conseiller de l'équipe et aide à améliorer leur stratégie.

  • 00:25:00 AlphaGo doit affronter le joueur de go professionnel sud-coréen, Lee Sedol, demain dans un match historique. Le documentaire suit l'équipe alors qu'elle se prépare pour le match et discute de ses attentes.

  • 00:30:00 AlphaGo, un programme informatique qui a vaincu un champion humain dans un jeu de société, fait l'objet d'un documentaire complet primé. Le documentaire suit le développement du programme et son affrontement réussi contre un adversaire humain.

  • 00:35:00 AlphaGo, un programme informatique développé par Google, bat un joueur humain champion du monde dans un match de cinq matchs. Le succès du programme en surprend plus d'un, tout comme sa capacité à apprendre de son expérience.

  • 00:40:00 AlphaGo, un programme informatique développé par DeepMind, a battu un joueur de go professionnel dans un match de cinq matchs. Le programme informatique a été développé par des humains et est considéré comme une percée dans l'intelligence artificielle, la recherche.

  • 00:45:00 AlphaGo, un programme informatique conçu pour vaincre un joueur professionnel humain dans une partie de Go, a stupéfié les observateurs avec ses performances dans le deuxième match du Google DeepMind Challenge. Le réseau de politiques, le réseau de valeur et la recherche d'arborescence de l'IA ont tous été très efficaces pour prédire le meilleur coup pour la situation de jeu en cours, menant à une victoire pour AlphaGo.

  • 00:50:00 AlphaGo, un programme informatique développé par Google, a remporté un match de championnat contre un joueur humain de renommée mondiale. Le documentaire examine le match et l'importance de la victoire d'AlphaGo.

  • 00:55:00 AlphaGo a remporté deux matchs sur trois contre un joueur humain champion du monde, mais la tristesse et le sentiment de perte parmi le public sont palpables. AlphaGo n'est qu'un programme informatique, mais les commentateurs s'y réfèrent comme s'il s'agissait d'un être conscient et s'inquiètent des implications de son pouvoir croissant.
AlphaGo - The Movie | Full award-winning documentary
AlphaGo - The Movie | Full award-winning documentary
  • 2020.03.13
  • www.youtube.com
With more board configurations than there are atoms in the universe, the ancient Chinese game of Go has long been considered a grand challenge for artificial...
 

Deepmind AlphaZero - Maîtriser des jeux sans connaissance humaine



Deepmind AlphaZero - Maîtriser des jeux sans connaissance humaine

La vidéo explore le développement de l'architecture d'apprentissage par renforcement profond de DeepMind, AlphaZero, qui utilise une politique unifiée et un réseau de valeurs pour réussir dans des jeux avec d'énormes espaces d'état sans aucune donnée humaine préalable. L'algorithme d'AlphaZero implique la formation d'un réseau de neurones pour prédire l'action choisie par une recherche arborescente complète de Monte Carlo, distillant de manière itérative les connaissances pour générer des joueurs plus forts au fil du temps. L'algorithme a montré des courbes d'apprentissage impressionnantes, surpassant les versions précédentes en seulement quelques heures de formation et affichant une évolutivité remarquable malgré l'évaluation de moins de positions que les moteurs de recherche précédents. La vidéo traite également de la capacité d'AlphaZero à combiner le meilleur des approches humaines et automatiques tout en montrant un potentiel d'apprentissage par renforcement à usage général.

  • 00:00:00 Dans cette section de la vidéo, David discute d'AlphaGo, la version originale de l'architecture d'apprentissage par renforcement profond de DeepMind qui a pu vaincre un joueur professionnel humain et champion du monde. AlphaGo utilise deux réseaux de neurones convolutifs : un réseau de politiques, qui recommande des mouvements de jeu basés sur une distribution de probabilités, et un réseau de valeurs, qui prédit le gagnant du jeu. Les réseaux sont formés par apprentissage supervisé et apprentissage par renforcement sur un ensemble de données humaines et des jeux joués contre lui-même. Le succès d'AlphaGo dans le jeu de Go démontre le potentiel de l'apprentissage automatique et des approches basées sur l'intelligence artificielle pour réussir dans des jeux avec d'énormes espaces d'état.

  • 00:05:00 Dans cette section, l'orateur discute du pipeline de formation d'AlphaGo et de la manière dont il utilise le réseau de politiques et le réseau de valeurs pour rendre la recherche plus maniable compte tenu de l'immensité du bassin de recherche dans le jeu de Go. Le réseau de politique suggère des mouvements pour réduire l'étendue de l'arbre de recherche, tandis que le réseau de valeur prédit le gagnant du jeu à partir de n'importe quelle position pour réduire la profondeur de la recherche. Cela permet à l'algorithme de rechercher efficacement dans des parties importantes de l'arbre à l'aide de la recherche arborescente de Monte Carlo, qui développe efficacement un grand arbre de recherche de manière sélective en ne considérant que les parties les plus pertinentes. Cela a conduit au développement d'AlphaGo Master, qui a été formé avec des réseaux plus profonds et plus d'itérations d'apprentissage par renforcement, remportant 60 matchs à zéro contre les joueurs humains les mieux classés au monde.

  • 00:10:00 Dans cette section, l'orateur décrit le développement d'AlphaGo Zero, qui apprend à jouer au jeu de Go sans aucune donnée humaine préalable, en partant de jeux complètement aléatoires et en utilisant uniquement les règles du jeu. AlphaGo Zero diffère de l'AlphaGo original en ce qu'il n'utilise aucune fonctionnalité artisanale, unifie le réseau de politiques et le réseau de valeurs, utilise une recherche plus simple sans déploiements aléatoires de Monte Carlo et a une approche plus simple pour réduire la complexité, ce qui conduit à une plus grande généralité, potentiellement applicable dans n'importe quel domaine. L'algorithme d'AlphaGo Zero consiste à exécuter une recherche arborescente de Monte Carlo en utilisant le réseau neuronal actuel pour chaque position et à jouer le mouvement suggéré, puis à former un nouveau réseau neuronal à partir des positions atteintes dans le jeu terminé.

  • 00:15:00 Dans cette section, l'orateur explique le processus de l'algorithme AlphaGo Zero, qui consiste à former un réseau de neurones pour prédire directement l'action qui a été choisie par l'ensemble d'un Monte Carlo Tree Search (MCTS) pour distiller toutes les connaissances dans son comportement direct et former un nouveau réseau de valeur pour prédire le gagnant du jeu. La procédure est itérée pour générer un joueur plus fort à chaque fois et générer des données de meilleure qualité, conduisant à un jeu de plus en plus fort. AlphaGo Zero utilise l'amélioration des politiques basée sur la recherche en incorporant sa recherche dans l'évaluation des politiques, ce qui permet d'obtenir des résultats de haute qualité et des signaux de formation précis pour les réseaux de neurones. La courbe d'apprentissage montre qu'AlphaGo Zero a dépassé les versions précédentes en seulement 72 heures et a battu les joueurs humains de 60 après 21 jours.

  • 00:20:00 Dans cette section, l'orateur discute des différentes versions d'AlphaGo qui ont été développées, à partir de la version originale qui a battu le champion d'Europe par cinq matchs à zéro jusqu'à l'AlphaGo Zero, qui a été entièrement entraîné à partir de poids aléatoires et a été environ 5 000 Elo, ce qui en fait la version la plus puissante d'AlphaGo. La nouvelle version, AlphaZero, applique le même algorithme à trois jeux différents : les échecs, le shogi et le go. Le jeu d'échecs, en particulier, a été un domaine très étudié en IA, les échecs informatiques étant le domaine le plus étudié de l'histoire de l'intelligence artificielle, aboutissant à des systèmes hautement spécialisés qui sont actuellement incontestablement meilleurs que les humains.

  • 00:25:00 Dans cette section, l'orateur discute de la complexité du jeu de shogi, qui est plus difficile à calculer et a un espace d'action plus grand et plus intéressant que les échecs. Il explique que les programmes informatiques les plus puissants pour le shogi n'ont atteint que récemment le niveau de champion du monde humain, ce qui en fait une étude de cas intéressante pour DeepMind. Les moteurs de pointe pour les échecs et le shogi sont basés sur la recherche alpha-bêta, qui a été complétée par une fonction d'évaluation artisanale qui a été réglée par des grands maîtres humains pendant de nombreuses années, ainsi qu'un grand nombre de extensions de recherche. L'orateur compare ensuite les composants du meilleur programme d'échecs Stockfish à AlphaZero, qui n'a littéralement aucun des mêmes composants, les remplaçant par des idées de principe basées sur l'auto-jeu, l'apprentissage par renforcement et la recherche de Monte Carlo. L'orateur note que les échecs sont différents de Go en ce sens qu'ils ont une invariance de translation parfaite, manquent de symétrie, ont un espace d'action plus intéressant avec des actions composées et contiennent des tirages.

  • 00:30:00 Dans cette section, l'orateur discute des courbes d'apprentissage pour les trois jeux : échecs, shogi et go. AlphaZero a surpassé le champion du monde Stockfish au jeu d'échecs en seulement quatre heures d'entraînement à partir de zéro, en utilisant la même architecture réseau et les mêmes paramètres pour tous les jeux. AlphaZero a vaincu les versions précédentes d'AlphaGo Zero et l'actuel champion du monde Shogi avec facilité après seulement quelques centaines de milliers de pas, ou 8 heures d'entraînement. L'évolutivité de la recherche arborescente Monte Carlo d'AlphaZero a été comparée aux moteurs de recherche alpha-bêta utilisés dans les programmes précédents, y compris Stockfish, qui évalue environ 70 millions de positions par seconde, alors qu'AlphaZero n'évalue qu'environ 80 000 positions par seconde. L'orateur émet l'hypothèse que la raison pour laquelle le MCTS est si efficace, malgré l'évaluation d'ordres de grandeur moins de positions, lorsqu'il est combiné avec des approximateurs de fonctions profondes comme les réseaux de neurones, est qu'il aide à annuler les erreurs d'approximation présentes dans la recherche, ce qui se traduit par de meilleures performances et évolutivité. Enfin, AlphaZero a également découvert la connaissance des échecs humains par lui-même en sélectionnant les 12 ouvertures humaines les plus courantes dans le jeu d'échecs.

  • 00:35:00 Dans cette section, l'orateur discute de l'utilisation par AlphaZero d'ouvertures d'échecs spécifiques et de la façon dont il les a jouées pendant l'auto-jeu. AlphaZero a passé beaucoup de temps à jouer à ces variations, mais a finalement commencé à préférer différentes ouvertures, en rejetant certaines qui étaient jouées plus souvent. L'orateur mentionne également les progrès réalisés dans l'utilisation des méthodes d'AlphaZero pour l'apprentissage par renforcement profond à usage général, qui peuvent être transférés à d'autres domaines. Plus un algorithme est spécialisé, moins il peut s'adapter à d'autres domaines. Bien que l'utilisation conjointe de l'homme et de la machine soit une perspective intéressante, l'orateur souligne qu'AlphaZero joue de manière plus humaine que les programmes d'échecs précédents, indiquant sa capacité à combiner le meilleur des deux mondes.

  • 00:40:00 Dans cette section, l'orateur explique que bien qu'ils aient uniquement intégré les règles du jeu en tant que connaissances humaines dans AlphaGo Zero, cela inclut l'encodage et le décodage de base des actions. Par exemple, aux échecs, ils ont utilisé la représentation spatiale pour coder la pièce ramassée et le plan qui était utilisé pour la poser. Ils excluent les mouvements illégaux de l'espace d'action. L'orateur explique en outre qu'ils n'ont pas inclus de barres d'erreur dans leurs expériences car ils n'ont effectué qu'une seule course par match. Cependant, ils ont mené plusieurs expériences et les résultats sont très reproductibles.
Deepmind AlphaZero - Mastering Games Without Human Knowledge
Deepmind AlphaZero - Mastering Games Without Human Knowledge
  • 2018.01.29
  • www.youtube.com
2017 NIPS Keynote by DeepMind's David Silver. Dr. David Silver leads the reinforcement learning research group at DeepMind and is lead researcher on AlphaGo....
 

AlphaGo - Comment l'IA a maîtrisé le jeu de société le plus difficile de l'histoire



AlphaGo - Comment l'IA a maîtrisé le jeu de société le plus difficile de l'histoire

La vidéo explore les détails techniques d'AlphaGo Zero, un système d'IA qui a été formé entièrement par le biais de l'auto-jeu et sans utiliser d'ensembles de données humaines. Le système a utilisé une architecture de réseau résiduel et une approche à deux recherches pour prédire la valeur et les mouvements forts. La vidéo met en évidence les améliorations apportées, y compris la capacité de prédire les résultats du jeu et la découverte et l'éloignement du système des mouvements bien connus en Go. Cependant, l'application réelle du système est limitée par la nécessité d'un simulateur parfait, ce qui rend difficile l'application de l'approche à d'autres domaines.

  • 00:00:00 Dans cette section, les détails techniques des améliorations d'AlphaGo Zero par rapport aux versions précédentes sont discutés. Le premier changement majeur a été qu'AlphaGo Zero s'entraîne entièrement à partir de l'auto-jeu et n'utilise pas d'ensembles de données de joueurs de Go professionnels humains. Il n'utilise également aucune des fonctionnalités précédemment fabriquées à la main pour le jeu et apprend à la place entièrement en observant l'état du plateau. L'architecture du réseau a été changée en une architecture complètement résiduelle, et au lieu d'avoir un réseau de politique et d'évaluation séparé, ils sont maintenant combinés en un seul grand réseau qui fait les deux. Les déploiements de Montecarlo ont été remplacés par une approche plus simple à deux recherches qui utilise le réseau unique pour faire des prédictions de valeur et trouver des mouvements forts. Dans l'ensemble, cela a abouti à une représentation de carte de 19 par 19 par 16 nombres binaires, un réseau résiduel et une représentation de valeur et un vecteur de politique qui sont générés à partir du vecteur de caractéristiques.

  • 00:05:00 Dans cette section, la vidéo explique comment AlphaGo a été formé pour jouer de bons coups en utilisant une architecture réseau qui conduit à de fortes probabilités de bons coups et à de faibles probabilités de mauvais. La première version d'AlphaGo a été formée à l'aide d'un apprentissage supervisé sur un ensemble de données de mouvements de Go professionnels, suivi d'une étape de réglage fin utilisant l'auto-jeu. Cependant, la nouvelle version, AlphaGo Zero, n'utilise aucun ensemble de données et apprend entièrement grâce à l'auto-jeu en utilisant une recherche d'arbre Monte Carlo qui stabilise le processus d'entraînement au poids propre. En explosant l'arbre de recherche et en utilisant la recherche arborescente de Monte Carlo, le système peut estimer quels mouvements sont forts et lesquels ne le sont pas. Enfin, la vidéo souligne que le processus est spécifique à des jeux comme Go, où vous disposez d'un simulateur parfait, ce qui rend les applications réelles de cette approche difficiles.

  • 00:10:00 Dans cette section, l'orateur discute de divers graphiques illustrant les améliorations apportées à l'architecture réseau d'AlphaGo. Un graphique montre la capacité du réseau AlphaGo Zero à prédire le résultat d'un jeu en fonction de la position actuelle du plateau, avec une amélioration significative par rapport aux versions précédentes. L'orateur note également que la transition d'une architecture convolutive normale à un réseau résiduel a entraîné une amélioration majeure. De plus, un graphique montre comment AlphaGo Zero a découvert puis évolué à partir de mouvements bien connus dans le jeu de Go. Dans l'ensemble, le conférencier est impressionné par les résultats de l'équipe Google DeepMind et encourage les téléspectateurs à poser des questions dans la section des commentaires.
AlphaGo - How AI mastered the hardest boardgame in history
AlphaGo - How AI mastered the hardest boardgame in history
  • 2017.11.13
  • www.youtube.com
In this episode I dive into the technical details of the AlphaGo Zero paper by Google DeepMind.This AI system uses Reinforcement Learning to beat the world's...