Apprentissage Automatique et Réseaux Neuronaux - page 37

 

Cours 5 Probabilité 1 : Entropie, Bayes (naïf), perte d'entropie croisée (MLVU2019)



5 Probabilité 1 : Entropie, Bayes (naïf), perte d'entropie croisée (MLVU2019)

La vidéo couvre divers aspects de la théorie des probabilités et son application à l'apprentissage automatique. L'orateur introduit l'entropie, qui mesure la quantité d'incertitude dans un système, et explique comment elle est liée à Bayes naïf et à la perte d'entropie croisée. Les concepts d'espace d'échantillonnage, d'espace d'événements, de variables aléatoires et de probabilité conditionnelle sont également abordés. Le théorème de Bayes est expliqué et considéré comme un concept fondamental de l'apprentissage automatique. La vidéo couvre également le principe d'estimation du maximum de vraisemblance et la probabilité bayésienne, ainsi que l'utilisation d'un code sans préfixe pour simuler des distributions de probabilité. Enfin, l'orateur discute des classificateurs discriminants par rapport aux classificateurs génératifs pour la classification binaire, y compris le classificateur Naive Bayes.

La deuxième partie explique le concept de calcul des probabilités pour un nouveau point appartenant à une classe particulière en utilisant un modèle de distribution normale multivariée. Il traite de l'indépendance conditionnelle des caractéristiques pour ajuster efficacement les distributions de probabilité d'un classificateur, et de la nécessité de lisser ou d'ajuster les pseudo-observations pour gérer zéro instance. L'orateur présente également la perte d'entropie comme une fonction de perte plus efficace pour les classificateurs linéaires que la précision, et discute de la capacité de la fonction de perte d'entropie croisée à mesurer la différence entre les données prédites et réelles, la fonction sigmoïde réduisant les symétries de la fonction pour la simplifier. Enfin, la vidéo laisse entendre que la prochaine conférence couvrira la perte SVM en tant que fonction de perte finale.

  • 00:00:00 Dans cette section de la vidéo sur les probabilités, l'orateur commence par conseiller aux élèves de rejoindre un projet de groupe s'ils ne l'ont pas déjà fait, et de ne pas trop se soucier de trouver un groupe parfait mais plutôt de tirer le meilleur parti de ce qu'ils obtiennent. L'orateur introduit ensuite la théorie des probabilités et l'entropie, qui sont étroitement liées et utiles dans l'apprentissage automatique. Il explique que l'entropie, dans ce contexte, signifie mesurer la quantité d'incertitude ou de caractère aléatoire dans un système. Le concept d'entropie est important dans l'apprentissage automatique et est utilisé pour expliquer le Bayes naïf et la perte d'entropie croisée, qui seront discutés plus tard dans la conférence. Le cours couvrira également les bases de la classification et des classificateurs linéaires.

  • 00:05:00 Dans cette section, l'orateur discute des fonctions de perte et présente la perte d'entropie croisée, qui est considérée comme une très bonne fonction de perte. Ils présentent un exemple impliquant le jeu en ligne d'un adolescent et expliquent comment les probabilités fonctionnent dans ce scénario. Le conférencier aborde également le concept de fréquence et de probabilité et comment il s'applique dans des situations réelles.

  • 00:10:00 Dans cette section, l'orateur discute de la différence entre les probabilités subjectives et objectives. Ils expliquent que la probabilité subjective est basée sur des croyances et des expériences personnelles, tandis que la probabilité objective est basée sur la probabilité fréquentiste, qui est dérivée d'expériences et d'observations. L'orateur note qu'en apprentissage automatique, l'accent est mis sur la minimisation des pertes sur l'ensemble de test basé sur l'ensemble d'apprentissage, et que la théorie des probabilités est utilisée comme cadre mathématique pour décrire les probabilités. L'orateur introduit également le concept de variables aléatoires et d'espace d'échantillonnage.

  • 00:15:00 Dans cette section, la vidéo explique les concepts d'espace d'échantillonnage et d'espace d'événements dans la théorie des probabilités. L'espace d'échantillonnage englobe tous les résultats possibles, où aucun résultat n'a un autre résultat entre eux. L'espace d'événements comprend un ensemble de sous-ensembles de l'espace d'échantillonnage, ce qui permet d'identifier les probabilités de divers événements, comme obtenir un nombre pair ou impair sur un lancer de dés. Les probabilités peuvent être attribuées aux espaces d'échantillonnage discrets et continus. De plus, la vidéo mentionne l'utilisation de variables et de fonctionnalités aléatoires pour modéliser des ensembles de données probabilistes, ce qui aide à expliquer la probabilité de résultats d'événements.

  • 00:20:00 Dans cette section, l'orateur introduit les concepts de base de la probabilité, y compris les variables aléatoires et leur représentation sous forme de fonctions. L'orateur explique qu'une variable aléatoire peut être représentée par un nombre unique et instanciée comme une variable. Ils discutent également de l'utilisation de la notation égale et de la manière dont les variables aléatoires peuvent être référencées soit par la fonction, soit par une valeur spécifique. L'orateur donne ensuite un exemple d'espace d'événements défini par deux variables aléatoires, X et Y, et introduit le concept de probabilité conditionnelle.

  • 00:25:00 Dans cette section, l'orateur discute des probabilités et de la manière dont elles peuvent être réécrites et projetées pour déterminer la probabilité de différents événements. Ils expliquent que si deux variables sont indépendantes, connaître la valeur de l'une ne changera pas la probabilité de l'autre. L'orateur utilise ensuite l'exemple de deux personnes vivant dans différentes parties d'une ville pour illustrer comment la probabilité qu'une personne soit à l'heure au travail n'affecte pas la probabilité que l'autre personne soit à l'heure. Cependant, ils notent qu'il existe une possibilité rare où les probabilités des deux personnes pourraient être liées.

  • 00:30:00 Dans cette section, l'orateur discute des probabilités et du théorème de Bayes, qui est un concept fondamental de l'apprentissage automatique. L'orateur utilise un exemple d'embouteillage pour expliquer l'indépendance conditionnelle et comment savoir qu'Alice est en retard au travail augmente légèrement la croyance que Bob est également en retard. Le théorème de Bayes est considéré comme la formule la plus importante dans le domaine et explique comment inverser la probabilité conditionnelle. Enfin, le conférencier explique comment l'apprentissage automatique ajuste une distribution de probabilité aux données et comment l'approche fréquentiste détermine les meilleurs paramètres compte tenu des informations disponibles.

  • 00:35:00 Dans cette section, l'orateur discute du principe d'estimation du maximum de vraisemblance et de la probabilité bayésienne. Le principe d'estimation du maximum de vraisemblance est basé sur l'hypothèse que les points de données observés sont indépendants et que la probabilité de ces points maximise le taux de vraisemblance. La probabilité bayésienne, quant à elle, consiste à mettre à jour ses croyances en fonction des connaissances antérieures et des données observées. La probabilité bayésienne utilise un compromis entre deux parties, les fréquentistes et les bayésiens, pour exprimer la distribution des croyances, ce qui fonctionne bien dans l'apprentissage automatique.

  • 00:40:00 Dans cette section, l'orateur discute du concept de distributions de probabilités et de la façon de les simuler sans arbre ayant un résultat unique. L'utilisation d'un code sans préfixe ou d'un arbre de préfixes est présentée comme un moyen de générer une large gamme de distributions de probabilité. L'orateur explique que cette approche peut être utilisée pour la communication et la détermination de la probabilité de certains résultats dans divers scénarios. L'exemple d'utilisation d'une pièce de monnaie pour simuler un dé à 3 faces et obtenir une distribution uniforme est également fourni.

  • 00:45:00 Dans cette section, l'orateur discute d'une famille de distributions de probabilités pouvant être décrites à l'aide d'un algorithme de code sans préfixe. Cet algorithme, connu sous le nom de Naive Bayes, est efficace pour les données et fournit une bonne connexion entre les méthodes de description et la distribution de probabilité. L'utilisation principale de cet algorithme est d'expliquer l'entropie, qui est la mesure de l'incertitude dans une variable aléatoire. L'orateur explique comment cet algorithme peut être utilisé pour coder des données à partir d'une certaine distribution de probabilité et obtenir une distribution de probabilité qui correspond bien aux données données.

  • 00:50:00 Dans cette section, l'orateur discute de l'entropie et de la perte d'entropie croisée en tant que mesures de l'uniformité des données. L'entropie peut être utilisée pour représenter l'uniformité des données entre différents éléments, une entropie plus petite indiquant des données plus uniformes. L'entropie croisée est utilisée pour représenter la longueur de code attendue lorsqu'un code différent est utilisé et est toujours égale ou supérieure à l'entropie, avec une valeur minimale à zéro. Ces mesures aident à comprendre la distance entre deux distributions de probabilité et fournissent une base théorique pour analyser les ensembles de données comme une séquence de variables aléatoires.

  • 00:55:00 Dans cette section, l'orateur explique les concepts de classificateurs discriminatifs et génératifs pour la classification binaire. La classification discriminante discrimine simplement les instances, tandis que la classification générative modélise la probabilité des données en fonction d'une classe. Les classificateurs génératifs vont du classificateur optimal de Bayes au classificateur Naive Bayes, qui fait une hypothèse d'indépendance conditionnelle et est considéré comme incorrect mais fonctionne toujours très bien et est bon marché.

  • 01:00:00 Dans cette section, l'intervenant explique comment calculer la probabilité qu'un nouveau point appartienne à une classe particulière à l'aide d'un modèle de distribution normale multivariée. Ils expliquent qu'en estimant les distributions de probabilité et en les remplissant, nous pouvons attribuer des probabilités à chaque classe en fonction de la probabilité la plus élevée. Cependant, lorsqu'il s'agit d'une dimensionnalité élevée, il se peut qu'il n'y ait pas suffisamment de données pour ajuster avec précision le modèle, auquel cas une distribution catégorique peut être utilisée à la place pour modéliser les caractéristiques avec la distribution de Bernoulli.

  • 01:05:00 Dans cette section, le concept d'indépendance conditionnelle des caractéristiques est expliqué, ce qui permet un ajustement efficace de la distribution de probabilité pour un classificateur. Cependant, une seule valeur de probabilité nulle peut avoir un impact important sur la précision du classificateur, qui peut être résolue en lissant ou en ajustant les pseudo-observations pour s'assurer qu'il y a au moins une observation pour chaque caractéristique. Cela garantit que la probabilité ne devient jamais nulle et que la précision du classificateur n'est pas affectée négativement.

  • 01:10:00 Dans cette section, l'orateur discute des moyens d'éviter les résultats biaisés dans les modèles d'apprentissage automatique en s'assurant qu'il existe au moins une instance avec une valeur pour chaque classe et fonctionnalité possibles. Ils résument les classificateurs génératifs comme ayant des hypothèses d'indépendance qui fonctionnent bien avec des ensembles de données volumineux et de grande dimension, mais nécessitent un lissage de Laplace pour gérer zéro instance. L'orateur introduit le concept de perte d'entropie comme une fonction de perte plus efficace pour les classificateurs linéaires par rapport à la précision.

  • 01:15:00 Dans cette section, l'orateur explique comment au lieu d'attribuer des valeurs aux modèles de classificateurs, des probabilités peuvent être attribuées en utilisant la fonction sigmoïde logistique. Le modèle linéaire est toujours utilisé, mais il est comprimé entre 0 et 1. Cette méthode permet une interprétation plus précise des instances positives et négatives.

  • 01:20:00 Dans cette section, le présentateur explique la fonction de perte d'entropie croisée, qui est utilisée pour mesurer la différence entre ce qu'un modèle d'apprentissage automatique prédit et ce que disent les données. La fonction de perte est conçue pour maximiser la taille des lignes entre les prédictions et les données, dans le but de pousser vers le haut sur les lignes bleues et de minimiser le logarithme négatif de toutes les lignes pour finalement maximiser la taille de ces lignes.

  • 01:25:00 Dans cette section, l'orateur explique comment la fonction de perte d'entropie croisée fonctionne en punissant les résidus plus importants plus que les petits résidus. La fonction de P versus M montre également que les petites barres contribuent beaucoup à la perte, ce qui équivaut à la quadrature des modèles précédents. L'orateur discute ensuite de la dérivée du logarithme et de la façon dont le multiplicateur constant est inclus dans l'équation. Pour simplifier les calculs, le multiplicateur constant peut être ignoré ou le logarithme binaire peut être défini en termes de logarithme népérien.

  • 01:30:00 Dans cette section, l'orateur discute de la perte d'entropie croisée et du rôle que joue la fonction sigmoïde dans sa simplification. Les symétries de la fonction sigmoïde permettent l'effondrement de la fonction de perte, la rendant finalement plus simple. Le sigmoïde logistique, lorsqu'il est appliqué à la régression logistique, peut gérer sans problème des points éloignés de la frontière de décision. La régression logistique peut aboutir à plusieurs bonnes solutions dans la région d'incertitude.

  • 01:35:00 Dans cette section, le conférencier explique le concept de probabilité et classe les points en bleu ou en rouge en fonction de leurs valeurs de probabilité. Il indique en outre que la prochaine conférence couvrira la perte SVM en tant que fonction de perte finale.
 

Cours 6 Modèles Linéaires 2 : Réseaux de Neurones, Rétropropagation, SVM et Méthodes Kernel (MLVU2019)



6 Modèles linéaires 2 : Réseaux de neurones, rétropropagation, SVM et méthodes du noyau (MLVU2019)

Cette première partie de la vidéo sur les modèles linéaires se concentre sur l'introduction de la non-linéarité dans les modèles linéaires et explore deux modèles qui reposent sur l'expansion de l'espace des fonctionnalités : les réseaux de neurones et les machines à vecteurs de support (SVM). Pour les réseaux de neurones, le conférencier explique comment mettre en place un réseau pour les problèmes de régression et de classification en utilisant des fonctions d'activation telles que sigmoïde ou softmax. La conférence se penche ensuite sur la rétropropagation, une méthode utilisée pour calculer les gradients utilisés dans les réseaux de neurones. Pour les SVM, l'orateur introduit le concept de maximisation de la marge aux points les plus proches de chaque classe et montre comment elle peut être exprimée comme un problème d'optimisation sous contrainte. La vidéo fournit une introduction claire aux principes des réseaux de neurones et des SVM, recommandant aux étudiants de se concentrer sur la première moitié du cours comme point de départ pour le reste du cours.

La deuxième partie de la vidéo couvre les sujets des machines à vecteurs de support (SVM), des SVM à marge souple, des astuces du noyau et des différences entre les SVM et les réseaux de neurones. Les SVM à marge souple sont introduits comme un moyen de gérer des données non linéairement séparables, permettant d'ajouter une valeur de pénalité aux points qui ne respectent pas les contraintes de classification. L'astuce du noyau permet le calcul du produit scalaire dans un espace de dimension supérieure, élargissant l'espace des caractéristiques pour augmenter considérablement la puissance du modèle. Les différences entre les SVM et les réseaux de neurones sont expliquées, et le passage aux réseaux de neurones en raison de leur capacité à effectuer des types de classification plus avancés, même s'ils ne sont pas entièrement compris, est discuté.

  • 00:00:00 Dans cette section, l'orateur explique comment apprendre des fonctions non linéaires à l'aide de modèles linéaires en ajoutant des fonctionnalités supplémentaires qui sont des fonctions dérivées des fonctionnalités utilisées, ce qui a été expliqué précédemment la semaine dernière. Le conférencier se concentre ensuite sur deux modèles, à savoir les réseaux de neurones et les machines à vecteurs de support, qui reposent sur l'expansion de l'espace des fonctionnalités. Les réseaux de neurones nécessitent un extracteur de fonctionnalités apprenable tandis que les machines à vecteurs de support utilisent l'astuce du noyau pour exploser dans un espace de fonctionnalités plus grand. La conférence explique la rétropropagation, une méthode spécifique de calcul des gradients utilisée dans les réseaux de neurones, ainsi que la fonction de perte de charnière utilisée dans les machines à vecteurs de support. L'orateur recommande de se concentrer sur la première moitié du cours pour une meilleure compréhension des modèles linéaires car elle sert de point de départ pour le reste du cours.

  • 00:05:00 Dans cette section, l'orateur aborde l'histoire des réseaux de neurones, remontant à la fin des années 50 et au début des années 60, lorsque les chercheurs ont commencé à s'inspirer du cerveau humain pour développer des systèmes d'IA. Ils ont créé une version simplifiée d'un neurone appelé le perceptron qui fonctionnait comme un modèle linéaire et était utilisé pour la classification. Cependant, la chose intéressante à propos du cerveau est la façon dont un grand nombre de neurones travaillent ensemble, alors les chercheurs ont commencé à enchaîner ces perceptrons pour construire un réseau.

  • 00:10:00 Dans cette section du cours sur les modèles linéaires, l'orateur explique comment introduire la non-linéarité dans un réseau de perceptrons afin d'avoir le pouvoir d'apprendre des fonctions normalement non linéaires et des modèles plus intéressants. Une façon d'y parvenir consiste à utiliser une fonction sigmoïde, qui prend une plage de nombres et les comprime dans la plage de 0 à 1. En enchaînant des perceptrons avec des fonctions d'activation non linéaires dans un réseau à anticipation ou un perceptron multicouche, un peut le transformer en un modèle de régression ou de classification, chaque ligne représentant un paramètre du réseau qui doit être ajusté. Le processus d'adaptation de ces nombres pour résoudre un problème d'apprentissage est appelé rétropropagation, qui sera discuté plus tard dans le cours.

  • 00:15:00 Dans cette section de la vidéo intitulée "6 Modèles linéaires 2 : Réseaux de neurones, rétropropagation, SVM et méthodes du noyau (MLVU2019)", l'intervenant explique comment mettre en place un réseau de neurones pour les problèmes de régression et de classification. Pour la régression, un réseau avec une couche cachée et aucune activation sur la couche de sortie est mis en place, suivi de l'application d'une fonction de perte de régression. Pour la classification binaire, une activation sigmoïde est ajoutée à la couche de sortie, et les probabilités obtenues peuvent être interprétées comme la probabilité que l'entrée soit positive. Pour la classification multi-classes, une activation softmax est ajoutée, ce qui crée un nœud de sortie pour chaque classe et normalise les probabilités afin qu'elles s'additionnent à un. La fonction de perte est utilisée pour former les poids du réseau jusqu'à ce que la perte d'entropie croisée soit minimisée.

  • 00:20:00 Dans cette section, l'orateur discute du principe de base des réseaux de neurones, qui utilise la descente de gradient. Cependant, étant donné que le calcul de la perte sur l'ensemble de données peut être coûteux, une descente de gradient stochastique est utilisée, où un seul exemple dans l'ensemble de données est utilisé pour calculer la perte, optimisant le modèle pour cet exemple unique. La descente de gradient stochastique ajoute de l'aléatoire et crée un peu d'aléatoire, aidant à échapper aux minima locaux. L'orateur ajoute ensuite une couche cachée dans le terrain de jeu de la fleur d'attention pour la classification, où la classification probabiliste est affichée. Cependant, le modèle ne semble pas bien fonctionner sur ce problème particulier.

  • 00:25:00 Dans cette section de la vidéo, le conférencier discute des fonctions d'activation pour les modèles linéaires, en comparant les fonctions d'activation sigmoïde et ReLU. La fonction ReLU adapte les données plus rapidement et sa frontière de décision est linéaire par morceaux, tandis que le sigmoïde crée une frontière de décision sinueuse. L'orateur recommande d'expérimenter des couches supplémentaires pour rendre le modèle plus puissant, bien que la complexité supplémentaire le rende plus difficile à former. La vidéo se penche ensuite sur la rétropropagation, qui permet aux ordinateurs de calculer efficacement les gradients en utilisant la différenciation symbolique sans le coût exponentiel. L'orateur explique que l'idée de base est de décrire la fonction comme une composition de modules et d'appliquer à plusieurs reprises la règle de la chaîne.

  • 00:30:00 Dans cette section, l'algorithme de rétropropagation est expliqué comme une méthode pour prendre un modèle donné et le décomposer en une chaîne de modules afin de calculer le gradient global pour une entrée particulière en multipliant les gradients de chaque sous-module ensemble. Ce processus commence par calculer symboliquement la dérivée de chaque module par rapport à son entrée en utilisant un stylo et du papier, puis passe au calcul numérique. Un exemple simple est donné pour illustrer l'idée de composer une fonction comme une séquence de modules, en utilisant des dérivées locales et en appliquant à plusieurs reprises la règle de la chaîne pour dériver la dérivée globale. Les facteurs qui en résultent sont appelés respectivement les dérivées globales et locales.

  • 00:35:00 Dans cette section, la vidéo traite de la rétropropagation en décomposant le système en modules et en l'appliquant à un réseau de neurones à deux couches avec activation sigmoïde. L'accent est mis sur la recherche de la dérivée de la fonction de perte par rapport aux poids, et non à l'entrée. Le premier module est la fonction de perte, suivie de Y, qui est une fonction d'activation linéaire. Chaque valeur cachée reçoit un module avec sa propre fonction d'activation, dans ce cas, une fonction sigmoïde, qui lui est appliquée. H2 prime est l'entrée linéaire de la fonction d'activation. Enfin, la vidéo indique qu'il est important de reconnaître la différence entre la dérivée du modèle par rapport à son entrée et la dérivée de la fonction de perte par rapport aux poids.

  • 00:40:00 Dans cette section, l'orateur discute des gradients locaux de chaque module, en particulier de la dérivée de la perte par rapport à V2 et Y sur V2. La dérivée de L sur Y est simplifiée à l'aide de la règle de la chaîne et donne 2 fois Y moins T, qui est juste l'erreur quadratique de la norme. Y sur V2 est une fonction linéaire, et la dérivée est simplement H2. Lors de l'application de la descente de gradient au paramètre z2, il se met à jour en soustrayant l'erreur multipliée par l'activation de H2. L'orateur fournit une analogie d'un réseau de neurones en tant que gouvernement avec le Premier ministre au sommet, les ministres au deuxième niveau et les fonctionnaires au premier niveau. Les ministres écoutent les fonctionnaires et crient plus fort pour certaines décisions, interprétées comme une confiance positive, tandis que se taire signifie une confiance négative. Le Premier ministre ajuste son niveau de confiance en fonction de l'erreur et la propage en retour sur le réseau pour les mises à jour.

  • 00:45:00 Dans cette section, l'orateur explique comment fonctionne la rétropropagation en attribuant la responsabilité à tous les poids de l'erreur dans la sortie du modèle. Il utilise une analogie artificielle pour démontrer que l'erreur globale est calculée et multipliée par le niveau de confiance dans les ministres qui ont contribué au problème. L'orateur montre ensuite comment la fonction d'activation doit être prise en compte lors de la mise à jour du niveau de confiance. La rétropropagation propage essentiellement l'erreur vers le bas du réseau pour mettre à jour les poids du modèle. L'orateur résume que les réseaux de neurones sont une combinaison de fonctions linéaires et non linéaires et que la version la plus simple est un réseau à anticipation.

  • 00:50:00 Dans cette section, la vidéo traite de l'histoire et des défis des réseaux de neurones, et de la façon dont l'intérêt pour eux a diminué en raison de leur difficulté à s'entraîner et de l'incertitude liée à l'ajustement de leurs paramètres. Les machines à vecteurs de support, qui ont une surface de perte convexe permettant une rétroaction immédiate sur le fonctionnement du modèle, sont devenues plus populaires en raison du manque d'incertitude impliqué dans leur formation. La vidéo présente ensuite les machines à vecteurs de support comme solution au problème de plusieurs modèles qui fonctionnent différemment sur des données similaires, en utilisant le concept de maximisation de la marge aux points les plus proches et en les appelant vecteurs de support.

  • 00:55:00 Dans cette section, le concept de machines à vecteurs de support (SVM) est présenté comme une méthode pour trouver une limite de décision pour un problème de classification binaire. L'algorithme SVM vise à trouver une ligne qui maximise la marge, ou la distance entre la frontière de décision et les points les plus proches de chaque classe. L'objectif du SVM peut être exprimé comme un problème d'optimisation contrainte, où le but est de maximiser la marge tout en satisfaisant les contraintes qui garantissent que la sortie du modèle est de +1 pour les vecteurs de support positifs et de -1 pour les vecteurs de support négatifs. Le SVM peut être encore simplifié en introduisant un paramètre d'étiquette qui code si un point est positif ou négatif, permettant aux deux objectifs d'être réduits à un seul objectif qui peut être écrit entièrement en termes de paramètres d'hyperplan.

  • 01:00:00 Dans cette section, l'orateur discute du concept de maximisation de la marge entre les limites de décision dans les machines à vecteurs de support (SVM). La taille de la marge dépend de la longueur d'un vecteur, qui peut être déterminée par les paramètres du modèle. L'objectif est de maximiser cette marge tout en respectant certaines contraintes. Cependant, si les données ne sont pas linéairement séparables, le modèle doit être relâché en ajoutant un paramètre d'écart, ce qui permet au modèle de violer certaines contraintes pour trouver un meilleur ajustement. Chaque point de données a son propre paramètre d'écart, qui peut être défini sur zéro ou sur une valeur positive.

  • 01:05:00 Dans cette section, le conférencier aborde le concept de SVM à marge souple, qui permet de gérer des ensembles de données qui ne sont pas linéairement séparables en ajoutant une valeur de pénalité aux points qui ne respectent pas les contraintes de classification. Cette pénalité est exprimée par une fonction de perte qui peut être minimisée en utilisant la méthode de descente de gradient. L'enseignant présente également la possibilité de réécrire la fonction de perte en termes de vecteurs de support comme alternative à l'astuce du noyau, ce qui permet de résoudre le problème d'optimisation sous contrainte. La fonction de perte charnière est présentée comme un moyen d'implémenter ce système de pénalité.

  • 01:10:00 Dans cette section, l'instructeur aborde différentes fonctions de perte dans l'apprentissage automatique telles que la précision, les moindres carrés, la perte d'entropie croisée et la perte SVM de marge souple. Le SVM à marge souple fonctionne en maximisant la marge entre une limite de décision et les points les plus proches avec des pénalités. Cependant, comme cette fonction d'optimisation a des contraintes et un point de selle, elle ne peut pas être résolue efficacement par descente de gradient. L'instructeur présente la méthode des multiplicateurs de LaGrange, qui aide à réécrire le problème d'optimisation sous contrainte sous une forme beaucoup plus simple sans se débarrasser des contraintes. En utilisant cette méthode, l'instructeur montre comment la fonction d'optimisation SVM à marge souple peut être réécrite, ce qui permet l'application de l'astuce du noyau.

  • 01:15:00 Dans cette section, l'orateur discute des machines à vecteurs de support (SVM) et de l'astuce du noyau, qui est un moyen de remplacer les produits scalaires de paires de points dans un ensemble de données par d'autres produits scalaires. Les SVM fonctionnent en pénalisant la taille des alphas, en indiquant quels points sont des vecteurs de support et en additionnant toutes les paires de points du jeu de données. L'astuce du noyau permet le calcul du produit scalaire dans un espace de dimension supérieure, conduisant à un modèle beaucoup plus puissant pour un coût similaire à celui du calcul d'un modèle linéaire. Un exemple est donné où les fonctionnalités sont étendues en ajoutant tous les produits croisés, ce qui augmente considérablement l'espace de fonctionnalités et permet des modèles beaucoup plus puissants.

  • 01:20:00 Dans cette section, le concept d'utilisation des fonctions du noyau pour obtenir des espaces de caractéristiques de grande dimension pour la classification est discuté. En utilisant le produit scalaire et en l'étendant à des puissances plus élevées, l'espace des caractéristiques peut être étendu pour inclure des produits croisés et des espaces de caractéristiques infiniment dimensionnels, tout en maintenant un faible coût. Cette méthode, cependant, est sujette au surajustement et peut être compliquée à mettre en œuvre. L'utilisation des fonctions du noyau peut également être étendue à des données non numériques, telles que des séquences de texte ou de protéines, où l'extraction directe de caractéristiques n'est pas simple. Bien que les fonctions du noyau ne soient pas à la mode actuellement, elles peuvent toujours être utiles dans certains cas.

  • 01:25:00 Dans cette section, les différences entre les machines à vecteurs de support (SVM) et les réseaux de neurones sont abordées. Les SVM sont limités dans la mesure où leur temps d'apprentissage est quadratique, alors que les réseaux de neurones ne nécessitent qu'un certain nombre de passages sur les données. Cependant, les SVM peuvent toujours être formés avec la descente de gradient, mais cette méthode perd de vue l'astuce du noyau. Vers 2005, la formation des SVM est devenue de plus en plus difficile en raison de la quantité de données impliquées, entraînant la résurgence des réseaux de neurones. De plus, la culture au sein de l'apprentissage automatique s'est déplacée pour accepter que les réseaux de neurones fonctionnent, même si le raisonnement derrière leur succès n'est pas encore entièrement compris. En fin de compte, ce changement a permis l'utilisation de modèles de réseaux neuronaux pour effectuer des types de classification plus avancés, qui seront abordés dans la section suivante.
 

Apprentissage profond 1 : Rétropropagation pour les tenseurs, Réseaux de neurones convolutifs (MLVU2019)



7 Apprentissage profond 1 : Rétropropagation pour les tenseurs, Réseaux de neurones convolutifs (MLVU2019)

Cette première partie de la vidéo sur l'apprentissage en profondeur et la rétropropagation couvre plusieurs sujets, notamment les bases d'un cadre d'apprentissage en profondeur, les tenseurs, l'algorithme de rétropropagation et le problème du gradient de fuite. Le conférencier explique comment les réseaux de neurones peuvent être mis en œuvre à l'aide d'une séquence d'opérations d'algèbre linéaire, et comment l'algorithme de rétropropagation peut être utilisé pour définir un modèle comme une composition de fonctions. La vidéo explique également comment calculer les dérivées à l'aide d'opérations matricielles et explore des solutions au problème du gradient de fuite, telles que l'initialisation du poids et l'utilisation de ReLU comme fonction d'activation. Enfin, la vidéo aborde la descente de gradient en mini-lot et divers optimiseurs pouvant être utilisés dans un réseau neuronal complexe.

Cette deuxième partie couvre une gamme de sujets liés à l'apprentissage en profondeur, y compris les algorithmes d'optimisation et les techniques de régularisation. L'optimisation d'Adam est expliquée comme un algorithme populaire pour l'apprentissage en profondeur, tandis que la régularisation L1 et L2 est explorée comme des méthodes pour empêcher le surajustement. Le potentiel des réseaux de neurones dans le traitement d'images est également discuté, les réseaux de neurones convolutifs étant mis en évidence comme un outil puissant pour les tâches de reconnaissance d'images. La vidéo se penche également sur le fonctionnement de ces réseaux et sur la façon dont ils créent des fonctionnalités pour reconnaître des images complexes, ainsi que sur le concept d'apprentissage de bout en bout comme moyen de surmonter les limites de l'enchaînement de plusieurs modules.

  • 00:00:00 Dans cette section de la vidéo sur l'apprentissage en profondeur, l'orateur commence par passer en revue les concepts abordés lors de la session précédente, tels que les réseaux de neurones et leur organisation en couches. Ils discutent ensuite de la façon dont les réseaux de neurones ne sont essentiellement qu'une série d'étapes d'algèbre linéaire, avec des fonctions non linéaires occasionnelles comme la fonction sigmoïde. Ceci est important car cela simplifie le processus de mise en œuvre d'un réseau de neurones et permet une formation plus efficace. L'orateur note également que les réseaux de neurones sont tombés en disgrâce pendant un certain temps parce qu'ils étaient difficiles à former, mais dans la section suivante, ils examineront comment la rétro-propagation aide à surmonter ce défi.

  • 00:05:00 Dans cette section, la vidéo décrit les bases d'un système ou d'un cadre d'apprentissage en profondeur, qui nécessite une compréhension du calcul matriciel tenseur et une révision de l'algorithme de rétropropagation. L'orateur souligne que malgré le bagage de réseau de neurones associé à l'apprentissage en profondeur, ce n'est pas si spécial car il ne s'agit que d'une séquence d'opérations d'algèbre linéaire. La première étape dans le développement d'un cadre général pour les réseaux de neurones consiste à définir les opérations de manière efficace et simple afin qu'il soit facile de les former efficacement. De plus, en utilisant des unités de traitement graphique ou des cartes vidéo, les choses deviennent environ 20 fois plus rapides en raison de leur efficacité à la multiplication matricielle. Enfin, la vidéo décrit le reste des sujets qui doivent être couverts dans la série de conférences, qui comprend des couches de convolution, des auto-encodeurs et une discussion sur les aspects philosophiques de l'apprentissage en profondeur.

  • 00:10:00 Dans cette section, l'orateur discute des tenseurs, une structure de données utilisée pour stocker un ensemble de nombres pouvant être utilisés dans l'apprentissage en profondeur. Les tenseurs sont utilisés pour stocker des ensembles de données et doivent avoir le même type de données pour tous les éléments, contenant généralement des nombres à virgule flottante. L'orateur explique comment stocker une image dans un tenseur à trois qui est une pile de trois images en niveaux de gris, une pour chaque canal de couleur, et comment stocker un ensemble de données d'images dans un tenseur à quatre en ajoutant un autre index qui itère sur les images dans l'ensemble de données. Enfin, l'orateur explique que les fonctions ou opérations en apprentissage profond sont comme dans le langage de programmation, mais avec des tenseurs comme entrées et sorties, et que le calcul en arrière, qui calcule le gradient local, est également implémenté avec le calcul en avant.

  • 00:15:00 Dans cette section, la vidéo traite de l'algorithme de rétropropagation et de la manière dont il peut être utilisé pour définir un modèle de réseau neuronal en tant que composition de fonctions. Le gradient sur l'ensemble du réseau est calculé comme le produit de tous les gradients locaux de chaque fonction, et la rétropropagation est utilisée pour propager la perte sur l'ensemble du graphe de calcul. La vidéo explique qu'il existe deux façons de définir le graphe de calcul - l'exécution paresseuse et impatiente - et bien que l'exécution paresseuse soit simple, elle n'est pas idéale pour le débogage ou la recherche. L'exécution rapide est actuellement la valeur par défaut dans des frameworks tels que PyTorch et TensorFlow, car elle permet à l'utilisateur de définir le graphe de calcul en effectuant des calculs, ce qui facilite le débogage et la modification du modèle pendant la formation.

  • 00:20:00 Dans cette section, l'orateur discute du graphe de calcul et de la manière dont il est construit à l'aide de variables scalaires. Il donne ensuite un exemple de la façon dont un réseau de neurones peut être mis en œuvre dans un cadre utilisant un graphe de calcul. La valeur de perte est calculée sur le réseau neuronal et le processus de rétropropagation est initié à partir de la valeur de perte pour obtenir le gradient sur les paramètres du réseau. Une fois le gradient obtenu, une étape de descente de gradient peut être effectuée en soustrayant un peu du gradient de la valeur.

  • 00:25:00 Dans cette section, l'orateur aborde deux aspects importants de la rétropropagation pour les systèmes d'apprentissage en profondeur : la gestion de plusieurs chemins de calcul et l'utilisation de tenseurs. L'orateur présente la règle de la chaîne multivariée pour gérer les losanges dans un graphe de calcul où plusieurs chemins mènent à la même valeur. De plus, l'orateur explique l'importance de travailler avec des tenseurs en rétropropagation, où toutes les valeurs intermédiaires sont des tenseurs au lieu de valeurs scalaires. L'objectif est d'élaborer des dérivées en termes d'opérations matricielles, permettant un calcul plus rapide. L'orateur montre comment prendre la dérivée d'un vecteur par rapport à une matrice en utilisant un exemple simple d'une fonction qui produit un scalaire dont l'entrée est un vecteur, rendant la fonction aussi simple que possible en regardant le produit scalaire.

  • 00:30:00 Dans cette section, l'orateur explique comment calculer les dérivées de tenseurs en utilisant des exemples de vecteur et de matrice. Le premier exemple montre que la dérivée d'un scalaire par rapport à un vecteur n'est qu'un vecteur de nombres, qui est le gradient. Ensuite, le deuxième exemple démontre que la dérivée d'un vecteur par rapport à une matrice n'est qu'une matrice. L'orateur souligne que prendre toutes les valeurs possibles et les agencer dans une matrice donne la matrice originale P.

  • 00:35:00 Dans cette section, l'orateur explique comment prendre la dérivée d'une fonction nous donne une matrice de dérivées scalaires possibles pour les entrées et sorties vectorielles, et un tenseur de dérivées pour les entrées/sorties d'ordre supérieur. Cependant, le calcul de ces valeurs intermédiaires peut être difficile et compliqué surtout lorsqu'il s'agit d'une combinaison vecteur/matrice. Pour simplifier ce processus, nous pouvons accumuler le produit en calculant chaque dérivée séquentiellement de gauche à droite, plutôt que de traiter ces valeurs intermédiaires. L'orateur explique comment l'implémentation arrière d'une fonction prend la dérivée de la perte par rapport à sa sortie comme entrée.

  • 00:40:00 Dans cette section, l'orateur explique comment calculer une valeur en termes de calculs matriciels en supprimant les produits intermédiaires. Ils doivent calculer la dérivée sur toutes les entrées par rapport à toutes les entrées et utiliser la règle de chaîne multivariée dans laquelle elle indique le chemin de calcul à suivre et résume les résultats. Même si K est un tenseur ou un tenseur de haut niveau, ils doivent dériver chaque élément et additionner le total qui peut être inefficace pour calculer de cette façon, donc ils extraient les éléments de la multiplication matricielle en un produit scalaire de la ième ligne de W-fois-X avec X produit scalaire de la Ième ligne de W avec X. Finalement, à la fin de chaque passage avant et arrière, ils optimisent chaque séquence de suivi pour correspondre à la variable cible donnée en minimisant le résultat de la fonction de perte .

  • 00:45:00 Dans cette section de la vidéo sur l'apprentissage en profondeur et la rétropropagation, l'orateur explique comment calculer des dérivées à l'aide d'une règle de chaîne multivariée et d'opérations matricielles. Les dérivées pour chaque élément de la matrice de poids W peuvent être calculées, et le gradient local pour W est dérivé en utilisant le produit extérieur des deux vecteurs. Le même processus peut être suivi pour les autres entrées. Le calcul vers l'avant de la couche linéaire est calculé en utilisant WX + B, et le calcul vers l'arrière peut être réalisé en calculant les gradients de la perte par rapport à W, X et B en utilisant la multiplication matricielle. Cependant, l'orateur note que la plupart des systèmes d'apprentissage en profondeur ont déjà implémenté la fonction arrière, il n'est donc pas nécessaire que les utilisateurs la calculent eux-mêmes.

  • 00:50:00 Dans cette section, l'orateur explique que le problème du gradient de fuite a été le plus grand revers pour l'apprentissage en profondeur dans les années 90. Ils examinent le problème des initialisations de poids, car les poids ne doivent pas être trop grands ou trop petits, sinon les fonctions d'activation ne fonctionneront pas efficacement, ce qui entraînera des sorties toujours nulles. La solution consiste à initialiser les poids du réseau à l'aide de valeurs orthogonales aléatoires ou d'échantillons à partir d'une distribution uniforme entre deux valeurs positives, en s'assurant que les valeurs propres sont une. Cela garantit que la moyenne et la variance de la sortie restent les mêmes, et par conséquent, le réseau peut apprendre efficacement.

  • 00:55:00 Dans cette section, la vidéo traite des problèmes qui surviennent lors de l'utilisation des fonctions sigmoïdes pour les réseaux d'apprentissage en profondeur, tels que le problème du gradient de fuite, dans lequel les gradients deviennent de plus en plus petits et le réseau n'apprend pas. Au lieu de cela, la vidéo suggère d'utiliser ReLU comme fonction d'activation plus simple, qui a une fonction d'identité de 1 sur les entrées supérieures à zéro et une dérivée nulle sinon, de sorte que le gradient ne se dégrade pas. La vidéo présente également la descente de gradient en mini-lot comme une version intermédiaire de la descente de gradient régulière et stochastique, qui calcule la perte par rapport à un petit lot, permettant un traitement aléatoire et parallèle. Cependant, la vidéo avertit qu'il existe un compromis entre les tailles de lots plus importantes - qui utilisent la mémoire GPU et s'exécutent plus rapidement - et les lots plus petits, qui sont plus efficaces pour produire des résultats optimaux. Enfin, la vidéo aborde divers optimiseurs qui utilisent le concept de descente de gradient, mais s'ajustent légèrement pour tenir compte des différents gradients qui peuvent survenir dans un réseau neuronal complexe.

  • 01:00:00 Dans cette section, l'instructeur couvre trois méthodes pour traiter les très petits minima locaux et lisser les surfaces de perte rugueuses : l'impulsion, l'impulsion de Nesterov et Adam. L'intuition de base derrière l'élan est de traiter les gradients comme une force - similaire à la gravité - et la navigation de la surface de perte en traitant le modèle comme un rocher dévalant une colline. Avec l'élan de Nesterov, un petit aperçu est ajouté de sorte que l'étape de l'élan peut être appliquée en premier, puis le gradient peut être calculé. Adam incorpore cette idée avec l'idée que chaque paramètre d'un modèle a sa propre surface de perte et ses propres préférences quant à l'agressivité avec laquelle il doit se déplacer dans une certaine direction, de sorte qu'un gradient moyen est estimé par dimension dans l'espace modèle et les mises à jour sont mises à l'échelle en conséquence. Une moyenne mobile exponentielle est prise à la fois pour le gradient et la variance, ce qui permet une sorte d'influence du gradient précédent qui s'ajoute à la moyenne.

  • 01:05:00 Dans cette section, la vidéo traite des optimiseurs et des régularisateurs dans l'apprentissage en profondeur. Adam est expliqué comme un algorithme d'optimisation qui est une légère adaptation à la descente de gradient qui fonctionne bien dans l'apprentissage en profondeur. Il a plusieurs hyperparamètres et les paramètres par défaut fonctionnent bien. Les régularisateurs sont ensuite discutés comme une technique pour empêcher le surajustement dans les grands modèles avec beaucoup de place pour mémoriser les données. La régularisation L2 consiste à ajouter un hyperparamètre multiplié par la longueur du vecteur tenseur de poids à la perte, ce qui incite le système à préférer les modèles avec des poids plus petits. La régularisation L1 suit également cette idée mais calcule la distance en utilisant la norme L1 du vecteur tenseur, donnant les coins de la surface de perte. Le régularisateur L1 préfère les solutions éparses où le système peut supprimer les connexions qui n'ont aucun impact sur la sortie.

  • 01:10:00 Dans cette section, l'orateur explique le concept de régularisation dans l'apprentissage en profondeur, qui est la technique utilisée pour éviter le surajustement des modèles. La régularisation permet de s'assurer que le modèle se généralise bien aux données invisibles. L1 et L2 sont deux types de régularisation populaires utilisés dans l'apprentissage en profondeur. La régularisation L2 tire les modèles vers l'origine et empêche les poids de devenir trop grands, tandis que la régularisation L1 produit une rainure le long des bords. L'abandon est également discuté, ce qui implique de désactiver de manière aléatoire les nœuds cachés pendant la formation et de forcer chaque nœud à prendre en compte plusieurs sources d'informations. Enfin, le conférencier met en lumière les réalisations de l'apprentissage en profondeur, y compris un réseau de neurones unique qui consomme des images et produit du texte.

  • 01:15:00 Dans cette section, la vidéo traite de diverses techniques de traitement d'images utilisant des réseaux de neurones. Une technique intéressante est le transfert de style où un réseau de neurones peut transformer une photographie en utilisant le style d'une peinture donnée. La traduction d'image à image est une autre technique dans laquelle un réseau apprend à générer des éléments manquants d'une image en se basant sur un apprentissage avec des images désaturées ou à détection de bord. Les couches convolutives contribuent à rendre le réseau plus efficace en partageant les poids et en réduisant l'espace des paramètres, ce qui est particulièrement important pour le traitement des images. Dans l'ensemble, la vidéo met en évidence l'incroyable potentiel des réseaux de neurones dans le traitement d'images, mais souligne l'importance de concevoir avec soin l'architecture basée sur la connaissance du domaine pour obtenir les meilleurs résultats.

  • 01:20:00 Dans cette section, le conférencier explique le fonctionnement des réseaux de neurones convolutifs, qui sont un type de réseau de neurones artificiels à action directe couramment utilisé pour les tâches de reconnaissance et de classification d'images. L'idée clé derrière ces réseaux est de limiter le nombre de paramètres en utilisant des poids partagés et de réduire la résolution de l'image en utilisant une couche de mise en commun maximale. Ils consistent en une série de couches entièrement connectées suivies d'une ou plusieurs couches de convolution, qui utilisent une fenêtre glissante appelée noyau pour filtrer l'image d'entrée et générer l'image de sortie avec des canaux modifiés. En enchaînant ces couches de convolution et de regroupement maximal et en ajoutant des couches entièrement connectées, un réseau de classification d'images de base peut être créé qui produit des résultats très précis.

  • 01:25:00 Dans cette section, l'orateur discute de la visualisation de ce qu'un réseau neuronal convolutif fait réellement en regardant les nœuds en haut du réseau pour voir quel type d'entrée déclenche une réponse élevée. La première couche du réseau répond principalement à la détection des contours tandis que la couche suivante assemble les contours individuels en entités. Ce processus se poursuit, construisant progressivement des représentations et aboutissant à des visages entiers. Pour explorer davantage le fonctionnement du réseau neuronal, l'orateur décrit l'optimisation de l'entrée pour provoquer l'activation d'un neurone spécifique, ce qui donne des images de type art abstrait. En examinant ces images, le locuteur est capable de déterminer à quelles caractéristiques le neurone répond, comme des caractéristiques ressemblant à des oiseaux ou à des chiens. Enfin, le conférencier explique qu'une différence majeure entre l'apprentissage automatique traditionnel et l'apprentissage en profondeur est l'idée d'apprentissage de bout en bout, où un pipeline n'est pas nécessaire et où le réseau peut analyser des journaux, par exemple, et effectuer un traitement du langage naturel sans un processus en plusieurs étapes.

  • 01:30:00 Dans cette section, l'orateur explique la limitation de l'enchaînement de plusieurs modules qui ont une grande précision lors de l'exécution de tâches d'apprentissage automatique. Les erreurs cumulées de chaque module peuvent créer une entrée bruyante pour les modules suivants, ce qui diminue considérablement la précision du système global. L'apprentissage de bout en bout est alors présenté comme une solution pour faire face à ce problème. Au lieu d'isoler la formation pour chaque module, l'ensemble du pipeline est formé dans son ensemble pour apprendre des données brutes de bout en bout en utilisant une méthode de descente de gradient. Cela rend l'approche plus flexible et permet au système d'apprentissage en profondeur de résoudre un plus large éventail de problèmes.
 

8 Probabilité 2 : Vraisemblance maximale, modèles de mélange gaussien et maximisation des attentes (MLVU2019)



8 Probabilité 2 : Vraisemblance maximale, modèles de mélange gaussien et maximisation des attentes (MLVU2019)

Cette section de la vidéo était centrée sur les modèles de probabilité pour l'estimation de la densité à l'aide de l'estimation du maximum de vraisemblance, des distributions normales, des modèles de mélange gaussien et de l'algorithme de maximisation des attentes. L'orateur a expliqué le principe du maximum de vraisemblance et a montré son application dans la sélection du meilleur modèle de probabilité. Ils ont exploré les distributions normales, expliqué la différence entre les fonctions de probabilité et de densité de probabilité et introduit les modèles de mélange gaussien. Le conférencier a également discuté de la méthode d'échantillonnage à partir d'une distribution normale univariée et multivariée, et de la façon dont le modèle de mélange gaussien aide à identifier différents groupes au sein d'une population. De plus, l'algorithme de maximisation des attentes a été introduit pour ajuster les modèles de mélange gaussien aux ensembles de données. L'orateur a également expliqué comment formaliser l'approche de maximisation des attentes en utilisant l'approximation de la fonction Q et a prouvé qu'elle converge vers un optimum local.

Cette vidéo couvre les sujets du maximum de vraisemblance, des modèles de mélange gaussien et de la maximisation des attentes (EM). L'orateur explique l'algorithme EM, sa preuve et pourquoi il converge. Ils discutent également de l'étape M, où ils maximisent L en choisissant thêta tout en gardant Q fixe. L'ajustement d'un modèle de mélange gaussien aux données nécessite l'utilisation de l'algorithme EM, et l'orateur explique ses applications telles que le regroupement et l'analyse exploratoire, et comment il peut être utilisé pour la classification en ajustant un modèle de mélange gaussien à chaque classe. La vidéo mentionne également la conférence à venir sur l'ajustement des modèles de probabilité aux réseaux de neurones complexes.

  • 00:00:00 Dans cette section de la vidéo, l'orateur présente le concept d'utilisation de modèles probabilistes pour l'estimation de la densité en ajustant les distributions de probabilité aux données. Ils se concentrent spécifiquement sur l'estimation du maximum de vraisemblance et l'appliquent à quatre modèles différents basés sur la distribution normale ou gaussienne. La vidéo fournit également un exemple d'utilisation du principe du maximum de vraisemblance pour déterminer quelle pièce a été utilisée dans une séquence aléatoire de 12 pièces, où une pièce est courbée et l'autre est droite. Ils introduisent ensuite le modèle de mélange de gaussiennes, qui est un modèle puissant mais difficile à ajuster en utilisant le maximum de vraisemblance, et plongent dans l'algorithme de maximisation des attentes comme moyen d'ajuster les modèles de mélange gaussiens.

  • 00:05:00 Dans cette section, le principe du maximum de vraisemblance est expliqué, qui est utilisé dans la sélection de modèles pour l'apprentissage automatique. Il s'agit d'ajuster un modèle aux données observées afin de sélectionner le modèle ayant la probabilité la plus élevée de fournir ces données. Le logarithme de la vraisemblance est généralement pris par souci de simplicité, et c'est une fonction monotone qui ne changera pas là où la fonction atteint son point le plus élevé. Des distributions normales sont également introduites, avec la moyenne et la variance ou l'écart type comme paramètres, et elles sont utilisées dans divers modèles, y compris la régression et les distributions normales multivariées. Les modèles de mélange gaussiens sont également discutés en tant que combinaison de multiples distributions normales.

  • 00:10:00 Dans cette section, l'orateur discute des différents types de distributions et de l'importance d'avoir une échelle définie, que fournissent les distributions normales. L'orateur aborde également la différence entre les fonctions de probabilité et les fonctions de densité de probabilité, en soulignant que les événements individuels ont une densité de probabilité et que la probabilité est obtenue en intégrant sur cette densité. L'orateur présente ensuite la formule de distribution normale et montre comment elle répond à l'exigence fondamentale d'avoir une échelle définie en décroissant de façon exponentielle. La formule est encore améliorée en ajoutant un terme au carré qui accélère encore plus la décroissance.

  • 00:15:00 Dans cette section de la vidéo, le présentateur explique comment créer une fonction de densité de probabilité de la distribution normale en redimensionnant et en se déplaçant autour d'une fonction de base. Il montre comment les points d'inflexion peuvent être utilisés pour placer la masse de probabilité là où elle est le plus nécessaire et comment contrôler la taille de l'échelle, ainsi que comment déplacer la fonction pour ajuster la moyenne. Enfin, il discute de l'estimation par maximum de vraisemblance des paramètres pour créer une distribution normale à partir des données.

  • 00:20:00 Dans cette section, l'orateur discute de l'estimation du maximum de vraisemblance et de son application pour trouver le point le plus élevé dans un espace de probabilité. Ils présentent un objectif de maximiser la somme du logarithme des probabilités pour les paramètres d'une distribution gaussienne 1D. Ils prennent ensuite la dérivée par rapport à la moyenne et la résolvent pour le maximum. Ils constatent que l'estimateur du maximum de vraisemblance pour la moyenne d'une distribution normale n'est que la moyenne des données, et la même approche peut être appliquée pour trouver l'écart type pour toutes ces fonctions. L'orateur mentionne également l'existence d'une solution analytique pour trouver l'optimum.

  • 00:25:00 Dans cette section, la vidéo traite de l'hypothèse de normalité dans la régression des moindres carrés. Le modèle suppose que les données sont générées en ajoutant un peu de bruit à une ligne, et la distribution de probabilité des données peut être considérée comme une distribution normale. Pour maximiser la vraisemblance des paramètres du modèle linéaire, ils doivent maximiser la probabilité de Y étant donné X, W et B. En remplissant cette équation et en calculant le logarithme, la partie de normalisation disparaît et la fonction restante est similaire au moins fonction objectif des carrés. La distribution multivariée est également discutée, avec la moyenne à l'origine et la densité de probabilité décroissant de façon exponentielle à mesure que la distance augmente.

  • 00:30:00 Dans cette section, l'orateur discute de l'utilisation d'une transformation linéaire pour déplacer un cercle unitaire, qui contient la majeure partie de la masse de probabilité d'une courbe en cloche normalisée, dans l'espace pour s'adapter aux données. La transformation linéaire définit une matrice et un vecteur T, qui est appliqué au cercle unitaire qui est d'abord normalisé afin que le volume total sous la courbe soit calculé et divisé par celui-ci. L'application de cette transformation étire le cercle dans une certaine direction et fait exploser la densité de probabilité. Pour corriger cela, le déterminant de la matrice est divisé par le volume agrandi pour obtenir la densité de probabilité d'un point spécifique sous la gaussienne transformée.

  • 00:35:00 Dans cette section, l'orateur discute de la méthode d'échantillonnage à partir d'une distribution normale univariée non standard avec une moyenne et un sigma donnés. Pour ce faire, on peut échantillonner x à partir de la distribution normale standard, le multiplier par la variance et ajouter la moyenne pour obtenir un échantillon de la distribution souhaitée. De même, l'échantillonnage à partir d'une distribution normale multivariée avec une moyenne et un sigma donnés implique la décomposition du sigma, l'échantillonnage à partir de la distribution standard et l'application d'une transformation linéaire. L'orateur introduit également le concept d'un modèle de mélange gaussien, qui sera au centre de la discussion après la pause. L'orateur utilise un exemple de répartition des notes pour illustrer le concept de différentes populations au sein d'un échantillon.

  • 00:40:00 Dans cette section, l'orateur discute du modèle de mélange gaussien et de la manière dont il peut aider à identifier différents groupes au sein d'une population. En créant trois distributions normales distinctes avec des pondérations et des mises à l'échelle différentes, la fonction de densité de probabilité résultante aura trois pics ou modes. Pour ajuster ce modèle aux données, l'objectif de maximum de vraisemblance est utilisé pour déterminer les meilleurs paramètres du modèle de mélange gaussien. Bien que le gradient puisse être utile dans certains cas, il n'est pas facile de travailler avec en raison de la somme à l'intérieur du logarithme. Au lieu de cela, l'algorithme de maximisation des attentes est utilisé, qui est similaire à l'algorithme de clustering k-means, pour trouver le clustering optimal des données.

  • 00:45:00 Dans cette section, la vidéo traite de l'utilisation des modèles de mélange gaussien, qui est essentiellement un modèle de variable cachée qui consiste à échantillonner un ensemble de valeurs aléatoires et à l'utiliser pour échantillonner une valeur X à partir de différents composants avec leurs poids respectifs. Cependant, le problème est que seules les valeurs X sont observées et que les valeurs Z sont masquées. La solution consiste à utiliser l'algorithme EML (Expectation Maximization), qui itère le processus consistant à faire une estimation aléatoire des composants, à attribuer des responsabilités souples à chaque point, à ajuster les distributions aux sous-ensembles de données et à déduire la distribution sur les valeurs définies compte tenu de la valeurs X. Grâce à ce processus itératif, l'algorithme peut estimer les paramètres du modèle et maximiser la vraisemblance des données.

  • 00:50:00 Dans cette section, la vidéo traite de l'algorithme d'espérance-maximisation (EM), qui est utilisé pour ajuster les modèles de mélange gaussien aux ensembles de données, où certains points sont plus importants que d'autres. L'algorithme fonctionne en attribuant d'abord des responsabilités souples à chaque point, ce qui signifie que chaque point a une part de responsabilité de chaque composant. Ces responsabilités sont ensuite utilisées pour ajuster un modèle gaussien à l'ensemble de données pondéré, où la moyenne et la variance sont calculées à l'aide de moyennes et de variances pondérées. Le processus itère à travers les étapes d'attente et de maximisation jusqu'à ce qu'un bon ajustement soit atteint. La vidéo montre une visualisation de ce processus, démontrant comment le modèle se déplace vers les points les plus importants jusqu'à ce qu'un bon ajustement soit trouvé.

  • 00:55:00 Dans cette section, l'orateur discute de la formalisation de la nature intuitive de la maximisation des attentes et de la manière de prouver qu'elle converge vers un optimum local. En utilisant les fonctions Q comme approximations de la vraie vraisemblance, la fonction de vraisemblance peut être décomposée en deux termes : la divergence KL et la fonction L, qui mesure la qualité de l'approximation. En prenant le logarithme de ces termes, le locuteur montre que la fonction L peut être calculée en soustrayant le logarithme de l'ensemble Q approché du logarithme de l'ensemble de fonctions de vraisemblance compte tenu des paramètres optimaux. Cette décomposition est utile pour comprendre et prouver la convergence de l'approche de maximisation des attentes.

  • 01:00:00 Dans cette section, l'orateur discute de la preuve de l'algorithme EM et pourquoi il converge. Il est montré qu'en réorganisant la distribution conjointe et la distribution conditionnelle, l'espérance du logarithme de x donné thêta peut être écrite comme une constante par rapport à Q. Ensuite, l'orateur explique comment redéfinir l'algorithme EM en termes de divergence KL et choisir le repère étant donné certaines données et un thêta arbitraire pour rendre la divergence KL 0 tout en gardant les données fixes, ce qui conduit à L couvrant tout l'espace et la vraisemblance maximale étant atteinte.

  • 01:05:00 Dans cette section, l'orateur explique l'étape M, où il maximise L en choisissant thêta pour maximiser L tout en gardant Q fixe. Ils expliquent comment cette étape conduit à une augmentation de la vraisemblance et pourquoi l'itération E/M augmente constamment la vraisemblance. L'orateur explique également comment ils peuvent intégrer l'étape M dans un objectif de maximisation et dériver des estimateurs du maximum de vraisemblance pour l'algorithme de maximisation des attentes. Ils discutent des applications de cette technique, telles que le regroupement et l'analyse exploratoire, et comment elle peut être utilisée pour la classification en ajustant un modèle de mélange gaussien à chaque classe.

  • 01:10:00 Dans cette section, l'orateur discute des modèles de mélange gaussiens et comment ils peuvent prendre de nombreuses formes, ce qui les rend beaucoup plus puissants que les distributions normales. L'ajustement d'un modèle de mélange gaussien aux données nécessite l'utilisation de l'algorithme de maximisation des attentes, car il n'y a pas de solution analytique de forme fermée pour l'ajustement de vraisemblance maximale. Cependant, une fois le modèle ajusté, il peut être utilisé de différentes manières, par exemple en utilisant le classificateur de base pour classer de nouveaux points en fonction de leur densité de probabilité. Dans la prochaine conférence, le conférencier prévoit de discuter des modèles de variables cachées dans les réseaux de neurones et de la manière d'adapter les modèles de probabilité aux réseaux de neurones complexes.
 

Cours 9 Deep Learning 2 : Modèles génératifs, GAN, auto-encodeurs variationnels (VAE) (MLVU2019)



9 Apprentissage profond 2 : modèles génératifs, GAN, auto-encodeurs variationnels (VAE) (MLVU2019)

La vidéo couvre divers sujets liés à l'apprentissage en profondeur, y compris les données fractionnées pour les projets d'apprentissage en profondeur, l'apprentissage par transfert et un accent sur les modèles génératifs. Le conférencier explore le concept d'utilisation de réseaux de neurones pour générer des résultats aléatoires et des distributions de probabilité, expliquant différentes méthodes de formation de générateurs tels que les réseaux antagonistes génératifs et les auto-encodeurs. Ils se penchent également sur les GAN, les GAN conditionnels, la stéganographie et l'importance des auto-encodeurs dans diverses applications d'apprentissage automatique telles que la manipulation de données et la réduction de la dimensionnalité. L'orateur discute de la manipulation de données dans l'espace latent pour des manipulations de haut niveau de données sans beaucoup de données étiquetées et de la nécessité d'une approche alternative comme les auto-encodeurs variationnels.

Cette deuxième partie de la vidéo explore les auto-encodeurs variationnels (VAE), un type de modèle génératif visant à résoudre le problème de l'effondrement des modes souvent rencontré avec d'autres modèles. Deux réseaux de neurones sont utilisés pour coder l'entrée dans l'espace latent et la décoder dans l'espace d'entrée, ce qui permet d'optimiser à la fois l'encodage et le décodage. Le locuteur décompose la fonction de perte en un terme de divergence KL et un terme de probabilité logarithmique attendu, qui peuvent être utilisés pour optimiser le réseau. Les défis de la maximisation d'une attente dans les VAE sont expliqués, et l'astuce de reparamétrisation est discutée comme un moyen de surmonter ce problème. L'intervenant compare les VAE à d'autres techniques telles que les GAN et l'ACP, concluant que si les VAE sont plus puissants, ils sont aussi plus difficiles à entraîner.

  • 00:00:00 Dans cette section, l'orateur rappelle au public de diviser ses données en ensembles d'entraînement et de test avant de regarder les données, car une fois qu'elles ont été vues, elles ne peuvent pas être invisibles. Pour ceux qui travaillent sur des projets d'apprentissage en profondeur, ils suggèrent d'utiliser l'apprentissage par transfert pour créer des modèles puissants sans formation coûteuse, en utilisant un réseau pré-formé d'entreprises comme Google et en ajoutant leurs propres couches au-dessus. C'est une bonne option pour ceux qui n'ont pas accès à de grosses machines avec de gros GPU. De plus, l'orateur conseille de vérifier la rubrique du projet pour s'assurer que tous les aspects importants sont couverts pour une note de passage facile.

  • 00:05:00 Dans cette section, la vidéo traite de l'apprentissage en profondeur pour la modélisation générative, où un réseau de neurones est formé pour produire une distribution de probabilité à partir de laquelle de nouvelles choses peuvent être échantillonnées, telles que des images ou des morceaux de langage. La première étape consiste à construire un réseau de neurones appelé générateur qui peut produire ces nouvelles choses. Un exemple est montré d'un réseau de neurones qui a été formé pour générer des images de personnes qui n'existent pas réellement. La vidéo poursuit ensuite en expliquant les deux manières de former des générateurs, qui sont des réseaux antagonistes génératifs et des auto-encodeurs, en mettant l'accent sur les auto-encodeurs variationnels en tant qu'approche plus fondée sur des principes.

  • 00:10:00 Dans cette section, le conférencier explique comment utiliser les réseaux de neurones pour générer des résultats aléatoires et des distributions de probabilité. Il y a deux façons de le faire : en alimentant le réseau en entrée et en interprétant sa sortie comme la moyenne et le sigma d'une distribution normale multivariée, ou en échantillonnant des entrées aléatoires à partir d'une distribution normale multivariée standard et en les faisant passer par un réseau de neurones pour observer la sortir. Cette dernière approche peut produire des distributions de probabilité très complexes et intéressantes, comme le montre l'expérience du locuteur avec un réseau de neurones à deux couches qui a transformé une distribution normale multivariée en une distribution non normale avec une forme complexe. Cette approche peut être utilisée pour modéliser des distributions très complexes telles que des visages humains.

  • 00:15:00 Dans cette section, l'instructeur explique les étapes de formation pour les modèles génératifs et les problèmes auxquels ils peuvent être confrontés, tels que l'effondrement du mode. Une approche naïve pour ajuster la distribution de probabilité qu'un réseau de neurones représente à un ensemble de données consiste à utiliser la rétropropagation, en utilisant la distance entre les images générées et originales comme une perte. Cependant, cette approche échoue souvent et entraîne la réduction de tous les modes de l'ensemble de données en un seul mode. L'instructeur présente ensuite deux exemples de modèles génératifs qui ont bien fonctionné : les réseaux antagonistes génératifs (GAN) et les auto-encodeurs variationnels (VAE). L'instructeur explique l'histoire des réseaux de neurones convolutifs (CNN), qui ont inspiré les GAN, et comment ils fonctionnent à travers deux réseaux en concurrence pour améliorer les images générées. Les VAE, quant à eux, ont un réseau de codeurs qui comprime l'image originale en une distribution de probabilité et un réseau de décodeurs qui génère une nouvelle image à partir de cette distribution.

  • 00:20:00 Dans cette section, l'orateur discute d'une technique utilisée pour optimiser l'entrée pour générer des images qui correspondent à un certain neurone de sortie, conduisant à l'émergence d'exemples contradictoires, qui sont de fausses images que le réseau peut être trompé en pensant qu'elles sont entièrement autre chose. Cette technique a d'abord été un coup dur pour la communauté des réseaux de neurones, mais elle a conduit au développement d'un algorithme d'apprentissage ad hoc dans lequel des exemples contradictoires sont générés et ajoutés à l'ensemble de données en tant qu'exemples négatifs. Cette approche, cependant, n'était pas entièrement efficace, c'est pourquoi une solution de bout en bout appelée Vanilla GAN a été développée, qui est une approche de base que l'orateur utilise pour illustrer trois autres façons de s'appuyer sur le cadre pour créer des exemples impressionnants.

  • 00:25:00 Dans cette section, les présentateurs expliquent le fonctionnement des GAN (Generative Adversarial Networks). Les GAN sont composés de deux réseaux de neurones, un générateur qui produit des sorties et un discriminateur qui est un classificateur d'image qui détermine lesquelles des sorties sont fausses. L'objectif de la formation d'un gan est de permettre au réseau de générateurs de créer des résultats de plus en plus réalistes. Comme l'explique le présentateur, le générateur et le discriminateur fonctionnent comme un jeu à somme nulle pour deux personnes, chaque réseau essayant de déjouer l'autre. Le générateur est chargé d'essayer de créer de fausses sorties qui trompent le discriminateur, et le travail du discriminateur est d'attraper ces fausses sorties. Les présentateurs expliquent qu'après la formation, les sorties du GAN seront une combinaison de l'entrée cible et du caractère aléatoire.

  • 00:30:00 Dans cette section, l'orateur discute des GAN conditionnels, qui visent à combiner la capacité de générer des données avec le contrôle de la sortie. Contrairement aux GAN normaux, qui génèrent des sorties sans aucun contrôle, les GAN conditionnels prennent une entrée qui contrôle la sortie, ce qui les rend utiles pour les ensembles de données avec plusieurs étiquettes. L'orateur discute également du cycle GAN, qui utilise deux générateurs pour mapper deux sacs d'images non appariés et ajoute un terme de perte de cohérence de cycle pour garantir que si une image est mappée dans les deux sens, l'image originale est obtenue. Cela permet de générer des images supplémentaires qui seraient autrement coûteuses à créer.

  • 00:35:00 Dans cette section, l'orateur explique le concept de stéganographie, qui cache un code à la vue de tous, et comment il se rapporte aux modèles génératifs comme les GAN et les VAE qui cachent une image dans une autre. Le but de ces modèles est de faire en sorte que le discriminateur ne puisse pas dire qu'une image est cachée dans une autre. Le conférencier montre des exemples de la façon dont ces modèles peuvent transformer des images en différents styles, comme transformer une photographie en une peinture de Monet. L'orateur parle également du style GAN, qui génère des images hyperréalistes de personnes, et de son fonctionnement en alimentant le vecteur latent via un réseau neuronal déconvolutif qui génère des images de propriétés sémantiques de bas niveau à haut niveau.

  • 00:40:00 Dans cette section, l'orateur discute d'un modèle qui permet de contrôler les détails des images générées en introduisant du bruit aléatoire dans le réseau à chaque couche. Cette méthode réduit la charge de travail sur le vecteur latent et permet également la génération d'images uniques. L'orateur démontre cette technique en modifiant la lumière et le vecteur à des points spécifiques au cours du processus de génération, ce qui donne des images avec des caractéristiques spécifiques choisies à chaque niveau. Ce modèle présente un niveau de contrôle qui va au-delà de la simple génération de visages hyperréalistes.

  • 00:45:00 Dans cette section, l'orateur discute de ce qui peut être fait une fois qu'un générateur est créé. L'une des techniques s'appelle l'interpolation, qui consiste à prendre deux points de l'espace de distribution multivariée et à tracer une ligne entre eux, à sélectionner des points régulièrement espacés et à les faire passer par le générateur, permettant une vue de la transformation progressive d'une sortie à la suivant. Cela peut être fait sur une grille de points équidistants pour mapper des coins à des points arbitraires dans l'espace d'éclairage, créant une grille d'interpolation. Ces espaces latents sont généralement disposés dans des topologies sphériques, ce qui signifie que pour effectuer une interpolation, nous devons également nous déplacer dans cette région sphérique, appelée interpolation sphérique. Enfin, pour effectuer une manipulation de données ou une réduction de dimensionnalité, il faut mapper dans l'espace latent, ce qui nécessite l'utilisation d'auto-encodeurs pour mapper de la sortie à l'espace latent.

  • 00:50:00 Dans cette section, l'orateur discute des auto-encodeurs et de leur importance dans diverses applications d'apprentissage automatique telles que la manipulation de données et la réduction de la dimensionnalité. Les encodeurs automatiques sont des réseaux de neurones qui aident à mapper les données de l'entrée à l'espace latent et de retour à la sortie. L'architecture de goulot d'étranglement du réseau lui permet d'apprendre et de reproduire les caractéristiques de l'entrée sous une forme plus compressée. Une fois formé, le réseau peut produire un regroupement de codes latents dans un espace bidimensionnel, qui présente des caractéristiques sémantiques de haut niveau telles qu'un visage souriant en tant que groupe dans l'espace.

  • 00:55:00 Dans cette section, l'orateur discute de la manipulation de données dans l'espace latent pour effectuer des manipulations de haut niveau des données sans avoir besoin de beaucoup de données étiquetées. Ils montrent un algorithme simple pour faire sourire quelqu'un en utilisant des images codées qui sont manipulées dans l'espace latent puis décodées. L'orateur discute également des limites des auto-encodeurs et de la nécessité d'une approche alternative comme l'auto-encodeur variationnel (VAE), qui oblige un décodeur à décoder des points proches de l'entrée d'origine mais pas tout à fait les mêmes pour assurer une interpolation correcte dans l'espace .

  • 01:00:00 Dans cette section de la vidéo, l'orateur discute des auto-encodeurs variationnels (VAE), qui sont un type de modèle génératif qui permet au modèle de se concentrer sur les points entre les données et garantit que les données sont centrées à l'origine et a une variance non corrélée dans toutes les directions. Le principe du maximum de vraisemblance est utilisé pour ajuster le modèle aux données, et un réseau de neurones est utilisé pour approximer la vraie postérieure. L'effondrement du mode est toujours un problème, car il n'y a pas de mappage de X à Zed, mais les VAE offrent une meilleure solution que les modèles précédents.

  • 01:05:00 Dans cette section, nous découvrons les modèles génératifs et comment ils peuvent souffrir d'un effondrement de mode, où des sorties similaires sont produites pour différentes entrées. Pour résoudre ce problème, nous pouvons utiliser des auto-encodeurs variationnels (VAE), qui utilisent deux réseaux de neurones pour coder l'entrée d'une distribution dans l'espace latent et décoder la distribution de l'espace latent en une distribution dans l'espace d'entrée. Nous pouvons utiliser la décomposition de la probabilité logarithmique de l'entrée pour obtenir une limite inférieure pour la probabilité réelle, qui peut être utilisée comme fonction de perte. Cela nous permet d'optimiser les réseaux de neurones pour l'encodage et le décodage, ce qui contribue à atténuer le problème d'effondrement de mode.

  • 01:10:00 Dans cette section, l'orateur explique comment réécrire la fonction L en quelque chose qui peut être utilisé dans les systèmes d'apprentissage en profondeur. L'objectif est de maximiser une borne inférieure sur la vraisemblance, et en minimisant le L négatif, nous pouvons augmenter la vraisemblance autant que possible. L'orateur décompose la partie supérieure de la fraction en utilisant la définition de la probabilité conditionnelle et la simplifie en une somme d'attentes, qui devient la divergence KL et la probabilité logarithmique attendue. Ces termes peuvent être calculés et utilisés comme fonction de perte dans le système d'apprentissage en profondeur. Le terme KL tire les vecteurs d'ensemble vers l'origine et les épaissit vers une hypersphère autour de l'origine, tandis que l'autre terme nécessite de prendre une attente, ce qui le rend un peu plus difficile à mettre en œuvre.

  • 01:15:00 Dans cette section, le conférencier aborde les défis de la maximisation d'une attente dans le contexte de l'autoencodeur variationnel (VAE). L'orateur explique qu'ils se rapprochent de l'espérance en prenant un échantillon et en calculant le logarithme de la densité de probabilité pour chaque échantillon, puis en prenant la moyenne. Ils ont mis L à 1 pour garder les choses simples. Cependant, ils notent que leur méthode se bloque à l'étape d'échantillonnage, qui n'est pas différentiable. Pour résoudre ce problème, ils intègrent l'astuce de reparamétrisation, qui leur permet de mettre en œuvre l'étape d'échantillonnage dans le cadre de leur réseau de neurones. Cela conduit au développement de l'encodeur variationnel, qui est une approche de principe pour former un générateur qui est plus simple à mettre en œuvre.

  • 01:20:00 Dans cette section, le conférencier explique la différence entre un modèle génératif appelé les réseaux antagonistes génératifs (GAN) et les auto-encodeurs variationnels (VAE). Alors que les GAN offrent une cartographie de l'espace latent à l'espace des données, les VAE fonctionnent dans l'autre sens de l'espace des données à l'espace latent et retour à l'espace des données. Les VAE offrent une interpolation entre les éléments des données, y compris le langage et les données discrètes, et ils fonctionnent mieux que les GAN pour générer des variables discrètes. L'orateur donne un exemple de la façon dont les VAE peuvent utiliser un vecteur de sourire, un papier existant et le vecteur de soustraction de lunettes de soleil pour réaliser l'expérience du malfaiteur. L'intervenant conclut que les VAE offrent une approche directe dès les premiers principes, mais que les GAN sont plus adaptés aux images.

  • 01:25:00 Dans cette section, l'orateur compare les auto-encodeurs variationnels (VAE) à l'analyse en composantes principales (PCA), indiquant que les deux techniques sont utilisées pour la réduction de la dimensionnalité et le mappage des données vers une distribution standardisée, mais les VAE sont plus puissants et peuvent faire plus de choses. Cependant, la formation des VAE est beaucoup plus difficile car elle nécessite une descente de gradient alors que l'ACP peut trouver une solution analytique. De plus, l'ACP fournit souvent des dimensions significatives basées sur les données, comme une dimension souriante pour les visages, alors que les dimensions produites par les VAE n'ont généralement aucune signification à moins qu'une caractéristique sémantique spécifique ne soit ciblée.
 

Cours 10 Modèles d'arbres et ensembles : Arbres de décision, AdaBoost, Gradient Boosting (MLVU2019)



10 modèles d'arbres et ensembles : arbres de décision, AdaBoost, Gradient Boosting (MLVU2019)

Cette première partie de la vidéo présente les arbres de décision, un modèle d'apprentissage automatique populaire utilisé pour la classification et la régression, qui fonctionne en segmentant l'espace d'instance et en choisissant une classe pour chaque segment. La vidéo explique également comment les arbres de décision peuvent être formés à l'aide du gain d'informations et comment l'élagage peut aider à atténuer le surajustement. L'orateur souligne l'importance de diviser les données en ensembles de formation, de validation et de test pour assurer l'équité entre les modèles. De plus, la vidéo traite de l'apprentissage d'ensemble, où plusieurs arbres de décision ou d'autres modèles sont formés et combinés pour résoudre des problèmes tels que la variance élevée et l'instabilité. Le boosting est également introduit en tant que technique d'ensemble de modèles, qui implique la formation séquentielle de classificateurs et la repondération des données pour améliorer l'ensemble. Enfin, l'algorithme Adaboost est expliqué, qui sélectionne des classificateurs qui minimisent une fonction de perte pour améliorer l'ensemble.

Cette deuxième partie de la vidéo couvre divers modèles et ensembles d'arbres, y compris AdaBoost et le gradient boosting. AdaBoost est une méthode de boost populaire pour les modèles de classification qui pondère les instances de données en fonction des performances du classifieur. L'amplification de gradient consiste à initialiser un modèle avec une fonction constante, à calculer des résidus, à ajuster un nouveau modèle aux résidus étiquetés et à l'ajouter à l'ensemble. L'orateur explique les différences entre le gradient boosting et AdaBoost et note que les ensembles ne sont pas beaucoup utilisés dans la recherche car ils peuvent fausser les résultats. De plus, le bagging réduit la variance et le boosting réduit le biais.

  • 00:00:00 Dans cette section de la vidéo, le présentateur présente trois modèles d'apprentissage automatique et des ensembles modaux, une approche populaire dans la production et les compétitions telles que Kaggle. L'approche combine l'idée de base de l'apprentissage par arbre de décision, un modèle de classification ou un modèle de régression, et la méthode d'ensemble, qui entraîne de nombreux modèles et les combine pour renforcer le modèle. Le présentateur explique également que les arbres de décision fonctionnent à la fois sur les caractéristiques numériques et catégorielles ; ils sont principalement utilisés pour les caractéristiques catégorielles. La section se termine par l'introduction d'un ensemble de données sur les films, qui sera utilisé pour démontrer le modèle d'arbre de décision.

  • 00:05:00 Dans cette section, la vidéo explique comment fonctionnent les arbres de décision et comment ils peuvent être formés à l'aide d'ensembles de données. Le processus d'apprentissage de l'arbre de décision implique de trouver une bonne fonctionnalité à diviser, d'étendre l'arbre étape par étape et de créer des sous-ensembles de données. Les divisions sont déterminées en créant la distribution la moins uniforme des étiquettes de classe dans chaque sous-ensemble. Un exemple est donné pour un ensemble de données sur les classements et les genres de films, où le fractionnement sur les classements ne produit pas une bonne distribution des classes, mais le fractionnement sur le genre le fait.

  • 00:10:00 Dans cette section, la vidéo explique le fonctionnement des arbres de décision en segmentant l'espace d'instance et en choisissant une classe particulière pour chaque segment. L'arbre se développe en sélectionnant de nouvelles divisions pour chaque feuille, mais cela n'a pas de sens de diviser deux fois sur la même entité catégorique dans un chemin de la racine à la feuille. Les conditions d'arrêt sont lorsque toutes les entrées ou toutes les sorties sont identiques, et la non-uniformité est déterminée par la répartition des classes entre les segments. Cela peut être difficile pour trois classes ou plus puisqu'il faut tenir compte de la proportion de chaque classe.

  • 00:15:00 Dans cette section, l'orateur explique comment l'entropie peut être utilisée comme mesure de l'uniformité d'une distribution et comment calculer le gain d'information d'une caractéristique dans la classification par arbre de décision. L'entropie est une mesure de l'uniformité d'une distribution, une distribution uniforme ayant une entropie plus élevée. L'orateur le démontre avec deux distributions et utilise la formule d'entropie pour montrer que la distribution uniforme a une entropie de deux bits, tandis que la distribution non uniforme a une entropie beaucoup plus faible en raison de son efficacité accrue dans la transmission d'informations avec des codes plus courts. L'entropie conditionnelle, qui est juste une entropie conditionnée par quelque chose, est également expliquée, et le gain d'information d'une caractéristique est calculé en prenant l'entropie générique avant de voir la caractéristique moins l'entropie après avoir vu la caractéristique.

  • 00:20:00 Dans cette section, le processus de fractionnement de l'arbre à l'aide des fonctionnalités avec le gain d'informations le plus élevé est expliqué en détail. L'algorithme commence par une feuille non étiquetée et boucle jusqu'à ce que toutes les feuilles soient étiquetées. Pour chaque feuille sans étiquette avec le segment, l'algorithme vérifie la condition d'arrêt, qui peut être à court d'entités ou toutes les instances ayant la même classe. Si la condition d'arrêt n'est pas remplie, la feuille est scindée sur la caractéristique avec le gain d'information le plus élevé. Le seuil pour les caractéristiques numériques est choisi pour maximiser le gain d'informations, et un classificateur d'arbre de décision avec des caractéristiques numériques peut avoir une limite de décision plus compliquée en raison de la possibilité de fractionnement sur la même caractéristique plusieurs fois avec des seuils différents.

  • 00:25:00 Dans cette section, l'orateur discute du problème de surajustement lors de l'utilisation d'arbres de décision grands et complexes. Ils expliquent comment la précision de la formation peut augmenter avec la taille maximale de l'arbre, mais la précision des données de test ou de validation peut diminuer massivement. Pour résoudre ce problème, l'orateur présente le concept d'élagage et comment il aide à atténuer le surajustement. Ils soulignent également l'importance de diviser les données en ensembles de formation, de validation et de test pour la sélection d'hyperparamètres et la recherche de modèles afin d'assurer l'équité entre les modèles. Enfin, l'orateur note que des outils comme SK Learn retiennent automatiquement certaines données de formation pendant le processus de formation pour effectuer l'élagage.

  • 00:30:00 Dans cette section, l'orateur parle des arbres de régression, qui sont utilisés lorsque l'étiquette cible n'est pas une classe, mais plutôt une valeur numérique. Les principes de base sont les mêmes que pour les arbres de décision, mais il y a quelques différences à noter. Premièrement, dans les arbres de régression, les feuilles sont étiquetées avec des nombres au lieu de classes. La moyenne ou la médiane est souvent utilisée pour étiqueter les instances du segment. Deuxièmement, au lieu de l'entropie, la variance est utilisée pour déterminer sur quelle caractéristique se diviser à chaque étape, ce qui maximise les informations obtenues. L'orateur discute également d'une hiérarchie de généralisation pour l'espace modèle, où le modèle le plus généralisant est une fonction constante, et l'ajout de plus de fractionnements augmente la complexité du modèle.

  • 00:35:00 Dans cette section, l'orateur discute des arbres de décision et des arbres de régression en tant que modèles et de leurs limites telles que les problèmes de variance élevée et d'instabilité. La solution à ces problèmes consiste à former plusieurs arbres de décision et à les combiner en un ensemble, ce qui est une technique populaire. Le but de l'apprentissage d'ensemble est de résoudre le compromis entre biais et variance, où le biais est un problème structurel et la variance est la répartition des erreurs des modèles. L'apprentissage d'ensemble aide à résoudre ces problèmes, et la combinaison d'arbres de décision avec d'autres modèles est possible. L'analogie de la notation des projets d'étudiants avec une rubrique est utilisée pour expliquer un biais élevé et une faible variance.

  • 00:40:00 Dans cette section, l'orateur discute du problème de biais et de variance dans l'apprentissage automatique et de la manière dont le bootstrap peut aider à résoudre ce problème. En raison du nombre limité de données disponibles, il peut être difficile de déterminer si la distance observée par rapport à la cible est due à un biais élevé ou à une variance élevée. L'amorçage résout ce problème en simulant le processus d'échantillonnage à partir d'un autre ensemble de données en rééchantillonnant l'ensemble de données d'origine avec remplacement pour créer un nouvel exemple d'ensemble de données. En analysant la fonction de densité cumulée de la distribution empirique, il devient clair que le rééchantillonnage à partir de l'ensemble de données d'origine se rapproche de l'échantillonnage à partir de la distribution de données d'origine, permettant la détection d'une variance élevée en créant différents ensembles de données sur lesquels s'entraîner.

  • 00:45:00 Dans cette section, la vidéo explique l'agrégation Bootstrap ou Bagging, qui implique le rééchantillonnage de l'ensemble de données et la formation de plusieurs modèles sur chaque ensemble de données de rééchantillonnage. Les modèles sont ensuite combinés en prenant leur vote majoritaire pour classer les nouvelles données, et la méthode réduit la variabilité, mais elle ne réduit pas les biais. De plus, la vidéo traite du boosting, qui aide à booster ensemble une famille de modèles faibles pour obtenir un biais plus faible. Le boost consiste à ajouter une petite colonne appelée poids à l'ensemble de données qui indique l'importance de chaque caractéristique à un moment précis du processus d'apprentissage. L'idée générale du boosting est de commencer avec un classificateur, M0, qui peut être n'importe quoi - un classificateur linéaire, un modèle constant ou un modèle qui produit une classe majoritaire.

  • 00:50:00 Dans cette section, le concept de renforcement en tant que technique d'ensemble modèle est introduit. L'amplification implique de former séquentiellement des classificateurs et de repondérer les données en augmentant le poids pour les instances où les classificateurs précédents se trompent et en diminuant le poids pour les instances qu'ils obtiennent. Les classificateurs reçoivent un poids en fonction de leur importance dans l'amélioration de l'ensemble, et l'ensemble final est une somme de tous les modèles entraînés avec leurs poids respectifs. AdaBoost est une approche plus fondée sur les principes du boosting et implique la définition d'une fonction d'erreur à minimiser et l'utilisation de données d'entraînement pondérées. La fonction d'erreur est utilisée pour déterminer le poids accordé à chaque modèle dans l'ensemble.

  • 00:55:00 Dans cette section de la vidéo, l'orateur explique la fonction de perte utilisée dans Adaboost et comment elle est minimisée afin de sélectionner le prochain classificateur à ajouter à l'ensemble. Il décrit comment, pour chaque instance de l'ensemble de données, l'erreur est calculée en prenant l'exponentielle de la différence entre l'étiquette cible et l'étiquette prédite, et montre comment cette erreur est additionnée sur l'ensemble de données pour donner l'erreur de l'ensemble actuel. . L'orateur explique ensuite comment cette erreur est encore simplifiée en une nouvelle fonction qui peut être minimisée en sélectionnant le classificateur suivant pour minimiser la somme des poids des instances mal classées, qui est la seule partie de l'équation qui peut être influencée par le choix de classificateur. Dans l'ensemble, l'algorithme Adaboost fonctionne en sélectionnant de manière itérative des classificateurs qui minimisent cette fonction de perte, augmentant efficacement le poids des instances mal classées et réduisant la fréquence des erreurs de classification dans les itérations futures.

  • 01:00:00 Dans cette section, le conférencier explique l'algorithme AdaBoost, qui est une méthode de boost populaire pour les modèles de classification. Pour créer un ensemble, l'algorithme commence par un classificateur particulier et les poids sont calculés pour chaque instance de données en fonction de la performance du classificateur sur cette instance. Un nouveau classificateur est formé pour minimiser la somme des poids des classifications incorrectes, et ce nouveau classificateur reçoit un poids, qui est calculé en prenant l'exponentielle de l'erreur, puis en trouvant la valeur de a qui minimise l'erreur totale. Ce processus est répété pour un nombre défini d'étapes, et le modèle final de l'ensemble est le résultat. L'orateur explique également la différence entre le boosting et le bagging, et présente le gradient boosting, qui est une variante du boosting conçue pour les modèles de régression.

  • 01:05:00 Dans cette section, l'orateur discute de l'idée de base de l'amplification du gradient, qui consiste à initialiser un modèle avec la fonction constante et à calculer les résidus de l'ensemble jusqu'à présent. Ensuite, un nouveau modèle est ajusté à l'ensemble de données étiqueté avec des résidus au lieu des étiquettes d'origine, qui est ajouté à l'ensemble pondéré par une valeur gamma. Le modèle peut être écrit de manière récursive comme M3 = M2 + un autre modèle, augmentant lentement la somme. On l'appelle gradient boosting car il implique de calculer le gradient sur un modèle de super surajustement pour la somme de la fonction de perte d'erreurs au carré, qui est juste la différence entre la sortie du modèle et la sortie cible, ou le gradient résiduel.

  • 01:10:00 Dans cette section, l'orateur explique comment fonctionne l'amplification du gradient en disant à un modèle de suivre le gradient dans l'espace de prédiction. L'amplification du gradient permet de remplacer la fonction de perte par une autre fonction de perte, telle que la perte L1 au lieu de la perte L2. En prenant la dérivée de la valeur de perte par rapport à la sortie du modèle et en appliquant la règle de la chaîne, on peut calculer le sinus des résidus au lieu des résidus eux-mêmes et former le classificateur suivant dans l'ensemble pour prédire le sinus du résidu. Cette méthode permet d'optimiser les différentes fonctions de perte dans l'amplification du gradient.

  • 01:15:00 Dans cette section, les différences entre l'amplification de gradient et l'amplification ADA sont expliquées. Dans le gradient boosting, chaque modèle correspond aux pseudo-résidus du modèle précédent, tandis que dans le boost ADA, chaque nouveau modèle correspond à un ensemble de données repondéré en fonction des performances du modèle précédent. L'amplification de gradient fonctionne mieux pour les modèles qui n'optimisent pas une fonction de perte et ne fonctionnent pas avec des méthodes d'apprentissage inspirées du calcul. L'empilement, en revanche, est une technique simple qui combine les jugements de plusieurs modèles en une seule sortie. Cette technique est utilisée pour obtenir une amélioration supplémentaire des performances après avoir formé une poignée de modèles et que vous souhaitez les combiner en un modèle encore meilleur.

  • 01:20:00 Dans cette section, l'orateur explique que les ensembles, tout en donnant un avantage sur les modèles individuels, ne sont pas beaucoup utilisés dans la recherche car les modèles doivent être testés isolément pour les comparer sans aucune amplification qui peut fausser les résultats. De plus, les ensembles peuvent être coûteux lorsqu'ils sont utilisés avec d'énormes réseaux de neurones, et sont donc principalement utilisés avec de petits modèles comme des timbres de décision ou de petits arbres de décision. L'orateur rappelle également que le bagging réduit les variantes et que le boosting réduit les biais.
 

Cours 11 Données séquentielles : modèles de Markov, incorporations de mots et LSTM



11 Données séquentielles : modèles de Markov, incorporations de mots et LSTM

Dans cette vidéo, l'intervenant aborde les différents types de données séquentielles rencontrées en machine learning, comme les données numériques ou symboliques agencées en temps ou en séquence. Ils introduisent les modèles de Markov, les incorporations de mots et les LSTM comme modèles pour résoudre ces problèmes. La vidéo décrit le processus de formation et de prédiction avec des données séquentielles, y compris le concept de validation et de formation sur les données qui se sont produites avant la chose spécifique testée. De plus, le conférencier explique comment modéliser des séquences avec des réseaux de neurones, y compris comment gérer des séquences de différentes longueurs et modélisation temporelle, et le processus de formation d'un réseau de neurones récurrent en utilisant la rétropropagation dans le temps. Enfin, la vidéo couvre les aspects de la classification de la séquence à l'étiquette, qui peuvent être améliorés avec des modèles de Markov lorsque les réseaux de neurones récurrents oublient rapidement les choses.

La vidéo couvre une gamme de sujets liés au traitement séquentiel des données, y compris les modèles de Markov et leurs limites, les réseaux de mémoire à long court terme (LSTM) et leurs avantages, l'utilisation des LSTM pour la génération de texte et d'image, les techniques de forçage des enseignants et le sous-titrage d'images. L'orateur fournit des explications détaillées sur la structure LSTM et les différentes portes qu'elle contient, ainsi que sur la manière de former et d'échantillonner à partir de ces réseaux pour des tâches telles que la génération de texte shakespearien et le sous-titrage d'images. L'importance d'utiliser des couches d'intégration pour améliorer les LSTM au niveau des mots est également discutée, ainsi que l'éventail des méthodes disponibles pour le traitement des séquences - des modèles les plus simples aux plus puissants comme les LSTM.

  • 00:00:00 Dans cette section, le conférencier discute de l'importance de participer à l'Enquête nationale auprès des étudiants pour les étudiants en informatique, car le taux de participation a été faible. Ensuite, l'orateur annonce qu'il n'y aura pas de devoirs la semaine prochaine, car ils seront remplacés par des examens blancs. L'orateur assure aux téléspectateurs que la partie difficile du cours est terminée et que les conférences restantes seront moins compliquées. Le sujet de cette conférence est les données séquentielles, et l'orateur présente les modèles de Markov, les incorporations de mots et les LSTM comme modèles pour résoudre ces problèmes.

  • 00:05:00 Dans cette section, l'orateur aborde les différents types de données séquentielles susceptibles d'être rencontrées dans l'apprentissage automatique, telles que les données numériques ou symboliques organisées dans le temps ou en séquence. Les données peuvent avoir différentes dimensions, telles qu'une ou deux dimensions, selon la nature du problème. Par exemple, les données linguistiques peuvent être considérées comme unidimensionnelles, chaque mot étant une valeur discrète, ou comme bidimensionnelles avec une partie post-texte de l'étiquette vocale. L'orateur mentionne également les tâches possibles d'apprentissage automatique telles que la classification ou la prédiction, selon le type et la dimension des données.

  • 00:10:00 Dans cette section, l'orateur explique comment utiliser des modèles d'apprentissage automatique pour prédire la valeur suivante d'une séquence en fonction des valeurs précédentes dans un seul paramètre de séquence en transformant les données en un tableau avec des caractéristiques pour les valeurs précédentes et une cible valeur. Ils suggèrent d'utiliser un apprenant de régression comme la régression linéaire ou l'arbre de régression pour former un modèle, mais attention qu'il est important de diviser les données en ensembles de formation, de validation et de test avec un processus de validation en aval pour s'assurer que le modèle n'est formé que sur données passées et testées sur des données futures, ce qui se passe dans des cas d'utilisation réels.

  • 00:15:00 Dans cette section, l'orateur discute de différentes méthodes d'entraînement et de prédiction avec des données séquentielles. Ils soulignent l'importance de la validation et de la formation sur les données qui se sont produites avant la chose spécifique testée. Ils présentent le modèle de Markov en tant que modèle probabiliste pour la modélisation au niveau du mot et expliquent comment décomposer la distribution de probabilité conjointe de plusieurs variables aléatoires à l'aide de la règle de probabilité en chaîne. Ils montrent comment décomposer la phrase "Félicitations, vous avez gagné un prix" en une distribution de probabilité conjointe sur six variables aléatoires, qui sont six variables aléatoires distinctes et décomposer la distribution de probabilité conjointe en un produit de distributions conditionnelles des mots conditionnés sur le mots qui le précèdent.

  • 00:20:00 Dans cette section, l'orateur explique comment calculer la probabilité d'une phrase en la décomposant en un produit de probabilités conditionnelles. L'utilisation des probabilités logarithmiques est recommandée pour éviter les sous-flux car la probabilité d'un mot particulier peut devenir très faible, en particulier avec un vocabulaire volumineux, il est donc préférable de prendre le logarithme à la place. Le modèle de langage idéal devrait inclure non seulement des règles grammaticales mais aussi un raisonnement de bon sens et de la physique, mais pour l'instant, le locuteur utilise l'hypothèse de Markov, qui suppose que la probabilité d'un mot ne dépend que de ses deux derniers mots. Nous pouvons estimer ces probabilités en comptant combien de fois elles se produisent dans un grand ensemble de données de langage connu sous le nom de corpus.

  • 00:25:00 Dans cette section, la vidéo explique comment les modèles de Markov et les probabilités conditionnelles peuvent être utilisés pour créer un modèle de langage qui génère du texte. Le modèle de Markov permet le calcul de probabilités pour une séquence de mots, qui peuvent être utilisés pour la génération de texte par échantillonnage séquentiel. Cette technique, bien qu'elle ait ses limites, permet aux modèles de langage d'être testés pour leur capacité et leur précision. De plus, le modèle de Markov peut être utilisé pour la classification, qui se fait via un classificateur bayésien qui modélise les mots avec un modèle de langage, conditionné au spam ou au jambon, pour déduire une probabilité qu'un e-mail soit un spam.

  • 00:30:00 Dans cette section, les intervenants ont discuté des modèles de Markov, qui sont utilisés pour modéliser les données de séquence en estimant la probabilité d'une séquence donnée à une classe, puis en utilisant la règle de Bayes pour obtenir les probabilités de classe. Un modèle de Markov d'ordre zéro peut être utilisé pour le spam, mais pour d'autres tâches, un modèle d'ordre supérieur peut être préférable. Cependant, les modèles de Markov traitent les mots comme des symboles atomiques et ne tiennent pas compte du fait que certains mots ont des significations similaires. Pour résoudre ce problème, des modèles d'intégration peuvent être utilisés pour attribuer à chaque objet (dans ce cas, des mots) un vecteur de poids qui modélise les similitudes entre les objets. Cela se fait en apprenant les paramètres ou les valeurs de ces vecteurs pour calculer les facteurs latents, similaires au codage d'images dans des représentations vectorielles.

  • 00:35:00 Dans cette section, l'hypothèse distributionnelle est introduite, qui stipule que des mots apparaissant à proximité de mots similaires peuvent souvent signifier la même chose. L'algorithme de plongement de mots est ensuite discuté comme une application de cette hypothèse pour calculer un plongement. Avant d'appliquer l'algorithme, une représentation des mots est nécessaire, qui est un réseau de neurones avec un vecteur unique pour chaque mot, permettant un réseau de neurones très simple où le vocabulaire est mappé sur une sortie de 300 pour l'espace d'intégration. La partie inférieure du modèle est utilisée comme encodage pour l'espace d'intégration, et bien que certains chercheurs pensent qu'il s'agit d'une table de recherche, c'est essentiellement la même chose qu'un mappage d'un vecteur one-hot à une intégration.

  • 00:40:00 Dans cette section, le conférencier discute du concept d'incorporation de mots, une méthode dans laquelle un objet discret tel qu'un mot est représenté sous la forme d'un vecteur dense. Les intégrations sont formées en créant une matrice d'une cartographie linéaire des intégrations, qui peut ensuite être utilisée pour trouver une distribution de probabilité sur le contexte des mots. Il donne un exemple de la façon dont la soustraction de l'intégration pour «homme» de «femme» crée une direction dans laquelle les choses deviennent plus féminines, et comment cette direction peut être utilisée pour calculer des vecteurs de mots pour d'autres mots tels que «reine». Le conférencier explique comment ces incorporations peuvent être utilisées comme point de départ pour de plus grands réseaux de neurones pour l'apprentissage automatique, et comment un grand nombre d'incorporations de mots formées sur d'énormes quantités de données textuelles peuvent être téléchargées à partir de la bibliothèque de modèles open source de Google pour être utilisées dans d'autres projets. .

  • 00:45:00 Dans cette section, l'orateur explique comment modéliser des séquences avec des réseaux de neurones, y compris comment gérer des séquences de différentes longueurs et comment modéliser le temps. Une approche consiste à utiliser une connexion récurrente, dans laquelle une couche cachée prend la couche cachée précédente pour permettre un cycle dans le réseau. Cela permet au réseau de fonctionner sur des séquences de longueurs différentes, et les séquences peuvent être introduites une par une pour obtenir une sortie de séquence. Le conférencier souligne également l'importance de remplir les séquences pour leur donner la même longueur pour le traitement par lots et l'entraînement avec les réseaux de neurones.

  • 00:50:00 Dans cette section, le processus de formation d'un réseau neuronal récurrent utilisant la rétropropagation dans le temps est expliqué. Le défi consiste à se propager à travers la couche récurrente alors que la couche cachée change constamment. Une façon de résoudre ce problème consiste à dérouler le réseau afin que la connexion récurrente passe de la copie précédente du réseau à la copie suivante. Le réseau résultant est traité comme un grand réseau à anticipation sans connexions récurrentes, et les poids sont mis à jour par rétropropagation. Ce processus de formation est appelé apprentissage de séquence à séquence, où la séquence d'entrée est mappée à une séquence de sortie.

  • 00:55:00 Dans cette section, l'orateur explique la séquence à l'étiquette dans laquelle l'étiquette de sortie provient d'une donnée de séquence, telle que la classification de bande. Cependant, il n'est pas idéal d'utiliser uniquement le dernier élément de la séquence pour prédire la sortie, car cela crée une asymétrie et peut entraîner des problèmes de propagation du gradient. Au lieu de cela, il est préférable de prendre toute la sortie de la séquence et d'en faire la moyenne, ce qui permet au réseau de considérer chaque partie de la séquence d'entrée, ce qui en fait un meilleur prédicteur de l'étiquette. De plus, l'orateur explique que la séquence étiquetée peut se présenter de deux manières, soit en répétant l'étiquette d'entrée n fois et en l'alimentant dans un réseau neuronal pour produire une sortie, soit en initialisant l'état final avec une entrée et en donnant au réseau neuronal 0 vecteurs pour générer le séquence. Cependant, ce n'est pas efficace, car les réseaux de neurones récurrents ont tendance à oublier les choses rapidement, ce qui signifie qu'un modèle de Markov pourrait être un meilleur choix dans certains cas.

  • 01:00:00 Dans cette section, l'orateur discute des limites des modèles de Markov en matière de mémoire, en particulier pour décider quelles informations méritent d'être mémorisées. La solution est la mémoire longue à court terme (LSTM), qui est un type de réseau de neurones récurrent doté de plusieurs portes d'apprentissage qui décident des informations à retenir ou à oublier. Les portes contiennent deux vecteurs de valeurs comprises entre 0 et 1 ou entre -1 et 1, où la valeur de gauche sélectionne la partie à ajouter à la mémoire, et la valeur de droite détermine les informations à retenir, en fonction de la quantité d'informations d'entrée qui doit être ajouté et combien doit être annulé. Lors de l'utilisation du LSTM, les informations sélectionnées pour la mémoire sont ajoutées en continu, ce qui est propice à la conservation de souvenirs à plus long terme.

  • 01:05:00 Dans cette section, l'orateur explique la structure du réseau Long Short-Term Memory (LSTM), qui est un type de réseau neuronal récurrent constitué de cellules. Les cellules reçoivent une entrée et fournissent une sortie à chaque pas de temps tout en transmettant une valeur C (état de la cellule) et une valeur Y (sortie) entre les pas de temps. L'orateur décompose la notation visuelle du réseau LSTM et décrit ensuite diverses portes, y compris la porte d'oubli qui réduit l'activation dans la mémoire et la porte d'entrée qui décide quelles parties de l'entrée ajouter à la mémoire. La dernière étape consiste à décider de la valeur de sortie, qui se produit à travers une autre couche activée sigmoïde. L'orateur souligne l'avantage d'utiliser les réseaux LSTM - il n'y a pas de gradient de fuite le long de la colonne vertébrale ou de la bande transporteuse du réseau, ce qui améliore son efficacité.

  • 01:10:00 Dans cette section, l'orateur explique comment échantillonner à partir de LSTM pour créer un générateur de séquence au niveau des caractères. La sortie est une distribution de probabilité sur le caractère suivant basée sur l'historique d'entrée. Le modèle apprend à disposer des éléments tels que des virgules, à placer de nouvelles lignes et à approximer le pentamètre iambique, qui sonne shakespearien s'il est lu à haute voix. Le modèle est formé pour séquencer les données au niveau du caractère plutôt qu'au niveau du mot car il est plus puissant, mais il doit être alimenté par toute la séquence même si l'on n'échantillonne que quelques caractères. L'orateur cite une expérience où quelqu'un a formé et testé un modèle de Shakespeare qui a généré un texte impressionnant et assez shakespearien, démontrant que le modèle peut apprendre la syntaxe en éditant un article de Wikipédia, qui comprend des liens et certains textes de balisage.

  • 01:15:00 Dans cette section, l'orateur discute de l'utilisation des DM LS dans la génération de texte, tels que des articles de Wikipédia ou des tweets de Donald Trump, à travers la formation du réseau sur de grandes quantités de données. Ils mettent en évidence les différents modes dans lesquels le LS DM peut se manifester, tels que HTML ou XML, et mentionnent que le réseau peut même générer des mathématiques qui ressemblent à des articles de mathématiques de haut niveau. De plus, l'orateur suggère d'utiliser des LS DM pour générer des sorties aléatoires à l'aide d'un vecteur aléatoire introduit dans le réseau et d'un réseau d'encodeur/décodeur basé sur un encodeur externe variationnel (VAE), ce qui est encore démontré par un exemple de musique générée via un réseau de neurones. formés sur les extraits MIDI.

  • 01:20:00 Dans cette section, le présentateur explique comment modéliser le langage à l'aide d'une technique de forçage de l'enseignant où un modèle de langage prédictif à échantillonnage séquentiel est combiné avec un encodeur externe pour une séquence plus compliquée. Il poursuit en démontrant un modèle qui utilise le forçage des enseignants appelé SketchRNN, qui est utilisé pour modéliser des croquis que les humains dessinent rapidement sur divers sujets, tels que les chats et les hiboux. Le SketchRNN utilise une séquence variationnelle pour séquencer l'encodeur qui conduit à un espace latent, qui est utilisé pour interpoler en douceur entre différents dessins du même sujet. Enfin, le présentateur montre comment cette même technique peut être utilisée pour interpoler en douceur entre des phrases humaines, ce qui donne un résultat assez soigné.

  • 01:25:00 Dans cette section, l'orateur discute de l'ensemble de données Image COCO, qui contient des images de l'ensemble de données appelé ImageNet ainsi que cinq légendes écrites par l'homme décrivant ce qui se passe dans l'image. L'orateur suggère qu'une approche simple de la tâche de sous-titrage d'images consiste à télécharger un modèle de classification d'images pré-formé et à retirer la couche de classification. Le mappage résultant peut ensuite être transmis à un LSTM pour entraîner le modèle à produire des sous-titres. L'orateur explique également comment améliorer le LSTM au niveau du mot en utilisant une couche d'intégration, et la différence entre les LSTM et les modèles de Markov. Enfin, le conférencier discute de l'éventail des méthodes pouvant être utilisées pour le traitement de séquences, des plus puissantes aux plus simples.
 

12 modèles matriciels : systèmes de recommandation, convolutions PCA et Graph



12 modèles matriciels : systèmes de recommandation, convolutions PCA et Graph

Dans la première partie de la vidéo, le conférencier discute des modèles matriciels et de leurs applications dans les systèmes de recommandation, qui peuvent être utilisés pour les recommandations de produits, les actualités et les réseaux sociaux. Les systèmes de recommandation reposent sur des commentaires explicites et implicites ainsi que sur des informations secondaires, et peuvent être manipulés pour diffuser de fausses informations s'ils ne sont pas conçus correctement. La factorisation matricielle est une méthode courante pour prédire les notes en fonction du comportement de l'utilisateur, avec le problème d'optimisation consistant à trouver des matrices U et M pour rendre UTM aussi proche que possible de R résolu par des méthodes d'erreur au carré et en calculant la norme de Frobenius. L'orateur discute également des méthodes d'optimisation de ce problème à l'aide de la descente de gradient et explique la règle de mise à jour du gradient pour le filtrage collaboratif. En outre, le conférencier couvre cinq façons d'améliorer le modèle de factorisation matricielle, y compris le contrôle des biais de l'utilisateur et du film, l'utilisation de likes implicites et l'intégration d'informations sur le site. Enfin, le conférencier discute de la puissance de la factorisation matricielle dans le cadre classique de l'apprentissage automatique, des extensions de l'ACP dans la factorisation matricielle et de l'utilité des modèles de graphes dans le stockage des données.

La deuxième partie de la vidéo présente divers modèles matriciels pour les systèmes de recommandation, y compris les convolutions de graphes pour la classification des nœuds et la prédiction des liens. Les convolutions de graphe mélangent les incorporations de nœuds en multipliant la matrice de contiguïté avec les incorporations d'origine, mais cette approche a des limites dans la représentation de grands graphes sociaux. Les méthodes de validation traditionnelles ne fonctionnent pas pour les modèles de fonctionnalités mixtes utilisés dans les systèmes de recommandation, donc un apprentissage transductif est nécessaire, où seules les étiquettes d'ensemble de formation sont retenues, mais pas les fonctionnalités. De plus, la modélisation des données de temps et d'évaluation nécessite de prendre en compte les données d'horodatage et l'apprentissage transductif. La vidéo se termine par un résumé de la conférence et un aperçu de la discussion suivante sur l'apprentissage par renforcement.

  • 00:00:00 Dans cette section, l'orateur présente le concept de modèles matriciels, qui sont différentes approches d'analyse des ensembles de données qu'il est préférable de considérer comme des matrices. Les modèles qui seront discutés partagent la caractéristique de traiter les ensembles de données comme des matrices. La conférence se concentre sur les systèmes de recommandation, qui sont généralement mis en œuvre par factorisation matricielle, et le modèle gagnant du concours Netflix est discuté. La conférence aborde également brièvement l'analyse en composantes principales et les modèles de graphes avant de conclure par une discussion sur la validation.

  • 00:05:00 Dans cette section, l'orateur explique trois formes de données pouvant être utilisées dans les systèmes de recommandation : les commentaires explicites, les commentaires implicites et les informations secondaires. La rétroaction explicite consiste à demander à l'utilisateur d'évaluer un élément spécifique, ce qui est très précieux mais relativement rare. Des commentaires implicites peuvent être recueillis en examinant ce que fait l'utilisateur, comme les pages vues, les listes de souhaits ou même les mouvements de la souris. Les informations secondaires ne sont pas des informations sur l'association entre les utilisateurs et les films, mais des informations sur les utilisateurs eux-mêmes et les films, telles que la durée, les acteurs et les réalisateurs. L'orateur note que les systèmes de recommandation sont utiles pour divers contextes, y compris les recommandations de produits (par exemple, Amazon), les reportages (par exemple, Google News) et les réseaux sociaux (par exemple, Twitter et YouTube).

  • 00:10:00 Dans cette section, l'orateur discute des systèmes de recommandation et de leurs vulnérabilités. Les systèmes de recommandation sont utilisés pour suggérer du contenu à des utilisateurs spécifiques, mais ils peuvent être manipulés pour diffuser de fausses informations. L'orateur note que toute situation avec deux ensembles de choses et une relation entre elles peut être considérée comme un paradigme de recommandation. Par exemple, des recettes et des ingrédients ou des politiciens et des lois de vote. Le problème avec les systèmes de recommandation est que les données sont incomplètes, car tous les utilisateurs n'évaluent pas tous les films. L'orateur suggère d'utiliser des modèles d'intégration pour attribuer à chaque utilisateur et film un vecteur et d'apprendre les valeurs de ces vecteurs en fonction d'une fonction de perte afin de prédire les données manquantes.

  • 00:15:00 Dans cette section, l'orateur décrit la factorisation matricielle comme un moyen de représenter les utilisateurs et les films dans un modèle dans le but de prédire les classements des films en fonction du comportement des utilisateurs. Le modèle attribue un vecteur à chaque utilisateur et à chaque film, qui sont ensuite multipliés ensemble dans une grande matrice. À l'aide d'un produit scalaire, l'orateur explique comment le modèle prédit une valeur comprise entre moins l'infini et plus l'infini, les valeurs les plus élevées indiquant que l'utilisateur est plus susceptible d'aimer le film. Les catégories du modèle ont tendance à renforcer les hypothèses superficielles sur le comportement des utilisateurs, et bien qu'il ne soit pas particulièrement raffiné, le modèle peut toujours offrir des prédictions fiables. Grâce à la factorisation matricielle, une matrice est décomposée en deux matrices plus petites, une matrice incorporant des utilisateurs et l'autre incorporant des films, et leur produit scalaire représentant les prédictions.

  • 00:20:00 Dans cette section, le présentateur explique le problème d'optimisation consistant à trouver des matrices U et M pour rendre UTM aussi proche que possible de R. Cela se fait en utilisant la méthode de l'erreur quadratique et en calculant la norme de Frobenius. Cependant, le problème est qu'il y a souvent des valeurs manquantes dans la matrice de notation. Pour résoudre ce problème, la fonction de perte est calculée uniquement sur les éléments de R dont la cote est connue dans l'ensemble d'apprentissage, au lieu de tous les éléments de R. Le présentateur aborde également les deux méthodes d'optimisation de ce problème, qui sont l'optimisation alternée et descente en pente. La méthode de descente de gradient est plus flexible et plus facile à ajouter à votre modèle.

  • 00:25:00 Dans cette section, l'orateur explique la règle de mise à jour du gradient pour la technique de filtrage collaboratif avec factorisation matricielle. Il définit la matrice d'erreur et explique le processus de prise des dérivées de la fonction de perte par rapport aux paramètres. Ensuite, il montre comment la règle de mise à jour du dégradé est utilisée pour mettre à jour les valeurs des incorporations d'utilisateurs et de films. La règle de mise à jour consiste à calculer le produit scalaire entre la ligne et la colonne de la matrice d'erreur et la matrice d'intégration respective et à l'ajouter au paramètre mis à jour.

  • 00:30:00 Dans cette section, l'orateur explique la logique derrière la fonction de prédiction du produit scalaire dans les systèmes de recommandation et comment elle peut être entraînée à l'aide de la descente de gradient stochastique. Le problème de n'avoir que des notes positives et comment le résoudre par un échantillonnage négatif est également discuté. L'orateur se penche ensuite sur deux façons de résoudre le problème de factorisation matricielle non négative, ce qui donne des dimensions interprétables pour les films, similaires au concept d'espace latent dans l'ACP.

  • 00:35:00 Dans cette section, l'orateur discute de cinq façons d'améliorer le modèle de factorisation matricielle pour les recommandations de films. Tout d'abord, elle explique comment le contrôle du biais de l'utilisateur et du film peut être intégré au modèle en ajoutant des paramètres scalaires appris. Deuxièmement, le problème de l'étoile d'or ou du démarrage à froid est résolu en utilisant des goûts implicites tels que le comportement de navigation pour créer une deuxième intégration d'utilisateur. Troisièmement, le modèle peut être régularisé pour éviter le surajustement en ajoutant un terme de pénalité à la fonction de perte. Quatrièmement, l'analyse en composantes principales (ACP) peut être appliquée pour réduire la dimensionnalité des incorporations d'utilisateurs et de films. Enfin, l'orateur explique comment les convolutions graphiques peuvent être utilisées pour incorporer des informations sur les genres de films et les intégrer au modèle.

  • 00:40:00 Dans cette section, l'orateur explique comment ajouter des informations implicites et des informations de site aux systèmes de recommandation. Pour obtenir des informations implicites, le système résume toutes les intégrations de films qu'un utilisateur a aimées et les ajoute à ses intégrations existantes. De même, pour les informations de site, les caractéristiques d'un utilisateur sont codées dans des données catégorielles et leurs intégrations correspondantes sont additionnées pour créer le troisième vecteur d'intégration. L'orateur note également que le temps peut avoir un impact sur les notes, donc le contrôle du temps est nécessaire pour de bonnes prédictions. Cela peut être fait en segmentant les plongements en périodes de temps discrètes et en apprenant différents plongements pour chaque période. La section se termine par un résumé de la factorisation matricielle et des biais pour les systèmes de recommandation.

  • 00:45:00 Dans cette section, l'orateur discute de la puissance de la factorisation matricielle dans les systèmes de recommandation et de la manière dont elle peut être appliquée dans le cadre classique de l'apprentissage automatique. En prenant une matrice de colonnes de caractéristiques et de lignes d'instance, la factorisation matricielle par rétropropagation ou d'autres méthodes d'apprentissage peut créer une représentation de faible dimension d'une instance qui peut être récupérée en la multipliant par une matrice C vectorielle C. Ceci est similaire aux techniques de réduction de dimensionnalité comme l'analyse en composantes principales (PCA), mais peut être rendue équivalente à PCA en supposant que les colonnes de C sont linéairement indépendantes, ce qui entraîne un problème de minimisation contrainte.

  • 00:50:00 Dans cette section, le présentateur discute de l'ACP et de ses extensions dans la factorisation matricielle. Ils expliquent que l'ACP peut être utilisée pour des données incomplètes en maximisant la reconstruction uniquement sur les valeurs connues des données. Ce faisant, il permet une représentation de faible dimension, ou une intégration, des données qui peuvent être utilisées pour la classification ou la régression. L'extension de sparse PCA est également introduite, qui utilise le régularisateur L1 pour renforcer la parcimonie et faciliter l'interprétation des paramètres. Le présentateur explique ensuite comment différentes valeurs de perte peuvent être appliquées au problème de factorisation matricielle, comme l'entropie croisée binaire pour les données binaires, et montre comment ces méthodes peuvent produire de meilleurs incorporations pour les données. La section se termine par une introduction aux modèles de graphes en tant que forme utile de données.

  • 00:55:00 Dans cette section, l'orateur discute de la flexibilité des graphes dans le stockage des données, tels que les réseaux sociaux, les interactions protéiques, les réseaux de trafic et les graphes de connaissances. L'orateur propose ensuite l'idée d'utiliser des modèles d'apprentissage automatique pouvant consommer des graphes, en particulier pour les tâches de prédiction de liens et de classification de nœuds, qui peuvent être considérées comme similaires aux problèmes de recommandation. L'orateur introduit le concept d'intégration de nœuds et discute du réseau de neurones convolutionnels de graphe comme un moyen d'approfondir le graphe et d'étendre l'intégration de base.

  • 01:00:00 Dans cette section, le conférencier explique comment fonctionnent les convolutions de graphes dans les systèmes de recommandation. Les convolutions de graphe attribuent une intégration dimensionnelle aléatoire à chaque nœud du graphe, ce qui peut être interprété comme l'attribution d'une couleur aléatoire à des fins de visualisation. L'intuition derrière les convolutions de graphe est qu'elles mélangent ces intégrations, permettant d'extraire des informations des voisins du nœud dans sa propre intégration. Après plusieurs étapes de mixage, tous les nœuds auront finalement la même représentation, qui représente le graphe global. Pour mélanger les plongements de nœuds, la matrice d'adjacence est multipliée par les plongements d'origine, ce qui donne de nouveaux plongements où chaque plongement de nœud représente la somme de ses voisins plus lui-même. Les plongements doivent être normalisés pour s'assurer que les valeurs n'explosent pas.

  • 01:05:00 Dans cette section, l'orateur explique comment utiliser les convolutions de graphe pour la classification des nœuds et la prédiction des liens. Pour la classification des nœuds, un graphe simple se voit attribuer une intégration pour chaque nœud, et une convolution de graphe est appliquée pour créer de nouvelles intégrations basées sur les nœuds voisins. Ensuite, une autre convolution est appliquée pour mapper les plongements à deux dimensions pour la classification. Pour la prédiction de lien, les plongements de nœuds sont produits à travers plusieurs couches de convolutions de graphe, et un modèle de factorisation matricielle est utilisé au-dessus de ces plongements. Les gradients sont ensuite utilisés pour rétropropager à travers les convolutions de graphe d'origine pour la prédiction de lien basée sur une structure de graphe plus profonde.

  • 01:10:00 Dans cette section de la vidéo, l'orateur aborde les défis des convolutions de graphes, qui impliquent de représenter un graphe social de manière sélective et pas trop inclusive. En raison de la petite propriété mondiale des graphes sociaux, la représentation du graphe entier dans la représentation de chaque nœud est problématique, et les convolutions de graphe traditionnelles ne filtrent pas efficacement les informations inutiles. De plus, la formation doit être effectuée par lots complets, ce qui peut réduire les performances. L'orateur propose l'attention graphique comme approche plus sélective, mais il s'agit encore d'un domaine de recherche active. L'orateur note également que la validation des modèles de convolution de graphes est difficile et nécessite de s'écarter des méthodes de validation d'apprentissage automatique standard.

  • 01:15:00 Dans cette section, l'orateur explique que les méthodes traditionnelles de validation des tests de formation ne fonctionnent pas pour les approches de fonctionnalités mixtes telles que celles utilisées dans les systèmes de recommandation, car la suppression des fonctionnalités utilisateur ou des fonctionnalités de film entraîne une perte d'incorporations. Au lieu de cela, un apprentissage transductif est nécessaire, où seules les étiquettes d'ensemble de formation sont retenues, mais pas les fonctionnalités. Cette approche est significative lors de la formation de modèles embarqués, où tout le vocabulaire doit être connu au préalable. Cependant, il est toujours possible de retenir des évaluations ou des liens aléatoires pour les données restantes à utiliser pour la formation et les tests. Enfin, l'orateur note que la classification dans l'étiquetage de l'ID de nœud peut toujours être effectuée en utilisant l'ensemble du graphe.

  • 01:20:00 Dans cette section, l'orateur aborde le défi de la modélisation du temps et des notes dans un ensemble de données, où les données d'horodatage et l'apprentissage transductif doivent être pris en compte. Ils expliquent qu'il est important de ne pas avoir de données d'entraînement du futur et que l'ensemble de test doit être dans le futur de l'ensemble d'entraînement. De plus, l'orateur résume la conférence en soulignant l'utilisation de la factorisation matricielle pour résoudre la tâche abstraite de recommandation et la généralisation de la recommandation à l'aide de modèles de graphes et de convolutions de graphes. La section se termine par un aperçu de la conférence suivante sur l'apprentissage par renforcement.
 

13 Apprentissage par renforcement : gradients de politique, apprentissage Q, AlphaGo, AlphaStar (MLVU2019)



13 Apprentissage par renforcement : gradients de politique, apprentissage Q, AlphaGo, AlphaStar (MLVU2019)

La vidéo fournit une introduction à l'apprentissage par renforcement et à ses composants fondamentaux, en discutant d'exemples tels que la voiture d'équilibrage robotisée et le jeu de tic-tac-toe. L'orateur se penche sur les défis de l'apprentissage par renforcement, y compris les fonctions non différenciables, le retard dans la réception des récompenses et le problème d'attribution des crédits. Le problème d'attribution de crédits est résolu par des techniques telles que la recherche aléatoire, les gradients de politique et le Q-learning, où l'orateur explique chaque algorithme, ses avantages et ses limites. L'algorithme d'apprentissage Q est discuté plus en détail, avec une explication de son fonctionnement en utilisant un grand tableau de nombres pour représenter les valeurs Q. La présentation se termine par une explication de la façon dont le Q-learning et AlphaGo ont révolutionné le domaine de l'apprentissage par renforcement.

  • 00:00:00 Dans cette section, l'instructeur présente le sujet de l'apprentissage par renforcement et explique en quoi il diffère de l'apprentissage hors ligne. L'apprentissage par renforcement consiste à modéliser un agent qui interagit avec un monde et apprend en temps réel à partir des retours qu'il reçoit. L'exemple d'un robot aspirateur dans un environnement inconnu est utilisé pour illustrer ce concept. L'instructeur mentionne également trois algorithmes pour résoudre la tâche d'apprentissage par renforcement, à savoir la recherche aléatoire, les gradients de politique et le Q-learning. La discussion passe ensuite aux développements récents de l'apprentissage par renforcement, en mettant l'accent sur AlphaGo, AlphaZero et la quête en cours pour battre le meilleur joueur humain au monde dans StarCraft II grâce à l'utilisation de l'IA.

  • 00:05:00 Dans cette section, le conférencier explique le cadre de base de l'apprentissage par renforcement, qui implique un environnement, un modèle et un apprenant. Le modèle prend des mesures et reçoit des récompenses immédiates et change son état en conséquence, tandis que l'apprenant met à jour le modèle à la volée. Le conférencier présente des exemples simples comme le problème de l'aspirateur, le tic-tac-toe et les problèmes de contrôle pour illustrer le fonctionnement de l'apprentissage par renforcement. Dans les problèmes de tic-tac-toe et d'aspirateur, les récompenses ne sont données que lorsque le modèle atteint un état final, tandis que les problèmes de contrôle impliquent d'apprendre à contrôler un robot ou une machine dans un environnement automatisé.

  • 00:10:00 Dans cette section, l'orateur discute de l'apprentissage par renforcement dans le contexte d'une voiture robotique d'équilibrage des poteaux, qui est un problème classique de contrôle sur le terrain. L'objectif est de maintenir la voiture debout, ce qui se fait avec un simple moteur physique ou un robot physique. Le système utilise une récompense clairsemée, où la seule récompense donnée est si le chariot tombe du rail ou si le poteau se retrouve à la verticale. Le but de l'apprentissage est de maximiser la récompense en évitant cette pénalité le plus longtemps possible. L'orateur présente ensuite une démonstration d'un hélicoptère télécommandé qui a été formé à l'aide de l'apprentissage par renforcement pour effectuer des cascades, en commençant par l'apprentissage supervisé et en ajoutant des objectifs auxiliaires et la mise en forme des récompenses.

  • 00:15:00 Dans cette section, l'orateur explique comment l'apprentissage par renforcement a changé le jeu de l'apprentissage en profondeur. Il souligne qu'avant AlphaGo, les chercheurs utilisaient les jeux Atari pour obtenir des algorithmes pour apprendre à partir des pixels. Ils ont créé un réseau neuronal appelé apprentissage par renforcement profond qui a permis au système d'apprendre à jouer à de nombreux jeux différents. Il s'agit d'un concept puissant car les chercheurs ont utilisé un réseau neuronal profond pour apprendre les correspondances entre les états et les actions, que nous appelons une politique. Il y a trois problèmes principaux avec l'apprentissage par renforcement : la perte non différenciable, le problème d'attribution de crédit et l'exploration par rapport à l'exploitation.

  • 00:20:00 Dans cette section, l'orateur aborde les défis de l'apprentissage par renforcement, y compris la question des fonctions indifférenciables au sein de l'environnement et l'équilibre entre exploration et exploitation. Le retard dans la réception de la récompense réelle de l'environnement est un autre problème, car il nécessite la reconnaissance des actions précédentes qui ont contribué au résultat final. L'orateur donne également un exemple du défi rencontré dans l'apprentissage de la conduite d'une voiture, où la récompense immédiate du freinage peut conduire à une mauvaise association avec un accident ultérieur. La solution nécessite de répartir la récompense sur les actions précédentes et d'apprendre celles qui ont conduit à des résultats positifs ou négatifs.

  • 00:25:00 Dans cette section, la vidéo présente le problème d'attribution de crédits dans l'apprentissage par renforcement, qui consiste à déterminer les poids d'un réseau neuronal qui maximisera la récompense tout en interagissant avec le monde. La vidéo explique comment une fonction de récompense, des transitions d'état et une politique peuvent déterminer l'environnement du réseau de neurones. Il présente trois approches pour résoudre ce problème, en commençant par la plus simple - la recherche aléatoire. Le concept de méthodes d'optimisation de boîtes noires basées sur la population est également présenté, avec un exemple d'application réussie de cette méthode à un jeu Atari appelé "Frostbite".

  • 00:30:00 Dans cette section, le conférencier discute de l'apprentissage par renforcement et des différentes techniques utilisées pour le problème d'attribution de crédits. Ils recommandent de commencer par la recherche aléatoire comme approche de base, ce qui fonctionne bien pour certains jeux simples. Cependant, des méthodes plus complexes telles que les gradients de politique et l'apprentissage Q sont populaires pour les pipelines d'apprentissage par renforcement plus profonds. Le gradient de politique cherche à attribuer des récompenses à chaque étape d'une trajectoire dans une séquence, en fonction de la récompense totale à la fin. Bien que cela puisse sembler contre-intuitif, il se calcule en moyenne sur plusieurs trajectoires et fonctionne bien dans les situations où une partie du pipeline d'apprentissage en profondeur n'est pas différentiable.

  • 00:35:00 Dans cette section, le concept de gradients politiques et la manière dont ils peuvent être utilisés pour optimiser la récompense ultime attendue grâce à l'estimation des gradients sont discutés. L'algorithme consiste à estimer le gradient en échantillonnant un ensemble de trajectoires, en suivant chacune de ces actions à travers le reste du pipeline et en multipliant la récompense ultime par le gradient du logarithme de la probabilité de cette action pour chaque trajectoire de l'échantillon. Cette estimation du gradient peut ensuite être utilisée pour une rétropropagation supplémentaire. Cet algorithme a été utilisé sur AlphaGo et AlphaZero.

  • 00:40:00 Dans cette section, l'orateur discute du Q-learning, qui est un algorithme populaire dans l'apprentissage par renforcement utilisé pour optimiser la récompense actualisée. La récompense actualisée est la récompense totale qu'une politique recevra si elle choisit des actions spécifiques dans différents états. Q-learning utilise une fonction récursive pour calculer la récompense actualisée pour chaque état en fonction des actions de la politique. La politique optimale qui maximise la récompense actualisée est ensuite déterminée sur la base de ce calcul. L'orateur utilise un exemple simple d'un monde d'aspirateurs pour démontrer comment fonctionne le Q-learning.

  • 00:45:00 Dans cette section, l'orateur explique le concept d'une politique optimale et d'une fonction de valeur optimale dans l'apprentissage par renforcement. La politique optimale conduit à la valeur maximale pour un état particulier, tandis que la fonction de valeur optimale est la fonction de valeur de cette politique. Cependant, ces valeurs sont souvent difficiles à calculer. L'orateur présente ensuite l'algorithme d'apprentissage Q, qui redéfinit la politique optimale et la fonction de valeur optimale en termes d'une fonction appelée Q. Q est défini comme la récompense immédiate multipliée par la valeur actualisée de Q pour l'état suivant résultant d'une action entreprise. dans l'état actuel. La définition circulaire de Q permet la possibilité de constituer une fonction Q et de demander si elle est optimale en remplissant les valeurs.

  • 00:50:00 Dans cette section, l'orateur discute de la méthode de résolution des équations récurrentes par itération comme moyen de trouver la fonction Q optimale pour le Q-learning. Il simplifie la relation de récurrence en utilisant une fonction scalaire et démontre que le calcul itératif peut être utilisé pour trouver l'état/la solution stable. De même, pour Q-learning, la fonction Q initiale est initialisée de manière aléatoire, puis la relation de récurrence est appliquée en tant que programme, et la fonction Q est mise à jour en fonction des valeurs fournies par la relation de récurrence. Les valeurs de la fonction Q sont mises à jour après chaque interaction avec l'environnement où un état, une action, une récompense ou un état successeur est rencontré, et la valeur maximale sur chaque état successeur est utilisée pour mettre à jour la fonction Q.

  • 00:55:00 Dans cette section, l'algorithme d'apprentissage Q est expliqué, ce qui implique l'apprentissage d'un grand tableau de nombres pour représenter les valeurs Q. L'algorithme fonctionne en observant la récompense immédiate dans chaque état et en la propageant à l'état de départ par la répétition de la même trajectoire. L'espace d'état est exploré par l'exploration epsilon-avide, un processus où la meilleure politique est suivie avec une faible probabilité d'explorer un état au hasard. L'apprentissage profond de Q est ensuite introduit, ce qui implique la mise en œuvre d'un réseau de neurones pour apprendre la fonction de valeur Q. Grâce à la rétropropagation, le réseau est mis à jour avec des informations provenant des récompenses immédiates observées et des états successeurs. Enfin, une explication du fonctionnement d'AlphaGo est promise dans les 30 minutes restantes de la vidéo, suite à une recommandation du documentaire "AlphaGo".

  • 01:00:00 Dans cette section, l'orateur explique le jeu de Go et dissipe certaines idées fausses courantes sur AlphaGo. S'il est vrai que le jeu de Go a un facteur de ramification élevé, ce n'est pas seulement la taille de l'arbre qui rend le jeu difficile. Regarder profondément dans l'arbre pour déterminer la meilleure stratégie de déplacement est également un aspect difficile. L'orateur aborde également les anciennes approches du jeu de Go, telles que l'algorithme minimax, qui est utilisé pour énumérer tous les futurs possibles à partir de l'état actuel.

  • 01:05:00 Dans cette section, le conférencier discute de la recherche arborescente de Monte Carlo, une méthode pour explorer rapidement et efficacement un arbre de jeu afin d'approximer l'algorithme minimax. Cette méthode consiste à effectuer des déploiements, qui sélectionnent au hasard des mouvements et estiment la valeur de l'état en termes d'apprentissage par renforcement. L'orateur explique comment la recherche arborescente de Monte Carlo combine les déploiements avec la conservation d'une mémoire de l'arbre local pour créer des régions prometteuses de l'arbre sans explorer le tout. L'algorithme de base implique l'expansion des nœuds, les déploiements et la rétropropagation des valeurs pour mettre à jour les probabilités de tous les nœuds suivis jusqu'à la feuille. Cette méthode fonctionne bien et n'implique aucun apprentissage automatique ou réseau de neurones.

  • 01:10:00 Dans cette section, l'orateur explique comment AlphaGo et AlphaZero sont des exemples d'apprentissage par renforcement appliqué au jeu de Go. AlphaGo utilise deux réseaux de neurones, un réseau de politique et un réseau de valeur, pour jouer à Go. Le réseau de politique mappe un état du tableau à une action, et le réseau de valeur mappe l'état à la probabilité de gagner à partir de cet état. Ils utilisent l'apprentissage par imitation pour former ces réseaux en apprenant à partir de jeux humains, puis s'améliorent grâce à l'auto-jeu en utilisant l'apprentissage par renforcement des gradients de politique. Pendant le jeu réel, AlphaGo utilise la recherche arborescente de Monte Carlo avec le réseau de valeurs et de politiques pour effectuer ses mouvements. AlphaZero est une version plus récente qui n'utilise aucune information humaine, mais construit plutôt sa compréhension du jeu entièrement grâce à l'auto-jeu. AlphaZero combine les réseaux de politique et de valeur en un seul réseau, utilise la recherche arborescente Monte Carlo comme opérateur d'amélioration de politique et ajoute des connexions résiduelles avec normalisation par lots pour améliorer les performances.

  • 01:15:00 Dans cette section, le concept de "monstre à deux têtes" est discuté, où un réseau a un ensemble partagé de couches inférieures qui obtiennent des gradients à la fois des sorties de politique et de valeur. Pendant la formation, le principe MCTS est utilisé comme opérateur d'amélioration de la politique, de sorte qu'ils commencent par une politique initiale, la laissent jouer contre elle-même en utilisant MCTS et observent la politique résultante en tant que MCTS. Cette étape d'amélioration constatée est alors donnée comme objectif de formation au réseau. De plus, une combinaison de connexions résiduelles et d'une meilleure normalisation est utilisée comme astuce pour le réseau neuronal, permettant une facilité progressive vers l'apprentissage d'un réseau neuronal de plus en plus profond qui fonctionne très bien, en particulier en combinaison avec la normalisation par lots.

  • 01:20:00 Dans cette section, le conférencier discute de l'importance de l'initialisation du poids et de la normalisation des données pour former correctement les réseaux d'apprentissage par renforcement profond. L'orateur suggère que l'initialisation des poids de sorte que l'entrée soit normalisée avec une moyenne nulle et une variance un se traduit par des gradients qui se comportent mieux pendant la rétropropagation. La normalisation par lots est une couche utile pour aider à cette normalisation car elle examine toutes les instances du lot, calcule la moyenne et l'écart type et les normalise. Cela peut aider à accélérer la formation et former des réseaux beaucoup plus profonds ; l'orateur cite le succès d'AlphaGo et d'AlphaZero dans la formation à l'aide de la normalisation par lots.

  • 01:25:00 Dans cette section, le conférencier aborde le développement d'AlphaStar, la dernière percée de DeepMind dans le domaine de l'apprentissage automatique appliqué aux jeux de stratégie en temps réel. Contrairement au jeu de Go, qui avait été considéré comme "résolu" par AlphaGo de DeepMind, StarCraft posait des défis uniques pour l'apprentissage automatique en raison de son espace d'action diversifié, de ses informations imparfaites et de l'absence d'arbre de jeu. AlphaStar utilise une combinaison de techniques, notamment un torse de transformateur, un noyau LSDM profond, un réseau de pointeurs et un apprentissage multi-agents. Bien que DeepMind n'ait pas encore publié les détails du fonctionnement d'AlphaStar, la démonstration de ses capacités contre des joueurs Starcraft de niveau mondial est impressionnante, représentant l'état actuel de l'art dans ce domaine.

  • 01:30:00 Dans cette section, l'orateur discute de l'utilisation des transformateurs, qui fonctionnent comme des incorporations et permettent aux réseaux de neurones de commencer à apprendre les relations entre les unités. Ceci est important car cela permet au réseau de neurones de raisonner sur les relations entre des unités particulières, par exemple pour la navigation dans un jeu. L'orateur explique ensuite comment l'apprentissage par renforcement fonctionne dans l'échantillonnage séquentiel et comment la tête de politique auto-régressive aide à créer une séquence d'actions plus cohérente et efficace. Enfin, le conférencier explique le concept d'apprentissage multi-agents et comment il est utilisé pour empêcher les joueurs d'oublier de battre des stratégies faciles.

  • 01:35:00 Dans cette section, l'orateur évoque la polémique autour d'AlphaStar, un système d'IA développé par DeepMind pour jouer au jeu StarCraft. AlphaStar a réussi à vaincre les joueurs professionnels de StarCraft, ce qui a conduit à des débats sur la question de savoir si le système d'IA présentait réellement des performances de type humain ou exploitait des capacités que les humains n'ont pas. L'un des principaux avantages d'AlphaStar était qu'il pouvait voir tout le tableau en même temps, contrairement aux joueurs humains qui doivent constamment ajuster la vue de la caméra. De plus, bien qu'AlphaStar ait été plafonné à environ 600 actions par minute, ces actions étaient de meilleure qualité que les actions des joueurs humains qui pouvaient cliquer jusqu'à 800 fois par minute avec beaucoup de bruit. Cependant, l'une des faiblesses d'AlphaStar était qu'il ne pouvait pas bien répondre aux nouvelles stratégies rencontrées pendant le jeu, ce qui est un problème central du système qui pourrait donner un aperçu de la cognition.
 

14 Bilan : biais inductif, biais algorithmique, impact social de l'apprentissage automatique (MLVU2019)



14 Bilan : biais inductif, biais algorithmique, impact social de l'apprentissage automatique (MLVU2019)

Cette première partie de la vidéo fournit un examen complet des sujets d'apprentissage automatique, y compris les fonctions de perte, les systèmes d'apprentissage en profondeur, les biais inductifs et algorithmiques et les problèmes ouverts dans l'apprentissage automatique. L'orateur souligne l'importance de la méthodologie et des cas d'utilisation réels dans le processus de science des données, et fournit des conseils pour étudier et surmonter la procrastination. Le conférencier discute également des stratégies pour améliorer la compréhension des concepts d'apprentissage automatique et propose des ressources pour un apprentissage plus approfondi. Enfin, la vidéo met en évidence le problème de la généralisation dans les modèles d'apprentissage automatique et l'importance des biais inductifs dans l'amélioration des performances des modèles.

La deuxième partie de la vidéo aborde plusieurs problèmes liés à l'apprentissage automatique, notamment le biais inductif, le biais algorithmique et l'impact social de l'apprentissage automatique. Le biais inductif peut être intégré à un réseau de neurones pour résoudre les problèmes de causalité, de composition et de généralisation. Cependant, cette approche présente également des limites, notamment une diminution de la robustesse par rapport aux variables non modélisées. Les biais algorithmiques peuvent être perpétués si les modèles d'apprentissage automatique renforcent les biais dans les données. Cela peut être problématique dans des cas tels que les algorithmes de reconnaissance faciale qui ne reconnaissent pas les personnes de couleur ou les algorithmes utilisés dans le système judiciaire américain qui ont des préjugés envers les Noirs. Le développement responsable de ces systèmes est important pour éviter de perpétuer les préjugés et promouvoir l'équité dans les processus décisionnels.

  • 00:00:00 Dans cette section de la vidéo, l'intervenant passe en revue les sujets abordés tout au long du cours d'apprentissage automatique, y compris la recette de base de l'apprentissage automatique qui implique des tâches standard telles que la classification ou la régression, le choix des instances et des fonctionnalités, le choix une classe de modèle et la recherche d'un bon modèle pour s'adapter aux instances et aux fonctionnalités. L'orateur souligne l'importance de la méthodologie et l'idée de scinder les données en un ensemble d'entraînement et un ensemble de test pour éviter de surutiliser l'ensemble de test. Il souligne l'importance de garder à l'esprit le cas d'utilisation réel et de prendre des décisions dans le processus de science des données qui reflètent ce cas d'utilisation. Le conférencier fournit également des stratégies d'examen et un aperçu de l'état actuel et de l'impact futur de l'apprentissage automatique.

  • 00:05:00 Dans cette section, l'orateur aborde diverses fonctions de perte pouvant être utilisées dans l'apprentissage automatique, à commencer par la précision et ses limites. La fonction de perte de régression logistique est présentée, qui utilise une fonction sigmoïde pour interpréter les sorties du modèle comme des probabilités sur les classes, puis optimise ces probabilités en utilisant le principe du maximum de vraisemblance et la perte d'entropie croisée. Les autres fonctions de perte discutées incluent les moindres carrés, l'entropie et la marge souple SVM. Enfin, l'orateur introduit l'algorithme de rétropropagation qui est utilisé pour calculer le gradient des modèles compliqués en les décomposant en une composition de modules et en utilisant la règle de la chaîne pour obtenir un produit de dérivées locales.

  • 00:10:00 Dans cette section de la vidéo, le conférencier discute des bases des systèmes d'apprentissage en profondeur et de la manière de calculer des gradients sur des fonctions différentiables lisses à l'aide de tenseurs. Il parle également des modèles de variables cachées et décrit l'algorithme de maximisation des attentes pour trouver des distributions sur des variables cachées. Le cours passe ensuite aux réseaux de neurones générateurs, qui sont des modèles à variables cachées contenant des réseaux de neurones. Le conférencier discute de l'ajustement des paramètres à travers les données à l'aide de réseaux antagonistes génératifs et d'auto-encodeurs variationnels. Enfin, le cours couvre les modèles d'arbres de décision et de régression, ainsi que les données séquentielles et les modèles tels que les réseaux de neurones récurrents et les modèles de Markov.

  • 00:15:00 Dans cette section, l'orateur discute des biais inductifs et algorithmiques dans l'apprentissage automatique, suggérant que les données de formation doivent toujours précéder les données de test dans le temps, et que la validation croisée doit être effectuée à l'aide d'une validation croisée en aval. L'orateur aborde ensuite les systèmes de recommandation qui utilisent les évaluations des utilisateurs et des films comme seule source de données, et comment ce modèle matriciel est très informatif à la fois pour les utilisateurs et les films. Enfin, le conférencier explique que l'apprentissage par renforcement nécessite un compromis entre exploration et exploitation, et que les réseaux de neurones convolutifs avec décrochage ne constituent pas un dilemme exploration contre exploitation mais plutôt une technique d'optimisation en ligne des hyperparamètres.

  • 00:20:00 Dans cette section, l'orateur explique que lorsqu'on parle de sujets complexes, les concepts sont comme un graphique dans nos têtes, mais lorsqu'on les explique, ils deviennent une séquence. Pour aider à reconstruire les relations de niveau supérieur entre les concepts discutés, l'orateur crée une carte mentale de la recherche et des modèles. Les modèles sont décomposés en instances spécifiques de réseaux de neurones, comme la régression linéaire, la classification linéaire et la régression logistique, ainsi que des modèles plus compliqués comme par J by Ganz et v AE. L'orateur aborde également les différents types de méthodes de recherche, la descente de gradient étant la descente de gradient la plus générique et stochastique et la descente de gradient en mini-lot étant des variantes spécifiques. L'orateur note que la descente de gradient en mini-lot est ce qui est couramment utilisé la plupart du temps. Enfin, l'orateur discute des différents paramètres et façons de traiter les données, tels que le paramètre de base de la division en caractéristiques, instances et valeurs cibles et le paramètre de séquence de traitement des instances séparées dans un ordre spécifique.

  • 00:25:00 Dans cette section, l'orateur discute des différents types d'ensembles de données et de tâches dans l'apprentissage automatique, tels que les données de séquence, les systèmes de recommandation et l'apprentissage en ligne. Ils parlent également de l'apprentissage en profondeur en tant que méthode qui consiste à créer un pipeline de bout en bout sans effectuer d'extraction manuelle de caractéristiques pour éviter de perdre des informations. L'orateur donne des conseils sur quelques "trucs du métier" et passe en revue toutes les tâches abstraites et les modèles discutés dans les conférences. Enfin, le conférencier donne des conseils pour étudier en vue de l'examen, qui comprend trois catégories de questions : rappel, combinaison et raisonnement.

  • 00:30:00 Dans cette section, le conférencier discute des trois types de questions auxquelles les étudiants peuvent s'attendre lors de l'examen à venir : les questions de rétention, de combinaison et d'application. Il donne quelques conseils pour aider les élèves à faire face à la procrastination, comme se rendre compte que la procrastination est causée par le perfectionnisme et trouver le plus petit engagement viable pour commencer une tâche. Le conférencier suggère également de créer une barre de progression pour suivre les progrès et éviter de voir le travail comme une tâche sans fin. Enfin, il rappelle aux étudiants de ne pas être perfectionnistes.

  • 00:35:00 Dans cette section de la vidéo, le conférencier donne des conseils pour surmonter la procrastination et augmenter la productivité. Une technique qu'il suggère est la technique Pomodoro, qui consiste à régler une minuterie sur 25 minutes et à travailler avec une concentration extrême pendant cette période, suivie d'une pause de cinq minutes. Il suggère également de se concentrer sur le contenu du cours pour un examen et d'utiliser des examens pratiques pour se préparer rapidement à un test à venir. Dans l'ensemble, l'orateur insiste sur l'importance de faire de petits pas réalisables vers un objectif plutôt que de viser la perfection d'un seul coup.

  • 00:40:00 Dans cette section, le conférencier partage des stratégies pour améliorer la compréhension des concepts d'apprentissage automatique. Au lieu de tout lire attentivement, il suggère de faire une passe rapide pour identifier les lacunes dans les connaissances, puis de se concentrer sur ces domaines spécifiques. Pour faciliter ce processus, il recommande de créer une liste de mots-clés pendant l'apprentissage, à consulter plus tard pour des éclaircissements. Il conseille également aux étudiants de proposer leurs propres questions d'examen pour hiérarchiser les sujets sur lesquels se concentrer, et suggère de lire à partir de plusieurs sources pour obtenir différentes perspectives sur le matériel. Enfin, il recommande le cours d'initiation à l'apprentissage automatique de Google comme ressource complète pour un apprentissage plus approfondi.

  • 00:45:00 Dans cette section, le présentateur aborde les problèmes ouverts de l'apprentissage automatique, à savoir la causalité, la compositionnalité et la généralisation. La causalité est un problème difficile pour les méthodes modernes d'apprentissage automatique car la corrélation n'implique pas la causalité. Pour identifier la causalité, une intervention est nécessaire, ce qui peut être fait par le biais d'un cadre d'apprentissage par renforcement où des expériences peuvent être menées. Cependant, si les expériences ne sont pas possibles pour des raisons éthiques ou pratiques, on peut utiliser des connaissances de base pour injecter dans le modèle. Le présentateur mentionne également le dessin de petits graphiques pour modéliser les causes possibles dans le monde.

  • 00:50:00 Dans cette section, l'orateur parle des biais inductifs et des biais algorithmiques tout en explorant comment intégrer le raisonnement humain dans les modèles d'apprentissage automatique. Ils discutent de la manière dont la causalité peut être déduite et de la manière dont les connaissances de base peuvent être utilisées pour raisonner sur les corrélations. Ils discutent également des problèmes de composition et de généralisation dans l'apprentissage automatique, particulièrement observés dans les réseaux de neurones récurrents. L'orateur conclut en indiquant notre besoin de comprendre les effets composés pour faire progresser l'apprentissage automatique.

  • 00:55:00 Dans cette section, l'orateur discute du problème de la généralisation dans les modèles d'apprentissage automatique et de la façon dont ils ont tendance à s'effondrer lorsqu'ils sont testés sur des données qui sont même légèrement différentes de leurs données d'entraînement. La solution à cela réside dans la réflexion sur le biais inductif, qui fait référence aux contraintes implicites ou explicites placées sur un modèle pour le biaiser vers certaines solutions dans son espace modèle. Le conférencier donne des exemples de différents types de modèles et de leurs biais inductifs, soulignant comment des biais inductifs plus forts, tels que ceux trouvés dans les réseaux de neurones convolutionnels, peuvent améliorer la capacité de généralisation d'un modèle.

  • 01:00:00 Dans cette section, l'orateur discute de l'idée de biais inductif, qui peut être intégré dans un réseau de neurones pour aider à résoudre les problèmes de causalité, de composition et de généralisation. En injectant des connaissances de base et en construisant explicitement la compositionnalité dans le modèle, le réseau peut apprendre à représenter des centaines ou des milliers de chiffres, même s'il n'a vu que des chiffres jusqu'à une centaine. Cependant, plus un modèle est contraint, moins il devient robuste vis-à-vis des éléments qu'il n'a pas modélisés. En outre, l'orateur envisage que l'apprentissage automatique évoluera vers des systèmes d'apprentissage de bout en bout, où l'apprentissage automatique se répandra dans l'ensemble du système, conduisant à quelque chose appelé programmation différentielle ou "logiciel 2.0".

  • 01:05:00 Dans cette section, l'orateur discute du potentiel de l'apprentissage automatique pour devenir des primitifs dans les langages de programmation et comment cela pourrait conduire à des systèmes plus grands et plus prévisibles. Le conférencier explore également l'impact de l'apprentissage automatique sur les arts créatifs, tels que la conception de polices, et suggère que l'apprentissage automatique pourrait être utilisé pour l'augmentation de l'intelligence, où les machines améliorent les processus humains existants comme la créativité et la conception. Le concept d'infrastructure intelligente est également présenté comme une solution possible aux préoccupations concernant le développement de robots tueurs.

  • 01:10:00 Dans cette section, l'orateur discute des dangers potentiels des générateurs de langage, tels que GPT, qui a la capacité de produire un langage cohérent et de générer de fausses nouvelles à grande échelle. L'inquiétude est que ce type de technologie pourrait avoir un impact social important, influençant potentiellement les discussions et les élections nationales en permettant aux individus de manipuler le contenu. En outre, la question du biais algorithmique est également abordée, car les modèles d'apprentissage automatique peuvent renforcer les biais dans les données sur lesquelles ils sont entraînés, ce qui peut avoir des conséquences négatives lors de la mise en production.

  • 01:15:00 Dans cette section, le conférencier aborde la question du biais algorithmique, où les algorithmes d'apprentissage automatique peuvent amplifier les biais qui existent déjà dans les données, plutôt que de les éliminer. Cela peut entraîner des conséquences imprévues et des impacts néfastes sur certains groupes, comme le montrent des exemples tels que les algorithmes de reconnaissance faciale qui ne reconnaissent pas les personnes de couleur et les résultats des moteurs de recherche pour les images de PDG à prédominance masculine. Le conférencier souligne également l'importance de surveiller les systèmes et d'être conscient des biais inhérents aux algorithmes d'apprentissage automatique.

  • 01:20:00 Dans cette section, l'orateur aborde la question du biais algorithmique dans les systèmes d'apprentissage automatique et les impacts sociaux qu'il peut avoir. Il explique le cas d'un système d'apprentissage automatique utilisé pour prédire la récidive dans le système judiciaire américain qui avait des préjugés envers les Noirs, conduisant à des prédictions incorrectes et perpétuant des préjugés sociétaux. Il soutient que même si les données utilisées dans ces systèmes sont exactes, le recours à l'apprentissage automatique pour prendre des décisions fondées sur la race peut conduire au profilage racial et perpétuer les préjugés systémiques. Il cite un cas aux Pays-Bas où le profilage racial a été normalisé et accepté par le public. Le conférencier plaide pour une utilisation éthique de l'apprentissage automatique afin d'éviter de perpétuer les préjugés et de promouvoir l'équité dans les processus de prise de décision.

  • 01:25:00 Dans cette section, l'orateur aborde la question du profilage racial et son lien avec l'utilisation abusive des probabilités. Ils expliquent le concept de l'erreur du procureur et comment il peut supposer à tort que la probabilité d'un résultat compte tenu d'une certaine condition est la même que la probabilité de la condition compte tenu du résultat. L'orateur soutient que même si les prédictions sont exactes, cela ne signifie pas nécessairement que les actions basées sur ces prédictions sont justes ou morales. De plus, ils soulignent que certains attributs comme l'ethnicité peuvent toujours être déduits ou corrélés avec d'autres attributs, ce qui rend difficile l'élimination complète des préjugés raciaux des systèmes d'apprentissage automatique. Enfin, le conférencier note que si les individus devraient être tenus responsables de leurs propres actions, il est fondamentalement injuste de leur permettre d'être pénalisés pour les actions d'autres personnes qui partagent leurs attributs, ce qui peut avoir des impacts négatifs comme des microagressions ou être injustement ciblé dans des situations comme les arrêts de la circulation.

  • 01:30:00 Dans cette section, l'orateur discute de l'impact social potentiel de l'apprentissage automatique et de la nécessité d'un développement responsable de ces systèmes. Avec l'apprentissage automatique qui régit de nombreuses décisions, il existe un nouveau problème de s'appuyer sur un composant défectueux à grande échelle, et le système de crédit social de la Chine en est un exemple. Les politiciens et les humains sont d'accord avec le développement de tels systèmes, il y a donc un besoin d'informaticiens, de spécialistes de l'information et de scientifiques des données qui connaissent ces problèmes pour construire et développer ces systèmes de manière responsable. La responsabilité de la construction de ces systèmes incombe aux étudiants qui étudient ces domaines, et l'orateur leur souhaite bonne chance pour leurs examens et leurs projets finaux.