Apprentissage Automatique et Réseaux Neuronaux - page 47

 

CS480/680 Cours 6 : Traduction de mots non supervisée (Kira Selby)



CS480/680 Cours 6 : Traduction de mots non supervisée (Kira Selby)

La vidéo traite de la traduction de mots non supervisée, qui implique la formation d'un modèle d'apprentissage automatique pour traduire vers et depuis une langue sans aucune information multilingue ni correspondance de dictionnaire. Le modèle Muse est présenté comme une approche qui peut atteindre une précision de pointe sur des centaines de langues sans aucune information multilingue et se rapproche des modèles supervisés en termes de performances. Le processus de traduction de mots non supervisée utilise une matrice qui traduit les espaces d'intégration de différents mots de langue, en utilisant GAN ou des réseaux contradictoires génératifs. En formant ces deux modèles l'un contre l'autre, un moyen de mapper deux distributions sur un espace est créé, fournissant de meilleurs résultats de traduction. Les modèles peuvent atteindre une précision de 82,3 % dans les traductions mot à mot.

  • 00:00:00 Dans cette section, le conférencier aborde le sujet de la traduction de mots non supervisée, qui implique la formation d'un modèle d'apprentissage automatique pour traduire vers et depuis une langue sans aucune information interlinguistique ni correspondance de dictionnaire. Le conférencier explique le concept de word embeddings, où les mots sont transformés en vecteurs qui peuvent faire partie d'un modèle. Le conférencier présente le modèle de Muse, qui utilise une hypothèse simple selon laquelle une transformation linéaire peut connecter des espaces vectoriels de différentes langues. Muse peut atteindre une précision de pointe sur des centaines de langues sans aucune information multilingue et se rapproche des modèles supervisés en termes de performances.

  • 00: 05: 00 Dans cette section, Kira Selby explique le processus de traduction non supervisée de mots à l'aide d'une matrice qui traduit les espaces d'intégration de mots de différentes langues. La matrice peut comparer tout un tas de vecteurs d'un espace linguistique transformé dans un autre espace linguistique. Le but est de réaliser des espaces linguistiques coïncidents pour réaliser des traductions. Ce processus utilise des GAN ou des réseaux antagonistes génératifs dans lesquels le générateur est la matrice u qui prend un vecteur spatial source et fournit un vecteur spatial cible. Pendant ce temps, le discriminateur apprend à dire si un ensemble de vecteurs provient de données françaises réelles ou de données françaises approchées générées par le modèle. En formant ces deux modèles l'un contre l'autre, un moyen de mapper deux distributions sur un espace est créé, fournissant de meilleurs résultats de traduction. Les modèles peuvent atteindre une précision de 82,3 % dans les traductions mot à mot, bien qu'il reste encore à converger vers plusieurs langues telles que l'anglais vers le farsi, l'hindi, le japonais et le vietnamien.
 

CS480/680 Cours 6 : Vérification des faits et apprentissage par renforcement (Vik Goel)



CS480/680 Cours 6 : Vérification des faits et apprentissage par renforcement (Vik Goel)

L'informaticien Vik Goel discute de l'application de l'apprentissage par renforcement dans la vérification des informations en ligne et propose d'utiliser un système de recommandation pour insérer des preuves à l'appui en temps réel. Il suggère d'utiliser un vaste corpus d'articles universitaires comme source de données pour entraîner un classificateur à prédire où une citation est nécessaire. De plus, Goel explique comment les chercheurs ont commencé à coder les priors humains dans des modèles d'apprentissage par renforcement pour accélérer le processus et reconnaître différents objets dans les jeux vidéo. Cela présente un domaine de recherche prometteur où des priors supplémentaires peuvent améliorer le processus d'apprentissage.

  • 00:00:00 Dans cette section de la conférence, Vik Goel discute de l'idée d'utiliser l'apprentissage par renforcement pour vérifier les informations en ligne. Il explique que Google a compilé un ensemble de données de sites Web de vérification des faits qui pourraient être utilisés pour former des modèles de classification afin de déterminer la véracité des articles de presse. Cependant, comme la plupart des articles de presse manquent de citations dans le texte, Goel suggère de développer un système de recommandation pour insérer des preuves à l'appui en temps réel. Il propose d'utiliser un vaste corpus d'articles universitaires comme source de données et de former un classificateur pour prédire où dans chaque article une citation est nécessaire. L'application d'un système de recommandation peut alors suggérer quelles sources doivent être citées, aidant à prévenir la propagation de fausses informations en ligne.

  • 00:05:00 Dans cette section, l'informaticien Vik Goel explique le concept d'apprentissage par renforcement, où un agent tente d'atteindre un objectif en maximisant les récompenses dans un environnement. Les modèles actuels nécessitent des millions d'interactions avec l'environnement, ce qui rend difficile l'apprentissage des jeux vidéo. Pour accélérer le processus, les chercheurs ont commencé à explorer l'encodage des a priori humains dans des modèles, permettant aux agents de comprendre et de reconnaître différents objets dans le jeu. Cette approche présente un domaine de recherche très ouvert où les scientifiques peuvent ajouter plus de priors pour améliorer considérablement le processus d'apprentissage.
 

CS480/680 Cours 6 : Réseaux somme-produit (Pranav Subramani)



CS480/680 Cours 6 : Réseaux somme-produit (Pranav Subramani)

La conférence aborde les concepts de réseaux somme-produit (SPN), qui sont des réseaux composés de sommes et de produits, utilisés pour la modélisation probabiliste traitable qui produit des temps d'exécution non exponentiels et a de nombreuses applications telles que l'interprétabilité et le calcul facile de la densité marginale. La vidéo mentionne également les excellentes performances de SPN avec les réseaux de neurones convolutifs, son potentiel dans la création de meilleurs modèles génératifs lorsqu'il est combiné avec des modèles tels que les GAN et les encodeurs d'eau à variation, et les domaines de recherche potentiels inexploités pour les SPN, notamment la robustesse de l'adversaire, les scénarios d'apprentissage par renforcement et la modélisation des utilités attendues. dans les jeux. La garantie théorique d'interprétation du modèle et l'opportunité pour les universitaires d'apporter des contributions significatives dans le domaine de l'apprentissage automatique ont également été soulignées.

  • 00: 00: 00 Dans cette section, l'orateur discute de la modélisation probabiliste traitable à l'aide de certains réseaux de produits, qui sont des réseaux composés de sommes et de produits - d'où «produit somme» - et sont une manière traitable de modéliser la fonction de probabilité d'une manière qui donne temps d'exécution non exponentiels. Malgré sa taille, les modèles de réseau somme-produit sont extrêmement utiles en termes d'expressivité, d'interprétabilité, de calcul facile de la densité marginale, de calcul de requête MAP et de calcul de vraisemblance, tout en affichant d'excellentes performances en combinaison avec les réseaux neuronaux convolutifs. Il a été démontré que ces modèles sont capables de surpasser l'état de l'art d'environ 10 % et peuvent être combinés avec d'autres modèles comme les Gans et les codeurs d'eau à variation pour créer de meilleurs modèles génératifs.

  • 00: 05: 00 Dans cette section, l'orateur discute des domaines de recherche potentiels pour certains réseaux de produits (SPN). L'orateur introduit d'abord certaines propriétés éthiques, qui permettent l'interprétation de modèles et d'ensembles de données tels que «l'ensemble de données d'Amnesty». Contrairement aux réseaux de neurones, ce modèle fournit une garantie théorique qui permet d'interpréter dans une certaine mesure ce que fait le modèle. Certains domaines de recherche potentiels pour les SPN incluent la création de fonctionnalités au-dessus de la bibliothèque principale pour les SPN, la robustesse contradictoire, les scénarios d'apprentissage par renforcement avec certains réseaux de produits maximum et la modélisation des utilitaires attendus dans les jeux. Ces domaines de recherche sont pour la plupart inexploités, offrant aux universitaires la possibilité d'apporter des contributions significatives dans le domaine de l'apprentissage automatique.
 

CS480/680 Cours 6 : EM et modèles de mélange (Guojun Zhang)



CS480/680 Cours 6 : EM et modèles de mélange (Guojun Zhang)

Dans CS480/680 Lecture 6, le professeur Guojun Zhang aborde les bases de l'apprentissage non supervisé et du regroupement, en se concentrant sur les modèles de mélange et leur utilisation dans le regroupement des données. La conférence est centrée sur l'algorithme d'attente-maximisation et ses processus Estep et Mstep, ainsi que sur la descente de gradient comme méthode d'optimisation. Le projet potentiel proposé consiste à étudier le comportement de l'EM et de la descente de gradient dans l'apprentissage des modèles mixtes, le but ultime étant de proposer un meilleur algorithme pour éviter les mauvais minimums locaux. Une formation en mathématiques est notée comme nécessaire pour le projet.

  • 00:00:00 Dans cette section, Cody présente les bases de l'apprentissage et du regroupement non supervisés, et leur lien avec les modèles de mélange. Un modèle de mélange est un moyen de décrire une distribution de probabilité comme une combinaison convexe de distributions conditionnelles. Par exemple, le mélange de gaussiennes et le mélange de distributions de Bernoulli peuvent être utilisés pour regrouper les données. Pour trouver une solution aux modèles de mélange, nous devons formuler une fonction objectif à minimiser. L'algorithme classique pour cela est l'algorithme d'espérance-maximisation.

  • 00:05:00 Dans cette section, le conférencier parle des processus Estep et Mstep qui sont utilisés pour évaluer la distribution postérieure et maximiser la fonction q dans l'optimisation des modèles de mélange. La descente de gradient est un autre algorithme d'optimisation qui est discuté et il est à noter que certains clusters peuvent ne pas être récupérés dans le processus d'optimisation. Le projet potentiel proposé est d'étudier comment EM et la descente de gradient se comportent dans l'apprentissage des modèles de mélange et s'il existe un moyen d'éviter les mauvais minimums locaux, le but ultime étant de proposer un meilleur algorithme. L'enseignant note qu'une formation en mathématiques est nécessaire pour ce projet.
 

CS480/680 Cours 6 : Compression de modèles pour la PNL (Ashutosh Adhikari)



CS480/680 Cours 6 : Compression de modèles pour la PNL (Ashutosh Adhikari)

Dans cette vidéo, le présentateur aborde le concept de compression de modèle pour la PNL et les défis du temps de traitement et des besoins en mémoire à mesure que le nombre et la profondeur des réseaux de neurones profonds augmentent. Les techniques de compression de modèles sont catégorisées et la méthode la plus ancienne, l'élagage et le partage des paramètres, est introduite. L'orateur développe en outre le concept d'un système étudiant-enseignant pour la compression de modèles en PNL et comment la fonction objectif est utilisée pour compresser un modèle plus grand en un modèle d'étudiant plus petit tout en conservant la précision. Enfin, l'importance potentielle de la compression des modèles dans le contexte des travaux récents sur le développement de modèles NLP à grande échelle est mise en évidence.

  • 00:00:00 Dans cette section, le présentateur vidéo aborde la question de la compression des modèles à mesure que le nombre et la profondeur des réseaux de neurones profonds augmentent, ainsi que leur temps de traitement et leurs besoins en mémoire. L'objectif est de réduire le nombre de paramètres requis dans les réseaux de neurones tout en conservant la précision et les connaissances nécessaires pour permettre un déploiement plus rapide et plus efficace dans les applications en ligne. Les techniques de compression de modèles sont catégorisées, et le présentateur se penche sur la méthode la plus ancienne : l'élagage et le partage des paramètres, développée par Yann LeCun en 1990. La présentation aborde également les techniques d'élagage des canaux, qui ont eu du succès avec les réseaux de neurones convolutifs en vision par ordinateur, mais moins exploré avec des modèles PNL. Enfin, le présentateur souligne l'importance potentielle de la compression des modèles dans le contexte des travaux récents sur le développement de modèles à grande échelle pour les tâches NLP.

  • 00: 05: 00 Dans cette section, l'orateur introduit le concept d'un système étudiant-enseignant pour la compression de modèles en PNL. Le modèle d'enseignant est un modèle plus grand qui est utilisé pour extraire des représentations et les compresser dans un modèle d'élève plus petit. La fonction objectif est utilisée pour aider le réseau étudiant à capturer toutes les représentations apprises par le réseau enseignant ainsi que l'objectif de classification. Bien que les méthodes d'élagage et de partage n'aient pas été explorées en détail, les mécanismes d'attention et les transformateurs seront couverts dans de futures conférences. L'orateur note que ces énormes modèles sont essentiellement des transformateurs au cœur, appliqués à plusieurs reprises.
 

CS480/680 Cours 7 : Mélange de gaussiennes



CS480/680 Cours 7 : Mélange de gaussiennes

Dans ce cours sur le mélange de gaussiennes, l'orateur explique comment le modèle peut être utilisé pour la classification en construisant une distribution a priori pour chaque classe, ce qui permet la construction d'un modèle probabiliste utilisant le théorème de Bayes pour estimer la probabilité d'une classe pour une donnée point de données. La conférence couvre également le processus de calcul de la probabilité qu'un point de données appartienne à une certaine classe et comment cela est utilisé pour déterminer la prédiction de classe. Les notes de cours explorent la relation entre la fonction softmax et la distribution arc max et comment la forme et les limites de la gaussienne sont déterminées par la matrice de covariance. Enfin, la conférence détaille le processus d'apprentissage du maximum de vraisemblance et comment il peut être utilisé pour estimer la moyenne et la matrice de covariance pour un mélange de modèles gaussiens.

  • 00:00:00 Dans cette section, le conférencier discute de l'utilisation de mélanges de gaussiennes pour la classification, qui est un modèle statistique de la famille des modèles génératifs. Ils expliquent comment les distributions gaussiennes sont utilisées pour modéliser l'inexactitude et le bruit dans les données, ce qui peut être utilisé pour simuler la création d'un ensemble de données pour des applications telles que la génération de texte et d'image. La conférence fournit un exemple de régression linéaire et comment elle peut également être convertie en un modèle génératif grâce à l'utilisation de distributions gaussiennes.

  • 00: 05: 00 Dans cette section, le conférencier discute de la possibilité de générer des images similaires de personnes grâce à un modèle capable de générer des données similaires à l'ensemble d'entraînement. L'enseignant utilise la régression linéaire comme exemple, puis passe à la classification, où une distribution a priori pour chaque classe est construite. Sur la base de cette idée, un modèle probabiliste peut être construit en utilisant le théorème de Bayes pour estimer la probabilité de la classe pour un point de données donné. La conférence souligne qu'il ne s'agit pas d'un apprentissage bayésien, mais plutôt d'une inférence bayésienne.

  • 00: 10: 00 Dans cette section, l'instructeur discute des hypothèses formulées dans le modèle Mixture of Gaussians et de la manière d'utiliser l'inférence bayésienne pour calculer la probabilité a posteriori d'une classe. Le modèle suppose qu'il existe un nombre fini de classes catégorielles, qui peuvent être représentées à l'aide d'une distribution multinomiale. La distribution conditionnelle de classe est supposée être une distribution gaussienne avec la même matrice de covariance pour chaque classe. La vraisemblance est un produit de la distribution conditionnelle a priori et de classe, qui peut être simplifiée en annulant le premier terme qui ne dépend pas de la classe. Cette simplification est possible en raison de l'hypothèse de la même matrice de covariance pour chaque classe, bien qu'elle ne soit pas toujours valable en général.

  • 00: 15: 00 Dans cette section, l'orateur explique comment le postérieur peut être exprimé comme une fonction sigmoïde logistique, qui est particulièrement populaire dans les réseaux de neurones car il prend n'importe quel nombre réel et produit une sortie entre 0 et 1. Ils dérivent l'expression pour le postérieur et montrer qu'il peut être exprimé comme W(transpose)X + W_0 où W est le coefficient de x et W_0 est la partie constante qui ne dépend pas de X. La fonction logistique a une définition particulière et est utilisée pour produire une sortie qui peut être interprétée comme une probabilité.

  • 00:20:00 Dans cette section, l'enseignant discute de l'utilisation de la fonction logistique dans le cadre de mélanges de gaussiennes. La fonction logistique est utilisée pour écraser la sortie entre 0 et 1, et sa définition particulière peut être obtenue en traitant les coefficients de X comme des paramètres et la partie constante comme W nulle. La moyenne et la matrice de covariance, ainsi que les probabilités de classe, peuvent être combinées pour donner les paramètres souhaités. Cela aide à calculer la probabilité a posteriori d'un point de données appartenant à une classe particulière. Le conférencier explique également l'utilisation des conditions de classe, représentées par des distributions gaussiennes, pour trouver les probabilités de classe des points de données. Ces conditionnels de classe peuvent avoir différentes formes de cloche, et le postérieur aurait une probabilité plus élevée pour la classe qui correspond au point de données.

  • 00: 25: 00 Dans cette section de la vidéo, le conférencier explique comment la probabilité qu'un point de données appartienne à une certaine classe est calculée pour un mélange de modèles gaussiens. Si les moyennes des deux gaussiennes sont différentes et que nous supposons qu'elles ont la même matrice de covariance, selon l'emplacement du point, il aura naturellement une plus grande probabilité d'appartenir à la classe dont la gaussienne a une moyenne plus proche du point. Une formule est donnée pour les distributions conditionnelles de classe, et une fois la distribution postérieure calculée, une prédiction de classe peut être faite sur la base de la probabilité que cette classe soit supérieure à 0,5. Le conférencier montre également les frontières entre les deux classes, ce qui est intéressant pour faire des prédictions.

  • 00:30:00 Dans cette section, la conférence explore la limite de classe de l'utilisation de mélanges de gaussiennes et à quoi ressemble la frontière, en supposant qu'il y a deux gaussiennes et qu'elles ont la même matrice de covariance. La frontière se produit à la probabilité où chaque classe est la même (0,5). Cela se simplifie en W transpose X barre = 0, ce qui signifie que le séparateur est linéaire. Il s'agit d'un modèle simple et d'un séparateur linéaire, et il est utilisé lorsqu'il y a deux classes. Lorsqu'il y a plus de deux classes, le même calcul est effectué et le résultat est la fonction softmax, qui est également couramment utilisée dans les réseaux de neurones et a ses racines dans un mélange de calculs gaussiens.

  • 00:35:00 Dans cette section, le conférencier explique la relation entre la fonction softmax et la distribution arc max et pourquoi on l'appelle softmax. La distribution arc max attribue une probabilité un pour le classificateur avec la valeur la plus élevée et zéro pour toutes les autres classes, tandis que la fonction softmax en donne une version plus douce en attribuant des probabilités non nulles à toutes les classes. La fonction exponentielle apparaît lorsque l'on considère des mélanges de gaussiennes et que l'on calcule la distribution a posteriori pour plusieurs classes. Les limites des différentes classes peuvent également être représentées dans la distribution a posteriori. Les notes de cours expliquent que la fonction softmax est largement utilisée dans les réseaux de neurones pour déterminer la classe de sortie.

  • 00:40:00 Dans cette section, le conférencier explique comment la forme et les limites de la gaussienne sont déterminées par la matrice de covariance et comment cela affecte la séparation des classes. En utilisant différentes matrices de covariance, des frontières non linéaires peuvent être créées, alors que l'utilisation de la même se traduira par des frontières linéaires. Le conférencier explique également comment estimer les puissances du modèle de mélange de gaussiennes, à savoir pi, mu 1, mu 2 et Sigma, qui représentent respectivement la probabilité de chaque classe, la moyenne des gaussiennes et la matrice de covariance du bruit. La méthode du maximum de vraisemblance est utilisée à cette fin.

  • 00:45:00 Dans cette section, le conférencier explique le processus d'apprentissage par maximum de vraisemblance où le problème principal est de trouver les puissances du modèle qui maximisent la vraisemblance des données. Pour résoudre ce problème d'optimisation, l'enseignant prend le logarithme de l'expression pour la simplifier. L'expression résultante semble compliquée, mais elle est en fait agréable et a une forme concave qui a un seul optimum global. Cette méthode permet la combinaison de conditions de classe pour les deux classes en une seule expression en utilisant des étiquettes pratiques pour les classes de 0 et 1.

  • 00: 50: 00 Dans cette section de la conférence, l'orateur explique comment la maximisation de la fonction log-vraisemblance correspond à une fonction concave, qui peut être optimisée pour obtenir la moyenne d'échantillon et la moyenne empirique des données pour chaque classe dans un modèle de mélange de gaussiennes. La probabilité de chaque classe peut être estimée en prenant la fraction de données appartenant à cette classe, ce qui est une approche intuitive qui est confirmée par le principe du maximum de vraisemblance. De même, la moyenne des entrées pour chaque classe peut être estimée en prenant la somme de tous les points de données et en la divisant par le nombre de points dans cette classe. Ces estimations fournissent une justification formelle de l'approche intuitive d'estimation de ces paramètres.

  • 00: 55: 00 Dans cette section, l'orateur discute du processus d'estimation de la moyenne et de la matrice de covariance pour un mélange de modèles gaussiens utilisant l'apprentissage par maximum de vraisemblance. Les données de sortie cibles sont fournies et la fonction de vraisemblance est maximisée pour déterminer les valeurs correctes pour la moyenne et la matrice de covariance. Lors de l'estimation de la matrice de covariance, une combinaison linéaire des matrices de covariance empiriques pour chaque classe est prise, qui est pondérée par le nombre de points de données appartenant à chaque classe. L'orateur précise que si l'inférence bayésienne et l'apprentissage par maximum de vraisemblance sont tous deux utilisés dans ce processus, la première partie de la discussion n'était pas l'apprentissage mais plutôt l'inférence utilisant le théorème de Bayes.

  • 01:00:00 Dans cette section, l'orateur explique que la partie apprentissage automatique du mélange de gaussiennes consiste à déterminer les puissances nécessaires pour chaque caractéristique du modèle gaussien. Pour ce faire, ils utilisent l'apprentissage par maximum de vraisemblance, mais l'apprentissage bayésien est également possible. Cependant, le cours ne couvrira que l'apprentissage par maximum de vraisemblance. L'orateur conclut ensuite la section et déclare que le prochain cours couvrira une extension de ce sujet pour la classification.
 

CS480/680 Cours 8 : Régression logistique et modèles linéaires généralisés



CS480/680 Cours 8 : Régression logistique et modèles linéaires généralisés

Cette première partie du cours "CS480/680 : Régression logistique et modèles linéaires généralisés" introduit l'idée de la famille exponentielle des distributions et sa relation avec la régression logistique, une technique puissante utilisée pour les problèmes de classification. La conférence explique que la régression logistique vise à ajuster la meilleure fonction logistique qui modélise la postérieure pour un ensemble de données donné, et pour les problèmes avec quelques dimensions et poids, la méthode de Newton peut être utilisée pour trouver le minimum de la fonction objectif, qui est un convexe fonction. L'instructeur souligne également l'importance de la régression logistique dans les systèmes de recommandation et le placement d'annonces, où la simplicité et l'efficacité de la technique la rendent idéale pour faire des recommandations personnalisées en fonction des caractéristiques et des comportements des utilisateurs.

Le cours aborde également le thème de la régression logistique et des modèles linéaires généralisés. L'instructeur discute des limites de la méthode de Newton pour la régression logistique, telles que le problème du surajustement causé par des poids arbitraires importants et des problèmes de singularité dans la matrice hessienne. Pour éviter le surajustement, une régularisation est suggérée. L'instructeur présente des modèles linéaires généralisés (GLM) qui peuvent être utilisés pour travailler efficacement avec des séparateurs non linéaires. Les GLM impliquent le mappage des entrées dans un nouvel espace où la régression linéaire et la classification peuvent être effectuées de manière non linéaire tant que le mappage est non linéaire. Le cours couvre également les fonctions de base et leurs types qui peuvent être utilisés pour effectuer une régression et une classification non linéaires.

  • 00:00:00 Dans cette section de la vidéo, la conférence aborde les limites du modèle statistique de classification basé sur des mélanges de gaussiennes, qui suppose une distribution gaussienne. Pour remédier à cette limitation, ils introduisent une large classe de distributions connue sous le nom de famille exponentielle, conduisant au développement d'une technique puissante et flexible appelée régression logistique. Le cours s'appuie sur le tableau pour illustrer des mélanges de gaussiennes et explique que cette méthode convient lorsque les données forment des grappes d'une certaine forme. Cependant, si les données n'ont pas cette forme, l'hypothèse d'une distribution gaussienne doit être assouplie. Le cours introduit l'idée de la famille exponentielle des distributions et explique son importance dans le développement de la régression logistique.

  • 00: 05: 00 cette section, l'orateur discute de la famille exponentielle, qui comprend de nombreuses distributions célèbres telles que Bernoulli, Poisson et Gamma. La famille est appelée exponentielle parce que la fonction de densité de produit a une exponentielle et que l'exposant a un terme linéaire en thêta, certains termes en X et d'autres termes en thêta et X. La clé des différentes distributions de la famille réside dans les fonctions précises. T de X, a de thêta et B de X. La beauté de cette famille est que toute distribution qu'elle contient peut être réécrite sous la forme d'une fonction logistique sigmoïde. Cette caractéristique permet au locuteur d'introduire des modèles discriminants probabilistes, où l'objectif est d'estimer directement les paramètres de la fonction logistique, au lieu de faire des hypothèses sur les données étant perturbées par du bruit et d'estimer les paramètres de la distribution associée.

  • 00:10:00 Dans cette section, nous apprenons la régression logistique, qui est une technique utilisée pour ajuster ou trouver la meilleure fonction logistique qui modélise la postérieure pour un ensemble de données donné. Le postérieur suit la distribution softmax chaque fois qu'il y a plusieurs classes. Nous aimerions trouver le W qui maximise la postérieure étant donné certaines données. Ce problème d'optimisation est converti en un problème de minimisation en introduisant un signe négatif. L'objectif est de trouver le meilleur W qui garantit que la probabilité de la bonne classe Y est aussi élevée que possible pour la plupart des points de données.

  • 00: 15: 00 Dans cette section, l'instructeur discute de la régression logistique et de la manière dont elle peut être utilisée pour les problèmes de classification. Le but est de trouver le W qui minimise le subjectif, mais il est important de noter que même si cette technique s'appelle la régression logistique, c'est vraiment un problème de classification. Cependant, l'idée est que la régression logistique est une forme de régression parce que nous essayons d'estimer la probabilité a posteriori de la classe étant donné X, qui est une valeur numérique. L'instructeur poursuit en expliquant qu'une méthode itérative est nécessaire pour résoudre ce problème d'optimisation car il n'existe aucun moyen d'isoler la variable dans l'expression sous forme fermée.

  • 00:20:00 Dans cette section du cours, l'instructeur explique comment traiter l'équation non linéaire dans la régression logistique. La fonction objectif de la régression logistique est une fonction convexe, ce qui facilite la recherche de l'optimum global. L'instructeur explique que des méthodes itératives, telles que la descente de gradient ou la méthode de Newton, peuvent être utilisées pour trouver le minimum de la fonction objectif. Bien que la descente de gradient puisse être utilisée, elle n'est pas efficace et il est difficile de déterminer la bonne taille de pas. La méthode de Newton est beaucoup plus rapide et nécessite moins d'étapes, ce qui en fait un choix populaire pour l'optimisation.

  • 00: 25: 00 Dans cette section de la conférence, l'orateur discute d'une méthode appelée méthode de Newton pour la régression logistique, qui est une amélioration par rapport à la descente de gradient. La méthode de Newton consiste à commencer par une estimation initiale de W, puis à soustraire de W l'inverse du hessien multiplié par le gradient de la dernière fonction. Cette méthode implique essentiellement une itération des trois moindres carrés pondérés et se rapproche de l'objectif avec une fonction quadratique au lieu d'une ligne, permettant une meilleure approximation de la courbe et une convergence plus rapide. La beauté de cette méthode est que chaque fois qu'une fonction quadratique est approchée, le minimum peut être résolu de manière optimale sous forme fermée, éliminant ainsi le besoin de calculer une longueur de pas.

  • 00:30:00 Dans cette section, l'orateur présente la méthode de Newton, qui est une méthode d'optimisation du second ordre qui se rapproche d'une fonction avec un quadratique à chaque étape, trouve le minimum de cette courbe quadratique et réajuste la fonction. Ceci est différent de la descente de gradient, qui consiste à minimiser une fonction quadratique. La méthode de Newton peut être beaucoup plus rapide et plus précise puisque la fonction quadratique s'adapte mieux à la courbe qu'une régression linéaire générale, mais elle nécessite le calcul de la hessienne, qui comprend toutes les dérivées du second ordre et peut être coûteuse dans les problèmes de grande dimension. Par conséquent, il est mieux adapté aux problèmes avec peu de dimensions et de poids.

  • 00:35:00 Dans cette section, l'instructeur explique la raison d'être de l'approximation de la fonction non linéaire compliquée de la régression logistique avec une fonction quadratique à l'aide de la méthode de Newton. Alors que la descente de gradient est moins chère, l'approximation avec une fonction quadratique est un meilleur ajustement, permettant de meilleurs pas. Il est également possible de calculer le minimum d'une fonction quadratique. La méthode de Newton n'est pas garantie de trouver l'optimum global pour les objectifs non convexes, mais comme la fonction de régression logistique est convexe, il existe un seul optimum global et la méthode de Newton peut commencer n'importe où. La principale chose qui doit être calculée pour appliquer la méthode de Newton est le hessien, qui peut être obtenu par une dérivation résultant en une expression impliquant l'ensemble de données avec une rangée de uns et une matrice diagonale de Sigmas.

  • 00:40:00 Dans cette section, l'instructeur aborde la régression logistique et son importance en tant que technique d'apprentissage automatique, en particulier pour les systèmes de recommandation et le placement d'annonces. La régression logistique est utilisée pour faire des recommandations aux utilisateurs, telles que des recommandations de produits ou des recommandations publicitaires. L'idée est de montrer des publicités qui ont une forte probabilité d'être cliquées par l'utilisateur, et cela peut être modélisé comme un problème de classification. L'instructeur présente également la structure de la Hesse et comment l'obtenir à l'aide de la formule, ce qui est important pour programmer la régression logistique et appliquer la méthode de Newton. Alors que certains étudiants peuvent trouver les mathématiques écrasantes, il est essentiel de comprendre ces méthodes pour voir comment elles surviennent et pourquoi elles fonctionnent.

  • 00:45:00 Dans cette section, le concept de régression logistique est expliqué comme une méthode permettant de faire des recommandations aux utilisateurs, par exemple pour des produits ou des applications, en fonction de leurs caractéristiques et comportements. La régression logistique est souvent utilisée pour ces types de problèmes car elle est simple, flexible et efficace à mettre en œuvre, les prédictions reposant sur le calcul d'un produit scalaire. Parmi les exemples de fonctionnalités pouvant être prises en compte pour formuler des recommandations, citons le fait que certaines applications ont déjà été téléchargées et installées, l'âge, le sexe, l'emplacement et toute autre information pertinente dont dispose l'entreprise ou le smartphone sur l'utilisateur.

  • 00:50:00 Dans cette section, l'enseignant explique comment la régression logistique peut être utilisée pour des problèmes de classification à deux classes, où la probabilité qu'un événement se produise est supérieure ou égale à 0,5. S'il y a plusieurs classes, une distribution softmax peut être utilisée, avec un vecteur W pour chaque classe K. Le conférencier souligne que la régression logistique rend la prédiction simple, car elle implique uniquement le calcul d'un produit scalaire, et cela peut être rendu efficace en exploitant la parcimonie et paralysant une partie du calcul.

  • 00: 55: 00 Dans cette section, l'orateur discute de l'efficacité de la régression logistique et de la manière dont elle peut s'exécuter sur des appareils à faibles ressources en exploitant la parcimonie et en mettant en parallèle le calcul. Le calcul du produit scalaire peut ignorer les entrées nulles, ce qui accélère le calcul des longs vecteurs contenant des millions d'entrées. Le modèle d'apprentissage peut également être parallélisé avec un GPU, ce qui est idéal pour les systèmes tels que les systèmes de recommandation qui nécessitent des prédictions rapides et évolutives. De plus, l'extension des fonctionnalités est facile et ne nécessite qu'une mise à l'échelle au lieu de tout repenser.

  • 01:00:00 Dans cette section, le professeur discute des limites de la méthode de Newton pour la régression logistique et de la question du surajustement. Bien que la méthode de Newton soit une technique d'optimisation rapide, elle n'est pas évolutive pour de grands ensembles de données et des millions de fonctionnalités. La régression logistique a tendance à sur-ajuster facilement en raison de son optimisation convexe, qui trouve l'optimum global qui correspond trop bien aux données. Le surajustement peut provoquer des singularités dans la matrice hessienne, rendant impossible l'application de la méthode de Newton. La fonction sigmoïde de la régression logistique va de zéro à un mais n'atteint jamais asymptotiquement un, donc pour obtenir une probabilité proche de un, W transpose X bar doit être arbitrairement grand, ce qui entraîne un surajustement.

  • 01:05:00 Dans cette section, le conférencier aborde la question du surajustement dans les modèles de régression logistique. Ils expliquent que lorsque W transpose la barre X va à l'infini, la magnitude de W va également à l'infini, ce qui peut entraîner des poids arbitrairement grands. De plus, la Hessienne tendra vers zéro en raison de la fonction sigmoïde, ce qui rend difficile l'application de la méthode de Newton car le calcul de l'inverse de la Hessienne ne sera pas possible numériquement. Pour éviter le surajustement, le professeur suggère d'utiliser la régularisation, où un terme de pénalité est ajouté pour minimiser l'ampleur des poids. Cela permet également d'éviter les problèmes de singularité.

  • 01:10:00 Dans cette section de la vidéo, l'instructeur explique comment éviter le surajustement dans la régression logistique et les modèles linéaires généralisés en ajoutant un terme de pénalité à l'aide de la méthode de Newton. Cependant, une limitation de la régression logistique est que la frontière entre les classes est toujours linéaire. Pour surmonter cette limitation et travailler avec des séparateurs non linéaires, l'instructeur introduit des modèles linéaires généralisés, qui impliquent le mappage des entrées dans un nouvel espace où la régression linéaire et la classification peuvent être effectuées de manière non linéaire tant que le mappage est non linéaire. linéaire. Cette approche simple permet à la généralisation des modèles linéaires de fonctionner dans des contextes non linéaires et sert de base aux méthodes du noyau qui sont abordées plus tard dans le cours.

  • 01:15:00 Dans cette section, l'orateur explique comment approximer une fonction à l'aide d'une régression non linéaire et de modèles linéaires généralisés. L'idée est de mapper les données de l'espace d'origine vers un nouvel espace, en utilisant une fonction de mappage notée Phi, qui mappe chaque entrée X dans une nouvelle entité. La fonction de mappage désigne une fonction de base qui peut capturer les non-linéarités en définissant un mappage qui permettra à l'utilisateur de passer de n'importe quel espace d'origine à un nouvel espace, le rendant non linéaire. Le but est de trouver des coefficients tels que des poids pour obtenir la meilleure fonction et cet espace d'hypothèse. En fin de compte, en utilisant cette technique, nous pouvons effectuer une régression linéaire ou une classification tout en capturant implicitement les non-linéarités dans l'espace d'origine.

  • 01:20:00 Dans cette section, l'instructeur explique comment utiliser la régression logistique et les modèles linéaires généralisés pour classer les points de données. Le processus consiste à mapper l'espace d'entrée dans un espace de dimension supérieure à l'aide de fonctions de base, puis à rechercher l'hyperplan optimal pour séparer les données dans cette dimension supérieure. L'instructeur souligne qu'une connaissance préalable de l'espace possible des fonctions est nécessaire pour choisir les fonctions de base appropriées, mais il existe des techniques disponibles pour apprendre les fonctions de base. De plus, l'instructeur explique comment les poids du modèle définissent le vecteur normal à l'hyperplan.

  • 01:25:00 Dans cette section, le conférencier discute des fonctions de base et de leurs types, qui peuvent être utilisées pour la régression logistique et les modèles linéaires généralisés. Le conférencier introduit d'abord les fonctions de base polynomiales car elles peuvent être utilisées pour couvrir des fonctions polynomiales en prenant toutes les puissances de X jusqu'à un certain degré. L'enseignant présente ensuite deux exemples de fonctions de base non linéaires : les fonctions gaussiennes et sigmoïdes. Les fonctions de base gaussiennes peuvent être utilisées en changeant mu et s, où mu indique la position de la bosse sur l'axe des x et s montre la largeur de la bosse. Les fonctions sigmoïdes sont des fonctions non linéaires mais pas des distributions de probabilité et peuvent être utilisées avec le chapeau Sigma appliqué à X moins mu J divisé par s comme fonction de base. D'autres fonctions non linéaires pouvant être utilisées comme fonctions de base comprennent les ondelettes, les sinus et les cosinus.

  • 01:30:00 Dans cette section de la conférence, l'orateur explique comment généraliser les modèles linéaires afin d'effectuer implicitement une régression et une classification non linéaires. En remplaçant la variable d'entrée X par Phi de X, qui est l'entrée dans un nouvel espace, diverses fonctions non linéaires peuvent être utilisées. La fonction Phi peut être appliquée à différentes parties de l'entrée d'origine X et peut être utilisée pour capturer la fonction sous-jacente à l'aide d'un ensemble de fonctions de base, telles que des polynômes ou des gaussiennes. Ceci conclut le sujet, qui fournit une compréhension fondamentale de la régression logistique non linéaire et des modèles linéaires généralisés.
 

CS480/680 Cours 9 : Perceptrons et réseaux de neurones à une seule couche



CS480/680 Cours 9 : Perceptrons et réseaux de neurones à une seule couche

Cette conférence présente les réseaux de neurones en mettant l'accent sur le type élémentaire, le perceptron, qui produit un séparateur linéaire pour la classification. La conférence explore comment les poids sont utilisés pour calculer une combinaison linéaire d'entrées qui passent par une fonction d'activation pour produire des sorties, et comment différents poids peuvent être utilisés pour approximer des portes logiques telles que les portes ET, OU et NON. Le conférencier discute du réseau de neurones à anticipation et comment l'algorithme d'apprentissage du perceptron est utilisé pour la classification binaire et comment la descente de gradient peut optimiser les poids. Les limites de l'utilisation d'une ligne pour séparer les données sont discutées et la fonction d'activation sigmoïde logistique est présentée comme une solution possible, en mettant l'accent sur la façon dont les poids peuvent être entraînés à l'aide de la fonction d'activation sigmoïde logistique.

Cette conférence sur les Perceptrons et les réseaux de neurones à une seule couche couvre l'utilisation de fonctions d'activation logistiques sigmoïdes pour minimiser l'erreur quadratique et l'introduction du taux d'apprentissage en tant que paramètre crucial dans la descente de gradient séquentiel. Le conférencier montre également comment les réseaux de neurones à plusieurs couches peuvent être composés pour se rapprocher arbitrairement de n'importe quelle fonction en utilisant des fonctions de maintien de la corbeille, et comment la rétropropagation peut être utilisée pour entraîner un réseau à apprendre des fonctions arbitraires. L'instructeur met l'accent sur la polyvalence et l'efficacité des réseaux de neurones, citant leur utilisation généralisée pour résoudre divers problèmes tels que la reconnaissance vocale, la vision par ordinateur, la traduction automatique et les incorporations de mots.

  • 00:00:00 Dans cette section de la conférence, l'accent est mis sur une brève introduction aux réseaux de neurones, avec un accent particulier sur le perceptron, qui est un type élémentaire de réseau de neurones qui n'a pas de couches cachées. Il produit un séparateur linéaire pour la classification et joue un rôle crucial dans l'histoire des réseaux de neurones. Plus tard, des formes plus complexes de réseaux de neurones se généralisent. La conférence aborde également le fonctionnement du cerveau et comment il pourrait être émulé par le calcul. Alors que le cerveau est constitué de neurones, l'ordinateur fonctionne à l'aide de portes logiques qui communiquent par un signal électrique, ce qui rend le calcul séquentiel. Cependant, les signaux du cerveau se propagent parallèlement, ce qui le rend plus robuste.

  • 00: 05: 00 Dans cette section, l'orateur discute de la fragilité des ordinateurs par rapport au cerveau humain et de la manière dont les réseaux de neurones tentent d'imiter l'organisation du cerveau. Les réseaux de neurones sont constitués de nœuds appelés unités, qui correspondent aux neurones d'un réseau de neurones réel, et de liens qui correspondent aux synapses. Le calcul se fait au moyen de signaux numériques, qui sont transmis entre les unités. L'objectif est d'activer les neurones lorsque le bon modèle est entré, permettant un calcul plus robuste qui peut gérer la suppression de certains neurones en utilisant des techniques de régularisation. L'inspiration des réseaux de neurones vient de l'organisation et de la propagation des signaux chimiques dans les réseaux de neurones biologiques réels.

  • 00:10:00 Dans cette section, le conférencier explique comment les poids sont utilisés dans les réseaux de neurones pour calculer une combinaison linéaire d'entrées et produire un nouveau signal. Ce nouveau signal passe ensuite par une fonction d'activation, qui applique une certaine non-linéarité pour produire la sortie. Chaque nœud du réseau reçoit des entrées, les redimensionne avec des poids et applique la fonction d'activation pour produire une sortie qui est ensuite transmise aux nœuds suivants du réseau. L'enseignant souligne que les poids sont cruciaux pour le comportement du réseau et peuvent être ajustés au cours du processus d'apprentissage pour améliorer les performances.

  • 00: 15: 00 Dans cette section, le conférencier explique comment les unités d'un réseau de neurones calculent une fonction non linéaire d'une combinaison linéaire des entrées en fonction des poids attribués à chaque entrée. Les entrées elles-mêmes peuvent être des nœuds précédents qui sont passés par une fonction d'activation non linéaire. Plutôt que de créer des fonctions de base pour mapper les entrées vers un nouvel espace, les réseaux de neurones permettent à une partie du réseau d'apprendre à remapper les entrées vers un nouvel espace. Des fonctions d'activation non linéaires sont nécessaires pour rendre le réseau plus expressif, et le conférencier explique deux exemples populaires de telles fonctions : la fonction d'activation de seuil et la fonction sigmoïde.

  • 00: 20: 00 Dans cette section de la conférence, le professeur discute de l'utilisation des fonctions d'activation dans les réseaux de neurones, en particulier la fonction de rétention des déchets et la fonction sigmoïde. Il explique que bien que la fonction de maintien de la corbeille soit utile pour produire des 0 et des 1, elle n'est pas lisse et continue, ce qui peut la rendre difficile à utiliser avec les méthodes basées sur le gradient. La fonction sigmoïde est une version lisse de la fonction de maintien des déchets et a la même forme mais peut être ajustée en pente. Le professeur explore ensuite la conception d'unités dans des réseaux de neurones capables d'émuler des portes de base comme les portes ET, OU et NON. Il montre un exemple d'unité avec une fonction d'activation de maintien de la corbeille qui peut émuler la porte NAND et se demande s'il est possible de trouver des poids pour permettre une sortie qui correspond à la fin des entrées.

  • 00: 25: 00 Dans cette section, le conférencier explique comment différents poids peuvent être utilisés dans un réseau de neurones perceptron pour émuler des portes logiques, telles que les portes de fin, ou, et non. En ajustant les poids utilisés dans le perceptron, le réseau neuronal peut être conçu pour produire la sortie de table de vérité souhaitée pour chacune de ces portes. Le conférencier fournit des exemples de différents poids qui peuvent être utilisés pour émuler chacune des portes logiques, y compris des poids pour la porte d'extrémité, ou la porte, et non la porte.

  • 00:30:00 Dans cette section, le conférencier aborde deux grandes classes de réseaux : les réseaux de neurones à réaction, qui consistent en un graphe orienté de nœuds qui circulent dans une direction ; et les réseaux de neurones récurrents, qui sont de nature cyclique et sont utiles pour gérer des entrées de longueurs variables, ce qui les rend populaires dans le traitement du langage naturel. Le conférencier se concentre sur les réseaux de neurones à réaction et dessine un exemple simple avec deux unités d'entrée, une couche cachée avec deux unités et une unité de sortie. En changeant les poids des connexions entre les couches, ils expliquent qu'il est possible d'émuler la fin, ou et les unités de nœud, permettant l'approximation de n'importe quelle fonction booléenne.

  • 00:35:00 Dans cette section, le conférencier explique le concept d'un perceptron, qui est essentiellement un simple réseau neuronal prédictif monocouche utilisé pour la classification binaire. L'algorithme de formation d'un perceptron est discuté, où chaque unité de sortie est formée séparément en parcourant l'ensemble de données pour chaque paire XY et en ajustant les poids selon que la sortie produite est correcte ou non. La conférence traite également de l'utilisation de la représentation matricielle pour les poids dans les réseaux de neurones.

  • 00:40:00 Dans cette section, l'enseignant explique l'algorithme d'apprentissage du perceptron qui est utilisé pour traiter les unités qui passent par une fonction de seuil. L'algorithme applique une règle très simple où si le calcul du réseau est correct, alors les poids peuvent être gardés les mêmes, mais si la sortie est incorrecte, des ajustements doivent être faits en ajoutant simplement l'entrée X aux poids ou en le soustrayant , en fonction de la sortie. Le but est d'augmenter la combinaison linéaire des entrées et des poids si la sortie est supposée être positive ou de la diminuer si elle est supposée être négative afin que le perceptron calcule une sortie qui soit la plus proche de la bonne réponse. La clé est de tirer parti du fait que la fonction de maintien de la corbeille renvoie 1 lorsque la combinaison linéaire est positive et 0 lorsqu'elle est négative.

  • 00:45:00 Dans cette section, le conférencier discute de l'utilisation de la descente de gradient pour optimiser les poids d'un algorithme de perceptron. Une fonction de perte est définie comme l'erreur de mauvaise classification, où pour chaque point de données X et Y, il est considéré comme mal classé lorsque le produit de YW transpose X est négatif. Un point est censé être positif s'il appartient à la classe 1 et négatif s'il appartient à la classe -1. Les points mal classés sont additionnés pour obtenir un objectif qui peut être minimisé. Le gradient est ensuite calculé par rapport à l'objectif de faire un pas dans la direction opposée du gradient pour l'optimisation.

  • 00: 50: 00 Dans cette section de la conférence sur les perceptrons et les réseaux de neurones à une seule couche, le professeur discute de l'utilisation de la descente de gradient avec traitement séquentiel pour mettre à jour les poids dans l'algorithme du perceptron. L'algorithme s'appuie sur des données linéairement séparables pour éventuellement classer correctement toutes les instances d'entraînement. Un théorème est présenté indiquant que l'algorithme d'apprentissage du perceptron à seuil convergera si et seulement si les données sont linéairement séparables. La section se termine par une explication et une visualisation des données séparables linéairement par rapport aux données séparables non linéaires.

  • 00: 55: 00 Dans cette section de la conférence, le professeur discute des limites de la tentative de séparation d'un ensemble de données par une ligne et introduit la possibilité d'utiliser une fonction d'activation sigmoïde logistique au lieu de la fonction d'activation de seuil. Le sigmoïde logistique peut être non linéaire, mais il produit toujours un séparateur linéaire au point où la probabilité est de 0,5 pour chaque classe. Par conséquent, l'utilisation du sigmoïde logistique nous donne toujours un séparateur linéaire et un espace d'hypothèse qui est le même que la régression logistique. Le professeur aborde ensuite la question de savoir comment entraîner les poids du perceptron avec la fonction logistique d'activation sigmoïde.

  • 01:00:00 Dans cette section, l'orateur discute de l'approche pour définir un objectif et minimiser l'erreur quadratique dans les perceptrons avec des fonctions logistiques d'activation sigmoïde. Ils expliquent que l'algorithme du maximum de vraisemblance est essentiellement le même que la régression logistique, tandis que la minimisation de l'erreur quadratique nécessite de trouver le gradient et de prendre des mesures dans sa direction. Ils introduisent également l'idée d'utiliser un taux d'apprentissage pour définir la taille du pas dans la descente de gradient séquentielle et mentionnent qu'il s'agit d'un paramètre critique qui doit souvent être ajusté. L'orateur suggère qu'il est courant dans la pratique de prendre des mesures concernant des mini-lots de points de données ou un seul point de données.

  • 01:05:00 Dans cette section, le conférencier explique comment les réseaux de neurones à plusieurs couches peuvent se rapprocher arbitrairement de n'importe quelle fonction. En composant différents neurones ensemble, il démontre la création d'une crête 2D en ajoutant deux unités sigmoïdes parallèles avec des pentes opposées, puis montre comment deux crêtes peuvent être composées pour former une bosse lorsqu'elles sont intersectées perpendiculairement. Cette technique permet la création de classificateurs qui peuvent attribuer des points à une classe dans une petite région et à l'autre classe partout ailleurs. Le conférencier illustre le réseau correspondant, qui comprend quatre unités sigmoïdes et une crête avec la fonction d'activation de l'identité.

  • 01:10:00 Dans cette section de la conférence sur les Perceptrons et les réseaux de neurones à une seule couche, le professeur discute de la construction de bosses à l'aide de fonctions de maintien des déchets ou de sigmoïdes, et de la manière dont elles peuvent être carrelées et additionnées pour approximer arbitrairement n'importe quelle courbe . Il explique que cette approche peut être utilisée pour la régression et qu'il est possible d'entraîner un réseau de neurones pour apprendre une fonction arbitraire à l'aide d'algorithmes tels que la rétropropagation. La rétropropagation est essentiellement une forme de descente de gradient qui exploite la structure du réseau pour calculer simultanément toutes les dérivées partielles.

  • 01:15:00 Dans cette section, l'instructeur explique comment les dérivées partielles de tous les poids d'un réseau de neurones peuvent être obtenues simultanément en un nombre constant de passages à travers le réseau à l'aide de l'algorithme de rétropropagation. L'instructeur souligne que les réseaux de neurones ont gagné en popularité en raison de leur polyvalence et de leur capacité à résoudre divers problèmes tels que la reconnaissance vocale et la vision par ordinateur. L'état de l'art en matière de traduction automatique et d'incorporation de mots utilise également des réseaux de neurones, et leur popularité est en partie due à leur efficacité.
 

CS480/680 Cours 10 : Réseaux de neurones multicouches et rétropropagation



CS480/680 Cours 10 : Réseaux de neurones multicouches et rétropropagation

Cette conférence sur les réseaux de neurones multicouches et la rétropropagation explique les limites des modèles linéaires et le besoin de modèles non linéaires tels que les réseaux de neurones multicouches. Le conférencier discute des différentes fonctions d'activation qui peuvent être utilisées dans les réseaux de neurones et comment elles permettent des fonctions de base non linéaires. Le cours explique ensuite comment l'algorithme de rétropropagation est utilisé pour calculer le gradient de l'erreur par rapport à chaque poids dans un réseau de neurones. Les outils de différenciation automatique sont également présentés comme un moyen de calculer efficacement les deltas et les gradients dans un réseau de neurones. Dans l'ensemble, la conférence met l'accent sur la flexibilité et la puissance des réseaux de neurones pour se rapprocher d'un large éventail de fonctions.

Le conférencier dans cette vidéo discute des problèmes d'optimisation des réseaux de neurones, tels que la convergence lente, l'optimisation locale, l'optimisation non convexe et le surajustement. Pour surmonter une convergence lente, des techniques telles que la régularisation et l'abandon peuvent être utilisées. De plus, l'orateur explique le comportement de la descente de gradient pour l'optimisation, soulignant la nécessité d'optimiser la taille des pas pour améliorer son efficacité. L'algorithme d'attribution DES est proposé comme solution, qui ajuste le taux d'apprentissage de chaque dimension séparément. L'orateur présente également RMSProp, une moyenne mobile pondérée des gradients précédents. Enfin, l'orateur discute d'Adam, qui consiste à prendre une moyenne mobile pondérée du gradient lui-même, et montre qu'il surpasse d'autres techniques telles que SGD Nesterov.

  • 00:00:00 Dans cette section, le conférencier fournit un bref récapitulatif de la régression linéaire et trois modèles de classification linéaire. Cependant, le problème avec ces modèles est qu'ils nous donnent toujours un séparateur linéaire. Ainsi, la conférence déplace la discussion vers des modèles non linéaires et introduit le besoin de réseaux de neurones multicouches.

  • 00:05:00 Dans cette section, l'instructeur passe en revue les modèles linéaires, y compris le perceptron et sa fonction d'activation de seuil, et la fonction d'activation sigmoïde. L'instructeur explique que les modèles linéaires peuvent être étendus à des modèles non linéaires pour prendre en charge des fonctions qui ne sont pas des lignes droites mais plutôt des courbes. Pour y parvenir, une régression non linéaire est introduite, qui utilise une fonction de mappage, Phi de X, pour déplacer les données dans un nouvel espace. L'instructeur présente également les réseaux de neurones multicouches, qui fournissent des fonctions de base adaptatives pour la régression non linéaire, puis les relie au modèle de régression linéaire généralisé. Enfin, l'instructeur discute de la classification non linéaire généralisée.

  • 00: 10: 00 Dans cette section de la conférence, l'orateur explique comment travailler avec des modèles non linéaires sans restriction. Le problème avec les modèles linéaires avec fonctions de base que nous avons vus jusqu'à présent est que nous devons choisir les fonctions de base a priori, et nous n'avons peut-être pas suffisamment de connaissances du domaine pour le faire. La solution est de choisir des fonctions de base qui dépendent des données et permettent un très grand nombre, voire une infinité de fonctions de base sans payer de prix. Cette idée était initialement l'approche des méthodes du noyau et était l'ensemble dominant de techniques jusqu'en 2010 environ.

  • 00: 15: 00 Dans cette section, la vidéo traite de l'introduction de réseaux de neurones multicouches dans l'apprentissage en profondeur, qui a conduit à de nombreux succès que nous voyons aujourd'hui dans l'apprentissage en profondeur. Plus précisément, la vidéo se concentre sur un réseau de neurones à deux couches avec des nœuds entièrement connectés, chaque connexion ayant un poids qui peut être représenté dans une matrice. Les unités cachées et les unités de sortie sont calculées à l'aide de la fonction d'activation et des combinaisons linéaires, chaque couche ayant son propre ensemble de poids. En ajustant les pouvoirs à l'intérieur des fonctions de base, il est possible de les adapter et de les faire varier en fonction des ensembles d'apprentissage, ce qui conduit à un modèle d'apprentissage en profondeur plus performant.

  • 00:20:00 Dans cette section de la conférence, le professeur explique comment les réseaux de neurones sont essentiellement des fonctions mathématiques composées de plusieurs couches et poids. Ils utilisent des fonctions d'activation, telles que la tangente sigmoïde ou hyperbolique, pour ajouter de la non-linéarité. Ces fonctions d'activation peuvent servir de fonctions de base pour la couche suivante et peuvent être utilisées dans la régression non linéaire. En utilisant des fonctions d'activation non linéaires dans la première couche et une fonction d'identité dans la couche de sortie, un réseau neuronal peut être représenté comme une combinaison linéaire de fonctions de base non linéaires.

  • 00: 25: 00 Dans cette section, l'orateur discute des réseaux de neurones à deux couches pour la régression et la classification non linéaires. La formule mathématique du réseau neuronal à deux couches implique des unités cachées avec une fonction d'activation sigmoïde et des unités de sortie avec la fonction d'activation d'identité. Le sigma agit comme une fonction de base non linéaire qui est paramétrée par certains poids, permettant aux fonctions de base de s'adapter au fur et à mesure que le modèle est formé. Cette approche est la principale différence entre la régression non linéaire et la régression linéaire. De même, pour la classification, l'intervenant montre comment la même formule s'applique en calculant des fonctions de base non linéaires via la première couche.

  • 00:30:00 Dans cette section, le conférencier explique en quoi les réseaux de neurones multicouches sont différents de la régression logistique, malgré une interprétation similaire. Le réseau neuronal permet des fonctions de base plus adaptatives en utilisant des poids qui se mettent à jour pendant l'entraînement. La non-linéarité provient de l'utilisation d'une fonction Sigma, qui peut être remplacée par d'autres fonctions comme la fonction gaussienne ou 10h. Le réseau de neurones peut être utilisé à la fois pour la classification et la régression en ajustant la fonction d'activation. Le conférencier mentionne également que plusieurs classes peuvent être utilisées dans le réseau en remplaçant la fonction Sigma par une autre fonction appropriée.

  • 00: 35: 00 Dans cette section, la conférence traite de l'optimisation des poids pour les réseaux de neurones multicouches, qui comprend à la fois les poids de la combinaison linéaire et les poids qui définissent les fonctions de base non linéaires. L'algorithme d'optimisation le plus populaire est la minimisation des erreurs, qui compare la sortie du réseau neuronal à une cible et calcule la différence. La rétropropagation est un algorithme populaire qui permet de calculer les erreurs et de les rétropropager à travers le réseau pour calculer un gradient par rapport à chaque poids. Le gradient est utilisé pour calculer l'algorithme de mise à jour afin d'optimiser les poids. L'algorithme de rétropropagation est calculé à la main, mais des packages tels que Tensor Flow et PyTorch offrent des outils de différenciation automatique.

  • 00: 40: 00 Dans cette section, l'orateur explique l'algorithme de rétropropagation utilisé pour calculer le gradient ou la dérivée partielle de l'erreur par rapport à chaque poids dans un réseau de neurones. L'algorithme est divisé en deux phases : une phase avant où la sortie du réseau est calculée en fonction des entrées, et une phase arrière où Delta, une mesure de l'erreur, est rétropropagée pour calculer la dérivée partielle de l'erreur par rapport à chaque lester. La dérivée partielle est calculée en deux étapes en utilisant la règle en chaîne pour la dérivée partielle et Delta J et Zi. L'orateur illustre l'algorithme avec un réseau entièrement connecté composé de deux entrées, de deux unités cachées et de deux unités de sortie, et montre comment l'algorithme calcule la sortie de chaque unité et rétropropage les erreurs.

  • 00:45:00 Dans cette section de la vidéo, le conférencier explique comment obtenir des dérivées partielles dans des réseaux de neurones multicouches à l'aide de l'algorithme de rétropropagation. L'orateur explique qu'à partir de la couche de sortie, on peut calculer la dérivée partielle de l'erreur par rapport à chaque unité de sortie J en utilisant une formule récursive qui dépend des deltas des unités de sortie. L'orateur montre ensuite un exemple simple d'utilisation de la phase avant et arrière pour calculer la sortie des unités cachées et de sortie dans un réseau neuronal.

  • 00: 50: 00 Dans cette section, l'orateur explique comment calculer les deltas et les gradients dans un réseau de neurones et comment les outils de différenciation automatique peuvent aider à le faire efficacement. Ils fournissent des équations pour calculer les deltas des couches masquées et des couches de sortie et montrent comment les utiliser pour calculer les gradients. L'orateur souligne que les outils de différenciation automatique peuvent économiser du temps et des efforts en calculant manuellement les gradients lorsque l'on travaille avec différentes architectures et fonctions. La section se termine par des exemples de la façon dont, avec seulement trois unités cachées, un réseau de neurones peut approximer des fonctions arbitraires telles que le carré de x, la valeur absolue de x et le sinus de x.

  • 00:55:00 Dans cette section, le conférencier discute de la capacité des réseaux de neurones à se rapprocher de différentes fonctions. Le réseau peut converger vers des fonctions de base non linéaires qui peuvent très bien approximer des fonctions lisses, telles que des fonctions quadratiques et sinusoïdales. Cependant, pour les fonctions non lisses, comme la fonction absolue, le réseau de neurones a du mal à l'approximer sans suffisamment d'unités cachées. Néanmoins, même pour des fonctions discontinues comme la fonction en escalier, le réseau peut toujours fournir une approximation raisonnable. Le conférencier passe ensuite à la discussion sur l'optimisation des réseaux de neurones, qui consiste à calculer le gradient à l'aide d'une différenciation automatique et à effectuer une descente de gradient stochastique. Bien qu'il s'agisse d'une technique d'optimisation générale, la convergence peut être lente sans méthodes d'optimisation supplémentaires.

  • 01:00:00 Dans cette section, le conférencier aborde les problèmes qui peuvent survenir lors de l'optimisation des réseaux de neurones, notamment la convergence lente, l'optimisation locale, l'optimisation non convexe et le surajustement. La convergence lente peut être surmontée grâce à des techniques telles que la régularisation et l'abandon. Pour illustrer le concept de convergence lente, l'enseignant dessine une image d'une surface en forme de boule représentant la fonction d'erreur. La descente de gradient peut converger lentement lorsqu'elle démarre en dehors du minimum global, et des techniques modernes telles que l'élan et les taux d'apprentissage adaptatifs peuvent accélérer la convergence.

  • 01:05:00 Dans cette section, le conférencier discute du comportement de la descente de gradient pour l'optimisation. La direction du gradient est généralement perpendiculaire à la ligne de contour, et le problème de faire un pas dans sa direction est qu'il peut dépasser le minimum. En revanche, si le gradient est faible, il peut être nécessaire de faire de nombreux petits pas pour arriver au minimum. Par conséquent, il y a des régions où des mesures plus importantes doivent être prises et des régions où des mesures plus petites sont plus appropriées. Ce comportement met en évidence la nécessité d'optimiser la taille des marches pour améliorer l'efficacité de la descente de gradient.

  • 01:10:00 Dans cette section, l'orateur discute des problèmes potentiels liés à l'utilisation de la taille du gradient pour déterminer la taille du pas dans un réseau de neurones. Étant donné que la taille du gradient peut ne pas être cohérente dans différentes dimensions, une solution proposée par l'algorithme de subvention DES consiste à ajuster le taux d'apprentissage de chaque dimension séparément en prenant la somme du carré des gradients vus jusqu'à présent et en divisant la taille du pas par la racine carrée de cette valeur. Cela permet des ajustements de la taille du pas en fonction de l'ampleur du gradient dans chaque dimension. Cependant, le taux d'apprentissage peut diminuer trop rapidement dans certaines applications, ce qui entrave la progression.

  • 01:15:00 Dans cette section, l'orateur discute des problèmes de descente de gradient dans les réseaux de neurones et comment l'ajustement du taux d'apprentissage peut aider à faire une descente de gradient stochastique. L'orateur introduit le concept de "dimension" dans un réseau de neurones, où il y a une dimension par poids. Ils expliquent le problème de l'accumulation de sommes importantes et la nécessité de réduire la taille de ces étapes. L'orateur propose une solution à ce problème avec l'introduction de rmsprop, qui est une moyenne mobile pondérée des gradients précédents avec une décroissance exponentielle qui oublie les gradients plus anciens. Cependant, cette méthode n'est pas parfaite et l'orateur reconnaît ses limites.

  • 01:20:00 Dans cette section, le conférencier discute du problème d'un gradient manquant d'élan dans une région où il est stable, ce qui nécessite un moyen d'augmenter la taille des pas lorsque la direction est la même. Cela conduit à une version de l'heuristique connue sous le nom d'Adam, qui consiste à prendre une moyenne mobile pondérée du gradient lui-même et à la stocker dans sT. Lors de la mise à jour, au lieu de faire un pas dans l'action et le gradient, on fait un pas dans l'action de cette moyenne mobile. La technique est une heuristique, qui a été publiée dans ICLR en 2015, et la principale différence avec ses prédécesseurs est qu'elle est accompagnée de certaines théories et preuves de convergence sur ses propriétés. Cependant, lors de sa publication, il y avait des problèmes avec certaines des preuves, ce qui a conduit à des modifications avec plus de preuves pour arriver à quelque chose de plus fondé sur des principes.

  • 01:25:00 Dans cette section, l'orateur explique le compromis entre faire quelques bons pas et payer un prix élevé pour chaque pas ou faire beaucoup de petits pas rapidement qui ne sont pas de très bons pas, mais qui finissent toujours par finir plus près du minimum. Il discute également des techniques d'optimisation qui ne s'adaptent pas bien, telles que les techniques d'optimisation de second ordre comme la technique de Newton. En pratique, les heuristiques ont tendance à bien fonctionner malgré leur manque de bonne théorie. L'orateur fournit ensuite des comparaisons empiriques entre Adam et d'autres techniques telles que SGD Nesterov et montre qu'Adam a tendance à être assez performant.
 

CS480/680 Cours 11 : Méthodes du noyau



CS480/680 Cours 11 : Méthodes du noyau

Dans cette conférence, le concept de méthodes de noyau est présenté comme un moyen de mettre à l'échelle des modèles linéaires généralisés en mappant des données d'un espace dans un nouvel espace à l'aide d'une fonction non linéaire. L'astuce duale ou astuce du noyau est expliquée comme une technique qui permet de travailler dans des espaces de grande dimension sans payer de coûts supplémentaires, conduisant à l'utilisation d'une fonction noyau qui calcule le produit scalaire de paires de points dans le nouvel espace. Diverses méthodes de construction de noyaux sont discutées, y compris les noyaux polynomiaux et gaussiens, qui peuvent être utilisés pour mesurer la similarité entre les points de données et sont utiles dans les tâches de classification. Des règles de composition des noyaux sont également introduites pour construire de nouveaux noyaux capables de contrôler leur complexité. Le cours insiste sur l'importance de choisir des fonctions qui ont une correspondance avec Phi transposer Phi, car la matrice de gramme doit être positive semi-définie et avoir des valeurs propres supérieures ou égales à zéro.

Dans ce cours sur les méthodes par noyau, l'orateur définit les noyaux comme des fonctions semi-définies positives qui peuvent être décomposées en une matrice multipliée par sa transposée. Divers types de noyaux, tels que polynomiaux et gaussiens, et leurs applications sont discutés pour comparer différents types de données tels que des chaînes, des ensembles et des graphiques. L'orateur explique également comment les noyaux de sous-chaînes peuvent rapidement calculer la similarité entre les mots en augmentant la longueur des sous-chaînes et en utilisant la programmation dynamique. De plus, les machines à vecteurs de support se sont avérées efficaces pour effectuer la classification des documents à l'aide d'articles de presse de Reuters.

  • 00:00:00 Dans cette section, l'orateur présente les méthodes du noyau, qui sont utiles pour mettre à l'échelle des modèles linéaires généralisés. Un bref récapitulatif des similitudes et des différences entre les modèles linéaires généralisés et les réseaux de neurones est donné, soulignant que les fonctions de base non linéaires fixes sont utilisées dans les modèles linéaires et que l'optimisation a tendance à être plus facile et généralement convexe, tandis que les fonctions de base adaptatives sont utilisées dans les réseaux de neurones. , et l'optimisation a tendance à être plus difficile. L'introduction du noyau conduira à une astuce qui évitera de payer un prix pour l'espace plus grand lorsque vous travaillez avec des modèles qui impliquent des mappages non linéaires.

  • 00:05:00 Dans cette section, le conférencier explique l'évolution des paradigmes d'apprentissage automatique, soulignant comment l'espace d'hypothèse limité n'était pas une préoccupation importante lorsque la quantité de données n'était pas suffisante. Cependant, l'ère des réseaux de neurones à partir de 2009 a produit beaucoup de données et de puissance de calcul, ce qui rend essentiel de disposer d'un espace d'hypothèses plus riche. Le conférencier présente l'astuce duale ou astuce du noyau, une technique de calcul qui permet de travailler dans des espaces de grande dimension sans payer de coûts supplémentaires, en mappant des données dans un nouvel espace à l'aide de fonctions non linéaires. Il explique comment cette astuce, associée à une fonction noyau, nous permet de considérer un nombre grand ou infini de fonctions de base, sans avoir à les calculer explicitement.

  • 00: 10: 00 Dans cette section, le conférencier se concentre sur les méthodes du noyau, qui visent à calculer le produit scalaire entre des paires de points dans un nouvel espace et à trouver des moyens de rendre le coût de calcul de ces produits scalaires beaucoup moins cher pour une meilleure mise à l'échelle de algorithmes. Par conséquent, les produits scalaires sont renommés en tant que fonctions du noyau, et si nous pouvons déterminer les sorties de ces noyaux pour chaque paire de points, nous n'avons pas besoin de calculer l'espace de caractéristiques sous-jacent défini par Phi de X, qui est la clé pour définir les noyaux qui sont rapides à évaluer et ne nécessitent aucun calcul par rapport à Phi de X. La régression linéaire est utilisée comme exemple, et le conférencier montre que W est en réalité une combinaison linéaire des points de données, qui sont des coefficients multipliés par Phi de X n, et remplace W par une autre expression, Phi fois A, où Phi est la matrice de tous les points dans le nouvel espace.

  • 00: 15: 00 Dans cette section, l'orateur introduit le concept de méthodes du noyau, qui implique le mappage des données d'un espace dans un nouvel espace à l'aide d'une fonction de mappage. Il montre comment l'optimisation d'un problème de régression linéaire dans le nouvel espace peut être effectuée en utilisant les coefficients (a) d'une combinaison linéaire des points cartographiés plutôt que la matrice de poids (W). Cela conduit à l'utilisation d'une fonction noyau qui calcule le produit scalaire de paires de points dans le nouvel espace, qui est défini comme la matrice de Gram. Le résultat est une autre façon de trouver la solution au problème de régression en optimisant les coefficients à l'aide de la fonction noyau.

  • 00: 20: 00 Dans cette section, le conférencier explique comment faire des prédictions en utilisant la solution dans l'espace dual, ce qui entraîne une complexité de calcul différente de celle dans l'espace primal. Dans l'espace primal, la complexité dépend du nombre de fonctions de base, mais dans l'espace dual, elle dépend de la quantité de données, permettant des espaces de grande dimension sans augmentation de la complexité. La clé est de calculer la fonction du noyau sans faire référence aux points dans le nouvel espace, et il existe différentes manières de définir les fonctions du noyau qui correspondent implicitement aux produits scalaires. Il est important de choisir des fonctions qui ont une correspondance avec Phi transposer Phi, car la matrice gram doit être semi-définie positive et avoir des valeurs propres supérieures ou égales à zéro. Le conférencier donne un exemple de la façon de définir directement un noyau, puis de déterminer le mappage correspondant.

  • 00: 25: 00 Dans cette section, le conférencier définit une fonction noyau comme le produit scalaire de deux vecteurs dans l'espace d'origine au carré. La question se pose de savoir s'il s'agit d'une fonction noyau valide qui peut être calculée sans se référer à Phi, la fonction de transformation d'espace. En développant la fonction, le conférencier est capable de définir le mappage de Phi sans le calculer explicitement et arrive à une fonction noyau valide avec des fonctions de base. Alors que les fonctions du noyau sont généralement calculées en définissant d'abord Phi puis en effectuant un produit scalaire, cette méthode permet le calcul direct de la fonction du noyau dans l'espace d'origine.

  • 00:30:00 Dans cette section, le conférencier discute de la méthode de construction des noyaux. L'idée est de construire de nouveaux noyaux capables de contrôler leur complexité et de s'assurer qu'elle ne dépend pas du nouvel espace. Le conférencier explique dix règles de composition des noyaux pour créer de nouveaux noyaux valides et, si une fonction n'est pas un noyau valide, il existe des blocs de construction de base qui pourraient aider à les composer ensemble pour obtenir des noyaux plus complexes. La conférence présente en outre les noyaux communs utilisés dans la pratique, tels que le noyau polynomial, où le produit scalaire dans l'espace d'origine est élevé à une certaine puissance, ce qui donne l'espace des caractéristiques comme tous les produits de degré M des entrées dans X. La conférence se poursuivra sur la discussion du noyau gaussien dans la classe suivante.

  • 00: 35: 00 Dans cette section, le conférencier explique que pour obtenir de la flexibilité dans les modèles de régression ou de classification sans payer de prix de calcul, une haute dimensionnalité est nécessaire, ce qui peut être un problème. Pour éviter ce problème, des noyaux sont utilisés, qui spécifient une fonction qui nous indique le produit scalaire entre des paires de points dans le nouvel espace. Le noyau polynomial est ensuite introduit comme un noyau commun, qui prend le produit scalaire dans l'espace d'origine élevé à une puissance M. L'enseignant donne un exemple concret du noyau dans un espace 2D et le développe pour démontrer le produit scalaire correspondant dans un Espace 3D.

  • 00: 40: 00 Dans cette section, le conférencier explique les méthodes du noyau utilisées pour convertir implicitement l'espace d'entrée en un espace de dimension supérieure où les classes peuvent être linéairement séparables, même si elles ne se trouvent pas dans l'espace d'origine. La conférence explique comment cette méthode se généralise à une puissance M arbitrairement élevée, où elle crée de nouvelles caractéristiques qui sont essentiellement toutes les combinaisons de M caractéristiques possibles. Cependant, cela conduira à un espace de demande exponentiellement grand, ce qui serait informatiquement impossible pour les images. Pour contourner ce problème, une constante C peut être ajoutée au noyau pour prendre en compte toutes les caractéristiques de degrés jusqu'à M.

  • 00:45:00 Dans cette section, le concept de noyau polynomial et de noyau gaussien a été expliqué. Le noyau polynomial est utilisé pour calculer le produit scalaire de deux vecteurs et il peut mesurer la similarité entre deux points de données jusqu'au degré deux. D'autre part, le noyau gaussien est désigné par une formule qui calcule la similarité entre deux points de données et est un noyau populaire utilisé dans l'apprentissage automatique. Les noyaux sont essentiellement un raccourci pour calculer le produit scalaire dans un nouvel espace et peuvent être interprétés comme une mesure de similarité entre les points de données, ce qui est utile dans les tâches de classification.

  • 00:50:00 Dans cette section, l'enseignant explique comment le noyau gaussien peut être vu comme une mesure de similarité entre deux points, avec une valeur élevée si les points sont identiques et une valeur faible s'ils sont éloignés. Cependant, prouver que le noyau gaussien est un noyau valide est un défi car l'espace des caractéristiques est infini. Au lieu de cela, le conférencier utilise les règles de la conférence précédente pour justifier la validité du noyau, en particulier la règle numéro quatre, qui stipule que la prise de l'exponentielle d'un noyau donne un autre noyau valide, et examine plus en détail les autres règles pour exprimer le noyau gaussien. comme une combinaison de noyaux valides.

  • 00: 55: 00 Dans cette section de la vidéo, le conférencier démontre l'utilisation de diverses règles pour montrer que K de XX prime, qui est égal à e moins X moins X Prime divisé par 2 Sigma carré, est un noyau valide . Le conférencier développe X moins X premier et sépare les termes en différentes exponentielles avant d'utiliser les règles 1, 2, 4 et 8 pour montrer qu'il s'agit d'un noyau valide. Les règles utilisées consistent notamment à remplacer a par la matrice d'identité et à montrer que X transpose X premier divisé par Sigma carré et e à X transpose X premier divisé par Sigma carré sont des noyaux valides.

  • 01:00:00 Dans cette section, l'orateur explique que les noyaux sont des fonctions semi-définies positives, qui peuvent être décomposées en une matrice multipliée par sa transposée. Il explique également que l'utilisation d'un noyau polynomial, par exemple, nécessiterait la construction de tous les monômes jusqu'à un certain degré, ce qui entraînerait une dimensionnalité exponentielle. Cependant, en travaillant directement avec le noyau, tout ce qui est nécessaire est de calculer la similarité entre chaque paire de points de données, ce qui le rend plus efficace en termes de calcul. Le noyau gaussien est également discuté, qui a un espace de fonctions infini, ce qui le rend puissant pour représenter des fonctions arbitraires. De plus, l'orateur note que si les noyaux sont définis par rapport aux vecteurs, ils peuvent également être appliqués à d'autres types d'objets, tels que des ensembles, des chaînes ou des graphiques.

  • 01:05:00 Dans cette section, le conférencier discute de l'idée de mapper des chaînes et des documents à l'aide des méthodes du noyau. La technique consiste à définir un noyau qui mesure la similarité entre deux documents ou chaînes comme la somme pondérée de toutes les sous-chaînes non contiguës qui apparaissent dans les deux documents. Cependant, l'énumération de toutes ces fonctionnalités peut prendre beaucoup de temps et de ressources, c'est là que les noyaux non vectoriels entrent en jeu. Ces noyaux sont utiles lors de la comparaison de documents pouvant contenir des mots nouveaux ou inventés et peuvent mapper chaque chaîne ou document dans un nouvel espace de fonctionnalités correspondant au fait que la chaîne contient ou non une sous-chaîne particulière.

  • 01:10:00 Dans cette section, l'orateur explique le concept de noyau de sous-chaîne, qui est utilisé pour déterminer la similitude entre deux mots. Le noyau de la sous-chaîne prend une valeur lambda, élevée à une puissance représentant la longueur de la sous-chaîne, qui est inférieure pour les correspondances les plus importantes et supérieure pour les moins importantes. Le noyau peut calculer efficacement des produits scalaires dans des espaces d'entités, qui consistent en des sous-chaînes de différentes longueurs présentes dans deux mots. Pour calculer efficacement ces noyaux, l'article propose d'augmenter progressivement la longueur des sous-chaînes à l'aide de la programmation dynamique. Cela permet un calcul en temps linéaire des noyaux, qui serait autrement exponentiel.

  • 01:15:00 Dans cette section, l'orateur explique comment les machines à vecteurs de support peuvent être utilisées avec des noyaux afin de travailler dans un espace beaucoup plus riche. L'orateur cite un article qui effectue une classification de documents à l'aide d'articles de presse de Reuters et montre des résultats en utilisant cette technique. L'approche peut être assez puissante et sera discutée plus en détail dans le prochain cours.