Apprentissage Automatique et Réseaux Neuronaux - page 42

 

Cours 7 -- Solveurs numériques probabilistes d'ODE -- Nathanael Bosch



Numériques de ML 7 -- Solveurs numériques probabilistes d'ODE -- Nathanael Bosch

Dans cette vidéo, Nathanael Bosch présente le concept de solveurs ODE numériques probabilistes, qui combinent l'estimation d'état et les solveurs ODE numériques pour fournir des distributions sur les états ou les solutions ODE. Bosch explique comment un processus de Wiener intégré Q fois peut être utilisé pour modéliser la vraie solution, et comment ce processus permet de quantifier et de propager les incertitudes dans le système. Il montre ensuite comment utiliser des filtres de Kalman étendus pour résoudre les ODE et comment la taille des pas affecte les estimations d'erreur. La vidéo se termine par une discussion sur l'étalonnage de l'incertitude et l'utilisation du filtre de Kalman étendu pour estimer les paramètres dans les modèles d'espace d'états non linéaires.

Dans la deuxième partie de la conférence, Nathanael Bosch parle des avantages de l'utilisation de méthodes probabilistes pour résoudre les ODE, y compris l'obtention d'estimations d'incertitude significatives et la flexibilité d'inclure des fonctionnalités de modèle supplémentaires telles que les valeurs initiales. Il démontre cette approche avec des exemples tels que l'oscillateur harmonique et les équations algébriques différentielles. Bosch montre également comment l'inclusion d'informations supplémentaires et l'utilisation de techniques probabilistes peuvent conduire à des résultats plus significatifs, en utilisant un exemple de modèle épidémique qui n'a pas réussi à représenter avec précision les données à l'aide de méthodes scalaires traditionnelles. Il utilise des filtres et des lisseurs de Kalman étendus pour résoudre les ODE par estimation d'état, traitant l'estimation comme un problème probabiliste, et souligne l'importance d'être bayésien dans la prise de décision.

  • 00:00:00 Dans cette section, Nathanael Bosch présente le concept de solveurs numériques probabilistes d'ODE. Il commence par résumer les cours précédents, y compris les modèles d'espace d'états et les filtres/lisseurs communs pour l'estimation d'état, et les solveurs numériques ODE. Il explique que le défi consiste à estimer l'état d'une solution ODE étant donné une équation différentielle, et que les solveurs numériques ODE ne fournissent qu'une approximation. Bosch propose ensuite un moyen de combiner les deux concepts en interprétant les ODE comme des problèmes d'estimation d'état et en les résolvant comme des problèmes d'estimation de données. Les algorithmes résultants fournissent des distributions sur les états ou les solutions ODE, créant des serveurs numériques probabilistes qui offrent une sortie plus riche que les serveurs classiques.

  • 00:05:00 Dans cette section, le concept de solveurs numériques probabilistes d'ODE est discuté. Ces solveurs estiment la vraie solution en fournissant une seule estimation X chapeau via l'évaluation du champ vectoriel pour mettre à jour ou étendre l'estimation à un moment futur avec une erreur qui dépend de la taille du pas. La discussion passe ensuite à l'utilisation de l'estimation d'état spéciale comme outil pour résoudre les problèmes d'estimation numérique d'ODE. La distribution de filtrage, le lissage a posteriori et l'étape de prédiction qui estime les états futurs compte tenu des informations actuelles sont ensuite expliqués, avec des algorithmes tels que le filtre de Kalman étendu et le lisseur de Kalman étendu mentionnés comme des méthodes simples pour calculer ces quantités. La section se termine par l'idée que les solutions numériques d'ODE peuvent être formulées comme un problème d'inférence plutôt que d'essayer de calculer la vraie solution réelle, et que le but est de trouver la postérieure de x de t qui satisfait la condition initiale et l'ODE sur un discret ensemble de points.

  • 00:10:00 Dans cette section, nous plongeons dans la construction d'un modèle d'espace d'états pour les solveurs numériques probabilistes d'ODE. L'état que nous considérons est le processus de Wiener intégré Q fois. Cet état est un processus stochastique qui décrit le système dynamique et suit les dérivées jusqu'à Q. En suivant un nombre limité de dérivées, nous pouvons obtenir un modèle d'état probabiliste qui nous permet de quantifier et de propager l'incertitude dans le système. L'objectif principal est de définir un a priori, une vraisemblance et un modèle de données qui, une fois résolus, nous donneront une estimation de la sortie. Cela est nécessaire pour effectuer un filtrage et un lissage gaussien, qui est un algorithme rapide d'inférence.

  • 00:15:00 Dans cette section, Nathanael Bosch explique le processus stochastique qui modélise la véritable solution d'un processus Winner intégré Q fois. Le processus a des transitions sous la forme d'un modèle gaussien qui utilise une matrice a de H et une matrice de covariance Q de H qui ont des formules de forme fermée. L'accès à une entrée dans le processus est une opération linéaire, ce qui facilite l'accès aux dérivées premières et secondes. Le processus est markovien et satisfait les propriétés d'un processus gaussien. Bosch montre également des tracés de différents échantillons du processus, ce qui illustre pourquoi on l'appelle un processus linéaire intégré deux fois.

  • 00:20:00 Dans cette section, l'orateur discute du Q fois intégré Ornstein-Uhlenbeck avant et de la façon dont il est pratique car il peut noter les densités de transition nécessaires pour le filtrage gaussien et le lissage ultérieur. La partie probabilité et combinaison de données est également importante car elle informe le préalable de faire la chose souhaitée en haut. L'orateur montre comment utiliser le langage de l'ODE et définit une fonction de mesure ou un opérateur d'information qui devrait être nul dans un monde parfait où le calcul est infini. Ils introduisent également un modèle d'observation et expliquent pourquoi il aide à satisfaire la chose souhaitée pour l'inférence. Enfin, le modèle de vraisemblance sans bruit est une vraisemblance directe, ce qui est pratique car il tient compte des mises à jour du filtre de Kalman.

  • 00:25:00 Dans cette section, Nathanael Bosch discute du modèle génératif pour un Z, qui est un exemple concret de l'ODE logistique, et comment il se rapporte au processus d'inférence. Le modèle génératif permet la simulation de solutions, le calcul de dérivées et la génération d'un a posteriori, qui s'effondre autour du Z. Ce modèle génératif, en plus du modèle de vraisemblance qui encode l'équation différentielle, permet de résoudre et de résoudre le modèle d'espace d'états. fournit des estimations pour le X, qui se rapportent à la solution. L'inférence permet d'établir une relation entre le résultat antérieur et le résultat final souhaité, et permet de résoudre le modèle d'espace d'états.

  • 00:30:00 Dans cette section, Nathanael Bosch discute de l'importance d'inclure la valeur initiale lors de la résolution d'une équation différentielle ordinaire par des méthodes numériques probabilistes. Il explique que l'ajout d'une autre mesure qui dépend uniquement de la valeur initiale au modèle d'observation est une manière plus générale d'inclure la valeur initiale. Il fournit ensuite un pseudocode pour les blocs de construction du filtre de Kalman étendu et du filtre ODE nécessaires à la mise en œuvre de l'algorithme et décrit la boucle de filtrage standard impliquée dans les étapes de prédiction et de mise à jour. L'algorithme étendu satisfait d'abord la valeur initiale et utilise les modèles de transition A et Q pour calculer la taille du pas.

  • 00:35:00 Dans cette section, Nathanael Bosch démontre le code nécessaire pour résoudre une équation différentielle ordinaire (ODE) en utilisant des méthodes numériques probabilistes dans Julia. Il note que si les formules peuvent sembler compliquées, les 10 lignes de code nécessaires pour configurer correctement le modèle sont simples. Bosch montre comment le filtre de Kalman étendu est implémenté avec seulement deux lignes de code et la notation standard pour multiplier par l'inverse est remplacée par une solution numériquement stable qui résout un système linéaire. Il définit le champ vectoriel, la durée initiale et la vraie solution pour l'ODE logistique et montre comment définir l'a priori en utilisant le processus de Wiener intégré à deux reprises. L'implémentation par Bosch de l'algorithme de filtre de Kalman étendu correspond étroitement au pseudocode des diapositives, et la distribution initiale qu'il utilise est arbitrairement définie sur une moyenne nulle et une covariance standard.

  • 00:40:00 Dans cette section, Nathanael Bosch montre comment utiliser des filtres de Kalman étendus pour résoudre les ODE et trace les estimations de filtre. Il joue ensuite avec les tailles de pas, montrant comment les petites tailles de pas diminuent les incertitudes et comment les plus grandes les augmentent. Il explique que l'incertitude ne fait pas qu'augmenter avec le temps et que les estimations d'erreur sont un modèle de l'erreur qui se produit. Enfin, il démontre que le lissage améliore généralement les résultats des trajectoires, ce qui correspond à la motivation des deux cours précédents. Cependant, les estimations d'erreur pourraient être encore meilleures, mais il demande au public de donner son avis sur la manière de procéder.

  • 00:45:00 Dans cette section, nous apprenons que l'estimation d'erreur pour le solveur numérique probabiliste ODE est trop grande et doit être corrigée par étalonnage de l'incertitude. L'hyperparamètre sigma au carré influence directement les incertitudes et doit être correctement défini afin d'obtenir des estimations d'incertitude réelles qui soient significatives. La motivation pour définir les hyperparamètres est similaire à celle des processus gaussiens, où les hyperparamètres sont estimés en maximisant la vraisemblance des données compte tenu du paramètre. La probabilité des données peut être décomposée, ce qui facilite l'expression et l'optimisation.

  • 00:50:00 Dans cette section, Nathanael Bosch discute de l'utilisation du filtre de Kalman étendu pour estimer les paramètres dans un modèle d'espace d'états non linéaire. Le P de z K étant donné Z1 jusqu'à K moins 1 est estimé à l'aide d'estimations gaussiennes, et le chapeau Sigma est calculé comme l'argmax de l'estimation de vraisemblance quasi maximale. Dans les filtres ODE, il est possible de calculer l'estimation du maximum de vraisemblance sous forme fermée en utilisant une méthode rééchelonnée de recalibrage des estimations de paramètres. Cette méthode produit de meilleures estimations et correspond à l'estimation du maximum de vraisemblance Sigma. Bosch explique comment cela peut être mis en œuvre à l'aide d'une fonction de mise à jour avec un suffixe d'étalonnage.

  • 00:55:00 Dans cette section, Nathanael Bosch discute du filtre de Kalman étendu (EKF) pour les solveurs numériques probabilistes d'équations différentielles ordinaires (ODE). Il mentionne qu'il a été modifié pour augmenter la trappe sigma, ce qui fait que la somme est calculée de manière continue et divisée par n, qui est la quantité qu'ils veulent calculer. L'EKF essayait auparavant d'approximer quelque chose de gaussien qui pourrait ne pas l'être, et l'objectif est d'obtenir des estimations d'incertitude aussi informatives que possible. Ce faisant, ils ont obtenu un algorithme qui fournit des estimations d'erreur utiles qui décrivent de manière significative l'erreur numérique du solveur ODE. L'algorithme obtenu est rapide et fournit des estimations d'incertitude non parfaites mais toujours utiles.

  • 01:00:00 Dans cette section, Nathanael Bosch explique la motivation pour utiliser des méthodes probabilistes pour résoudre les ODE. Au-delà de la simple quantification de l'incertitude et de l'obtention d'estimations et de tracés d'incertitude significatifs, Bosch estime que la formulation de solveurs ODE de manière probabiliste est flexible et pratique, permettant l'inclusion de fonctionnalités de modèle supplémentaires telles que les valeurs initiales. En définissant un modèle d'espace d'états et en exécutant un filtre de Kalman étendu, il est possible de résoudre non seulement des problèmes numériques avec une valeur initiale, mais également des ODE d'ordre supérieur avec des informations supplémentaires.

  • 01:05:00 Dans cette section, Nathanael Bosch explique une approche différente des valeurs initiales pour les solveurs ODE. Il définit une nouvelle quantité pour s'assurer que X1 est égal à la dérivée initiale donnée, et cela peut être utilisé pour exécuter un filtre de commande étendu avec quelques étapes de prédiction et de mise à jour. Il montre l'exemple de l'oscillateur harmonique et comment seules deux lignes devaient être modifiées par rapport à avant pour inclure une mise à jour sur la première dérivée. L'étalonnage est à nouveau appliqué pour des résultats significatifs, et l'erreur dans ce cas ne tend pas vers zéro car il n'y a pas d'attracteur vers lequel tendre, mais s'ajuste plutôt en fonction de la configuration du problème. Bosch discute également des équations algébriques différentielles, qui sont des équations différentielles qui ne peuvent pas être déplacées de gauche à droite en raison d'une matrice singulière.

  • 01:10:00 Dans cette section, l'orateur discute du concept d'équations algébriques différentielles (DAE), qui sont des équations qui ne décrivent pas une dérivée et qui ont une valeur constante à un moment donné. L'orateur suggère une modification de l'algorithme de vraisemblance ODE pour créer un algorithme de vraisemblance DAE qui peut résoudre le DAE de manière probabiliste. L'orateur donne ensuite un exemple de problème où un ODE a des informations supplémentaires et suggère une modification du modèle d'espace d'états pour introduire un modèle d'observation supplémentaire afin que l'algorithme puisse appliquer les deux modèles d'observation pour satisfaire g sur la grille discrète. L'orateur fournit un exemple vidéo qui illustre l'importance des quantités de conservation dans la résolution des problèmes avec les ODE et des informations supplémentaires.

  • 01:15:00 Dans cette section de la vidéo, Nathanael Bosch discute de l'utilisation de solveurs ODE numériques probabilistes et des avantages d'inclure des informations supplémentaires pour améliorer les résultats des modèles ODE. Il présente un exemple de modèle épidémique, où le modèle scalaire traditionnel n'a pas réussi à représenter avec précision les données, et montre comment un processus gaussien peut être utilisé pour améliorer le modèle. L'ajout de plus d'informations et l'utilisation de techniques probabilistes peuvent finalement conduire à un résultat plus significatif.

  • 01:20:00 Dans cette section, Bosch présente les solveurs numériques probabilistes d'ODE, qui impliquent l'utilisation d'un opérateur de mesure linéaire pour mesurer certaines dimensions d'une solution à une ODE, représentée sous la forme d'un objet à quatre dimensions (sirnd). Après avoir créé un modèle d'espace d'états, la solution ODE est résolue, avec l'ajout d'un état bêta, et les modèles de vraisemblance de la solution ODE, de la valeur initiale et des données sont pris en compte. La tâche d'inférence consiste à utiliser un filtre de Kalman étendu pour déterminer ce que sont les points blancs, compte tenu des points noirs des données observées. Il est également suggéré que X et beta soient fusionnés pour une reformulation plus simple.

  • 01:25:00 Dans cette section, l'orateur explique comment fonctionnent les solveurs d'ODE numériques probabilistes, qui sont essentiellement un moyen de résoudre les ODE par estimation d'état, en traitant l'estimation comme un problème probabiliste. Il définit une méthode pour résoudre les ODE à l'aide de filtres de Kalman étendus et de lisseurs qui conduisent à une gamme de solveurs parfois appelés «filtres ODE». L'orateur souligne l'importance d'être bayésien dans la prise de décision et l'utilité des estimations d'incertitude, ainsi que la commodité d'utiliser des algorithmes de patients qui peuvent être appliqués à une gamme de problèmes, y compris la résolution d'ODE.

  • 01:30:00 Dans cette section, l'orateur parle de l'utilisation de filtres de commande externes d'une manière non standard pour résoudre des problèmes numériques et effectuer des inférences à partir de données d'une manière qui combine la physique et les observations externes générales. Selon l'orateur, le filtrage et le lissage bayésiens sont la meilleure façon de modéliser ou de formuler des systèmes dynamiques, car ils permettent un ajout flexible d'informations et une factorisation de l'algorithme d'inférence. Le public est encouragé à scanner les codes QR pour obtenir des commentaires et les questions de l'orateur sont les bienvenues.
 

Cours 8 -- Équations aux dérivées partielles -- Marvin Pförtner



Numériques de ML 8 -- Équations aux dérivées partielles -- Marvin Pförtner

Marvin Pförtner discute des équations aux dérivées partielles (EDP) et de leur importance dans la modélisation de divers systèmes du monde réel. Il explique comment les EDP représentent le mécanisme d'un système avec une fonction inconnue et un opérateur différentiel linéaire, mais nécessitent de résoudre des paramètres souvent inconnus. L'inférence de processus gaussien peut être utilisée pour analyser des modèles PDE et injecter des connaissances mécanistes dans des modèles statistiques. Pförtner examine la distribution de chaleur dans une unité centrale de traitement d'un ordinateur en limitant le modèle à une distribution de chaleur bidimensionnelle et en présentant les hypothèses formulées pour le modèle. Le cours couvre également l'utilisation de processus gaussiens pour résoudre les EDP et l'ajout de conditions aux limites réalistes pour modéliser l'incertitude. Globalement, l'approche GP combinée à la notion d'opérateur d'information permet d'intégrer des connaissances a priori sur le comportement du système, d'injecter des connaissances mécanistes sous la forme d'une EDP linéaire, et de gérer les conditions aux limites et les seconds membres.

Dans la deuxième partie de cette vidéo, Marvin Pförtner explique comment utiliser des processus gaussiens pour résoudre des équations aux dérivées partielles (EDP) en estimant une mesure de probabilité sur des fonctions plutôt qu'une estimation ponctuelle. Il explique les avantages de la quantification de l'incertitude et note que cette approche est plus honnête car elle reconnaît l'incertitude dans l'estimation de la fonction du côté droit de la PDE. Pförtner explique également le noyau Matern, qui est utile dans la pratique et peut contrôler la différentiabilité du GP, et fournit une formule pour calculer le paramètre P pour le noyau Matern. Il explique en outre comment construire un noyau d-dimensionnel pour les EDP en prenant les produits des noyaux de Matern unidimensionnels sur les dimensions, et l'importance d'être mathématiquement prudent dans la construction du modèle.

  • 00:00:00 Dans cette section de la conférence, Marvin Pförtner présente les équations aux dérivées partielles (EDP) et leur importance dans la description des modèles mécanistes qui génèrent des données dans le monde réel, y compris les marchés financiers, les fluides tels que le climat et la météo, et la mécanique des vagues . Bien qu'elles soient difficiles à résoudre, les EDP linéaires continuent d'être un langage de modélisation puissant, car elles décrivent avec précision de nombreux processus physiques tels que la conduction thermique, l'électromagnétisme et les vitesses des particules dans le mouvement brownien. La conférence se concentre spécifiquement sur l'intégration de modèles basés sur PDE dans des modèles d'apprentissage automatique probabilistes à travers un exemple de modélisation pratique.

  • 00:05:00 Dans cette section, Marvin Pförtner discute de l'utilisation des équations aux dérivées partielles (EDP) pour modéliser divers systèmes, y compris des modèles physiques et financiers. Il souligne l'importance de comprendre le comportement du mécanisme d'un système et de déduire son comportement à l'aide de modèles PDE. Cependant, les PDE nécessitent souvent des paramètres système inconnus, et l'objectif est d'utiliser l'estimation statistique bayésienne pour fusionner la connaissance mécaniste du système avec des données de mesure pour trouver ces paramètres inconnus et gagner en confiance dans les prédictions. Marvin explique également les EDP linéaires et leur relation avec les systèmes physiques avec une étendue spatiale.

  • 00:10:00 Dans cette section, Marvin Pförtner discute des équations aux dérivées partielles (EDP), qui sont couramment utilisées pour décrire des systèmes physiques tels que les distributions de température ou la force générée par un ensemble de charges électriques. La fonction inconnue dans une EDP représente le système simulé et la connaissance mécaniste est donnée par un opérateur différentiel linéaire. Cependant, un défi avec les EDP est qu'ils n'ont généralement pas de solution analytique et nécessitent des solveurs numériques qui introduisent des erreurs de discrétisation. Les paramètres matériels et la fonction de droite sont deux des paramètres qui ne peuvent pas être connus avec précision, ce qui entraîne des difficultés à propager les incertitudes à travers les solveurs classiques. De plus, les PDE n'identifient généralement pas leur solution de manière unique, ce qui nécessite l'imposition de conditions supplémentaires.

  • 00:15:00 Dans cette section, l'orateur discute des équations aux dérivées partielles (EDP) et de leur relation avec les fonctions, qui sont des objets de dimension infinie. L'opérateur différentiel est linéaire, ce qui signifie que les fonctions linéaires sont dans le noyau de l'opérateur différentiel, permettant l'ajout d'un terme linéaire à toute solution de l'équation de Poisson tout en obtenant une solution. Les conditions aux limites sont nécessaires pour modéliser les interactions en dehors du domaine de simulation, qui sont ensuite résumées à la façon dont l'extérieur interagit avec la simulation à la frontière. Les PDE sont des déclarations sur les fonctions qui appartiennent à des espaces de fonctions, qui sont des ensembles de fonctions qui ont une structure d'espace vectoriel similaire à celle de Rn, permettant la représentation d'opérateurs linéaires par des matrices. Les opérateurs linéaires sont des cartes entre des espaces fonctionnels qui ont une propriété de linéarité car un opérateur différentiel mappe une fonction à sa dérivée.

  • 00:20:00 Dans cette section, Pförtner explique que les EDP linéaires sont essentiellement des systèmes linéaires dans un espace vectoriel de dimension infinie et relaie l'importance de définir des normes sur les espaces vectoriels et de comprendre la convergence. Il introduit ensuite un modèle mathématique de la distribution de chaleur dans une unité centrale de traitement d'un ordinateur et restreint le modèle à une distribution de chaleur bidimensionnelle sur une ligne traversant la puce. La conférence discute des hypothèses faites pour ce modèle et de la façon dont il s'agit d'un bon modèle pour ce cas particulier.

  • 00:25:00 Dans cette section, l'orateur discute de la modélisation des sources de chaleur et des dissipateurs de chaleur dans une puce et de la manière dont elle peut être représentée à l'aide d'équations aux dérivées partielles (PDE). Ils expliquent l'équation de la chaleur, qui est une EDP linéaire du second ordre et comment elle peut être appliquée pour modéliser la distribution de température dans la puce. Le conférencier explique également comment la connaissance mécaniste de l'équation différentielle peut être injectée dans des modèles statistiques en interprétant les EDP comme une observation de la fonction inconnue et de l'image sous l'opérateur différentiel. Les EDP sont comparées aux lois fondamentales de la physique qui décrivent la conservation de grandeurs fondamentales telles que l'énergie et la masse.

  • 00:30:00 Dans cette section, Marvin Pförtner discute de la relation entre la température et l'énergie thermique et comment elles sont proportionnelles les unes aux autres à travers les paramètres des matériaux. Il explique que chaque changement d'énergie thermique peut s'expliquer soit par une valeur connue de la chaleur entrant dans le système, soit par la chaleur circulant dans un certain point depuis l'environnement via la conduction thermique. Il présente ensuite l'opérateur d'information comme un concept mathématique qui peut être utilisé pour exprimer n'importe quelle information, y compris celle d'une équation différentielle. Il explique en outre comment un processus gaussien a priori peut être utilisé pour modéliser une fonction inconnue U, et comment le postérieur peut être calculé en utilisant des fermetures de processus gaussiens sous des observations linéaires. Cependant, comme la résolution d'EDP nécessite un ensemble infini d'observations, il est impossible de calculer dans la plupart des cas, à moins que des informations analytiques ne soient connues sur le problème à résoudre.

  • 00:35:00 Dans cette section, l'orateur discute de l'utilisation de processus gaussiens (GP) pour résoudre des équations aux dérivées partielles (PDE), qui est similaire à l'approche utilisée dans les équations différentielles ordinaires (ODE). Le GP est considéré comme une mesure de probabilité sur les espaces fonctionnels et un opérateur linéaire mappe les chemins d'échantillonnage de ce GP sur RN. Le prédicteur a priori de ce processus s'avère être une distribution normale, avec la moyenne donnée par l'image de la fonction moyenne GP via l'opérateur linéaire, et la matrice de covariance étant très similaire à la matrice de covariance trouvée dans le cas de dimension finie. La partie postérieure de cet événement s'avère en fait avoir une structure similaire à celle-ci. L'orateur note que beaucoup de détails théoriques sont impliqués et que la prudence est nécessaire en raison des infinis impliqués dans la résolution des PDE à l'aide de GPs.

  • 00:40:00 Dans cette section, Marvin Pförtner explique comment calculer un choix spécifique d'opérateur linéaire et les difficultés à l'exprimer en notation d'opérateur linéaire standard. Il explique également comment différencier un argument, différencier l'autre argument et construire une matrice de toutes les dérivées par paires entre deux points. Il explique ensuite comment utiliser le même théorème pour l'appliquer au problème et calculer le processus gaussien postérieur, et comment définir l'ensemble des points de collocation.

  • 00:45:00 Dans cette section, l'orateur explique comment une forme généralisée d'inférence de processus gaussien peut résoudre un problème de valeur limite. Ils décrivent comment les observations peuvent être représentées à l'aide d'une fonction noire qui correspond au côté droit de l'équation aux dérivées partielles (PDE), et comment les informations apprises à partir de cela peuvent être propagées vers le processus gaussien d'origine. Le degré de liberté dans l'EDP que les conditions aux limites ne fixent pas peut entraîner une incertitude, mais en imposant des conditions aux limites de Dirichlet, le postérieur devient un problème de régression de processus gaussien normal, qui fonctionne si les deux valeurs aux limites sont observées. L'orateur souligne l'importance de noter que les valeurs limites de déploiement ne sont généralement pas connues, et il serait utile d'ajouter une incertitude à la fois aux valeurs limites et à la distribution de la source de chaleur.

  • 00:50:00 Dans cette section, l'orateur discute de conditions aux limites plus réalistes pour les équations aux dérivées partielles. Il déclare que la chaleur est extraite uniformément sur toute la surface du CPU et que cette information peut être modélisée comme des conditions aux limites de Neumann où la première dérivée d'un point limite est définie à la place de la valeur du point limite. Ce faisant, nous pouvons ajouter de l'incertitude au modèle et utiliser une distribution gaussienne pour modéliser la dérivée. Un opérateur d'information supplémentaire est utilisé pour décrire cette condition aux limites. L'orateur explique en outre comment l'échelle absolue du système est déterminée à l'aide de thermomètres dans le processeur, et également comment des estimations incertaines de la fonction peuvent être obtenues en modélisant une croyance antérieure à l'aide d'un autre processus gaussien.

  • 00:55:00 Dans cette section, Marvin Pförtner explique comment intégrer les connaissances préalables sur le comportement d'un système dans le modèle, à l'aide de processus gaussiens et d'opérateurs d'information. Il mentionne qu'il est essentiel de choisir la fonction de droite pour le modèle intégrable à zéro pour éviter que le système ne chauffe en permanence. Pförtner procède ensuite à discuter des défis de s'assurer que le GP a la zone un dans tous ses échantillons et comment ils peuvent être résolus en ajoutant des contraintes supplémentaires, y compris les effets de frontière, qui prennent en compte la chaleur sortant par la frontière. Enfin, Pförtner conclut que cette approche GP combinée à la notion d'opérateur d'information nous permet d'incorporer des connaissances préalables sur le comportement du système, d'injecter des connaissances mécanistes sous la forme d'une EDP linéaire et de gérer les conditions aux limites et les membres droits.

  • 01:00:00 Dans cette section, Marvin Pförtner discute de l'utilisation de processus gaussiens pour résoudre des équations aux dérivées partielles (PDE) en estimant une mesure de probabilité sur des fonctions au lieu d'une estimation ponctuelle, ce qui peut donner des intervalles de confiance et des échantillons remplissant les conditions de la PDE . Il explique que cette approche est plus honnête car elle reconnaît l'incertitude dans l'estimation de la fonction de droite de la PDE, et qu'elle peut être appliquée aux simulations 2D, ainsi qu'aux simulations avec le temps comme autre dimension spatiale. Pförtner note que la moyenne a posteriori de cette méthode en supposant qu'il n'y a pas d'incertitude est équivalente à une méthode classique appelée collocation symétrique. Enfin, il explique que d'autres méthodes de résolution des EDP, telles que les méthodes résiduelles pondérées, les volumes finis et les méthodes spectrales, peuvent également être réalisées en tant que moyens postérieurs d'un processus gaussien, juste sans la quantification de l'incertitude.

  • 01:05:00 Dans cette section, le conférencier explique comment les processus gaussiens (GP) peuvent être utilisés pour résoudre des équations aux dérivées partielles linéaires (PDE) et peuvent également réaliser une régression pour l'estimation de fonctions. Ils soulignent l'importance de choisir les bonnes fonctions et avant de travailler avec, ainsi que les avantages de la quantification de l'incertitude. L'orateur note également les cas d'échec, comme lorsque les chemins d'échantillonnage des GP ne sont pas différentiables, et la nécessité de vérifier des conditions importantes afin de rendre le tout rigoureux. La section se termine par un aperçu d'une prochaine publication du groupe de conférenciers qui approfondira les détails formels de ces théorèmes.

  • 01:10:00 Dans cette section, l'orateur explique comment les processus gaussiens (GP) sont définis et utilisés pour modéliser des fonctions inconnues. Les GP sont des ensembles de variables aléatoires à valeurs réelles, une pour chaque point de leur domaine. Ils sont utilisés pour représenter des fonctions, mais nous ne connaissons que la combinaison finie des évaluations du GP. Pour obtenir un exemple de chemin d'un GP, nous devons échantillonner en continu une fonction en fixant un Omega et en le transformant à travers toutes les fonctions. Nous veillons à ce que les chemins d'échantillonnage soient suffisamment différentiables pour nous assurer qu'ils sont définis. De plus, pour calculer LF, l'image d'un GP sous un opérateur linéaire L, nous fixons un Oméga et appliquons L à la fonction correspondante.

  • 01:15:00 Dans cette section, l'orateur explique comment un exemple de chemin peut être cartographié via un opérateur linéaire pour créer un objet de dimension infinie appelé GP, qui est ensuite transformé en une variable aléatoire qui doit être mesurable. Ils notent que les chemins d'échantillonnage du GPS sont transformés en un noyau de reproduction Hilbert Space en choisissant un noyau approprié, cependant, l'espace de Hibbert du noyau reproducteur du noyau réel du GP n'est pas l'espace d'où proviennent les échantillons, et un espace plus grand doit être choisi dans lequel ces échantillons sont contenus. L'orateur poursuit en discutant du noyau Matern, qui est utile dans la pratique et peut contrôler la différentiabilité du GP, et fournit une formule pour calculer le paramètre P pour le noyau Matern, ce qui peut aider à généraliser le processus.

  • 01:20:00 Dans cette section, l'orateur explique comment construire un noyau d-dimensionnel pour les équations aux dérivées partielles (PDE) en prenant les produits des noyaux de Matern unidimensionnels sur les dimensions, surtout s'il y a des ordres mixtes des dérivées. Cela permet de s'adapter à l'équation concrète que les utilisateurs tentent de résoudre. De plus, le GPS fournit un cadre pour combiner diverses sources d'informations en un seul modèle de régression à l'aide d'opérateurs d'informations affines. L'orateur souligne l'importance d'être mathématiquement prudent dans la construction du modèle, en particulier lors de la construction du prior pour une équation spécifique.
 

Cours 9 -- Monte Carlo -- Philipp Hennig



Numériques de ML 9 -- Monte Carlo -- Philipp Hennig

Dans cette vidéo sur le thème de Monte Carlo, Philipp Hennig explique comment l'intégration est un problème fondamental en apprentissage automatique lorsqu'il s'agit d'inférence bayésienne à l'aide du théorème de Bayes. Il présente l'algorithme de Monte Carlo comme une manière spécifique de faire l'intégration et fournit un bref historique de la méthode. Il discute également des propriétés des algorithmes de Monte Carlo, telles que l'estimation sans biais et la réduction de la variance avec une augmentation du nombre d'échantillons. En outre, Hennig se penche sur l'algorithme Metropolis-Hastings, Markov Chain Monte Carlo et Hamiltonian Monte Carlo, fournissant un aperçu des propriétés de chaque algorithme et de leur fonctionnement lors de l'échantillonnage à partir d'une distribution de probabilité. En fin de compte, Hennig note l'importance de comprendre pourquoi les algorithmes sont utilisés, plutôt que de les appliquer aveuglément, pour obtenir des résultats optimaux et efficaces.

Dans la deuxième partie de la vidéo, Philipp Hennig discute des méthodes de Monte Carlo pour les distributions de grande dimension, en particulier l'algorithme No U-turn Sampler (NUTS) qui surmonte le problème avec l'idée de demi-tour de rompre l'équilibre détaillé. Hennig souligne que si ces algorithmes sont complexes et délicats à mettre en œuvre, leur compréhension est cruciale pour les utiliser efficacement. Il remet également en question l'approche instinctive du calcul des valeurs attendues à l'aide des méthodes de Monte Carlo et suggère qu'il peut y avoir d'autres façons d'approximer sans hasard. Hennig discute du concept et des limites du caractère aléatoire, du manque de taux de convergence pour les méthodes de Monte Carlo, et propose la nécessité d'envisager d'autres méthodes d'apprentissage automatique plutôt que de s'appuyer sur le caractère aléatoire déterministe.

  • 00:00:00 Dans cette section, l'instructeur présente le sujet de l'intégration, qui est un problème fondamental dans l'apprentissage automatique lors de l'inférence bayésienne pour calculer les a posteriori de distributions conditionnelles à l'aide du théorème de Bayes. Il explique que ce processus contient une intégrale, qui représente la marginale qui est calculée comme une valeur attendue d'une distribution conditionnelle. L'instructeur insiste sur l'importance de savoir comment effectuer correctement l'intégration et présente l'algorithme de Monte Carlo comme une façon spécifique de faire l'intégration. Il donne un bref historique de Monte Carlo et explique pourquoi il est important de comprendre pourquoi les algorithmes sont utilisés, plutôt que de simplement les appliquer aveuglément.

  • 00:05:00 Dans cette section, Philipp Hennig raconte comment les simulations de Monte Carlo ont été développées pour aider à la conception d'une bombe nucléaire dans les années 1940. Le problème consistait à optimiser la géométrie pour obtenir une explosion, et la solution consistait à utiliser des simulations de Monte Carlo pour approximer les intégrales avec des sommes. L'ordinateur analogique Fermi a été inventé à cet effet, qui se compose de deux roues et d'un stylo pour simuler la trajectoire d'un neutron en utilisant des nombres aléatoires tirés d'une matrice. Bien que ce processus semble simple, cette méthode a été la première étape pour développer des simulations de Monte Carlo pour divers domaines.

  • 00:10:00 Dans cette section, le concept des simulations de Monte Carlo est expliqué comme un moyen d'estimer une valeur attendue en remplaçant l'intégrale par une somme sur les évaluations d'une fonction aux points tirés d'une distribution. Il s'agit d'un estimateur sans biais avec une variance qui diminue à mesure que le nombre d'échantillons augmente, ce qui entraîne une erreur qui diminue comme un sur la racine carrée du nombre d'échantillons. Alors que les statisticiens soutiennent qu'il s'agit du taux optimal pour les estimateurs sans biais, les mathématiciens numériques considèrent que ce taux est assez lent, les taux polynomiaux étant préférés. Cependant, cette méthode a ses avantages, comme être exempte de dimensionnalité, car la variance ne dépend pas de la dimensionnalité de la distribution sous-jacente.

  • 00:15:00 Dans cette section, Philipp Hennig aborde le débat entourant la dimensionnalité du problème de Monte Carlo. Bien qu'il existe une variance de f sous p, qui pourrait être liée à la dimensionnalité du problème, l'argument est qu'elle ne dépend pas de la dimensionnalité. Cependant, dans certains problèmes structurés, la variance peut exploser de façon exponentielle en fonction de la dimensionnalité. Néanmoins, la plupart des applications intéressantes de l'échantillonnage de Monte Carlo sont insensibles à la dimensionnalité du problème, permettant le calcul de problèmes de grande dimension. Hennig discute également de l'exemple classique du calcul de Pi en utilisant l'échantillonnage de Monte Carlo, où il converge vers la vérité avec un taux donné par la racine carrée inverse du nombre d'échantillons.

  • 00:20:00 Dans cette section, Philipp Hennig discute des méthodes de Monte Carlo pour l'approximation des intégrales. Il explique comment cette méthode fonctionne en tirant un grand nombre d'échantillons d'une distribution et en calculant la valeur attendue sous ces simulations. Cela peut être une bonne solution lorsqu'une estimation approximative est nécessaire, mais ce n'est pas pratique pour des réponses très précises. Hennig parle également des moyens de construire des échantillons à partir de distributions avec lesquelles il est difficile de travailler, comme l'échantillonnage par rejet et l'échantillonnage important, mais note que ces méthodes ne s'adaptent pas bien aux dimensions élevées.

  • 00:25:00 Dans cette section, l'idée de générer des variables aléatoires basées sur une distribution dimensionnelle élevée est discutée. La méthode standard pour cela s'appelle la chaîne de Markov Monte Carlo, qui est basée sur une structure qui avance de manière itérative avec une mémoire finie. Une méthode de ce type est l'algorithme Metropolis Hastings qui consiste à construire une chaîne de Markov et à se rendre à un nouvel emplacement en utilisant une distribution de proposition et un rapport entre la distribution à partir de laquelle et la distribution proposée. Cet algorithme a été inventé par un groupe de physiciens nucléaires dans les années 1950, qui travaillaient à l'optimisation des géométries des armes nucléaires, et est encore largement utilisé aujourd'hui.

  • 00:30:00 Dans cette section, Philipp Hennig discute de l'algorithme Metropolis-Hastings, qui est un type d'algorithme de Monte Carlo à chaîne de Markov utilisé pour échantillonner à partir d'une distribution de probabilité. Il démontre comment l'algorithme génère des points en puisant dans une distribution de propositions et en les acceptant ou en les rejetant en fonction de leur densité de probabilité. Hennig souligne également l'importance d'utiliser une distribution de proposition bien adaptée afin d'explorer efficacement la distribution échantillonnée. L'algorithme de Metropolis-Hastings a deux propriétés importantes, l'équilibre détaillé et l'ergodicité, qui garantissent que le processus d'exécution de l'algorithme pendant une longue période produit une distribution stationnaire donnée par la distribution échantillonnée.

  • 00:35:00 Dans cette section, Philipp Hennig discute des propriétés des algorithmes qui ont au moins une distribution stationnaire, qui est une séquence apériodique et à récurrence positive, ce qui signifie qu'il y a une probabilité non nulle de revenir à ce point à un point futur. L'algorithme ne doit pas avoir de structure susceptible de le bloquer dans une autre distribution stationnaire. Metropolis Hastings, par exemple, est un algorithme qui remplit ces deux propriétés. Cependant, il a un taux inférieur à celui du Monte Carlo simple et il peut avoir des comportements de travail aléatoires locaux. Le nombre d'échantillons effectifs tirés par l'algorithme a quelque chose à voir avec la longueur de pas libre d'autoroute ou la longueur de temps libre entre deux échantillons aux extrémités complètement opposées de la distribution.

  • 00:40:00 Dans cette section, l'orateur discute des méthodes de Monte Carlo et comment les évaluer. Il explique que pour voyager d'une extrémité à l'autre de la distribution, il faut utiliser un grand nombre de pas proportionnels au carré du rapport entre les échelles de longueur longue et petite, ce qui entraîne des taux de convergence toujours o de racine carrée. de t mais avec un énorme multiple devant. Il déclare qu'un défi avec Monte Carlo est que si vous regardez simplement les statistiques de ces points bleus, sans savoir quelle est la forme de la distribution et sans avoir les points rouges comme références, il n'est pas tout à fait évident de savoir comment vous remarquerez que cela est le cas. Enfin, il parle de Monte Carlo hamiltonien, qu'il prétend être «l'atome» de la chaîne de Markov Monte Carlo, et est l'algorithme commun utilisé pour tirer de la distribution de probabilité P de x.

  • 00:45:00 Dans cette section, Philipp Hennig explique le concept de Hamiltonian Monte Carlo (HMC), une méthode utilisée pour tirer des échantillons d'une distribution de probabilité. Dans HMC, le nombre de variables est doublé, avec une nouvelle variable représentant la dynamique de la variable existante. La variable de quantité de mouvement évolue alors selon une fonction qui définit une équation différentielle ordinaire, avec H représentant l'énergie et K représentant l'énergie cinétique. La dérivée temporelle de X est donnée par la dérivée partielle de H par rapport à P, et la dérivée temporelle de P est donnée par moins la dérivée partielle de H par rapport à X. Si l'algorithme parvient à tirer des échantillons de la distribution conjointe sur X et P, il tire marginalement de la distribution sur X.

  • 00:50:00 Dans cette section, Philipp Hennig explique la mise en œuvre d'un solveur d'équation différentielle ordinaire (ODE) pour la dérivée de la probabilité d'un état donné à l'aide de la méthode de Hoyn, qui a des taux de convergence d'ordre deux. Il compare ensuite cela à l'utilisation d'une bibliothèque logicielle et montre comment le solveur simule la dynamique d'un système hamiltonien, qui est une particule de masse 1 se déplaçant dans un potentiel donné par le logarithme d'une forme, produisant finalement de beaux échantillons. Bien qu'il nécessite un nombre quelque peu constant d'étapes pour simuler, Hennig note que le schéma Metropolis-Hastings accepte toujours et l'algorithme fait des étapes qui ne se déplacent pas à une distance donnée par des échelles de grande longueur sur des échelles de courte longueur au carré, mais sans une racine carrée, ce qui en fait finalement un algorithme plus efficace.

  • 00:55:00 Dans cette section, Philipp Hennig explique le fonctionnement de l'algorithme hamiltonien de Monte Carlo. Cet algorithme s'appuie sur une distribution conjointe sur X et P à une ligne de potentiel constante. La ligne de potentiel est choisie par l'élan initial, et à chaque étape, l'élan est modifié pour passer à une ligne de potentiel différente. Hennig compare l'algorithme à un problème d'optimisation et note qu'il a deux paramètres appelés étapes LeapFrog et delta T qui doivent être choisis correctement pour que l'algorithme fonctionne efficacement. Si les paramètres ne sont pas définis correctement, la simulation peut gaspiller des ressources de calcul en effectuant des allers-retours sans se déplacer réellement.

  • 01:00:00 Dans cette section, Philipp Hennig discute de l'idée d'un demi-tour et de l'algorithme No U-turn Sampler (NUTS) dans les méthodes de Monte Carlo pour les distributions de grande dimension. Le problème avec l'idée de demi-tour est qu'elle rompt l'équilibre détaillé et fait que l'algorithme s'éloigne et ne revient pas. L'algorithme NUTS surmonte cela en démarrant deux chaînes de Markov dans des directions opposées et en attendant qu'une commence à se retourner, puis en en choisissant une au hasard. Cela satisfait l'équilibre détaillé et est un élément clé de nombreux algorithmes de Monte Carlo à chaîne de Markov. Hennig souligne que si ces algorithmes sont complexes et délicats à mettre en œuvre, leur compréhension est cruciale pour les utiliser efficacement.

  • 01:05:00 Dans cette section, l'orateur discute de l'approche instinctive du calcul des valeurs attendues dans l'inférence bayésienne à l'aide des méthodes de Monte Carlo, et met en évidence le faible taux de convergence et la nécessité d'estimateurs impartiaux. Cependant, l'orateur remet en question le besoin d'estimateurs impartiaux et de caractère aléatoire en premier lieu, et suggère qu'il peut y avoir d'autres façons d'approximer la quantité d'intérêt sans caractère aléatoire. L'orateur aborde également le concept d'aléatoire et sa relation avec les suites et les suites finies calculées sur une machine de Turing.

  • 01:10:00 Dans cette section, Philipp Hennig discute du concept de hasard à travers différentes séquences de nombres. Il soutient que certaines séquences, telles que celles produites par les dés, ont été culturellement acceptées comme aléatoires même si elles ne sont pas vraiment aléatoires. D'autre part, les nombres irrationnels comme pi ne sont pas aléatoires, mais manquent également de structure. De plus, Hennig explique comment une graine peut modifier le caractère aléatoire d'une séquence produite par un générateur de nombres aléatoires. Enfin, il explique comment les machines physiques qui produisaient des nombres aléatoires ont été testées pour le caractère aléatoire, mais ont finalement échoué aux tests Die Hard of Randomness.

  • 01:15:00 Dans cette section, Philipp Hennig discute de l'aléatoire et de son lien avec l'apprentissage automatique, en particulier les méthodes de Monte Carlo. Il explique que le hasard est lié à un manque d'informations, c'est pourquoi il s'applique à des domaines comme la cryptographie où quelqu'un sait quelque chose est important. Pour les types de nombres aléatoires utilisés dans l'apprentissage automatique contemporain, il est erroné de parler de ce manque d'informations. Lorsqu'ils utilisent une méthode de Monte Carlo, les auteurs d'articles scientifiques qui s'appuient sur les méthodes de Monte Carlo cachent souvent des informations à leurs téléspectateurs. Ils l'utilisent parce qu'il est facile à utiliser et à mettre en œuvre, pas parce qu'il est biaisé.

  • 01:20:00 Dans cette section, Philipp Hennig explique comment la chaîne de Markov Monte Carlo (MCMC) fonctionne, et que cela fonctionne relativement bien pour les problèmes de haute dimensionnalité, même si nous ne connaissons pas les taux de convergence pour cela. MCMC est le seul algorithme pour lequel nous avons des garanties théoriques reposant sur l'utilisation de nombres aléatoires, mais il est admis que les échantillons produits par cette approche sont utiles en l'absence d'autres méthodes de comparaison. Hennig explique également que MCMC est fondamentalement très lent et laborieux et qu'il peut y avoir de meilleures façons d'approximer les intégrales. Il prévient que les algorithmes qu'ils examineront la semaine prochaine ne fonctionneront généralement que pour les problèmes de faible dimension et propose la nécessité d'envisager d'autres méthodes d'apprentissage automatique plutôt que de s'appuyer sur le caractère aléatoire déterministe.
 

Cours 10 -- Quadrature bayésienne -- Philipp Hennig



Numériques de ML 10 -- Quadrature bayésienne -- Philipp Hennig

Dans cette vidéo, Philipp Hennig discute de la quadrature bayésienne en tant que méthode efficace pour le problème informatique de l'intégration dans l'apprentissage automatique. Il explique comment une fonction à valeur réelle peut être identifiée de manière unique mais difficile de répondre directement aux questions. La quadrature bayésienne est une méthode d'inférence qui traite le problème de la recherche d'une intégrale comme un problème d'inférence en mettant un a priori sur l'objet inconnu et les quantités qui peuvent être calculées, puis effectue une inférence bayésienne. Hennig compare également cette approche au rejet de Monte Carlo et à l'échantillonnage d'importance, montrant comment la quadrature bayésienne peut surpasser les règles de quadrature classiques. La conférence couvre l'algorithme du filtre de Kalman pour la quadrature bayésienne et sa connexion aux algorithmes d'intégration classiques, avec une discussion sur l'utilisation des estimations d'incertitude dans les méthodes numériques. Enfin, Hennig explore comment la structure sociale du calcul numérique affecte la conception d'algorithmes, discute d'une méthode de conception de méthodes de calcul pour des problèmes spécifiques et comment l'apprentissage automatique probabiliste peut estimer l'erreur en temps réel.

Dans la deuxième partie de la vidéo, Philipp Hennig discute de la quadrature bayésienne, qui consiste à placer des distributions préalables sur les quantités qui nous intéressent, telles que les intégrales et les valeurs d'algorithme, pour calculer quelque chose de manière bayésienne. La méthode attribue à la fois une estimation a posteriori et une estimation de l'incertitude autour des estimations, qui peuvent être identifiées avec les méthodes classiques. Hennig explique comment l'algorithme s'adapte à la fonction observée et utilise une procédure d'apprentissage actif pour déterminer où évaluer ensuite. Cet algorithme peut fonctionner dans des dimensions plus élevées et a des taux de convergence non trivialement intelligents. Il discute également des limites des algorithmes classiques et des règles de quadrature et propose une solution de contournement par le raisonnement adaptatif.

  • 00:00:00 Dans cette section, Philipp Hennig aborde le problème informatique de l'intégration dans l'apprentissage automatique en mettant l'accent sur la quadrature bayésienne en tant que méthode efficace. Il décrit une fonction à valeur réelle, f de x, qui est un produit de deux fonctions, X moins le sinus au carré 3x et X moins x au carré, et peut être identifiée de manière unique en écrivant un ensemble de caractères. Hennig explique que bien que nous sachions tout sur cette fonction, il est difficile de répondre directement à toutes les questions à ce sujet, comme la valeur de l'intégrale définie pour moins trois à plus 3 sur cette fonction, qui ne peut être trouvée dans des livres pleins d'intégrales ou la nouvelle bibliothèque C.

  • 00:05:00 Dans cette section, Philipp Hennig discute de la quadrature bayésienne, une méthode d'inférence qui traite le problème de la recherche d'une intégrale comme un problème d'inférence en mettant un a priori sur l'objet inconnu et les quantités qui peuvent être calculées, puis effectue une méthode bayésienne inférence. En mettant un a priori, nous commençons avec une incertitude finie, ce qui conduit à une gamme étroite de résultats possibles du calcul, ce qui le rend typique pour les calculs. L'approche s'oppose au rejet de Monte Carlo et à l'échantillonnage par importance, qui sont moins efficaces. La fonction estimée peut être tracée en fonction du nombre, suggérant que la quadrature bayésienne est une option viable pour résoudre les intégrales.

  • 00:10:00 Dans cette section de l'exposé de Philipp Hennig, il discute de la quadrature bayésienne comme moyen d'estimer l'intégrale d'une fonction à l'aide de l'apprentissage automatique probabiliste. Il compare cette approche à la méthode de Monte Carlo et explique qu'un processus gaussien est utilisé comme a priori sur la fonction. En évaluant la fonction à des valeurs x spécifiques, nous pouvons estimer la variable latente, qui est l'intégrale de la fonction. Hennig montre également comment cette approche peut surpasser les règles de quadrature classiques.

  • 00:15:00 Dans cette section, Philipp Hennig explique comment calculer des intégrales sur le noyau afin d'approximer des intégrales sur n'importe quelle fonction que nous essayons d'apprendre. En choisissant une fonction de moyenne a priori et une fonction de covariance a priori, nous pouvons intégrer le problème du calcul d'une intégrale dans l'espace de Hilbert du noyau reproducteur. Grâce à des calculs impliquant des évaluations de la fonction à divers points, nous nous retrouvons avec l'intégration de la moyenne du noyau qui implique le calcul d'intégrales sur le noyau. Par conséquent, nous devons choisir des noyaux pour lesquels nous pouvons calculer des intégrales sous forme fermée, et Hennig choisit le noyau du processus de Weiner comme exemple.

  • 00:20:00 Dans cette section, Philipp Hennig discute du processus de quadrature bayésienne. Le processus consiste à utiliser un processus Vino a priori, un processus gaussien asymétrique et non stationnaire, et à conditionner un ensemble de valeurs de fonction pour obtenir un processus gaussien positif. En utilisant ce processus, il est possible d'obtenir un bien meilleur résultat que l'intégration de Monte Carlo. Par exemple, pour obtenir une erreur relative de 10 ^ -7, la quadrature bayésienne nécessiterait moins de 200 évaluations, tandis que l'intégration de Monte Carlo nécessiterait plus de 10 ^ 11 évaluations.

  • 00:25:00 Dans cette section, l'orateur discute de la vitesse de la quadrature bayésienne par rapport aux simulations de Monte Carlo. Alors que les simulations de Monte Carlo sont bon marché et faciles à mettre en œuvre, la quadrature bayésienne est également relativement rapide et peut être mise en œuvre en tant que filtre de Kalman, ce qui permet de l'utiliser dans des modèles d'apprentissage automatique. L'orateur explique la carte linéaire entre les deux états du processus et comment elle peut coder l'intégration, permettant de discrétiser l'équation différentielle stochastique et de calculer les mises à jour de l'intégrale. La conférence passe ensuite à une discussion plus détaillée des propriétés de la quadrature bayésienne.

  • 00:30:00 Dans cette section, l'intervenant présente un algorithme de filtre de Kalman pour la quadrature bayésienne afin d'évaluer les intégrales d'une fonction. L'algorithme consiste à définir les matrices A et Q pour représenter les parties déterministes et stochastiques du système linéaire invariant dans le temps, et H et R pour représenter le modèle d'observation. La moyenne postérieure est une somme pondérée des fonctions du noyau et le filtre de Kalman met à jour l'estimation de l'intégrale, l'incertitude de l'intégrale augmentant avec la longueur du pas au cube. L'algorithme s'exécute en temps linéaire et la moyenne postérieure est une fonction linéaire par morceaux qui interpole les valeurs de la fonction. L'estimation de l'intégrale est la somme des valeurs moyennes dans chaque bloc.

  • 00:35:00 Dans cette section, Hennig explique le concept de quadrature bayésienne et son lien avec la règle du trapèze, qui est un algorithme d'intégration classique. Il note que la règle du trapèze peut être considérée comme la moyenne postérieure d'un schéma d'inférence de processus gaussien complexe et que cette idée particulière est un résultat essentiel et commun. Hennig explique en outre comment divers algorithmes classiques, que ce soit pour le calcul numérique, l'optimisation, l'algèbre linéaire ou la résolution d'équations différentielles, ont tous des liens avec les estimations a posteriori bayésiennes. De plus, il souligne que le calcul numérique doit être considéré comme une inférence gaussienne car il implique des estimations des moindres carrés pour des quantités numériques avec incertitude, et suggère que l'utilisation d'estimations d'incertitude peut être avantageuse lorsqu'il s'agit de méthodes numériques.

  • 00:40:00 Dans cette section, Philipp Hennig discute de l'aspect décisionnel des algorithmes numériques et de la façon dont il ressemble à un algorithme d'IA car il décide des calculs à effectuer. Une question qui se pose est de savoir où placer les points d'évaluation et la réponse à cela peut être trouvée dans les problèmes d'inférence bayésienne. En définissant une distribution de probabilité pour converger vers la certitude, nous pouvons trouver une quantité qui décrit la certitude ou l'incertitude et la manipuler. Pour la variance de la distribution possible sur l'intégrale, l'objectif est de la minimiser, ce qui peut être fait en mettant tous les Delta J égaux au Delta n moins un, indiquant une grille régulière de nœuds d'intégration. De plus, la nécessité d'avoir des nœuds d'intégration aux deux extrémités du domaine d'intégration est discutée.

  • 00:45:00 Dans cette section, l'orateur explique comment l'algorithme Bayesian Quadrature peut être utilisé pour obtenir une conception de l'emplacement des nœuds d'évaluation basés sur un processus gaussien préalable. L'algorithme peut fournir différentes conceptions en fonction de l'a priori utilisé, et les nœuds d'évaluation peuvent être choisis selon une simple politique de gain d'information maximal. La règle trapézoïdale peut être considérée comme une estimation bayésienne, où la moyenne postérieure est une estimation du patient qui découle d'un processus gaussien spécifique avant l'intégrande. L'algorithme fournit une estimation de l'erreur, mais l'estimation n'est pas précise et il existe un écart important entre l'erreur réelle et l'erreur estimée. Cependant, la règle du trapèze existe depuis des centaines d'années et l'algorithme n'est pas nécessairement défectueux. La règle du trapèze peut avoir certaines propriétés qui doivent être remises en question.

  • 00:50:00 Dans cette section, Philipp Hennig discute des estimations de la variance et de leur relation avec la quadrature bayésienne. Il explique que l'estimation de l'erreur est l'écart type, qui est la racine carrée de l'erreur carrée attendue. L'utilisation d'une taille de pas constante facilite le calcul de la somme, car il n'y a pas de "i" dans la somme. Le théorème indique que le taux de convergence pour cette règle trapézoïdale est O de 1 sur N au carré. Cependant, il y a des hypothèses cachées dans les mathématiques. Les exemples de chemins tirés d'un processus de Wiener ont des comportements extrêmement approximatifs car ils sont non différentiables presque partout, ce qui fait l'hypothèse de l'invalide préalable.

  • 00:55:00 Dans cette section, Philipp Hennig discute du problème de l'intégration de fonctions brutes non différentiables à l'aide d'algorithmes numériques. Il explique que les algorithmes conçus pour fonctionner sur des fonctions super grossières, telles que la règle du trapèze, peuvent ne pas être aussi efficaces qu'ils pourraient l'être si la fonction qu'ils intègrent est beaucoup plus fluide. Hennig suggère que la structure sociale du calcul numérique, où les algorithmes sont conçus pour fonctionner sur une grande classe de problèmes, peut conduire à des méthodes trop générales qui ne fonctionnent pas particulièrement bien sur l'un d'entre eux. Cependant, il note qu'il est possible de concevoir une méthode de calcul pour un problème particulier s'il est suffisamment important, une fois que vous comprenez comment fonctionnent ces algorithmes. Il explique également comment l'ampleur de l'erreur dans l'algorithme peut être estimée pendant son exécution, en utilisant les idées de l'apprentissage automatique probabiliste.

  • 01:00:00 Dans cette section, Philipp Hennig explique comment estimer l'échelle d'une constante inconnue dans la matrice de covariance à partir de certaines données, et introduit le concept de priors conjugués. Il explique que pour les distributions de probabilités familiales exponentielles, il existe toujours un a priori conjugué, tel que l'a priori gamma, qui peut être utilisé pour estimer la variance d'une distribution gaussienne. Hennig raconte l'histoire de William C Lee Gossett, qui a inventé cette méthode alors qu'il travaillait comme brasseur pour Guinness, et a dû estimer la distribution d'échantillons d'un tonneau de bière. Cette méthode consiste à multiplier l'a priori et la vraisemblance ensemble et à normaliser les résultats pour obtenir la même forme algébrique que la distribution gamma, avec de nouveaux paramètres basés sur les observations ou les valeurs de fonction.

  • 01:05:00 Dans cette section, Philipp Hennig explique comment estimer la concentration a posteriori d'un paramètre et la distribution T de Student. La méthode est appelée quadrature bayésienne, où l'échelle commence large et devient plus concentrée à mesure que davantage d'observations sont collectées. Les résultats sont présentés dans un graphique, où initialement la distribution se contracte suite à une augmentation des observations. Hennig souligne que les hypothèses antérieures sur cette fonction lisse sont beaucoup trop conservatrices pour ce problème, et il existe des algorithmes d'intégration beaucoup plus intelligents, tels que la quadrature gaussienne avec des ensembles de caractéristiques qui se développent avec les polynômes de Legendre, qui fonctionnent très bien.

  • 01:10:00 Dans cette section, Hennig discute de la quadrature bayésienne, qui est une manière classique de faire des intégrales sur des domaines délimités, tels que notre domaine de -1 à 1. Il explique qu'il existe des règles de quadrature correspondantes qui convergent extrêmement rapidement, avec un poids de convergence super polynomial, mais cela ne fonctionne que pour les fonctions qui sont réellement lisses. La ligne verte visible sur le graphique de droite peut également correspondre à une estimation moyenne postérieure sous certains types d'hypothèses a priori gaussiennes. Alors que le résultat de cet article est principalement d'intérêt théorique pour clarifier la relation entre les deux approches différentes de l'intégration numérique, il existe des algorithmes classiques qui sont très bons pour ce type de problème et viennent avec beaucoup de structure avec des bases différentes pour différents types de problèmes d'intégration. Ces règles de quadrature se rapprochent de l'intégrale en supposant qu'elle peut être écrite sous une forme particulière à l'aide de polynômes orthogonaux et d'une fonction de pondération, et il existe des choix spécifiques pour Phi en fonction de W et du domaine d'intégration.

  • 01:15:00 Dans cette section, l'orateur discute des différents types de polynômes de Chebyshev et de leur utilisation dans le calcul des intégrales numériques pour les fonctions univariées. L'orateur explique également pourquoi il est important de prendre en compte le domaine d'intégration, la forme de la fonction et l'a priori lors de la spécification d'un a priori pour une règle d'inférence patient. L'orateur note que les algorithmes d'intégration classiques et les règles de quadrature peuvent être considérés comme une forme d'estimation moyenne postérieure gaussienne, et les choix faits par ces algorithmes peuvent être motivés par des arguments théoriques de l'information. L'orateur conclut en déclarant que si les règles de quadrature classiques fonctionnent bien pour les intégrales unidimensionnelles, les problèmes de dimension supérieure nécessitent des approches plus compliquées, telles que les algorithmes de Monte Carlo.

  • 01:20:00 Dans cette section, l'orateur discute des limites des méthodes présentées dans la section précédente en ce qui concerne la mise à l'échelle de la dimensionnalité. Ces méthodes ont tendance à avoir une décroissance des performances exponentielle en dimensionnalité car un maillage d'évaluations doit être produit, ce qui signifie qu'elles doivent couvrir le domaine avec des points. Ceci est problématique car les processus gaussiens sont utilisés comme a priori, et leur incertitude a posteriori ne dépend pas des nombres vus, uniquement là où des évaluations ont été faites. En conséquence, ces méthodes d'intégration sont non adaptatives, ce qui limite leur évolutivité dans des dimensions supérieures. Pour surmonter ce problème, de nouveaux algorithmes sont nécessaires qui peuvent raisonner sur le fait que certains points sont plus informatifs que d'autres grâce à un raisonnement adaptatif.

  • 01:25:00 Dans cette section, Philipp Hennig discute des limites des processus gaussiens pour encoder des valeurs non négatives et propose une solution de contournement en définissant une nouvelle fonction qui élève au carré la fonction réelle. La distribution résultante n'est pas gaussienne et est approchée par un processus stochastique qui peut être approché par un processus gaussien. L'algorithme résultant est appelé Wasabi, qui signifie intégration bayésienne active séquentielle de distorsion. Il s'agit d'une formulation probabiliste qui ajoute de manière adaptative une incertitude là où de grandes valeurs de fonction sont attendues, permettant la construction d'algorithmes numériques approximatifs. La fonction d'utilité en bleu représente l'incertitude a posteriori sur les valeurs de la fonction.

  • 01:30:00 Dans cette section, Philipp Hennig discute du concept de quadrature bayésienne, un algorithme d'intégration numérique. Hennig explique comment l'algorithme s'adapte à la fonction observée et utilise une procédure d'apprentissage actif pour déterminer où évaluer ensuite. Cet algorithme peut fonctionner dans des dimensions plus élevées et a des taux de convergence non trivialement intelligents. Hennig compare également cet algorithme aux algorithmes de Monte Carlo et soutient que des connaissances préalables peuvent améliorer les performances de l'algorithme. En outre, il fait allusion à la possibilité d'un algorithme encore meilleur au-delà de Monte Carlo, qui sera discuté après Noël.

  • 01:35:00 Dans cette section, Philipp Hennig discute de la quadrature bayésienne, qui consiste à placer une distribution préalable sur les quantités qui nous intéressent, telles que les intégrales et les valeurs d'algorithme, pour calculer quelque chose de manière bayésienne. La méthode attribue à la fois une estimation a posteriori et une estimation de l'incertitude autour des estimations, qui peuvent être identifiées avec les méthodes classiques. Si les estimations d'erreur sont mauvaises, cela ne signifie pas nécessairement que la vision probabiliste du calcul est erronée, mais plutôt que l'ensemble des hypothèses préalables est mauvais. En utilisant plus de connaissances antérieures et en traitant les algorithmes numériques comme des agents autonomes, nous pouvons extraire plus d'informations et rendre les algorithmes plus rapides et plus efficaces.
 

Cours 11 -- Optimisation pour le Deep Learning -- Frank Schneider



Numerics of ML 11 --Optimisation pour le Deep Learning -- Frank Schneider

Frank Schneider discute des défis de l'optimisation pour l'apprentissage en profondeur, en soulignant la complexité de la formation des réseaux de neurones et l'importance de sélectionner les bonnes méthodes et algorithmes d'optimisation. Il note le nombre écrasant de méthodes disponibles et la difficulté de comparer et d'évaluer différents algorithmes. Schneider fournit des exemples concrets de formation réussie de grands modèles de langage et de la nécessité d'horaires de taux d'apprentissage non par défaut et de modifications en cours de vol pour que le modèle puisse s'entraîner avec succès. Schneider souligne l'importance de fournir aux utilisateurs une meilleure compréhension de la façon d'utiliser ces méthodes et de la manière dont les hyperparamètres affectent le processus de formation, ainsi que la création d'exercices d'analyse comparative pour aider les praticiens à sélectionner la meilleure méthode pour leur cas d'utilisation spécifique. Il discute également de méthodes plus récentes comme Alpha et de la manière dont elles peuvent être utilisées pour diriger le processus de formation d'un réseau de neurones.

Dans la deuxième partie de la vidéo sur les numériques de l'optimisation pour l'apprentissage en profondeur, Frank Schneider présente l'outil "Deep Debugger" Cockpit, qui fournit des instruments supplémentaires pour détecter et résoudre les problèmes dans le processus de formation, tels que les bogues de données et les blocs de modèle. Il explique l'importance de la normalisation des données pour des hyperparamètres optimaux, la relation entre les taux d'apprentissage et la précision des tests, et les défis de la formation de réseaux de neurones avec stochasticité. Schneider encourage les étudiants à travailler à l'amélioration de l'apprentissage des réseaux de neurones en considérant le gradient comme une distribution et en développant de meilleures méthodes autonomes sur le long terme.

  • 00:00:00 Dans cette section, Frank Schneider présente le sujet de l'optimisation de l'apprentissage en profondeur et donne un aperçu des défis liés à la formation des réseaux de neurones. Il explique que même si cela peut sembler être une simple question de savoir comment former des réseaux de neurones, il existe en fait plusieurs façons d'y répondre, y compris des considérations de matériel et de logiciel. L'objectif principal de la conférence, cependant, est sur les méthodes et les algorithmes utilisés pour former les réseaux de neurones, et Schneider souligne qu'il n'y a pas de solution unique. Il fournit un exemple concret d'un groupe de Midi formant un grand modèle de langage, montrant qu'un calendrier de taux d'apprentissage non par défaut et des modifications en cours de vol du taux d'apprentissage étaient nécessaires pour que le modèle puisse s'entraîner avec succès. Dans l'ensemble, la conférence de Schneider met en évidence la complexité de la formation des réseaux de neurones et l'importance de sélectionner avec soin les bonnes méthodes et algorithmes d'optimisation.

  • 00:05:00 Dans cette section, l'orateur discute des défis de la formation efficace d'un réseau de neurones, citant l'exemple du journal de bord fourni par OpenAI dédié à la lutte pour la formation d'un grand modèle de langage. L'orateur mentionne qu'actuellement, il n'existe pas de méthodes efficaces pour entraîner les réseaux de neurones, bien qu'il existe des lignes directrices et des intuitions disponibles. La conférence visera à comprendre pourquoi la formation d'un réseau de neurones est si difficile et ce qui peut être fait pour améliorer la situation. L'orateur note que ce sera différent de leur structure de cours habituelle, car il existe de nombreuses méthodes de pointe actuelles, et il n'est pas clair laquelle de ces méthodes est la plus efficace.

  • 00:10:00 Dans cette section, l'orateur discute des idées fausses selon lesquelles l'apprentissage automatique est principalement de l'optimisation. Alors que l'optimisation implique la recherche d'un minimum dans un paysage de pertes, l'objectif de l'apprentissage automatique est de trouver une fonction qui correspond le mieux aux données de formation et se généralise bien aux nouvelles données. Ceci est accompli grâce à l'utilisation d'une fonction de perte qui quantifie la différence entre les prédictions du modèle et les sorties réelles. Étant donné que la véritable distribution des données est souvent inconnue, le modèle est formé sur un échantillon fini de données et le processus d'optimisation fonctionne sur la perte empirique. L'orateur souligne que l'apprentissage en profondeur implique plus de complexité en raison de paysages dimensionnels plus élevés et d'hypothèses expressives.

  • 00:15:00 Dans cette section, Frank Schneider explique que l'apprentissage automatique n'est pas seulement une optimisation, car la quantité optimisée (perte empirique) n'est pas la même que la quantité dont l'algorithme se soucie réellement (perte réelle). Le surajustement et la généralisation sont en fait plus compliqués que de simplement passer de l'entraînement au test, comme dans les tâches de traduction, où les modèles sont entraînés sur la perte d'entropie croisée mais évalués sur la qualité de la traduction. En conséquence, les gens ont développé diverses méthodes, telles que la descente de gradient stochastique, la variance de l'impulsion, la prop RMS et l'atome, pour prendre en compte les gradients précédents et comprendre comment ils devraient se comporter à l'avenir. Au total, il existe plus de 150 méthodes disponibles pour optimiser et former des algorithmes d'apprentissage en profondeur.

  • 00:20:00 Dans cette section, l'orateur discute du nombre écrasant de méthodes d'optimisation disponibles pour la formation des réseaux de neurones, avec plus de 100 méthodes parmi lesquelles choisir. Le problème n'est pas seulement de choisir une méthode, mais aussi de savoir comment l'utiliser efficacement. Par exemple, même si nous choisissons une méthode d'optimisation comme SGD ou Adam, nous devons encore décider d'hyperparamètres comme le taux d'apprentissage et epsilon, qui peuvent être difficiles à régler. L'orateur suggère que nous avons besoin de repères appropriés pour comprendre quelles méthodes sont nécessaires et améliorées, et que le défi actuel consiste à définir ce que « mieux » signifie dans le contexte de l'apprentissage en profondeur. Dans l'ensemble, l'accent devrait être mis sur la fourniture aux utilisateurs de plus d'informations sur la manière d'utiliser ces méthodes et sur la manière dont les hyperparamètres affectent le processus de formation.

  • 00:25:00 Dans cette section, Frank Schneider aborde les défis qui se posent lors de la comparaison d'algorithmes d'apprentissage en profondeur, tels que l'optimisation pour les problèmes de renforcement, les GAN et les grands modèles de langage. Il devient difficile de déterminer si les différences de performances sont significatives, car il peut être nécessaire d'exécuter ces méthodes plusieurs fois pour tenir compte de la stochasticité. Tester tous les cas peut être coûteux et prendre du temps, car la formation doit être répétée plusieurs fois pour toutes les méthodes à usage général. La méthode utilisée pour s'entraîner doit être analysée lors du test de problèmes multiples, nécessitant des modifications d'hyper-paramètres, ce qui la rend encore plus coûteuse. De plus, Schneider souligne que SGD et Adam sont des familles d'algorithmes qui ne peuvent être comparées directement sans spécifier l'ensemble exact de paramètres.

  • 00:30:00 Dans cette section, Frank Schneider discute du processus d'identification des méthodes de formation de pointe pour l'apprentissage en profondeur. En raison du grand nombre de méthodes d'optimisation disponibles, ils ont dû se limiter à tester seulement 15 méthodes d'optimisation sur 8 types de problèmes différents allant des simples problèmes quadratiques à la classification d'images à plus grande échelle et aux modèles de réseaux de neurones récurrents. Pour simuler divers scénarios, ils ont testé ces méthodes d'optimisation dans quatre contextes différents avec différents budgets pour le réglage des hyperparamètres, du réglage ponctuel avec les paramètres élevés par défaut à des budgets plus importants pour les praticiens de l'industrie qui disposent de plus de ressources. L'objectif était de déterminer quelles méthodes d'optimisation fonctionnaient le mieux dans différents scénarios pour aider les praticiens à sélectionner la meilleure méthode pour leur cas d'utilisation spécifique.

  • 00:35:00 Dans cette section, Frank Schneider aborde le processus d'optimisation des modèles d'apprentissage en profondeur. Il explique que pour trouver la meilleure méthode d'optimisation, ils ont dû effectuer plus de 50 000 exécutions individuelles car il y avait 15 méthodes d'optimisation et quatre programmes de taux d'apprentissage. Schneider note qu'il n'y avait pas de méthode de formation de pointe claire pour l'apprentissage en profondeur puisque plusieurs méthodes ont bien fonctionné sur différents problèmes de test. Cependant, Adam a toujours montré de bons résultats, et les autres méthodes dérivées d'Adam n'ont pas amélioré les performances de manière significative. Dans l'ensemble, l'exercice d'analyse comparative a montré qu'il n'existe actuellement aucune méthode d'optimisation claire qui fonctionne pour tous les modèles d'apprentissage en profondeur.

  • 00:40:00 Dans cette section, l'orateur discute des difficultés à déterminer la méthode la plus efficace pour entraîner un réseau de neurones en raison des différentes méthodes disponibles et de l'absence d'un protocole d'entraînement clair. L'orateur discute de la création du ml Commons Benchmark de leur groupe de travail sur les algorithmes, qui est un concours pour mesurer les accélérations de la formation des réseaux neuronaux uniquement dues aux changements algorithmiques. L'objectif est de construire des algorithmes plus efficaces pour accélérer la formation des réseaux de neurones. L'orateur discute également du manque d'informations disponibles sur la façon d'utiliser ces méthodes et suggère que des informations supplémentaires pourraient être utilisées pour créer des outils de débogage pour aider les utilisateurs en attendant, dans l'espoir de construire éventuellement une meilleure méthode qui peut tout faire automatiquement.

  • 00:45:00 Dans cette section, l'orateur explique comment la plupart des modèles d'apprentissage automatique se rapprochent du gradient empirique en choisissant un échantillon individuel de l'ensemble de données de formation avant de franchir une étape. Le gradient de mini-lot ou le gradient empirique est un échantillon du vrai gradient, et la moyenne sur les gradients individuels donne une estimation du vrai gradient, bien que la variance de l'estimateur ne soit pas disponible dans PyTorch. Cependant, en utilisant des packages comme backpack, les utilisateurs peuvent accéder aux dégradés individuels et à leur variance. Ces informations supplémentaires peuvent être exploitées pour orienter le processus de formation d'un réseau de neurones, par exemple pour déterminer s'il faut augmenter ou diminuer le taux d'apprentissage. L'orateur donne un exemple où deux courbes de perte peuvent se ressembler, mais l'optimisation dans le paysage des pertes montre que deux choses complètement différentes se produisent.

  • 00:50:00 Dans cette section, l'orateur explique comment la courbe de perte peut montrer si un réseau de neurones s'entraîne ou non, mais n'explique pas pourquoi ni quoi faire pour l'améliorer. Le paysage des pertes a des dizaines de millions de dimensions, ce qui le rend presque impossible à examiner. Cependant, le locuteur introduit une quantité qui aide à caractériser la procédure d'optimisation du réseau de neurones, appelée alpha. La valeur alpha détermine si le réseau dépasse, minimise ou dépasse en observant la pente dans la direction dans laquelle le réseau progresse, ce qui indique si le paysage des pertes augmente ou diminue.

  • 00:55:00 Dans cette section, Frank Schneider explique comment Alpha est calculé tout en optimisant le réseau de neurones. Alpha est une valeur scalaire qui a été expliquée dans la section précédente comme la direction dans laquelle le modèle se déplace pour optimiser le réseau neuronal. Schneider explique que la quantité scalaire Alpha est basée sur la taille du pas par rapport à la perte observée dans cette direction. Les valeurs Alpha négatives impliquent un sous-pas, tandis que les valeurs positives impliquent un dépassement, et une signifie passer directement de l'autre côté de la vallée. Schneider explique également comment, en condensant les informations dans des rapports significatifs, les développeurs peuvent créer des outils de débogage pour un apprentissage en profondeur similaire à celui de la programmation classique.

  • 01:00:00 Dans cette section, Frank Schneider présente le concept de "Deep Debugger" avec l'outil "Cockpit", qui augmente le processus de formation d'un spectateur avec des instruments supplémentaires, comme un pilote dans un avion. Schneider montre comment Cockpit peut fournir de nouveaux points de vue dans la formation d'un réseau de neurones, tels que la taille des pas, la distance, la norme de gradient et les tests de gradient, qui peuvent aider à détecter et à résoudre des problèmes tels que des bogues de données dans le processus de formation. Avec les instruments supplémentaires, Cockpit peut fournir aux utilisateurs des informations pertinentes et compléter le graphique de performance essentiel.

  • 01:05:00 Dans cette section, le conférencier explique comment l'utilisation de données normalisées par rapport à des données brutes dans l'apprentissage en profondeur affecte les performances du réseau de neurones et les hyperparamètres optimaux. Les données brutes, avec des valeurs de pixel allant de 0 à 255, peuvent conduire à un histogramme d'éléments de gradient moins comportemental et donc à des hyperparamètres moins optimaux. Cependant, la normalisation des données peut facilement être manquée car visuellement, les données auront la même apparence. Un autre problème qui peut affecter la formation est un bloc de modèle dans lequel un réseau s'entraîne bien tandis qu'un autre ne le fait pas, même s'ils ont des histogrammes d'éléments de gradient similaires. En utilisant Cockpit, on peut regarder l'histogramme pour chaque couche du réseau, révélant toutes les dégénérescences à travers le modèle. Cela aide à identifier les bogues du modèle qui sont difficiles à trouver par essais et erreurs. Enfin, l'utilisation de Cockpit pour le réglage des hyperparamètres peut conduire à de nouvelles recherches et à une meilleure compréhension des méthodes.

  • 01:10:00 Dans cette section, Frank Schneider discute de l'optimisation pour l'apprentissage en profondeur et de la relation entre les taux d'apprentissage, les valeurs Alpha et la précision des tests. Il explique que si des taux d'apprentissage plus élevés ont tendance à entraîner des valeurs Alpha plus élevées, ce qui signifie un dépassement et potentiellement un trop grand nombre de pas, les exécutions les plus performantes se situent généralement dans la région Alpha positive. Cela nous indique que dans la formation des réseaux de neurones, il n'est peut-être pas toujours préférable de minimiser à chaque étape et qu'un dépassement est nécessaire pour obtenir les meilleures performances. Schneider partage également des exemples tirés d'articles de l'Université de Toronto qui illustrent l'importance de trouver un équilibre entre les mesures locales et mondiales pour obtenir des résultats optimaux.

  • 01:15:00 Dans cette section, Frank Schneider reconnaît que la formation de réseaux de neurones est une tâche difficile qui manque d'un protocole clair à suivre. De plus, il pense que la stochasticité dans l'apprentissage en profondeur est la principale source de ce défi, ce qui fait que la formation et l'optimisation sont deux choses différentes. Cependant, il suggère que penser au gradient comme une distribution, tenant compte de l'écart type, des variances et des confiances, peut permettre de construire de meilleurs outils et de développer de meilleures méthodes autonomes à long terme. Schneider encourage les étudiants intéressés à contribuer à l'amélioration de la formation des réseaux de neurones.
 

Cours 12 -- Optimisation du second ordre pour l'apprentissage en profondeur -- Lukas Tatzel



Numerics of ML 12 -- Optimisation de second ordre pour l'apprentissage en profondeur -- Lukas Tatzel

Dans cette vidéo, Lukas Tatzel explique les méthodes d'optimisation de second ordre pour le deep learning et leurs avantages potentiels. Il compare les trajectoires et les taux de convergence de trois méthodes d'optimisation - SGD, Adam et LBFGS - en utilisant l'exemple de la fonction de Rosenberg en 2D. Tatzel note que le comportement nerveux de SGD rend la convergence plus lente par rapport aux étapes bien informées de LBFGS. Il présente l'étape de Newton comme une méthode d'optimisation plus rapide et discute de ses limites, telles que la dépendance au nombre de conditions. Tatzel explique également le concept de la matrice de Gauss-Newton généralisée (GGN) comme une approximation de la Hessienne pour traiter les problèmes mal conditionnés. De plus, il discute du problème de la région de confiance, de la façon de traiter les fonctions objectives non convexes et de l'approche sans hessian qui utilise CG pour minimiser les fonctions quadratiques.

Cette deuxième partie de la vidéo explore les techniques d'optimisation de second ordre pour l'apprentissage en profondeur, y compris BFGS et LBFGS, l'optimisation sans Hessian et KFC. L'orateur explique que l'approche sans hessian linéarise le modèle à l'aide du produit vectoriel jacobien, tandis que KFC est une courbure approximative basée sur des mesures d'informations officielles. Cependant, la stochasticité et les biais peuvent se produire avec ces méthodes, et l'amortissement est recommandé pour résoudre ces problèmes. L'orateur propose l'utilisation d'algorithmes spécialisés qui peuvent utiliser des quantités plus riches comme les distributions pour faire des mises à jour et note que le problème fondamental de la stochasticité reste non résolu. Globalement, les méthodes d'optimisation de second ordre offrent une solution partielle aux défis de l'apprentissage en profondeur.

  • 00:00:00 Dans cette section, Lukas Tatzel présente les méthodes d'optimisation de second ordre comme solution potentielle au processus d'optimisation coûteux et fastidieux de l'apprentissage en profondeur. Il utilise l'exemple de la fonction de Rosenberg en 2D pour comparer les trajectoires et les taux de convergence de trois optimiseurs - SGD, Adam et LBFGS. Il note que le comportement nerveux de SGD ralentit la convergence par rapport aux étapes bien informées de LBFGS, qui nécessite moins de 10 étapes pour atteindre la tolérance de 10 ^ -8, ce qui la rend non seulement plus rapide en termes d'étapes mais aussi en temps d'exécution. par rapport à Adam et SGD. Tatzel soulève la question de savoir si ces méthodes peuvent être appliquées à l'apprentissage en profondeur et explore leur fonctionnement et leur potentiel.

  • 00:05:00 Dans cette section, Lukas Tatzel explique les bases de l'optimisation de l'apprentissage en profondeur, qui impliquent de prédire un vecteur de dimension C et de le comparer avec l'étiquette réelle pour calculer la fonction de perte. L'objectif de l'apprentissage en profondeur est de trouver une configuration du vecteur de paramètres de réseau Theta qui minimise le risque empirique. Les méthodes numériques utilisées pour cela incluent la descente de gradient stochastique (SGD) qui calcule une estimation du gradient sur des données finies à l'aide d'un estimateur de Monte Carlo. Cependant, les méthodes basées sur le gradient sont sensibles au nombre de conditions, qui est le rapport de la courbure directionnelle maximale et minimale.

  • 00:10:00 Dans cette section, Lukas Tatzel explique comment les méthodes basées sur les gradients sont sensibles aux problèmes de mauvaise condition dans l'apprentissage en profondeur. Il explique que le numéro de condition peut être un problème pour les méthodes basées sur le gradient s'il est grand, ce qui peut entraîner des conversions lentes. Pour améliorer les mises à jour dans les méthodes basées sur le gradient, Tatzel suggère de redimensionner le gradient dans les directions de grande et petite courbure avec leurs courbures inverses respectives. Ce faisant, des méthodes de second ordre peuvent être introduites pour réduire ou éliminer la dépendance vis-à-vis du numéro de condition.

  • 00:15:00 Dans cette section, Lukas Tatzel discute de l'optimisation de second ordre dans l'apprentissage en profondeur et introduit le concept de l'étape de Newton. Cette méthode consiste à approximer la fonction de perte à l'itération actuelle avec une fonction quadratique, où la Hessienne est supposée définie positive. En calculant ses gradients et en le mettant à zéro, le pas de Newton peut être dérivé et utilisé à des fins de minimisation. Cette méthode peut être beaucoup plus rapide que les méthodes basées sur le gradient dans certaines situations, réalisant une convergence quadratique locale si la fonction cible est deux fois différentiable et que la Hessienne est Lipschitz continue. Tatzel compare visuellement la convergence linéaire et quadratique, montrant que les méthodes de Newton peuvent être très rapides dans certaines situations car elles sont robustes contre les problèmes mal conditionnés.

  • 00:20:00 Dans cette section, Lukas Tatzel discute des méthodes d'optimisation de second ordre pour l'apprentissage en profondeur et des raisons pour lesquelles elles ne sont pas couramment utilisées. Les méthodes de second ordre peuvent être plus rapides que les méthodes basées sur le gradient, mais elles nécessitent un accès à la matrice hessienne, qui peut être difficile à calculer et à stocker pour les grands problèmes non convexes. De plus, la gestion de la stochasticité dans le calcul de la hessienne peut affecter les performances de ces méthodes. Tatzel explique ensuite comment ces défis peuvent être relevés et donne un aperçu des concepts qui sous-tendent les différentes méthodes.

  • 00:25:00 Dans cette section, Lukas Tatzel explique l'optimisation de second ordre pour l'apprentissage en profondeur et les limites de la méthode de mise à jour de Newton. Il démontre le calcul de la dérivée seconde de la fonction par rapport à Tau, qui est une fonction quadratique à courbure constante Lambda. La courbure le long d'un vecteur propre est la valeur propre, et si la courbure est négative, le quadratique est illimité par le bas, ce qui rend la méthode de mise à jour de Newton sans signification. Pour résoudre ce problème, Tatzel introduit la matrice de Gauss-Newton généralisée (GGN), qui est une approximation positive semi-définie du hessien et peut lui servir de remplacement. Il dérive le GGN de la fonction de perte en appliquant la règle de changement à la répartition entre le vecteur de paramètres et les résultats du modèle.

  • 00:30:00 Dans cette section, Lukas Tatzel discute du concept d'optimisation de second ordre pour les modèles d'apprentissage en profondeur. Il explique la règle du produit et son fonctionnement, et comment calculer la dérivée d'une matrice tout en appliquant la règle de la chaîne. Tatzel parle ensuite du GGN, une matrice définie positive qui néglige la courbure du modèle, et du hessien, qui contient les dérivées secondes du modèle par rapport à Theta. Il compare le GGN et Hessian et montre que le GGN est défini positif et symétrique, ce qui en fait un outil utile pour l'optimisation dans les modèles d'apprentissage en profondeur.

  • 00:35:00 Dans cette section, Lukas Tatzel discute de la Hesse et de la manière dont elle détermine si l'algorithme GGN (Gauss-Newton généralisé) est positif semi-défini ou non. Pour toutes les fonctions de perte pertinentes, le hessien est semi-défini positif. Dans les cas où la fonction de perte est telle que la perte est calculée comme la norme au carré entre les sorties du modèle et la véritable étiquette, le hessien est un scalaire multiplié par la matrice d'identité, ce qui le rend défini positif. Lukas discute également de la matrice d'information de Fischer, qui peut être utilisée pour définir une étape GGN bien définie. Dans ce cas, l'algorithme GGN est la descente la plus raide dans l'espace de distribution, où l'espace des paramètres est mesuré par la distance entre deux distributions.

  • 00:40:00 Dans cette section, Lukas Tatzel explique le problème de la région de confiance dans l'optimisation de second ordre pour l'apprentissage en profondeur. Dans le cas convexe, il y a toujours un problème avec les modèles quadratiques arbitrairement mauvais, ce qui entraîne un besoin d'amortissement et limite la mise à jour de l'itération pour qu'elle se situe dans un certain rayon de confiance. En ajoutant l'identité des temps Delta à la matrice de courbure, un pas de Newton modifié est créé, et avec l'amortissement, il est possible de contrôler le degré de prudence des mises à jour. Lors du choix du rayon, il est plus facile de travailler avec l'amortissement directement en utilisant l'heuristique L-BFGS basée sur le rapport de réduction entre la diminution de perte attendue et réelle.

  • 00:45:00 Dans cette section de la vidéo, Lukas Tatzel explique comment traiter les fonctions objectives non convexes dans l'apprentissage en profondeur en calculant des matrices de courbure semi-définies positives telles que le ggn et la fissure. Il est possible d'interpréter ces matrices et d'en fournir des estimateurs sans biais sur des données finies. Les heuristiques d'amortissement, telles que le retour à la vie de Mark, peuvent être utilisées pour contrôler la façon dont les mises à jour conservatrices doivent être. Cependant, l'inversion de ces énormes matrices de courbure est un problème en raison des limitations de stockage. Pour résoudre ce problème, des idées d'algèbre numérique, telles que des approximations de rang inférieur, des méthodes itératives et des approximations structurées, peuvent être empruntées. Tatzel discute ensuite de l'idée centrale de BFGS, qui apprend progressivement une approximation de la Hesse inverse à partir des observations de gradient, dans le but de déduire des observations de gradient à quoi ressemblera la Hesse inverse.

  • 00:50:00 Dans cette section, Lukas Tatzel explique l'idée d'utiliser l'optimisation de second ordre pour l'apprentissage en profondeur. La dérivée seconde est obtenue en prenant une approximation par différence du gradient, et celle-ci est ensuite transférée au cas multidimensionnel à l'aide de l'équation sécante. Le but est d'approximer la Hesse inverse, de sorte que les propriétés de la Hesse inverse réelle sont prises et requises pour que l'approximation ait les mêmes propriétés. La mise à jour ne concerne que l'approximation précédente et les vecteurs SK et yk. L'approximation est stockée en utilisant une fenêtre fixe d'une certaine taille fixe l, et avec cela, une bonne estimation de courbure peut encore être obtenue.

  • 00:55:00 Dans cette section, Lukas Tatzel présente des méthodes d'optimisation de second ordre pour l'apprentissage en profondeur, en se concentrant spécifiquement sur l'approche sans Hessian. Cette approche utilise CG pour minimiser les fonctions quadratiques et ne nécessite que des produits matrice-vecteur, permettant un calcul efficace sans stocker explicitement la matrice de courbure. Le GGn est utilisé comme métrique de courbure, et en utilisant l'estimation de Monte Carlo, les matrices peuvent être calculées pour une paire entrée-sortie donnée. Pour multiplier efficacement le jacobien par un vecteur, l'idée centrale est de remplacer le produit vectoriel jacobien par une dérivée directionnelle. Cela permet un moyen efficace de calculer le produit sans construire explicitement les matrices.

  • 01:00:00 Dans cette section, le conférencier discute de l'optimisation de second ordre pour l'apprentissage en profondeur, en particulier l'optimisation Hessian-Free et les techniques KFC. L'optimisation Hessian-Free consiste à linéariser le modèle en rapprochant F à thêta plus Delta thêta par F de thêta plus le temps jacobien Delta thêta et en utilisant le produit vectoriel jacobien. Cependant, cette approche est numériquement instable, donc une approximation du produit vectoriel jacobien est utilisée à la place. D'autre part, KFC est une courbure approximative basée sur des métriques d'information officielles qui impliquent deux approximations: l'approximation bloc-diagonale et l'échange des opérations d'attente et de produits chroniques. La structure en diagonale par blocs rend l'inversion de la matrice triviale et l'approximation de l'espérance est raisonnable car il est difficile de calculer des produits chroniques sur deux vecteurs.

  • 01:05:00 Dans cette section, Lukas Tatzel discute de trois approches pour accéder et inverser la matrice de courbure, qui est utilisée dans l'optimisation de second ordre pour l'apprentissage en profondeur. La première méthode est BFGS et LBFGS, qui utilisent une approximation d'abaissement dynamique de la Hessienne et sont le choix par défaut pour les petits problèmes déterministes. La deuxième méthode est l'optimiseur sans hessian, qui est similaire aux étapes de Newton mais nécessite peu de mémoire et un travail plus séquentiel. Cependant, il a des problèmes avec les tailles de mini-lots plus grandes qui utilisent des couches de norme de lot. La dernière méthode est KFC, qui est une représentation légère des métriques d'information hessiennes et largement utilisée dans la quantification de l'incertitude. L'optimiseur K-Fik est recommandé lorsqu'il s'agit d'une mémoire limitée, car il est plus facile et plus rapide de stocker et d'inverser les plus petits composants du bloc que de faire la même chose avec la matrice entière.

  • 01:10:00 Dans cette section, Lukas Tatzel aborde la question de la stochasticité lors du calcul du pas de Newton, qui consiste à inverser le hessien et à l'appliquer au gradient. En raison du fait de n'avoir que des estimations de la Hesse et du gradient, même si elles ne sont pas biaisées, l'étape de Newton sera toujours biaisée. Tatzel fournit un exemple intuitif en 1D où l'espérance sur 1/H hat n'est pas la même que 1/H, montrant que même avec une estimation de la courbure, il y a encore une certaine incertitude lors de sa cartographie via la fonction d'inversion. Cela met en évidence le défi de gérer la stochasticité dans l'optimisation de second ordre pour l'apprentissage en profondeur.

  • 01:15:00 Dans cette section, l'orateur discute des biais et des instabilités qui peuvent survenir dans l'optimisation de second ordre pour l'apprentissage en profondeur. Lors de l'estimation de la courbure inverse, il est possible de générer des queues lourdes, qui se traduisent par une attente qui est déplacée au-dessus de la moyenne. Cela conduit à un pas de Newton global qui est trop grand dans l'attente. De plus, des biais et des instabilités peuvent être présents en raison d'estimations stochastiques ou par hasard lorsqu'un échantillon est proche de zéro. Ces problèmes peuvent être résolus en appliquant un amortissement, qui éloigne la distribution de zéro et atténue les biais et instabilités potentiels.

  • 01:20:00 Dans cette section, Lukas Tatzel discute des défis liés à l'utilisation de l'amortissement comme processus d'optimisation de boucle externe, qui traite toutes les directions de la même manière et peut ne pas être un moyen approprié de traiter la complexité du processus de formation. Il propose l'utilisation d'algorithmes spécialisés qui peuvent utiliser des quantités plus riches comme les distributions pour faire des mises à jour et note que le problème fondamental de la stochasticité reste non résolu. Dans l'ensemble, Tatzel suggère que les méthodes d'optimisation de second ordre telles que BFGS, LBFJS, l'optimiseur libre Heston et KFC offrent une solution partielle aux défis de l'apprentissage en profondeur, y compris la question du conditionnement de Hill.
 

Cours 13 -- L'incertitude dans l'apprentissage en profondeur -- Agustinus Kristiadi



Numerics of ML 13 -- Incertitude dans l'apprentissage en profondeur -- Agustinus Kristiadi

La vidéo traite de l'incertitude dans l'apprentissage en profondeur, en particulier dans les poids des réseaux de neurones, et de l'importance d'incorporer l'incertitude due au problème de l'excès de confiance asymptotique, où les réseaux de neurones donnent des prédictions de haute confiance pour les exemples hors distribution qui ne doivent pas être classés avec certitude. La vidéo fournit des informations sur la façon d'utiliser des quantités de second ordre, en particulier des estimations de courbure, pour obtenir une incertitude dans les réseaux neuronaux profonds, en utilisant une distribution gaussienne pour approximer les poids de la dernière couche et la matrice hessienne pour estimer la courbure du réseau neuronal. La vidéo traite également du formalisme bayésien et des approximations de LaPlace pour la sélection de modèles et de paramètres de réseaux de neurones.

Dans la deuxième partie de la conférence, Agustinus Kristiadi discute de différentes manières d'introduire l'incertitude dans les modèles d'apprentissage en profondeur dans cette vidéo. Une technique consiste à utiliser des approximations de Laplace linéarisées pour transformer un réseau de neurones en un modèle gaussien. Une autre approche est la formation hors distribution, où l'incertitude est ajoutée dans les régions qui ne sont pas couvertes par l'ensemble de formation d'origine. Kristiadi souligne l'importance d'ajouter de l'incertitude pour éviter une confiance excessive dans le modèle et suggère d'utiliser des mesures probabilistes pour éviter le coût de la recherche de la postérieure idéale. Ces techniques seront explorées plus en détail dans un prochain cours sur l'apprentissage automatique probabiliste.

  • 00:00:00 Dans cette section, l'orateur explique le sujet de la conférence, qui consiste à intégrer l'incertitude dans l'apprentissage automatique et à effectuer des calculs pour y parvenir. La conférence utilise les connaissances des conférences précédentes, en particulier dans la résolution d'intégrales et l'utilisation de l'apprentissage profond bayésien pour obtenir des incertitudes. L'orateur discute ensuite de l'importance des incertitudes dans les réseaux de neurones profonds et du problème de l'excès de confiance asymptotique, où le réseau de neurones donne des prédictions de haute confiance pour les exemples hors distribution qui ne devraient pas être classés avec une telle certitude. La conférence vise à fournir des informations sur la façon d'utiliser des quantités de second ordre, en particulier des estimations de courbure, pour obtenir de l'incertitude dans les réseaux de neurones profonds.

  • 00:05:00 Dans cette section, Agustinus Kristiadi discute de l'incertitude dans l'apprentissage en profondeur, en particulier dans les réseaux de classification qui utilisent les non-linéarités ReLU. Il présente une propriété fondamentale des classificateurs réels : si la couche logit est une combinaison linéaire des couches précédentes avec des non-linéarités ReLU, la sortie du réseau est toujours une fonction linéaire par morceaux, définie par la combinaison des couches précédentes. S'éloigner des données d'apprentissage dans cet espace conduit à une région où le classificateur a une entrée linéaire vers la sortie softmax, et avec une probabilité un, le gain pour chaque fonction de sortie linéaire diffère. Par conséquent, se déplacer suffisamment loin dans ces régions conduira à une confiance arbitrairement élevée pour une classe, ce qui peut être observé visuellement dans le tracé de trois caractéristiques de sortie linéaires en rouge.

  • 00:10:00 Dans cette section, Agustinus Kristiadi explique la propriété fondamentale des vrais classificateurs qui crée une grande confiance dans certaines classes, et pourquoi elle ne peut pas être corrigée simplement en réentraînant les poids. La solution consiste à ajouter de l'incertitude aux poids du réseau neuronal et pour ce faire, nous avons besoin d'une interprétation bayésienne du réseau neuronal, qui peut être obtenue en maximisant l'exponentielle de la fonction minimisée pendant la formation. Cela signifie que l'apprentissage en profondeur fait déjà de l'inférence bayésienne, mais seul le mode du postérieur est calculé, ce qui peut être problématique. Un paramètre courant pour les problèmes supervisés avec des sorties continues est le régularisateur quadratique de perte et de décroissance de poids, qui équivaut à mettre un a priori gaussien sur les poids et une vraisemblance gaussienne sur les données.

  • 00:15:00 Dans cette section, l'orateur discute de l'incertitude dans l'apprentissage en profondeur et de l'interprétation bayésienne des réseaux de neurones profonds. L'orateur note que la distribution a posteriori complète nécessaire pour les prédictions est insoluble. Bien que les approches de Monte Carlo soient théoriquement bien fondées, elles prennent du temps et peuvent désavantager ceux qui font l'inférence du patient. Ainsi, l'orateur plaide pour la manière la moins chère possible de faire des intégrales : la différenciation automatique couplée à l'algèbre linéaire. L'orateur partage le résultat surprenant selon lequel toute mesure approximative gaussienne, même sur les poids de la dernière couche du réseau, résout déjà partiellement le problème de l'excès de confiance, comme le démontre un théorème. L'orateur souligne que peu importe si la distribution de probabilité sur les poids est correcte, l'ajout de toute mesure de probabilité sur les poids peut résoudre le problème de confiance.

  • 00:20:00 Dans cette section, l'orateur explique comment une distribution gaussienne peut être appliquée aux poids de la dernière couche dans la couche de classification d'un réseau de neurones profonds pour résoudre le problème de l'incertitude dans la classification. L'orateur suppose que toute covariance de la distribution gaussienne peut être utilisée car cela n'a pas d'importance, et la moyenne de la distribution est donnée par les poids entraînés du réseau neuronal profond. L'orateur utilise ensuite la distribution gaussienne pour résoudre le problème de la diapositive précédente en se rapprochant de l'intégrale du soft Max sur F de thêta à l'étoile X. L'approximation de David Makai est utilisée pour calculer le soft Max sur la variable dérivée qui a la prédiction moyenne de la sortie que le réseau aurait autrement. Les lignes bleues de la visualisation représentant cette approximation sont délimitées par un, ce qui fournit une solution à l'incertitude de la classification.

  • 00:25:00 Dans cette section, Agustinus Kristiadi discute de l'importance de l'incertitude dans l'apprentissage en profondeur, en particulier en ce qui concerne le poids des réseaux de neurones. Il soutient qu'il est crucial de tenir compte du fait que nous ne connaissons pas tout à fait les poids et d'éviter de supposer que nous savons quelque chose si nous ne le savons pas, car cela peut créer des problèmes. Des approximations mathématiques telles que la linéarisation et l'utilisation d'une distribution gaussienne sur les poids peuvent être faites, et il a été prouvé que tant que nous sommes un tant soit peu incertains, tout ira bien. Le choix de Sigma peut être fait avec une différenciation automatique avec des estimations de courbure, qui est la méthode la plus rapide et la moins chère.

  • 00:30:00 Dans cette section, Agustinus Kristiadi explique comment nous pouvons utiliser la matrice hessienne pour former une approximation gaussienne après avoir trouvé le mode de la fonction de perte par apprentissage en profondeur. La matrice hessienne, qui contient la dérivée du second ordre de la fonction de perte, est utilisée pour construire des approximations. Bien que l'approximation gaussienne soit locale et non parfaite, elle est totalement analytique, ce qui en fait une approximation favorable. Pour utiliser cette approximation, nous avons besoin d'un réseau de neurones formé, et une fois le réseau formé, nous pouvons obtenir le Hessian à ce stade en utilisant AutoDiff, qui est un processus de forme fermée qui fonctionne tout simplement.

  • 00:35:00 Dans cette section, l'orateur discute du concept d'incertitude dans l'apprentissage en profondeur et comment l'évaluer à l'aide de la matrice hessienne. La matrice hessienne peut être calculée après la formation du réseau neuronal profond et fournit un moyen d'estimer l'incertitude sans ajouter de coût au commerce du réseau. L'orateur note également que cette approche permet de conserver l'estimation ponctuelle, ce qui peut être utile pour des applications pratiques. Cependant, il y a des inconvénients tels que le Hessian étant coûteux à calculer, et des approximations sont nécessaires pour le rendre gérable. La matrice de Gauss-Newton généralisée est une telle approximation qui peut être utilisée dans la pratique.

  • 00:40:00 Dans cette section, Agustinus Kristiadi discute de l'incertitude dans l'apprentissage en profondeur et de la manière dont le Gauss-Newton Hessian (GNG) peut être utilisé pour estimer la courbure d'un réseau de neurones. Il explique que le GNG est semi-défini positif et a une bonne connexion avec la linéarisation, ce qui peut donner un modèle traitable lorsqu'il est combiné avec l'approximation de Laplace. Ce modèle peut être utilisé pour la régression et produit un processus gaussien avec sa fonction moyenne donnée par la sortie du réseau neuronal.

  • 00:45:00 Dans cette section, le conférencier discute de l'incertitude dans l'apprentissage en profondeur, en particulier dans les réseaux de neurones. Ils notent que la fonction de variance centrale est donnée en trouvant le mode de la fonction de perte dans le jacobien du réseau, en prenant le produit scalaire avec l'inverse de la hessienne. L'orateur mentionne que ce processus peut être utilisé pour la classification sous la forme d'une simple approximation développée par David Pinkai. Le processus implique de définir la fonction de perte, de calculer le hessien de la fonction de perte et le jacobien du réseau formé par rapport aux poids. Enfin, la combinaison des deux dans un produit donne une fonction prédictive pour f de x star qui est toujours non linéaire en x mais linéaire dans l'espace des poids. L'intervenant souligne que ce processus peut aider à éviter l'excès de confiance, notamment en cas de classification.

  • 00:50:00 Dans cette section, Agustinus Kristiadi discute du formalisme bayésien et de son utilité dans l'apprentissage en profondeur. En linéarisant le réseau dans ses poids et en utilisant l'approximation de Laplace, nous pouvons réduire l'intégrale intraitable sur la postérieure à une forme simplifiée de la postérieure et de la fonction de perte. Ce processus peut nous fournir une mesure de l'adéquation de notre modèle aux données, ce qui est utile pour adapter les paramètres ou les aspects du modèle. En calculant les preuves des données, nous pouvons choisir le modèle qui a les preuves les plus élevées et choisir celui qui est le plus proche des données.

  • 00:55:00 Dans cette section, l'orateur explique comment utiliser les approximations de LaPlace pour sélectionner des modèles et des paramètres d'un réseau de neurones. L'orateur explique que la Hessienne dépend de la forme de la fonction de perte et qu'au fur et à mesure que vous ajoutez des couches, la fonction de perte peut devenir plus étroite, conduisant à un meilleur ajustement. L'orateur montre un graphique qui démontre qu'environ deux à quatre couches est probablement le meilleur choix. L'orateur explique également comment le facteur d'Occam n'est pas aussi simple que pour les processus gaussiens puisque le hessien a un effet non trivial sur la façon dont le modèle peut expliquer les données. L'orateur montre ensuite une visualisation d'un réseau neuronal profond avec approximation de LaPlace de linéarisation pour un problème de classification et explique comment vous pouvez utiliser un paramètre de précision a priori pour affecter la confiance du modèle. Enfin, l'orateur explique comment les approximations de LaPlace peuvent être utilisées pour sélectionner des choix discrets comme le nombre de couches ou un paramètre comme la position antérieure en utilisant la descente de gradient.

  • 01:00:00 Dans cette section, l'orateur discute de l'incertitude dans l'apprentissage en profondeur et de la manière dont elle peut être traitée à l'aide d'approximations de Laplace linéarisées. Cette méthode consiste à utiliser une approche probabiliste pour déterminer la position préalable des couches lors de la sélection du nombre de couches d'un réseau. Cependant, bien que ce processus fonctionne bien pour sélectionner une position précédente, il peut ne pas fonctionner aussi bien pour d'autres tâches, telles que le choix du nombre de couches. L'orateur poursuit ensuite en discutant de l'approximation de Laplace linéarisée et de la manière dont elle peut être utilisée comme outil de boîte noire pour transformer un réseau neuronal profond en un modèle gaussien pour faire face à l'incertitude. Enfin, l'orateur discute d'un moyen de résoudre le problème avec des modèles n'ayant pas d'incertitude sur leurs poids, ce qui implique d'ajouter une solution simple au réseau.

  • 01:05:00 Dans cette section, Agustinus Kristiadi aborde la question de l'ajout d'un nombre illimité de poids pour tenir compte de la complexité infinie des données dans les réseaux de neurones profonds. Il explique que l'ajout d'un nombre infini de fonctionnalités résoudrait le problème et montre comment le suivi du nombre infini de fonctionnalités ne doit pas être une tâche coûteuse. Asymptotiquement, l'incertitude devient l'entropie maximale Thing 1 sur C, sans ajouter plus de complexité au modèle.

  • 01:10:00 Dans cette section, l'orateur explique comment l'incertitude peut être ajoutée à l'apprentissage en profondeur pour améliorer les prédictions, en particulier dans les domaines où il y a peu de données de formation ou il y a des entrées contradictoires. L'approche consiste à former la moyenne du réseau, puis à ajouter des unités qui ne modifient pas la prédiction ponctuelle mais ajoutent une incertitude, qui peut être déplacée et mise à l'échelle. Cette technique est appelée formation hors distribution et peut être réalisée à l'aide d'une échelle de longueur basée sur l'étendue des données pour définir un processus gaussien approximatif. Le coût de l'ajout d'incertitude est négligeable, et cela n'ajoute qu'un filet de sécurité qui réduit la confiance si les données sont éloignées des données d'apprentissage.

  • 01:15:00 Dans cette section, l'orateur explique comment introduire l'incertitude dans un modèle d'apprentissage en profondeur. Pour ce faire, vous pouvez notamment effectuer une formation hors distribution, dans laquelle un nouvel ensemble de données est créé avec des images ne contenant pas les objets utilisés dans l'ensemble d'apprentissage d'origine. Le réseau est ensuite formé pour être incertain dans ces régions. En définissant une fonction de perte qui inclut la perte hors distribution, le hessien de l'estimation de courbure de la fonction de perte où le mode de perte est trouvé peut être ajusté pour produire la quantité d'incertitude souhaitée. L'orateur note également que l'introduction d'incertitude est importante dans l'apprentissage en profondeur car elle peut aider à prévenir les pathologies et l'excès de confiance dans le modèle.

  • 01:20:00 Dans cette section, l'orateur discute du concept d'ajout d'incertitude à un classificateur sans changer sa structure fondamentale. La linéarisation du réseau dans l'espace des poids peut permettre que cela se produise, et en calculant le jacobien et le hessien de la fonction de perte, nous pouvons transformer un réseau neuronal profond en un processus gaussien. L'ajout de fonctionnalités au réseau telles que la confiance calibrée asymptotique peut être fait avec cette technique. L'orateur souligne l'importance de la formation probabiliste et l'utilisation de mesures de probabilité dans l'apprentissage automatique sans avoir besoin d'un suivi postérieur complet. Cette approche peut résoudre des problèmes tels que l'excès de confiance tout en évitant le coût de la recherche du postérieur idéal. Enfin, le conférencier suggère que l'utilisation de ces techniques sera explorée plus avant dans le cours à venir sur l'apprentissage automatique probabiliste.
 

Cours 14 -- Conclusion -- Philipp Hennig



Numériques de ML 14 -- Conclusion -- Philipp Hennig

Philipp Hennig donne un résumé du cours "Numerics of Machine Learning", en insistant sur l'importance de résoudre des problèmes mathématiques en apprentissage automatique liés à l'analyse numérique, tels que l'intégration, l'optimisation, les équations différentielles et l'algèbre linéaire. Il discute de la complexité de l'exécution de l'algèbre linéaire sur un ensemble de données et de son lien avec l'unité de traitement et le disque. Hennig couvre également des sujets tels que la gestion d'ensembles de données de tailles non triviales, les algorithmes de résolution de systèmes linéaires, la résolution d'équations aux dérivées partielles et l'estimation d'intégrales. Il conclut en reconnaissant la difficulté de former des réseaux de neurones profonds et le besoin de solutions pour surmonter le problème de stochasticité.

Dans la conclusion de sa série de conférences, Philipp Hennig souligne l'importance d'aller au-delà de la simple formation de modèles d'apprentissage automatique et de savoir ce que le modèle sait et ce qu'il ne sait pas. Il parle de l'estimation de la courbure de la fonction de perte pour construire des estimations d'incertitude pour les réseaux de neurones profonds et de l'importance d'être probabiliste mais pas nécessairement d'appliquer le théorème de Bayes dans tous les cas en raison de la complexité des calculs. Hennig souligne également l'importance du calcul numérique dans l'apprentissage automatique et la nécessité de développer de nouvelles méthodes de calcul centrées sur les données. Enfin, il sollicite des commentaires sur le cours et discute de l'examen à venir.

  • 00:00:00 Dans cette section, Philipp Hennig fournit un résumé de l'ensemble du cours Numerics of Machine Learning, qu'il considère comme crucial en raison de la variation du contenu des différents conférenciers. Il explique que l'apprentissage automatique consiste essentiellement à résoudre des problèmes mathématiques qui n'ont pas de solutions fermées, contrairement à l'IA classique, qui implique des algorithmes. Les problèmes d'apprentissage automatique sont liés à l'analyse numérique et comprennent l'intégration, l'optimisation, les équations différentielles et l'algèbre linéaire. Hennig souligne l'importance de comprendre la complexité de faire de l'algèbre linéaire sur un ensemble de données et comment cela est pertinent pour l'unité de traitement et le disque.

  • 00:05:00 Dans cette section, Philipp Hennig discute du rôle de l'algèbre linéaire dans l'apprentissage automatique et plus particulièrement dans la régression du processus gaussien. Il explique que pour apprendre une distribution prédictive, qui a une moyenne et une covariance, nous devons résoudre un système linéaire d'équations impliquant l'inversion d'une matrice fois un vecteur. Il existe de nombreux algorithmes pour résoudre de tels systèmes linéaires, y compris l'algorithme classique appelé décomposition de Cholesky, qui peut être considéré comme une procédure itérative construisant l'inverse de la matrice. Hennig note que cette approximation peut être utilisée comme estimation de l'inverse de la matrice, mais sa qualité peut varier en fonction de l'ordre des données.

  • 00:10:00 Dans cette section, Philipp Hennig explique à quel point il est linéairement coûteux de parcourir un ensemble de données dans un ordre aléatoire et d'en charger des parties à partir du disque tout en ignorant le reste. Il compare cette méthode à ce que les élèves apprennent dans le cadre d'un cours d'apprentissage automatique probabiliste, qui consiste à résoudre deux problèmes d'optimisation linéaire différents pour résoudre une équation. Il souligne également qu'il existe des incertitudes finies qui surviennent, ce qui entraîne deux sources d'incertitude, y compris l'ensemble de données fini et les calculs limités, qui ne donnent pas la solution complète.

  • 00:15:00 Dans cette section de la vidéo, Philipp Hennig explique la complexité de la résolution de problèmes linéaires dans la régression du processus gaussien d'influence bayésienne. Le niveau de dépenses dans le cas de base est beaucoup plus subtil que ce que la plupart des gens auraient pu apprendre. Les quatre principaux points à retenir sont que vous pouvez choisir de ne pas regarder l'ensemble des données, vous pouvez utiliser un algorithme de type Cholesky qui donne une estimation du coût linéaire dans l'ensemble de données et quadratiquement dans le nombre d'itérations, vous pouvez utiliser un algorithme plus efficace qui converge rapidement mais coûte quadratiquement cher à chaque itération, ou vous pouvez opter pour Cholesky, qui génère une dépense cubique en nombre de points de données.

  • 00:20:00 Dans cette section, Hennig discute de l'importance de gérer correctement des ensembles de données de tailles non triviales et de la décision de les utiliser efficacement. Il poursuit également en expliquant comment gérer des ensembles de données de dimension infinie, en particulier en ce qui concerne les systèmes qui évoluent dans le temps, ainsi que l'algorithme utilisé pour les problèmes linéaires dépendant du temps et invariants dans le temps, connus sous le nom de filtrage et lissage de Kalman. Hennig souligne que ce type d'algorithme est à la fois facile à écrire et linéairement coûteux en nombre de pas de temps. Il souligne également l'importance de comprendre les niveaux inférieurs de la hiérarchie de calcul, car ils peuvent être utilisés pour accélérer les performances des algorithmes de niveau supérieur.

  • 00:25:00 Dans cette section de la vidéo, Philipp Hennig discute de l'algorithme plus lisse, qui sert d'algorithme de comptabilité qui informe toutes les variables précédentes de la chaîne des observations qu'il a faites à l'avenir. Il parle également de la rapidité avec laquelle les algorithmes peuvent être appliqués à des paramètres où les observations ne sont pas une transformation gaussienne linéaire de l'espace d'état, et pour la dynamique du filtre de Kalman étendu. Hennig aborde également les paysages algorithmiques et la structure de ce cadre, qui est très flexible et peut être utilisé pour construire un algorithme puissant pour résoudre des équations différentielles.

  • 00:30:00 Dans cette section, Philipp Hennig explique comment les équations implicites algébriques, les symétries de groupe continues et les équations aux dérivées partielles peuvent toutes être incluses dans le même langage algorithmique que les équations différentielles ordinaires dans l'apprentissage automatique. Il mentionne également l'intérêt d'incorporer des observations d'un système, comme mesurer le chemin qu'il a emprunté ou savoir où il a commencé et s'est terminé, pour déterminer des valeurs inconnues dans certaines parties de l'espace d'états. Hennig note qu'à mesure que les packages de simulation se diversifient, il devient moins nécessaire d'avoir une connaissance approfondie des méthodes de simulation, car la méthode de simulation peut essentiellement être considérée comme un filtre.

  • 00:35:00 Dans cette section de la vidéo, Philipp Hennig explique comment les méthodes d'apprentissage automatique gèrent les informations et déclare qu'il n'y a pas vraiment de différence entre les informations provenant d'un disque ou d'un capteur connecté à l'ordinateur, et les informations qui proviennent du programmeur qui les a écrites sous forme d'équation algébrique. Il mentionne également que l'opérateur d'information agit comme une interface entre l'utilisateur et le concepteur de l'algorithme. Il explique également comment résoudre des équations aux dérivées partielles, ce qui est essentiellement la même chose que les méthodes de simulation de filtrage, en utilisant la régression de processus gaussien. Cependant, il note que si l'équation aux dérivées partielles n'est pas linéaire, elle ne peut pas être résolue à l'aide d'un filtre.

  • 00:40:00 Dans cette section, Philipp Hennig résume la conclusion de la série "Numerics of ML", qui couvre les équations différentielles et l'intégration dans l'apprentissage automatique. Il parle d'abord de l'inférence de processus gaussien avec des fonctions, qui peut être complexe en raison de la nature des espaces de fonctions. Cependant, en observant des fonctions non linéaires et en appliquant diverses sources d'informations, telles que des équations aux dérivées partielles et des valeurs limites, elles peuvent être combinées dans un grand schéma d'inférence de processus gaussien, résultant en une représentation quantifiée du système dynamique. Hennig passe ensuite à l'intégration dans l'inférence probabiliste, où il introduit l'algorithme de Monte Carlo, qui est un estimateur sans biais qui converge lentement, mais fonctionne sur n'importe quelle fonction intégrable.

  • 00:45:00 Dans cette section, Philipp Hennig discute des meilleures approches pour estimer les intégrales pour l'apprentissage automatique. Il suggère que la vitesse à laquelle une estimation de l'intégrale converge vers la vraie valeur de l'intégrale est de 1 sur la racine carrée du nombre d'échantillons, qui dépend de l'algorithme utilisé. Cependant, la quadrature bayésienne, un algorithme qui passe beaucoup de temps à modéliser l'intégrande, peut très bien fonctionner, en particulier dans les problèmes de faible dimension, et peut converger beaucoup plus rapidement que Monte Carlo, même de manière super polynomiale. Hennig suggère que la construction d'algorithmes qui ne fonctionnent bien que pour une petite classe de problèmes peut mieux fonctionner pour chaque instance de ce problème, mais peut mal fonctionner en dehors de cette classe. En fin de compte, le meilleur algorithme dépendra de la nature du problème à résoudre.

  • 00:50:00 Dans cette section, Philipp Hennig explore les défis des problèmes numériques contemporains d'apprentissage automatique, en particulier la question de la formation de réseaux de neurones profonds. Bien qu'il existe de nombreux optimiseurs disponibles, ils sont fondamentalement frustrants et inefficaces, nécessitant une surveillance constante et un réglage des hyperparamètres, et ne fonctionnent pas toujours. Alors que l'optimisation consistait autrefois à appuyer sur un bouton et à regarder l'algorithme fonctionner parfaitement, l'apprentissage automatique nécessite désormais une équipe de plus de 100 personnes pour gérer de grands modèles de langage, ce qui en fait une utilisation inefficace des ressources. Le principal problème est la stochasticité, et il n'existe pas encore de solution élégante connue à ce problème, même s'il anime l'ensemble de la communauté d'apprentissage automatique.

  • 00:55:00 Dans cette section, Philipp Hennig conclut le cours magistral sur l'incertitude dans le calcul en insistant sur la difficulté de former des réseaux de neurones profonds. Bien que les gradients de mini-lots soient évalués en raison de données et de calculs finis, le bruit important introduit par ce processus réduit en fait les performances des algorithmes d'optimisation. Hennig déclare que la solution à ce problème rendrait la formation des réseaux de neurones profonds beaucoup plus rapide et changerait l'avenir de l'apprentissage automatique. En attendant, nous pouvons toujours utiliser les ressources disponibles, comme les estimations de courbure, pour construire de nouveaux algorithmes et techniques.

  • 01:00:00 Dans cette section, Philipp Hennig discute de la nécessité de faire plus que simplement former des réseaux doubles dans l'apprentissage automatique, et de l'importance de savoir ce que le modèle sait et ce qu'il ne sait pas. Hennig explique que l'estimation de la courbure de la fonction de perte peut aider à construire des estimations d'incertitude pour les réseaux de neurones profonds de manière légère, en utilisant l'approximation de Laplace. Cela peut être utilisé pour différents cas d'utilisation et peut se combiner avec une linéarisation de l'espace de pondération du réseau pour transformer approximativement n'importe quel réseau neuronal profond en un algorithme de régression gaussien paramétrique de processus gaussien. Hennig souligne que s'il est important d'être probabiliste, il n'est pas nécessaire d'appliquer le théorème de Bayes dans tous les cas, car il peut être trop gourmand en calculs. Au lieu de cela, trouver des solutions rapides qui ajoutent de la valeur sans être trop coûteux en calcul est une meilleure approche.

  • 01:05:00 Dans cette section, Philipp Hennig souligne l'importance du calcul numérique dans l'apprentissage automatique. Il explique que les calculs numériques sont des agents actifs qui interagissent avec une source de données et doivent décider activement comment utiliser les données qu'ils reçoivent. En prenant cette connexion au sérieux, de nouvelles méthodes de calcul centrées sur les données peuvent être développées, qui peuvent être plus flexibles, plus faciles à utiliser et plus faciles à généraliser à différents paramètres. Hennig souligne également l'importance de comprendre le fonctionnement des algorithmes numériques pour devenir un meilleur ingénieur en apprentissage automatique. Enfin, il sollicite des commentaires sur le cours et discute de l'examen à venir.
 

Support Vector Machine (SVM) en 7 minutes - Fun Machine Learning



Support Vector Machine (SVM) en 7 minutes - Fun Machine Learning

La vidéo explique les machines à vecteurs de support (SVM), un algorithme de classification utilisé pour les ensembles de données à deux classes qui dessine une limite de décision, ou hyperplan, basée sur les extrêmes de l'ensemble de données. Il explique également comment SVM peut être utilisé pour des ensembles de données non linéairement séparables en les transformant en espaces de caractéristiques de dimension supérieure à l'aide d'une astuce du noyau. La vidéo identifie les avantages de SVM tels que l'efficacité dans les espaces de grande dimension, l'efficacité de la mémoire et la possibilité d'utiliser différents noyaux pour des fonctions personnalisées. Cependant, la vidéo identifie également les inconvénients de l'algorithme, tels que les mauvaises performances lorsque le nombre de caractéristiques est supérieur au nombre d'échantillons et le manque d'estimations de probabilité directes, qui nécessitent une validation croisée coûteuse.

  • 00:00:00 Dans cette section, nous découvrons les machines à vecteurs de support (SVM) et comment elles peuvent être utilisées pour classer des ensembles de données avec deux classes. L'algorithme SVM examine les extrêmes des ensembles de données et dessine une limite de décision ou un hyperplan près des points extrêmes de l'ensemble de données. Essentiellement, l'algorithme de la machine à vecteurs de support est une frontière qui sépare le mieux les deux classes. Nous découvrons ensuite les ensembles de données non linéairement séparables et comment les SVM peuvent les transformer en espaces de fonctionnalités de dimension supérieure avec une astuce du noyau. Les types de noyau populaires incluent le noyau polynomial, le noyau de fonction de base radiale (RBF) et le noyau sigmoïde. Cependant, choisir le bon noyau est une tâche non triviale et peut dépendre de la tâche spécifique à accomplir.

  • 00:05:00 Dans cette section, les avantages et les inconvénients des machines à vecteurs de support (SVM) sont discutés. Le SVM est efficace dans les espaces de grande dimension et utilise un sous-ensemble de points d'apprentissage dans la fonction de décision, ce qui le rend efficace en termes de mémoire. Différents noyaux peuvent être spécifiés pour la fonction de décision, y compris des noyaux personnalisés, et SVM peut être utilisé dans diverses applications, telles que l'imagerie médicale, l'industrie financière et la reconnaissance de formes. Cependant, les inconvénients de SVM incluent des performances médiocres si le nombre de caractéristiques est supérieur au nombre d'échantillons et le manque d'estimations de probabilité directes, qui nécessitent une validation croisée coûteuse.
 

'La révolution de l'apprentissage en profondeur' - Geoffrey Hinton - Conférence du président RSE 2019



'La révolution de l'apprentissage en profondeur' - Geoffrey Hinton - Conférence du président RSE 2019

Geoffrey Hinton, connu sous le nom de "Parrain de l'apprentissage en profondeur", discute de l'histoire et de l'évolution de l'apprentissage en profondeur et des réseaux de neurones, des défis et des possibilités passionnantes de l'utilisation de l'apprentissage en profondeur pour créer des machines capables d'apprendre de la même manière que les cerveaux humains, et de la astuces et techniques qui ont rendu la rétropropagation plus efficace. Il décrit également le succès des réseaux de neurones dans la reconnaissance vocale et la vision par ordinateur, l'évolution des réseaux de neurones pour la vision par ordinateur et la pré-formation non supervisée, et leur efficacité dans la modélisation du langage et la traduction automatique. Il termine en soulignant la valeur du raisonnement par analogie et discute de sa théorie des "capsules" et du câblage des connaissances dans un modèle qui prédit des parties à partir du tout.

Geoffrey Hinton, un pionnier de l'apprentissage en profondeur, donne une conférence prônant l'intégration des mémoires associatives, des mémoires rapides et des échelles de temps multiples dans les réseaux de neurones pour permettre une connaissance à long terme et un stockage temporaire, ce qui est nécessaire pour un vrai raisonnement. De plus, il discute de l'équilibre entre les croyances et les données antérieures, le potentiel d'apprentissage non supervisé, l'efficacité des réseaux convolutifs dans la reconnaissance des objets avec l'incorporation de la connaissance du point de vue et de l'équivariance traductionnelle, et la nécessité de combiner le raisonnement symbolique avec les réseaux connexionnistes, comme le transformateur. réseaux. Il aborde également la question des biais inconscients dans l'apprentissage automatique et pense qu'ils peuvent être corrigés plus facilement que les biais humains en identifiant et en corrigeant les biais. Enfin, il souligne la nécessité de davantage de financement et de soutien pour les jeunes chercheurs dans le domaine de l'IA.

  • 00:00:00 Si vous êtes familier avec l'apprentissage en profondeur, vous devez beaucoup au professeur Geoffrey Hinton, surnommé le "parrain de l'apprentissage en profondeur", qui a obtenu son doctorat en intelligence artificielle à Édimbourg en 1978 et a remporté de nombreux prix pour ses contributions à l'apprentissage automatique. Dans la première partie de sa conférence, il aborde l'histoire de l'apprentissage en profondeur et des réseaux de neurones, et comment ils ont évolué au fil des ans. Il parle également des défis et des possibilités passionnantes d'utiliser l'apprentissage en profondeur pour créer des machines capables d'apprendre de la même manière que les cerveaux humains.

  • 00:05:00 Dans cette section, Geoffrey Hinton parle des deux paradigmes de l'intelligence artificielle qui existaient depuis le début des années 1950. L'une était l'approche inspirée de la logique qui considérait l'intelligence comme la manipulation d'expressions symboliques à l'aide de règles symboliques. L'autre approche, en revanche, croyait que l'essence de l'intelligence était d'apprendre les forces des connexions dans un réseau de neurones. Cette approche se concentrait davantage sur l'apprentissage et la perception, par rapport à l'accent mis par l'autre approche sur le raisonnement. Ces différentes approches ont conduit à des visions différentes des représentations internes et des manières correspondantes de faire en sorte qu'un ordinateur fasse ce que vous voulez. Hinton compare la méthode de conception intelligente à la stratégie de formation ou d'apprentissage, qui consiste à montrer à un ordinateur de nombreux exemples.

  • 00:10:00 Dans cette section de la vidéo, Geoffrey Hinton explique comment la révolution de l'apprentissage en profondeur est née, qui a commencé par la formation de réseaux de neurones pour apprendre des fonctionnalités complexes via de nombreuses couches. Des neurones idéalisés sont utilisés, qui modélisent des fonctions linéaires et non linéaires. Pendant ce temps, les réseaux de formation ont différentes méthodes, y compris la formation supervisée et non supervisée, la rétropropagation étant l'algorithme le plus efficace de ce dernier. Enfin, il souligne comment l'apprentissage en profondeur consiste à perturber le réseau pour mesurer l'effet, puis à modifier le réseau si nécessaire, ce qui est bien plus efficace que l'approche évolutive consistant à perturber face à des variables inconnues.

  • 00:15:00 Dans cette section de la conférence, le Dr Hinton discute de la technique d'optimisation de la rétropropagation, qui calcule le gradient des poids en fonction de l'écart entre la réponse réelle et la réponse correcte pour un petit lot d'exemples de formation. Il explique le processus de mise à jour des poids en fonction du gradient et l'utilisation de la descente de gradient stochastique pour optimiser le processus. Le Dr Hinton poursuit ensuite en discutant des astuces et des techniques qui ont rendu la rétropropagation plus efficace, y compris l'utilisation de l'élan et des taux d'apprentissage plus faibles pour les gradients plus grands, concluant finalement que l'utilisation de ces astuces est aussi bonne que n'importe quoi malgré des centaines d'articles de journaux publiés. sur des méthodes plus sophistiquées. Enfin, il note que dans les années 1990, le manque de techniques d'initialisation appropriées pour les réseaux de neurones et les ensembles de données de plus petite taille a conduit à l'abandon temporaire des réseaux de neurones dans la communauté de l'apprentissage automatique.

  • 00:20:00 Dans cette section, Geoffrey Hinton, figure de proue de l'apprentissage en profondeur, revient sur l'histoire de la recherche en apprentissage en profondeur et sur les défis auxquels sont confrontés les chercheurs dans ce domaine. Il décrit comment, au début de la rétropropagation, de nombreux articles ont été rejetés ou critiqués parce qu'ils se concentraient sur l'apprentissage non supervisé, ce qui ne correspondait pas au paradigme dominant de la vision par ordinateur. Cependant, Hinton soutient que l'apprentissage non supervisé, en combinaison avec des techniques comme l'abandon, a été un facteur clé pour faire fonctionner la rétro-propagation pour les réseaux profonds, et a depuis contribué à révolutionner le domaine de l'apprentissage en profondeur.

  • 00:25:00 Dans cette section, Hinton explique le succès des réseaux de neurones dans la reconnaissance vocale et la vision par ordinateur. La première grande application de l'apprentissage en profondeur a été la reconnaissance vocale, dans laquelle un frontal effectue une modélisation acoustique en prenant le cadre central d'un spectrogramme et en identifiant le phonème qu'une personne essaie d'exprimer. La première application commercialement pertinente de l'apprentissage en profondeur à grande échelle a été la reconnaissance vocale, où un réseau neuronal frontal a surpassé les techniques hautement optimisées d'IBM et d'autres endroits. Un autre événement important a été le concours ImageNet en 2012, où un réseau de neurones profonds a atteint des taux d'erreur nettement inférieurs aux techniques de vision par ordinateur traditionnelles.

  • 00:30:00 Dans cette section, le professeur Geoffrey Hinton discute de l'évolution des réseaux de neurones pour la vision par ordinateur, la traduction automatique et la pré-formation non supervisée, et comment la communauté de la vision par ordinateur était sceptique au début quant au succès de ces réseaux de neurones. Il poursuit en discutant de l'attention douce et des transformateurs, et comment ce dernier est mieux adapté aux covariances, le rendant plus sensible à des choses comme les yeux identiques les uns aux autres, et comment une pré-formation non supervisée peut forcer les réseaux de neurones à capturer des informations sur ce que les mots autour d'un mot peuvent vous dire sur ce que ce mot doit signifier.

  • 00:35:00 Dans cette section, Hinton explique la différence entre l'utilisation de réseaux de neurones convolutifs et de transformateurs pour des tâches de traitement du langage naturel telles que la désambiguïsation du sens des mots en fonction du contexte. Alors que les réseaux neuronaux convolutifs utilisent les mots autour du mot cible pour changer sa représentation, les transformateurs entraînent un réseau par des dérivés de back-ravin pour apprendre à transformer un vecteur de mot en une requête, une clé et une valeur, qui est utilisée pour s'occuper d'autres mots et activer la représentation correspondante. Les transformateurs se sont avérés très efficaces dans la modélisation du langage et la traduction automatique et ont été utilisés pour développer des méthodes telles que Burt, qui utilise l'apprentissage non supervisé pour apprendre les incorporations de mots grâce à la probabilité du prochain fragment de mot.

  • 00:40:00 Dans cette section de la conférence, Hinton discute d'une expérience appelée "GPT-2" qui peut générer un texte qui semble avoir été écrit par un humain. Le modèle GPT-2, qui contient un milliard et demi de paramètres, a été formé sur des milliards de mots de texte et peut produire des histoires cohérentes et intelligibles. Hinton suppose que ce type de raisonnement n'est pas un raisonnement basé sur la logique proprement dit, mais plutôt un raisonnement intuitif. Il souligne également qu'il est difficile de savoir ce que le modèle comprend vraiment, et il se demande si le modèle fait juste des quantités massives d'associations ou s'il comprend un peu plus que cela.

  • 00:45:00 Dans cette section, Geoffrey Hinton met en évidence la valeur du raisonnement par analogie et son rôle dans l'amélioration des capacités de raisonnement. Il compare le raisonnement séquentiel au raisonnement par intuition dans le contexte du jeu AlphaGo, expliquant que l'intuition et le raisonnement logique sont nécessaires pour prendre des décisions éclairées. Hinton explique également comment les réseaux neuronaux convolutifs ont amélioré l'efficacité mais ne parviennent pas à reconnaître les objets de la même manière que les humains, ce qui conduit à la conclusion que les humains utilisent des cadres de coordonnées et comprennent les relations entre les parties et l'ensemble d'un objet pour le reconnaître. Cela met en évidence la nécessité de mieux comprendre l'architecture des réseaux neuronaux pour améliorer la façon dont ils reconnaissent les objets.

  • 00:50:00 Dans cette section, Hinton utilise une tâche pour illustrer la dépendance de la compréhension spatiale sur les cadres de coordonnées. Il présente un cube filaire et demande au spectateur de pointer où se trouvent les coins sans utiliser de cadre de coordonnées, révélant que les gens ont tendance à penser aux cubes par rapport à leur système de coordonnées. Hinton discute ensuite de sa théorie des "capsules", qui regroupe les neurones qui apprennent à représenter des fragments de formes, et impose un cadre de coordonnées à chaque fragment pour capturer la géométrie intrinsèque. Il prévoit de former ces capsules sans supervision pour capturer la connaissance de la forme.

  • 00:55:00 Dans cette section, Hinton discute du câblage des connaissances dans un modèle qui prédit les parties du tout. Le modèle est formé par un transformateur qui examine les parties déjà extraites, prend ces parties et essaie de prédire quels ensembles expliqueraient ces parties. Le transformateur est bon pour trouver des corrélations entre les choses et peut prédire quels objets pourraient être là et quelles sont leurs poses. Hinton donne un exemple où le modèle apprend les carrés et les triangles et peut ensuite les reconnaître dans de nouvelles images. Le modèle peut également être entraîné à reconnaître les numéros de maison sans jamais voir d'étiquettes.

  • 01:00:00 Dans cette section, nous découvrons le potentiel de l'apprentissage non supervisé et les différents types de neurones qui pourraient mieux fonctionner que la non-linéarité scalaire actuellement utilisée. Le conférencier exhorte les étudiants à ne pas croire tout ce qu'ils entendent et encourage la réorientation de 50 ans de connaissances acquises vers la recherche de la manière d'obtenir le bon substrat pour effectuer un traitement spécifique. La partie Q&A traite de la possibilité de s'appuyer uniquement sur les systèmes les plus rapides pour l'intelligence et la cohérence de la mémoire d'un transformateur.

  • 01:05:00 Dans cette section, Hinton répond à une question sur les biais inconscients dans l'apprentissage automatique et les compare aux biais chez les humains. Il pense que même si l'apprentissage automatique peut être biaisé, il est beaucoup plus facile à corriger que les préjugés humains, car les préjugés dans l'apprentissage automatique peuvent être identifiés et corrigés en gelant les poids et en mesurant à qui s'opposent les préjugés. En outre, il parle d'explicabilité dans l'apprentissage automatique et s'oppose à la législation selon laquelle les systèmes doivent être explicables avant de pouvoir être utilisés, car ces grands réseaux de neurones ont appris des milliards de poids qui ne peuvent être expliqués succinctement. Cependant, il admet que les chercheurs veulent mieux comprendre ces systèmes et encourage les chercheurs plus âgés à financer les jeunes chercheurs.

  • 01:10:00 Dans cette section, Geoffrey Hinton discute de l'idée que si nous connectons l'équivariance translationnelle et plus de connaissances de point de vue dans des réseaux convolutifs, ils pourraient être plus efficaces dans la reconnaissance et la généralisation des objets. De plus, il parle de la nécessité de combiner le raisonnement symbolique avec des réseaux connexionnistes, comme les réseaux de transformateurs. Hinton pense que la mise en œuvre de mémoires associatives, de mémoires rapides et que chaque synapse a plusieurs échelles de temps peut permettre une connaissance à long terme et un stockage temporaire, ce qui est nécessaire pour un vrai raisonnement.

  • 01:15:00 Dans cette section, l'orateur répond à une question sur la mise à jour des réseaux de neurones en fonction des expériences passées ou actuelles. Il suggère d'utiliser une mémoire associative activée par l'état actuel, plutôt que de se livrer à une rétropropagation dans le temps. Il précise que chaque synapse devrait avoir plusieurs échelles de temps pour stocker les temporaires. La discussion passe ensuite au sujet de l'hallucination dans les systèmes avec des croyances antérieures. L'orateur pense que trouver le juste équilibre entre les croyances antérieures et les données est essentiel pour de tels systèmes. Enfin, il discute de son ambivalence envers la rétropropagation, déclarant que même si c'est la bonne chose à faire, il est surpris que seul un milliard de poids puisse faire une assez bonne traduction, le cerveau humain en contenant beaucoup plus.

  • 01:20:00 Dans cette section de la vidéo, l'orateur explique comment notre technologie d'IA actuelle n'est peut-être pas aussi intelligente que nous le pensons et que l'accent devrait être mis sur la résolution de ce problème. Ils évoquent également le Human Brain Project, qui a été financé par des fonds européens, et se demandent s'il aidera ou entravera le développement de l'IA. L'orateur félicite également le conférencier pour sa capacité à expliquer des concepts complexes d'une manière facile à comprendre pour les non-experts et pour promouvoir davantage de financement et de soutien aux jeunes chercheurs dans le domaine de l'IA.