Apprentissage Automatique et Réseaux Neuronaux - page 57

 

Cours 9.3 — Utiliser le bruit comme régularisateur



Conférence 9.3 — Utiliser le bruit comme régularisateur [Réseaux de neurones pour l'apprentissage automatique]

Explorons une autre méthode de restriction de la capacité d'un réseau de neurones, qui implique l'ajout de bruit aux poids ou aux activités. Ajouter du bruit aux entrées d'un réseau linéaire simple, qui vise à minimiser l'erreur quadratique, revient à imposer une pénalité L2 sur les poids du réseau. Ce concept peut être étendu à des réseaux plus complexes, où des poids bruités sont utilisés, en particulier dans les réseaux récurrents, qui ont montré des performances améliorées.

De plus, le bruit peut également être introduit dans les activités en tant que régularisateur. Envisagez de former un réseau neuronal multicouche avec des unités logistiques cachées en utilisant la rétropropagation. En rendant les unités binaires et stochastiques lors de la passe avant, puis en les traitant comme si elles étaient déterministes lors de la passe arrière en utilisant les valeurs réelles, nous créons un neurone binaire stochastique. Bien qu'elle ne soit pas entièrement précise, cette approche donne de meilleures performances sur l'ensemble de test par rapport à l'ensemble d'apprentissage, bien qu'avec un apprentissage plus lent.

Ces méthodes d'incorporation du bruit, que ce soit dans les poids ou les activités, présentent des techniques alternatives pour contrôler la capacité des réseaux de neurones et améliorer leurs capacités de généralisation.

En résumé, l'ajout de bruit aux réseaux de neurones peut être une stratégie utile pour contrôler la capacité et améliorer la généralisation. En introduisant du bruit gaussien aux entrées, nous pouvons obtenir un effet similaire à une pénalité de poids L2. Cela amplifie la variance du bruit en fonction des poids au carré et contribue à l'erreur au carré globale. Le bruit dans les pondérations peut être particulièrement efficace dans les réseaux plus complexes, tels que les réseaux récurrents, ce qui améliore les performances.

De plus, le bruit peut être appliqué aux activités du réseau comme technique de régularisation. En traitant les unités comme des neurones binaires stochastiques lors du passage vers l'avant et en utilisant les valeurs réelles lors de la rétropropagation, nous introduisons un caractère aléatoire dans le système. Cette approche peut entraîner un entraînement plus lent mais donne souvent de meilleures performances sur l'ensemble de test, indiquant une généralisation améliorée.

L'ajout de bruit, que ce soit sous forme de poids ou d'activités, offre une approche alternative pour limiter la capacité et améliorer la robustesse et les capacités de généralisation des réseaux de neurones.

Lecture 9.3 — Using noise as a regularizer [Neural Networks for Machine Learning]
Lecture 9.3 — Using noise as a regularizer [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Cours 9.4 — Introduction à l'approche bayésienne complète



Cours 9.4 — Introduction à l'approche bayésienne complète [Réseaux de neurones pour l'apprentissage automatique]

L'approche bayésienne de l'ajustement des modèles implique de considérer tous les réglages possibles des paramètres au lieu de rechercher le plus probable. Il suppose une distribution a priori pour les paramètres et la combine avec la vraisemblance des données observées pour obtenir une distribution a posteriori.

Dans un exemple de tirage au sort, l'approche fréquentiste (vraisemblance maximale) suggérerait de choisir la valeur du paramètre qui maximise la vraisemblance des données observées. Cependant, cette approche a des limites, car elle peut ne pas tenir compte des croyances ou des incertitudes antérieures.

Dans le cadre bayésien, une distribution a priori est attribuée aux valeurs des paramètres. Après avoir observé les données, l'a priori est multiplié par la vraisemblance pour chaque valeur de paramètre, ce qui donne une distribution a posteriori non normalisée. Pour obtenir une distribution de probabilité appropriée, le postérieur est renormalisé en le mettant à l'échelle pour avoir une aire de un.

Grâce à des étapes itératives, la distribution a posteriori est mise à jour à mesure que davantage de données sont observées. La distribution postérieure finale représente la croyance mise à jour sur les valeurs des paramètres, incorporant à la fois les connaissances antérieures et les données observées. Il fournit une gamme de valeurs de paramètres plausibles ainsi que leurs probabilités.

Le théorème de Bayes est utilisé pour calculer la probabilité a posteriori d'une valeur de paramètre compte tenu des données. Cela implique de multiplier la probabilité a priori par la vraisemblance des données compte tenu de cette valeur de paramètre et de la normaliser en divisant par la probabilité des données.

En considérant la distribution postérieure complète, l'approche bayésienne permet une analyse plus complète des valeurs des paramètres, en incorporant les croyances antérieures et en les mettant à jour en fonction des données observées.

Lecture 9.4 — Introduction to the full Bayesian approach [Neural Networks for Machine Learning]
Lecture 9.4 — Introduction to the full Bayesian approach [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
For cool updates on AI research, follow me at https://twitter.com/iamvriad.Lecture from the course Neural Networks for Machine Learning, as taught by Geoffre...
 

Cours 9.5 — L'interprétation bayésienne de la perte de poids



Conférence 9.5 — L'interprétation bayésienne de la perte de poids [Réseaux de neurones pour l'apprentissage automatique]

Cette vidéo traite de l'interprétation bayésienne des pénalités de poids dans l'approche bayésienne complète. Dans l'approche bayésienne, le but est de calculer la probabilité a posteriori de chaque réglage possible des paramètres du modèle. Cependant, une version simplifiée appelée apprentissage maximum a posteriori se concentre sur la recherche de l'ensemble unique de paramètres qui est le meilleur compromis entre l'ajustement des croyances antérieures et l'ajustement des données observées. Cette approche fournit une explication de l'utilisation de la décroissance du poids pour contrôler la capacité du modèle. Lors de la minimisation de l'erreur quadratique lors de l'apprentissage supervisé du maximum de vraisemblance, nous trouvons essentiellement un vecteur de poids qui maximise la densité de probabilité logarithmique de la bonne réponse. Cette interprétation suppose que la bonne réponse est produite en ajoutant du bruit gaussien à la sortie du réseau neuronal.

Dans cette interprétation probabiliste, la sortie du modèle est considérée comme le centre d'une gaussienne, et nous souhaitons avoir la valeur cible avec une probabilité élevée sous cette gaussienne. La densité de probabilité logarithmique négative de la valeur cible, compte tenu de la sortie du réseau, équivaut à la différence au carré entre la cible et la sortie divisée par deux fois la variance de la gaussienne. En prenant des logs et en mettant un signe moins, la densité de probabilité logarithmique négative de la valeur cible compte tenu de la sortie du réseau devient une fonction de coût. Minimiser cette fonction de coût équivaut à minimiser la distance au carré. Cela montre que lors de la minimisation d'une erreur quadratique, il existe une interprétation probabiliste dans laquelle nous maximisons la probabilité logarithmique sous une gaussienne.

L'approche bayésienne appropriée consiste à trouver la distribution postérieure complète sur tous les vecteurs de poids possibles, ce qui peut être difficile pour les réseaux non linéaires. Comme alternative plus simple, nous pouvons essayer de trouver le vecteur de poids le plus probable, celui qui est le plus probable compte tenu de nos connaissances préalables et des données.

Dans un apprentissage a posteriori maximal, nous visons à trouver l'ensemble de poids qui optimise le compromis entre l'ajustement de l'a priori et l'ajustement des données. L'utilisation de probabilités logarithmiques négatives comme coûts est plus pratique que de travailler dans le domaine des probabilités. Nous maximisons la probabilité logarithmique des données compte tenu des pondérations, ce qui équivaut à maximiser la somme des probabilités logarithmiques des sorties pour tous les cas d'apprentissage compte tenu des pondérations. Pour optimiser les poids, nous considérons la probabilité logarithmique négative des poids compte tenu des données. Ce coût se compose de deux termes : l'un dépendant à la fois des données et des pondérations, qui mesure à quel point nous nous adaptons aux objectifs, et un autre terme dépendant uniquement des pondérations, qui est dérivé de la probabilité logarithmique des données compte tenu des pondérations.

Si nous supposons que le bruit gaussien est ajouté à la sortie du modèle pour faire des prédictions et un prior gaussien pour les poids, alors la probabilité logarithmique des données compte tenu des poids est la distance au carré entre la sortie et la cible mise à l'échelle par deux fois la variance du Bruit gaussien. De même, la probabilité logarithmique d'un poids sous le prior est la valeur au carré du poids mis à l'échelle par deux fois la variance du prior gaussien.

En multipliant par le produit de deux fois les variances du bruit gaussien et a priori, on obtient une nouvelle fonction de coût. Le premier terme correspond à l'erreur quadratique typiquement minimisée dans un réseau de neurones. Le deuxième terme devient le rapport de deux variances multiplié par la somme des poids au carré, qui est la pénalité de poids. Ainsi, la pénalité de poids est déterminée par le rapport des variances dans cette interprétation gaussienne, et ce n'est pas une valeur arbitraire dans ce cadre. Par conséquent, la pénalité de poids dans cette interprétation bayésienne n'est pas simplement une valeur arbitraire choisie pour améliorer les performances. Il a une interprétation significative basée sur les variances du bruit gaussien et a priori.

Pour approfondir, lorsque nous multiplions l'équation par deux fois les variances et la somme sur tous les cas d'entraînement, le premier terme correspond à la différence au carré entre la sortie du réseau de neurones et la cible. Ce terme représente l'erreur quadratique qui est généralement minimisée dans un réseau neuronal. Le second terme, qui ne dépend que des poids, devient le rapport des deux variances multiplié par la somme des carrés des poids. Ce terme est la pénalité de poids. Il pénalise les grandes valeurs de poids et encourage les petits poids. Le rapport des variances détermine la force de cette pénalité.

Essentiellement, en introduisant une pénalité de poids, nous faisons un compromis entre un bon ajustement des données et le maintien de poids faibles. Ce compromis est contrôlé par le rapport des variances. Une pénalité de poids plus importante (c'est-à-dire un rapport de variances plus petit) entraînera des poids plus petits, tandis qu'une pénalité de poids plus petite (c'est-à-dire un rapport de variances plus grand) permet des poids plus grands. Il est important de noter que l'interprétation de la décroissance du poids ou des pénalités de poids en tant qu'approche bayésienne repose sur l'hypothèse d'un bruit gaussien et de distributions a priori gaussiennes. Ces hypothèses simplifient les calculs et fournissent un cadre probabiliste pour comprendre l'impact des pénalités de poids sur le processus d'optimisation.

En pratique, trouver la distribution postérieure complète sur tous les vecteurs de poids possibles peut être difficile sur le plan informatique, en particulier pour les réseaux non linéaires complexes. Ainsi, l'apprentissage maximum a posteriori, qui vise à trouver le vecteur de poids le plus probable, offre une alternative plus pratique. Cette approche équilibre l'ajustement des croyances antérieures et les données observées, fournissant une solution de compromis.

L'interprétation bayésienne des pénalités de poids permet de mieux comprendre leur rôle dans l'optimisation des réseaux de neurones. En considérant la perspective probabiliste et le compromis entre l'ajustement des données et le poids a priori, nous pouvons tirer parti des pénalités de poids comme technique de régularisation pour contrôler la capacité du modèle et améliorer les performances de généralisation.

Lecture 9.5 — The Bayesian interpretation of weight decay [Neural Networks for Machine Learning]
Lecture 9.5 — The Bayesian interpretation of weight decay [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Conférence 9.6 — La méthode rapide et grossière de MacKay



Conférence 9.6 — La méthode rapide et sale de MacKay [Réseaux de neurones pour l'apprentissage automatique]

Dans cette vidéo, je vais discuter d'une méthode développée par David MacKay dans les années 1990 pour déterminer les pénalités de poids dans un réseau de neurones sans s'appuyer sur un ensemble de validation. L'approche de MacKay est basée sur l'interprétation des pénalités de poids comme une estimation maximale a posteriori (MAP), où l'ampleur de la pénalité de poids est liée à l'étroitesse de la distribution a priori sur les poids.

MacKay a démontré que nous pouvons ajuster empiriquement à la fois les pénalités de poids et le bruit supposé dans la sortie du réseau neuronal. Cela nous permet d'obtenir une méthode d'ajustement des pénalités de poids qui ne nécessite pas d'ensemble de validation, permettant différentes pénalités de poids pour des sous-ensembles de connexions au sein d'un réseau. Cette flexibilité serait coûteuse en calculs à réaliser en utilisant des ensembles de validation.

Maintenant, je vais décrire une méthode simple et pratique développée par David MacKay pour tirer parti de l'interprétation des pénalités de poids comme le rapport de deux variances. Après avoir appris un modèle pour minimiser l'erreur quadratique, nous pouvons déterminer la meilleure valeur pour la variance de sortie. Cette valeur est obtenue en utilisant la variance des erreurs résiduelles.

Nous pouvons également estimer la variance du prior gaussien pour les poids. Dans un premier temps, nous faisons une supposition sur cette variance et poursuivons le processus d'apprentissage. Voici venir le "sale tour" appelé Bayes empirique. Nous définissons la variance a priori comme étant la variance des pondérations que le modèle a apprises car cela rend ces pondérations les plus probables. Bien que cela viole certaines hypothèses de l'approche bayésienne, cela nous permet de déterminer l'a priori sur la base des données.

Après avoir appris les poids, nous ajustons une distribution gaussienne à moyenne nulle à la distribution unidimensionnelle des poids appris. Nous prenons ensuite la variance de cette gaussienne comme notre variance a priori de poids. Notamment, s'il existe différents sous-ensembles de poids, comme dans différentes couches, nous pouvons apprendre différentes variances pour chaque couche.

L'avantage de la méthode de MacKay est qu'elle ne nécessite pas d'ensemble de validation, permettant l'utilisation de toutes les données non-test pour la formation. De plus, cela permet l'incorporation de plusieurs pénalités de poids, ce qui serait difficile à réaliser en utilisant des ensembles de validation.

Pour résumer la méthode, nous commençons par deviner le rapport de la variance du bruit et de la variance a priori des poids. Ensuite, nous effectuons un apprentissage de descente de gradient pour améliorer les poids. Ensuite, nous mettons à jour la variance du bruit pour qu'elle soit la variance des erreurs résiduelles et la variance a priori du poids pour qu'elle soit la variance de la distribution des poids appris. Cette boucle est répétée itérativement.

Dans la pratique, la méthode de MacKay s'est avérée efficace et il a remporté plusieurs compétitions en utilisant cette approche.

Lecture 9.6 — MacKay 's quick and dirty method [Neural Networks for Machine Learning]
Lecture 9.6 — MacKay 's quick and dirty method [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

10.1 — Pourquoi il est utile de combiner des modèles



10.1 — Pourquoi il est utile de combiner des modèles [Réseaux de neurones pour l'apprentissage automatique]

Dans cette vidéo, je discuterai de l'importance de combiner plusieurs modèles pour faire des prédictions. Lorsque nous utilisons un seul modèle, nous sommes confrontés au défi de choisir la bonne capacité pour celui-ci. Si la capacité est trop faible, le modèle ne capturera pas les régularités dans les données d'entraînement. D'autre part, si la capacité est trop élevée, le modèle surajustera l'erreur d'échantillonnage dans l'ensemble d'apprentissage spécifique. En combinant plusieurs modèles, nous pouvons trouver un meilleur équilibre entre ajuster les vraies régularités et éviter le surajustement. La moyenne des modèles ensemble conduit souvent à de meilleurs résultats par rapport à l'utilisation d'un seul modèle. Cet effet est particulièrement important lorsque les modèles font des prédictions diverses. Encourager les modèles à faire différentes prédictions peut être réalisé grâce à diverses techniques.

Lorsqu'il s'agit de données d'entraînement limitées, le surajustement est un problème courant. Cependant, en considérant les prédictions de plusieurs modèles, nous pouvons atténuer le surajustement. Cela est particulièrement vrai lorsque les modèles font des prédictions différentes. Dans la régression, nous pouvons décomposer l'erreur quadratique en un terme de biais et un terme de variance. Le terme de biais indique dans quelle mesure le modèle se rapproche de la vraie fonction, tandis que le terme de variance mesure la capacité du modèle à capturer l'erreur d'échantillonnage dans l'ensemble d'apprentissage. En faisant la moyenne des modèles, nous pouvons réduire la variance tout en maintenant un faible biais, car les modèles à haute capacité présentent souvent un faible biais. Cela nous permet de tirer parti des avantages de la moyenne pour réduire les erreurs.

Lors de la comparaison d'un modèle individuel à la moyenne des modèles sur un cas de test spécifique, il est possible que certains prédicteurs individuels surpassent le prédicteur combiné. Cependant, différents prédicteurs individuels excellent dans différents cas. De plus, lorsque des prédicteurs individuels sont significativement en désaccord les uns avec les autres, le prédicteur combiné surpasse généralement tous les prédicteurs individuels en moyenne. Ainsi, l'objectif est d'avoir des prédicteurs individuels qui font des erreurs distinctes les uns des autres tout en restant précis.

Mathématiquement, lors de la combinaison de réseaux, nous comparons deux erreurs quadratiques attendues. La première erreur correspond à la sélection aléatoire d'un prédicteur et à la moyenne des prédictions sur tous les prédicteurs. La deuxième erreur est obtenue en faisant la moyenne des prédictions des modèles. L'erreur quadratique attendue de la sélection aléatoire d'un modèle est supérieure à l'erreur quadratique obtenue grâce à la moyenne, ce qui indique l'avantage de la moyenne dans la réduction de l'erreur. Le terme supplémentaire dans l'équation représente la variance des sorties des modèles, qui est effectivement réduite par la moyenne.

Pour obtenir diverses prédictions parmi les modèles, diverses approches peuvent être utilisées. Cela comprend l'utilisation de différents types de modèles, la modification des architectures de modèles, l'utilisation de différents algorithmes d'apprentissage et la formation de modèles sur différents sous-ensembles de données. Des techniques telles que l'ensachage et le renforcement sont également efficaces pour créer divers modèles. Le bagging implique la formation de différents modèles sur différents sous-ensembles de données, tout en renforçant la pondération des cas de formation différemment pour chaque modèle. Ces méthodes contribuent à améliorer les performances lors de la combinaison de modèles.

La combinaison de plusieurs modèles est bénéfique pour les tâches de prédiction. En faisant la moyenne des modèles, nous pouvons trouver un équilibre entre capturer les régularités et éviter le surajustement. Diverses prédictions parmi les modèles améliorent les performances du prédicteur combiné. Diverses techniques peuvent être appliquées pour encourager diverses prédictions, conduisant à de meilleurs résultats globaux.

10.1 — Why it helps to combine models [Neural Networks for Machine Learning]
10.1 — Why it helps to combine models [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Cours 10.2 — Mélanges d'experts



Conférence 10.2 — Mélanges d'experts [Réseaux de neurones pour l'apprentissage automatique]

Le modèle de mélange d'experts, développé au début des années 1990, entraîne plusieurs réseaux de neurones, chacun spécialisé dans différentes parties des données. L'idée est d'avoir un réseau neuronal par régime de données, un réseau neuronal gestionnaire décidant quel spécialiste affecter en fonction des données d'entrée. Cette approche devient plus efficace avec des ensembles de données plus volumineux, car elle peut exploiter des données étendues pour améliorer les prévisions. Pendant la formation, les poids des modèles sont augmentés pour se concentrer sur les cas où ils fonctionnent mieux. Cette spécialisation conduit à des modèles individuels excellant dans certains domaines tout en étant médiocres dans d'autres. La clé est de faire en sorte que chaque expert se concentre sur la prédiction de la bonne réponse pour les cas où il surpasse les autres experts.

Dans le spectre des modèles, il existe des modèles locaux et globaux. Les modèles locaux, comme les voisins les plus proches, se concentrent sur des cas de formation spécifiques et stockent leurs valeurs pour la prédiction. Les modèles globaux, comme l'ajustement d'un polynôme à toutes les données, sont plus complexes et peuvent être instables. Entre les deux, il existe des modèles de complexité intermédiaire qui sont utiles pour les ensembles de données avec différents régimes et des relations entrées-sorties variables.

Pour adapter différents modèles à différents régimes, les données de formation doivent être partitionnées en sous-ensembles représentant chaque régime. Le clustering basé uniquement sur les vecteurs d'entrée n'est pas idéal. Au lieu de cela, la similarité des mappages d'entrée-sortie doit être prise en compte. Le partitionnement basé sur la cartographie entrée-sortie permet aux modèles de mieux saisir les relations au sein de chaque régime.

Il existe deux fonctions d'erreur : une qui encourage les modèles à coopérer et une autre qui encourage la spécialisation. Encourager la coopération implique de comparer la moyenne de tous les prédicteurs avec la cible et de former les prédicteurs ensemble pour minimiser la différence. Cependant, cela peut conduire à un surajustement si le modèle est plus puissant que la formation de chaque prédicteur séparément. En revanche, la fonction d'erreur qui favorise la spécialisation compare la sortie de chaque modèle avec la cible séparément. Un gestionnaire détermine les poids attribués à chaque modèle, qui représentent la probabilité de sélectionner ce modèle. La plupart des experts finiront par ignorer la plupart des objectifs, se concentrant uniquement sur un sous-ensemble de cas de formation où ils fonctionnent bien.

L'architecture du modèle de mélange d'experts se compose de plusieurs experts, d'un gestionnaire et d'une couche softmax. Le gestionnaire détermine les probabilités de sélection de chaque expert en fonction des données d'entrée. La fonction d'erreur est calculée à l'aide des sorties des experts et des probabilités du gestionnaire. En différenciant la fonction d'erreur, des gradients de formation des experts et du manager peuvent être obtenus. Les experts avec de faibles probabilités pour un cas particulier auront de petits gradients, préservant leurs paramètres. La différenciation par rapport aux sorties du réseau de déclenchement fournit la spécialisation basée sur la probabilité.

Il existe une fonction de coût plus compliquée basée sur des modèles de mélange, qui implique des prédictions gaussiennes et une estimation du maximum de vraisemblance. Cette fonction maximise la probabilité logarithmique de la valeur cible sous le mélange de la distribution prédictive des experts. L'objectif est de minimiser la probabilité logarithmique négative en tant que fonction de coût.

Le modèle de mélange d'experts exploite des réseaux de neurones spécialisés pour différents régimes de données et utilise efficacement de grands ensembles de données pour des prédictions améliorées.

Lecture 10.2 — Mixtures of Experts [Neural Networks for Machine Learning]
Lecture 10.2 — Mixtures of Experts [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Cours 10.3 — L'idée d'un apprentissage bayésien complet



Conférence 10.3 — L'idée de l'apprentissage bayésien complet [Réseaux de neurones pour l'apprentissage automatique]

Dans cette vidéo, je vais discuter de l'apprentissage bayésien complet et de son fonctionnement. Dans l'apprentissage bayésien complet, nous visons à trouver la distribution postérieure complète sur tous les réglages de paramètres possibles, plutôt que de rechercher un seul réglage optimal. Cependant, le calcul de cette distribution est gourmand en ressources informatiques pour des modèles complexes tels que les réseaux de neurones. Une fois que nous avons la distribution a posteriori, nous pouvons faire des prédictions en faisant la moyenne des prédictions de différents réglages de paramètres pondérés par leurs probabilités a posteriori. Bien que cette approche soit exigeante en termes de calcul, elle nous permet d'utiliser des modèles complexes même avec des données limitées.

Le surajustement est un problème courant lors de l'ajustement de modèles complexes à de petits ensembles de données. Cependant, en obtenant la distribution a posteriori complète sur les paramètres, nous pouvons éviter le surajustement. Une approche fréquentiste suggère d'utiliser des modèles plus simples lorsque les données sont limitées, en supposant que l'ajustement d'un modèle signifie trouver le meilleur paramétrage. Mais avec la distribution a posteriori complète, même avec peu de données, les prédictions peuvent être vagues en raison de différents réglages de paramètres ayant des probabilités a posteriori significatives. Au fur et à mesure que nous recueillons plus de données, la distribution a posteriori se concentre davantage sur des réglages de paramètres spécifiques, ce qui conduit à des prédictions plus précises.

L'exemple de surajustement consiste à ajuster un polynôme du cinquième ordre à six points de données, ce qui semble parfaitement correspondre aux données. En revanche, une ligne droite avec seulement deux degrés de liberté ne correspond pas bien aux données. Cependant, si nous commençons avec un prior raisonnable sur les polynômes du cinquième ordre et calculons la distribution postérieure complète, nous obtenons des prédictions plus vagues mais plus sensées. Différents modèles au sein de la distribution a posteriori font diverses prédictions à une valeur d'entrée donnée et, en moyenne, ils s'alignent étroitement sur les prédictions faites par la ligne verte.

D'un point de vue bayésien, la quantité de données collectées ne devrait pas influencer les croyances antérieures sur la complexité du modèle. En rapprochant l'apprentissage bayésien complet dans un réseau de neurones avec quelques paramètres, nous pouvons utiliser une approche basée sur une grille. Nous plaçons une grille sur l'espace des paramètres, permettant à chaque paramètre quelques valeurs alternatives. Le produit croisé de ces valeurs nous donne des points de grille dans l'espace des paramètres. En évaluant la performance de chaque point de grille dans la prédiction des données et en considérant sa probabilité a priori, nous attribuons des probabilités a posteriori. Bien qu'elle soit coûteuse en calcul, cette méthode évite les problèmes de descente de gradient et d'optima locaux. Il fonctionne mieux que le maximum de vraisemblance ou le maximum a posteriori lorsque les données sont limitées.

Pour faire des prédictions sur les données de test, nous calculons la probabilité d'une sortie de test compte tenu d'une entrée de test en additionnant les probabilités de tous les points de la grille. La probabilité d'un point de grille étant donné les données et avant, multipliée par la probabilité d'obtenir la sortie du test étant donné l'entrée et le point de grille, détermine le poids de la prédiction de chaque point de grille. Nous considérons également la possibilité de modifier la sortie du réseau avant de produire la réponse du test.

Dans l'image fournie illustrant l'apprentissage bayésien complet, un petit réseau avec quatre poids et deux biais est affiché. Si nous considérons neuf valeurs possibles pour chaque poids et biais, l'espace des paramètres aurait neuf à la puissance six points de grille. Pour chaque point de grille, nous calculons la probabilité des sorties observées pour tous les cas de formation, multipliée par la probabilité a priori spécifique à ce point de grille. La normalisation de ces probabilités nous donne la probabilité a posteriori sur tous les points de la grille. Enfin, nous faisons des prédictions à l'aide de ces points de grille, en pesant chaque prédiction par sa probabilité a posteriori.

Lecture 10.3 — The idea of full Bayesian learning [Neural Networks for Machine Learning]
Lecture 10.3 — The idea of full Bayesian learning [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Cours 10.4 — Rendre pratique l'apprentissage bayésien complet



Cours 10.4 — Rendre l'apprentissage bayésien complet pratique [Réseaux de neurones pour l'apprentissage automatique]

Dans cette vidéo, je vais vous expliquer comment rendre pratique l'apprentissage bayésien complet pour les grands réseaux de neurones avec des milliers, voire des millions de poids. La technique utilisée est une méthode de Monte Carlo, qui peut sembler particulière au premier abord. Nous utilisons un générateur de nombres aléatoires pour explorer l'espace des vecteurs de poids de manière aléatoire, mais avec un biais vers la descente de la fonction de coût. Lorsqu'elle est effectuée correctement, cette approche a une propriété remarquable : elle échantillonne les vecteurs de poids proportionnellement à leurs probabilités dans la distribution a posteriori. En échantillonnant un grand nombre de vecteurs de poids, nous pouvons obtenir une bonne approximation de la méthode bayésienne complète.

Lorsque le nombre de paramètres augmente, le nombre de points de grille dans l'espace des paramètres devient exponentiellement grand. Par conséquent, la création d'une grille pour plus de quelques paramètres n'est pas réalisable lorsqu'il y a suffisamment de données pour rendre la plupart des vecteurs de paramètres hautement improbables. Au lieu de cela, nous pouvons nous concentrer sur l'évaluation d'une petite fraction des points de la grille qui apportent une contribution significative aux prédictions. Une idée qui rend possible l'apprentissage bayésien consiste à échantillonner des vecteurs de poids en fonction de leurs probabilités a posteriori. Au lieu de résumer tous les termes de l'équation, nous pouvons échantillonner les termes de la somme. Nous attribuons un poids de un ou zéro à chaque vecteur de poids, selon qu'il est échantillonné ou non. La probabilité d'être échantillonné correspond à la probabilité a posteriori du vecteur de pondération, ce qui donne la valeur attendue correcte.

La rétropropagation standard, représentée sur le côté droit, suit un chemin d'un point initial à un point unique final en se déplaçant le long du gradient et en descendant la fonction de coût. En revanche, une méthode d'échantillonnage introduit un bruit gaussien à chaque mise à jour de poids, ce qui fait que le vecteur de poids erre et explore l'espace de poids en continu. Ce comportement d'errance favorise les régions à bas coût et tend à se déplacer vers le bas dès que possible. Une question essentielle est la fréquence à laquelle les poids visiteront chaque point de l'espace. Les points rouges représentent des échantillons prélevés lors de l'errance, et ils peuvent ne pas se trouver dans les régions les moins coûteuses en raison du bruit inhérent. Cependant, après une exploration suffisante, une propriété remarquable de la chaîne de Markov Monte Carlo émerge : les vecteurs de poids deviennent des échantillons non biaisés de la vraie distribution a posteriori. Les vecteurs de poids hautement probables sous le postérieur sont plus susceptibles d'être représentés par un point rouge que les vecteurs hautement improbables. Cette technique, connue sous le nom de chaîne de Markov Monte Carlo, permet l'utilisation de l'apprentissage bayésien avec des milliers de paramètres.

La méthode mentionnée précédemment, qui consiste à ajouter du bruit gaussien, est appelée méthode de Langevin. Bien qu'efficace, ce n'est pas l'approche la plus efficace. Il existe des méthodes plus sophistiquées qui nécessitent moins de temps pour que les vecteurs de poids explorent l'espace avant d'obtenir des échantillons fiables. Une de ces approches consiste à utiliser des mini-lots dans un apprentissage bayésien complet. Lors du calcul du gradient de la fonction de coût sur un mini-lot aléatoire, nous obtenons une estimation sans biais avec un bruit d'échantillonnage. Ce bruit d'échantillonnage peut être utilisé pour fournir le bruit requis par la méthode Monte Carlo de la chaîne de Markov. Une idée astucieuse de Welling et de ses collaborateurs permet un échantillonnage efficace à partir de la distribution a posteriori sur les poids à l'aide de méthodes de mini-lots. Cette avancée devrait rendre l'apprentissage bayésien complet réalisable pour des réseaux beaucoup plus grands qui nécessitent une formation avec des mini-lots pour terminer le processus de formation.

L'utilisation de mini-lots dans l'apprentissage bayésien complet offre plusieurs avantages. Lors du calcul du gradient de la fonction de coût sur un mini-lot aléatoire, nous obtenons non seulement une estimation non biaisée avec un bruit d'échantillonnage, mais nous tirons également parti de l'efficacité des méthodes de mini-lot. Cela signifie que nous pouvons former des réseaux beaucoup plus grands qu'il serait autrement impossible de former avec un apprentissage bayésien complet.

La percée réalisée par Welling et ses collaborateurs permet un échantillonnage efficace à partir de la distribution a posteriori sur les poids en utilisant des méthodes de mini-lots. Leur idée intelligente utilise le bruit d'échantillonnage inhérent à l'estimation du gradient par mini-lot pour servir de bruit requis par la méthode Monte Carlo de la chaîne de Markov. En incorporant de manière appropriée ce bruit, ils ont réussi à obtenir des échantillons fiables à partir de la distribution postérieure, ce qui rend l'apprentissage bayésien complet pratique pour les grands réseaux.

Avec cette avancée, il devient possible de former des réseaux de neurones avec des milliers voire des millions de poids à l'aide de mini-lots et d'obtenir des échantillons de la distribution postérieure sur les poids. Ceci est particulièrement avantageux lorsqu'il s'agit de problèmes à grande échelle qui nécessitent des ressources de calcul importantes. La capacité d'intégrer l'incertitude grâce à l'apprentissage bayésien complet fournit une compréhension plus complète des prédictions du modèle et peut conduire à une meilleure prise de décision.

L'apprentissage bayésien complet peut être rendu pratique pour les grands réseaux de neurones en tirant parti des méthodes de Monte Carlo telles que la chaîne de Markov Monte Carlo. En échantillonnant les vecteurs de poids en fonction de leurs probabilités a posteriori, nous pouvons approximer la méthode bayésienne complète et obtenir des informations précieuses sur l'incertitude de nos modèles. Avec l'introduction de méthodes par mini-lots, un échantillonnage efficace à partir de la distribution a posteriori sur les poids est désormais réalisable, permettant l'application de l'apprentissage bayésien complet à des réseaux beaucoup plus grands.

Lecture 10.4 — Making full Bayesian learning practical [Neural Networks for Machine Learning]
Lecture 10.4 — Making full Bayesian learning practical [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Cours 10.5 — Abandon



Conférence 10.5 — Abandon [Réseaux de neurones pour l'apprentissage automatique]

L'abandon est une méthode efficace pour combiner un grand nombre de modèles de réseaux de neurones sans former séparément chaque modèle. Dans cette approche, des sous-ensembles aléatoires d'unités cachées sont supprimés pour chaque cas de formation, ce qui donne des architectures différentes pour chaque cas. Cela crée un modèle unique pour chaque cas de formation, ce qui soulève des questions sur la façon de former et de moyenner efficacement ces modèles pendant les tests.

Deux façons de combiner les sorties de plusieurs modèles consistent à faire la moyenne de leurs probabilités de sortie ou à utiliser la moyenne géométrique de leurs probabilités. Le partage du poids joue un rôle crucial dans cette méthode. L'abandon fournit un moyen efficace de faire la moyenne des réseaux de neurones, bien qu'il puisse ne pas fonctionner aussi bien que l'approche bayésienne correcte. Pendant la formation, les unités cachées sont abandonnées au hasard avec une probabilité de 0,5, ce qui entraîne un grand nombre d'architectures partageant des poids. L'abandon peut être considéré comme une moyenne de modèle, où la plupart des modèles ne sont pas échantillonnés, et chaque modèle échantillonné ne reçoit qu'un seul exemple d'apprentissage. Le partage du poids entre les modèles les régularise efficacement. Au moment du test, toutes les unités cachées sont utilisées, mais leurs poids sortants sont divisés par deux pour calculer la moyenne géométrique des prédictions de tous les modèles possibles. La suppression peut être étendue à plusieurs couches masquées en appliquant une suppression de 0,5 dans chaque couche. Cette approximation est plus rapide que la moyenne de modèles d'abandon séparés, mais fournit une bonne approximation.

De plus, l'abandon peut être appliqué aux couches d'entrée avec une probabilité plus élevée de conserver les entrées. Cette technique est déjà utilisée dans les auto-encodeurs de débruitage et a montré de bons résultats. L'abandon s'est avéré efficace pour réduire les erreurs et prévenir le surajustement dans les réseaux de neurones profonds. Il encourage la spécialisation des unités cachées et empêche les co-adaptations complexes qui peuvent conduire à une mauvaise généralisation sur de nouvelles données de test. En forçant les unités cachées à travailler avec différentes combinaisons d'autres unités cachées, l'abandon favorise un comportement utile individuellement et décourage le recours à des collaborations spécifiques. Cette approche améliore les performances des réseaux d'abandon en permettant à chaque unité de contribuer de manière unique et marginalement utile, ce qui conduit à d'excellents résultats.

L'abandon est une technique puissante pour former et combiner des modèles de réseaux de neurones. Il relève le défi du surajustement en régularisant les modèles par le partage des poids et l'abandon aléatoire des unités cachées. En créant des architectures diverses pour chaque cas de formation, le décrochage encourage la spécialisation des unités individuelles et réduit les co-adaptations complexes. Le processus de calcul de la moyenne des probabilités de sortie des modèles ou l'utilisation de la moyenne géométrique fournit un effet de type ensemble, améliorant les performances globales du réseau. Bien que le décrochage n'atteigne pas le même niveau de performance que l'approche bayésienne correcte, il offre une alternative pratique et efficace. Lorsqu'elle est appliquée à plusieurs couches masquées, la suppression peut être utilisée dans chaque couche avec une probabilité de suppression de 0,5. Cette approximation, connue sous le nom de "moyenne nette", combine efficacement les avantages de l'abandon avec un calcul plus rapide. Il est particulièrement utile lorsque les ressources de calcul sont limitées.

De plus, l'abandon peut être étendu à la couche d'entrée en appliquant l'abandon avec une probabilité plus élevée de retenir les entrées. Cette technique permet d'éviter le surajustement et a fait ses preuves dans diverses applications. Il est important de noter que l'abandon n'améliore pas seulement les performances sur les données de formation, mais améliore également la généralisation aux données de test invisibles. En encourageant le comportement des unités individuelles et en réduisant les co-adaptations complexes, les modèles d'abandon ont tendance à bien fonctionner sur des exemples nouveaux et inédits.

L'abandon est une méthode pratique et efficace pour combiner des modèles de réseaux de neurones. En abandonnant au hasard les unités cachées et en encourageant le comportement des unités individuelles, l'abandon atténue le surajustement et améliore la généralisation. Sa simplicité et son efficacité en font un outil précieux pour l'entraînement des réseaux de neurones profonds.

Lecture 10.5 — Dropout [Neural Networks for Machine Learning]
Lecture 10.5 — Dropout [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Cours 11.1 — Filets Hopfield



Cours 11.1 — Réseaux de Hopfield [Réseaux de neurones pour l'apprentissage automatique]

Dans cette vidéo, le présentateur présente les réseaux de Hopfield et leur rôle dans le regain d'intérêt pour les réseaux de neurones dans les années 1980. Les réseaux Hopfield sont de simples dispositifs utilisés pour stocker des souvenirs sous forme de modèles d'activité distribués. Ce sont des modèles basés sur l'énergie avec des unités de seuil binaires et des connexions récurrentes.

L'analyse de réseaux avec des unités non linéaires et des connexions récurrentes peut être difficile en raison de leurs divers comportements tels que l'établissement d'états stables, oscillants ou même chaotiques. Cependant, Hopfield et d'autres chercheurs ont réalisé que si les connexions sont symétriques, une fonction énergétique globale peut être définie pour chaque configuration binaire du réseau. La règle de décision de seuil binaire, combinée à la bonne fonction d'énergie, fait que le réseau se déplace vers le bas en énergie, atteignant finalement un minimum d'énergie. La fonction énergétique est constituée de contributions locales représentant le produit des poids de connexion et des états binaires des neurones connectés.

Pour trouver un minimum d'énergie, les unités d'un réseau de Hopfield sont mises à jour séquentiellement, une à la fois, dans un ordre aléatoire. Chaque unité calcule son état en fonction de la configuration qui se traduit par l'énergie globale la plus faible. Cette mise à jour séquentielle empêche les unités de prendre des décisions simultanées qui pourraient augmenter l'énergie et conduire à des oscillations. Les réseaux de Hopfield sont adaptés au stockage des mémoires, car les mémoires correspondent à des minima d'énergie dans le réseau. Les mémoires peuvent être partielles ou corrompues, et la règle de décision de seuil binaire peut les nettoyer et les restaurer en mémoires complètes. Cette mémoire adressable par le contenu permet d'accéder à des éléments stockés sur la base d'informations de contenu partielles.

Les filets Hopfield ont des propriétés qui les rendent robustes contre les dommages matériels, car ils peuvent toujours fonctionner correctement même avec quelques unités retirées. Les poids dans le réseau fournissent des informations sur la façon dont les états des neurones s'emboîtent, comme pour reconstruire un dinosaure à partir de quelques os. La règle de stockage des mémoires dans un réseau Hopfield est simple. En incrémentant les poids entre les unités en fonction du produit de leurs activités, un vecteur d'état binaire peut être stocké. Cette règle ne nécessite qu'un seul passage dans les données, ce qui en fait une règle en ligne. Cependant, il ne s'agit pas d'une règle de correction d'erreurs, ce qui présente à la fois des avantages et des inconvénients.

Les réseaux Hopfield offrent une approche simple du stockage des souvenirs et possèdent des propriétés intéressantes qui les rendent précieux pour diverses applications.

Lecture 11.1 — Hopfield Nets [Neural Networks for Machine Learning]
Lecture 11.1 — Hopfield Nets [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...