Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Cours 7 -- Solveurs numériques probabilistes d'ODE -- Nathanael Bosch
Numériques de ML 7 -- Solveurs numériques probabilistes d'ODE -- Nathanael Bosch
Dans cette vidéo, Nathanael Bosch présente le concept de solveurs ODE numériques probabilistes, qui combinent l'estimation d'état et les solveurs ODE numériques pour fournir des distributions sur les états ou les solutions ODE. Bosch explique comment un processus de Wiener intégré Q fois peut être utilisé pour modéliser la vraie solution, et comment ce processus permet de quantifier et de propager les incertitudes dans le système. Il montre ensuite comment utiliser des filtres de Kalman étendus pour résoudre les ODE et comment la taille des pas affecte les estimations d'erreur. La vidéo se termine par une discussion sur l'étalonnage de l'incertitude et l'utilisation du filtre de Kalman étendu pour estimer les paramètres dans les modèles d'espace d'états non linéaires.
Dans la deuxième partie de la conférence, Nathanael Bosch parle des avantages de l'utilisation de méthodes probabilistes pour résoudre les ODE, y compris l'obtention d'estimations d'incertitude significatives et la flexibilité d'inclure des fonctionnalités de modèle supplémentaires telles que les valeurs initiales. Il démontre cette approche avec des exemples tels que l'oscillateur harmonique et les équations algébriques différentielles. Bosch montre également comment l'inclusion d'informations supplémentaires et l'utilisation de techniques probabilistes peuvent conduire à des résultats plus significatifs, en utilisant un exemple de modèle épidémique qui n'a pas réussi à représenter avec précision les données à l'aide de méthodes scalaires traditionnelles. Il utilise des filtres et des lisseurs de Kalman étendus pour résoudre les ODE par estimation d'état, traitant l'estimation comme un problème probabiliste, et souligne l'importance d'être bayésien dans la prise de décision.
Cours 8 -- Équations aux dérivées partielles -- Marvin Pförtner
Numériques de ML 8 -- Équations aux dérivées partielles -- Marvin Pförtner
Marvin Pförtner discute des équations aux dérivées partielles (EDP) et de leur importance dans la modélisation de divers systèmes du monde réel. Il explique comment les EDP représentent le mécanisme d'un système avec une fonction inconnue et un opérateur différentiel linéaire, mais nécessitent de résoudre des paramètres souvent inconnus. L'inférence de processus gaussien peut être utilisée pour analyser des modèles PDE et injecter des connaissances mécanistes dans des modèles statistiques. Pförtner examine la distribution de chaleur dans une unité centrale de traitement d'un ordinateur en limitant le modèle à une distribution de chaleur bidimensionnelle et en présentant les hypothèses formulées pour le modèle. Le cours couvre également l'utilisation de processus gaussiens pour résoudre les EDP et l'ajout de conditions aux limites réalistes pour modéliser l'incertitude. Globalement, l'approche GP combinée à la notion d'opérateur d'information permet d'intégrer des connaissances a priori sur le comportement du système, d'injecter des connaissances mécanistes sous la forme d'une EDP linéaire, et de gérer les conditions aux limites et les seconds membres.
Dans la deuxième partie de cette vidéo, Marvin Pförtner explique comment utiliser des processus gaussiens pour résoudre des équations aux dérivées partielles (EDP) en estimant une mesure de probabilité sur des fonctions plutôt qu'une estimation ponctuelle. Il explique les avantages de la quantification de l'incertitude et note que cette approche est plus honnête car elle reconnaît l'incertitude dans l'estimation de la fonction du côté droit de la PDE. Pförtner explique également le noyau Matern, qui est utile dans la pratique et peut contrôler la différentiabilité du GP, et fournit une formule pour calculer le paramètre P pour le noyau Matern. Il explique en outre comment construire un noyau d-dimensionnel pour les EDP en prenant les produits des noyaux de Matern unidimensionnels sur les dimensions, et l'importance d'être mathématiquement prudent dans la construction du modèle.
Cours 9 -- Monte Carlo -- Philipp Hennig
Numériques de ML 9 -- Monte Carlo -- Philipp Hennig
Dans cette vidéo sur le thème de Monte Carlo, Philipp Hennig explique comment l'intégration est un problème fondamental en apprentissage automatique lorsqu'il s'agit d'inférence bayésienne à l'aide du théorème de Bayes. Il présente l'algorithme de Monte Carlo comme une manière spécifique de faire l'intégration et fournit un bref historique de la méthode. Il discute également des propriétés des algorithmes de Monte Carlo, telles que l'estimation sans biais et la réduction de la variance avec une augmentation du nombre d'échantillons. En outre, Hennig se penche sur l'algorithme Metropolis-Hastings, Markov Chain Monte Carlo et Hamiltonian Monte Carlo, fournissant un aperçu des propriétés de chaque algorithme et de leur fonctionnement lors de l'échantillonnage à partir d'une distribution de probabilité. En fin de compte, Hennig note l'importance de comprendre pourquoi les algorithmes sont utilisés, plutôt que de les appliquer aveuglément, pour obtenir des résultats optimaux et efficaces.
Dans la deuxième partie de la vidéo, Philipp Hennig discute des méthodes de Monte Carlo pour les distributions de grande dimension, en particulier l'algorithme No U-turn Sampler (NUTS) qui surmonte le problème avec l'idée de demi-tour de rompre l'équilibre détaillé. Hennig souligne que si ces algorithmes sont complexes et délicats à mettre en œuvre, leur compréhension est cruciale pour les utiliser efficacement. Il remet également en question l'approche instinctive du calcul des valeurs attendues à l'aide des méthodes de Monte Carlo et suggère qu'il peut y avoir d'autres façons d'approximer sans hasard. Hennig discute du concept et des limites du caractère aléatoire, du manque de taux de convergence pour les méthodes de Monte Carlo, et propose la nécessité d'envisager d'autres méthodes d'apprentissage automatique plutôt que de s'appuyer sur le caractère aléatoire déterministe.
Cours 10 -- Quadrature bayésienne -- Philipp Hennig
Numériques de ML 10 -- Quadrature bayésienne -- Philipp Hennig
Dans cette vidéo, Philipp Hennig discute de la quadrature bayésienne en tant que méthode efficace pour le problème informatique de l'intégration dans l'apprentissage automatique. Il explique comment une fonction à valeur réelle peut être identifiée de manière unique mais difficile de répondre directement aux questions. La quadrature bayésienne est une méthode d'inférence qui traite le problème de la recherche d'une intégrale comme un problème d'inférence en mettant un a priori sur l'objet inconnu et les quantités qui peuvent être calculées, puis effectue une inférence bayésienne. Hennig compare également cette approche au rejet de Monte Carlo et à l'échantillonnage d'importance, montrant comment la quadrature bayésienne peut surpasser les règles de quadrature classiques. La conférence couvre l'algorithme du filtre de Kalman pour la quadrature bayésienne et sa connexion aux algorithmes d'intégration classiques, avec une discussion sur l'utilisation des estimations d'incertitude dans les méthodes numériques. Enfin, Hennig explore comment la structure sociale du calcul numérique affecte la conception d'algorithmes, discute d'une méthode de conception de méthodes de calcul pour des problèmes spécifiques et comment l'apprentissage automatique probabiliste peut estimer l'erreur en temps réel.
Dans la deuxième partie de la vidéo, Philipp Hennig discute de la quadrature bayésienne, qui consiste à placer des distributions préalables sur les quantités qui nous intéressent, telles que les intégrales et les valeurs d'algorithme, pour calculer quelque chose de manière bayésienne. La méthode attribue à la fois une estimation a posteriori et une estimation de l'incertitude autour des estimations, qui peuvent être identifiées avec les méthodes classiques. Hennig explique comment l'algorithme s'adapte à la fonction observée et utilise une procédure d'apprentissage actif pour déterminer où évaluer ensuite. Cet algorithme peut fonctionner dans des dimensions plus élevées et a des taux de convergence non trivialement intelligents. Il discute également des limites des algorithmes classiques et des règles de quadrature et propose une solution de contournement par le raisonnement adaptatif.
Cours 11 -- Optimisation pour le Deep Learning -- Frank Schneider
Numerics of ML 11 --Optimisation pour le Deep Learning -- Frank Schneider
Frank Schneider discute des défis de l'optimisation pour l'apprentissage en profondeur, en soulignant la complexité de la formation des réseaux de neurones et l'importance de sélectionner les bonnes méthodes et algorithmes d'optimisation. Il note le nombre écrasant de méthodes disponibles et la difficulté de comparer et d'évaluer différents algorithmes. Schneider fournit des exemples concrets de formation réussie de grands modèles de langage et de la nécessité d'horaires de taux d'apprentissage non par défaut et de modifications en cours de vol pour que le modèle puisse s'entraîner avec succès. Schneider souligne l'importance de fournir aux utilisateurs une meilleure compréhension de la façon d'utiliser ces méthodes et de la manière dont les hyperparamètres affectent le processus de formation, ainsi que la création d'exercices d'analyse comparative pour aider les praticiens à sélectionner la meilleure méthode pour leur cas d'utilisation spécifique. Il discute également de méthodes plus récentes comme Alpha et de la manière dont elles peuvent être utilisées pour diriger le processus de formation d'un réseau de neurones.
Dans la deuxième partie de la vidéo sur les numériques de l'optimisation pour l'apprentissage en profondeur, Frank Schneider présente l'outil "Deep Debugger" Cockpit, qui fournit des instruments supplémentaires pour détecter et résoudre les problèmes dans le processus de formation, tels que les bogues de données et les blocs de modèle. Il explique l'importance de la normalisation des données pour des hyperparamètres optimaux, la relation entre les taux d'apprentissage et la précision des tests, et les défis de la formation de réseaux de neurones avec stochasticité. Schneider encourage les étudiants à travailler à l'amélioration de l'apprentissage des réseaux de neurones en considérant le gradient comme une distribution et en développant de meilleures méthodes autonomes sur le long terme.
Cours 12 -- Optimisation du second ordre pour l'apprentissage en profondeur -- Lukas Tatzel
Numerics of ML 12 -- Optimisation de second ordre pour l'apprentissage en profondeur -- Lukas Tatzel
Dans cette vidéo, Lukas Tatzel explique les méthodes d'optimisation de second ordre pour le deep learning et leurs avantages potentiels. Il compare les trajectoires et les taux de convergence de trois méthodes d'optimisation - SGD, Adam et LBFGS - en utilisant l'exemple de la fonction de Rosenberg en 2D. Tatzel note que le comportement nerveux de SGD rend la convergence plus lente par rapport aux étapes bien informées de LBFGS. Il présente l'étape de Newton comme une méthode d'optimisation plus rapide et discute de ses limites, telles que la dépendance au nombre de conditions. Tatzel explique également le concept de la matrice de Gauss-Newton généralisée (GGN) comme une approximation de la Hessienne pour traiter les problèmes mal conditionnés. De plus, il discute du problème de la région de confiance, de la façon de traiter les fonctions objectives non convexes et de l'approche sans hessian qui utilise CG pour minimiser les fonctions quadratiques.
Cette deuxième partie de la vidéo explore les techniques d'optimisation de second ordre pour l'apprentissage en profondeur, y compris BFGS et LBFGS, l'optimisation sans Hessian et KFC. L'orateur explique que l'approche sans hessian linéarise le modèle à l'aide du produit vectoriel jacobien, tandis que KFC est une courbure approximative basée sur des mesures d'informations officielles. Cependant, la stochasticité et les biais peuvent se produire avec ces méthodes, et l'amortissement est recommandé pour résoudre ces problèmes. L'orateur propose l'utilisation d'algorithmes spécialisés qui peuvent utiliser des quantités plus riches comme les distributions pour faire des mises à jour et note que le problème fondamental de la stochasticité reste non résolu. Globalement, les méthodes d'optimisation de second ordre offrent une solution partielle aux défis de l'apprentissage en profondeur.
Cours 13 -- L'incertitude dans l'apprentissage en profondeur -- Agustinus Kristiadi
Numerics of ML 13 -- Incertitude dans l'apprentissage en profondeur -- Agustinus Kristiadi
La vidéo traite de l'incertitude dans l'apprentissage en profondeur, en particulier dans les poids des réseaux de neurones, et de l'importance d'incorporer l'incertitude due au problème de l'excès de confiance asymptotique, où les réseaux de neurones donnent des prédictions de haute confiance pour les exemples hors distribution qui ne doivent pas être classés avec certitude. La vidéo fournit des informations sur la façon d'utiliser des quantités de second ordre, en particulier des estimations de courbure, pour obtenir une incertitude dans les réseaux neuronaux profonds, en utilisant une distribution gaussienne pour approximer les poids de la dernière couche et la matrice hessienne pour estimer la courbure du réseau neuronal. La vidéo traite également du formalisme bayésien et des approximations de LaPlace pour la sélection de modèles et de paramètres de réseaux de neurones.
Dans la deuxième partie de la conférence, Agustinus Kristiadi discute de différentes manières d'introduire l'incertitude dans les modèles d'apprentissage en profondeur dans cette vidéo. Une technique consiste à utiliser des approximations de Laplace linéarisées pour transformer un réseau de neurones en un modèle gaussien. Une autre approche est la formation hors distribution, où l'incertitude est ajoutée dans les régions qui ne sont pas couvertes par l'ensemble de formation d'origine. Kristiadi souligne l'importance d'ajouter de l'incertitude pour éviter une confiance excessive dans le modèle et suggère d'utiliser des mesures probabilistes pour éviter le coût de la recherche de la postérieure idéale. Ces techniques seront explorées plus en détail dans un prochain cours sur l'apprentissage automatique probabiliste.
Cours 14 -- Conclusion -- Philipp Hennig
Numériques de ML 14 -- Conclusion -- Philipp Hennig
Philipp Hennig donne un résumé du cours "Numerics of Machine Learning", en insistant sur l'importance de résoudre des problèmes mathématiques en apprentissage automatique liés à l'analyse numérique, tels que l'intégration, l'optimisation, les équations différentielles et l'algèbre linéaire. Il discute de la complexité de l'exécution de l'algèbre linéaire sur un ensemble de données et de son lien avec l'unité de traitement et le disque. Hennig couvre également des sujets tels que la gestion d'ensembles de données de tailles non triviales, les algorithmes de résolution de systèmes linéaires, la résolution d'équations aux dérivées partielles et l'estimation d'intégrales. Il conclut en reconnaissant la difficulté de former des réseaux de neurones profonds et le besoin de solutions pour surmonter le problème de stochasticité.
Dans la conclusion de sa série de conférences, Philipp Hennig souligne l'importance d'aller au-delà de la simple formation de modèles d'apprentissage automatique et de savoir ce que le modèle sait et ce qu'il ne sait pas. Il parle de l'estimation de la courbure de la fonction de perte pour construire des estimations d'incertitude pour les réseaux de neurones profonds et de l'importance d'être probabiliste mais pas nécessairement d'appliquer le théorème de Bayes dans tous les cas en raison de la complexité des calculs. Hennig souligne également l'importance du calcul numérique dans l'apprentissage automatique et la nécessité de développer de nouvelles méthodes de calcul centrées sur les données. Enfin, il sollicite des commentaires sur le cours et discute de l'examen à venir.
Support Vector Machine (SVM) en 7 minutes - Fun Machine Learning
Support Vector Machine (SVM) en 7 minutes - Fun Machine Learning
La vidéo explique les machines à vecteurs de support (SVM), un algorithme de classification utilisé pour les ensembles de données à deux classes qui dessine une limite de décision, ou hyperplan, basée sur les extrêmes de l'ensemble de données. Il explique également comment SVM peut être utilisé pour des ensembles de données non linéairement séparables en les transformant en espaces de caractéristiques de dimension supérieure à l'aide d'une astuce du noyau. La vidéo identifie les avantages de SVM tels que l'efficacité dans les espaces de grande dimension, l'efficacité de la mémoire et la possibilité d'utiliser différents noyaux pour des fonctions personnalisées. Cependant, la vidéo identifie également les inconvénients de l'algorithme, tels que les mauvaises performances lorsque le nombre de caractéristiques est supérieur au nombre d'échantillons et le manque d'estimations de probabilité directes, qui nécessitent une validation croisée coûteuse.
'La révolution de l'apprentissage en profondeur' - Geoffrey Hinton - Conférence du président RSE 2019
'La révolution de l'apprentissage en profondeur' - Geoffrey Hinton - Conférence du président RSE 2019
Geoffrey Hinton, connu sous le nom de "Parrain de l'apprentissage en profondeur", discute de l'histoire et de l'évolution de l'apprentissage en profondeur et des réseaux de neurones, des défis et des possibilités passionnantes de l'utilisation de l'apprentissage en profondeur pour créer des machines capables d'apprendre de la même manière que les cerveaux humains, et de la astuces et techniques qui ont rendu la rétropropagation plus efficace. Il décrit également le succès des réseaux de neurones dans la reconnaissance vocale et la vision par ordinateur, l'évolution des réseaux de neurones pour la vision par ordinateur et la pré-formation non supervisée, et leur efficacité dans la modélisation du langage et la traduction automatique. Il termine en soulignant la valeur du raisonnement par analogie et discute de sa théorie des "capsules" et du câblage des connaissances dans un modèle qui prédit des parties à partir du tout.
Geoffrey Hinton, un pionnier de l'apprentissage en profondeur, donne une conférence prônant l'intégration des mémoires associatives, des mémoires rapides et des échelles de temps multiples dans les réseaux de neurones pour permettre une connaissance à long terme et un stockage temporaire, ce qui est nécessaire pour un vrai raisonnement. De plus, il discute de l'équilibre entre les croyances et les données antérieures, le potentiel d'apprentissage non supervisé, l'efficacité des réseaux convolutifs dans la reconnaissance des objets avec l'incorporation de la connaissance du point de vue et de l'équivariance traductionnelle, et la nécessité de combiner le raisonnement symbolique avec les réseaux connexionnistes, comme le transformateur. réseaux. Il aborde également la question des biais inconscients dans l'apprentissage automatique et pense qu'ils peuvent être corrigés plus facilement que les biais humains en identifiant et en corrigeant les biais. Enfin, il souligne la nécessité de davantage de financement et de soutien pour les jeunes chercheurs dans le domaine de l'IA.