Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Cours 5 Probabilité 1 : Entropie, Bayes (naïf), perte d'entropie croisée (MLVU2019)
5 Probabilité 1 : Entropie, Bayes (naïf), perte d'entropie croisée (MLVU2019)
La vidéo couvre divers aspects de la théorie des probabilités et son application à l'apprentissage automatique. L'orateur introduit l'entropie, qui mesure la quantité d'incertitude dans un système, et explique comment elle est liée à Bayes naïf et à la perte d'entropie croisée. Les concepts d'espace d'échantillonnage, d'espace d'événements, de variables aléatoires et de probabilité conditionnelle sont également abordés. Le théorème de Bayes est expliqué et considéré comme un concept fondamental de l'apprentissage automatique. La vidéo couvre également le principe d'estimation du maximum de vraisemblance et la probabilité bayésienne, ainsi que l'utilisation d'un code sans préfixe pour simuler des distributions de probabilité. Enfin, l'orateur discute des classificateurs discriminants par rapport aux classificateurs génératifs pour la classification binaire, y compris le classificateur Naive Bayes.
La deuxième partie explique le concept de calcul des probabilités pour un nouveau point appartenant à une classe particulière en utilisant un modèle de distribution normale multivariée. Il traite de l'indépendance conditionnelle des caractéristiques pour ajuster efficacement les distributions de probabilité d'un classificateur, et de la nécessité de lisser ou d'ajuster les pseudo-observations pour gérer zéro instance. L'orateur présente également la perte d'entropie comme une fonction de perte plus efficace pour les classificateurs linéaires que la précision, et discute de la capacité de la fonction de perte d'entropie croisée à mesurer la différence entre les données prédites et réelles, la fonction sigmoïde réduisant les symétries de la fonction pour la simplifier. Enfin, la vidéo laisse entendre que la prochaine conférence couvrira la perte SVM en tant que fonction de perte finale.
Cours 6 Modèles Linéaires 2 : Réseaux de Neurones, Rétropropagation, SVM et Méthodes Kernel (MLVU2019)
6 Modèles linéaires 2 : Réseaux de neurones, rétropropagation, SVM et méthodes du noyau (MLVU2019)
Cette première partie de la vidéo sur les modèles linéaires se concentre sur l'introduction de la non-linéarité dans les modèles linéaires et explore deux modèles qui reposent sur l'expansion de l'espace des fonctionnalités : les réseaux de neurones et les machines à vecteurs de support (SVM). Pour les réseaux de neurones, le conférencier explique comment mettre en place un réseau pour les problèmes de régression et de classification en utilisant des fonctions d'activation telles que sigmoïde ou softmax. La conférence se penche ensuite sur la rétropropagation, une méthode utilisée pour calculer les gradients utilisés dans les réseaux de neurones. Pour les SVM, l'orateur introduit le concept de maximisation de la marge aux points les plus proches de chaque classe et montre comment elle peut être exprimée comme un problème d'optimisation sous contrainte. La vidéo fournit une introduction claire aux principes des réseaux de neurones et des SVM, recommandant aux étudiants de se concentrer sur la première moitié du cours comme point de départ pour le reste du cours.
La deuxième partie de la vidéo couvre les sujets des machines à vecteurs de support (SVM), des SVM à marge souple, des astuces du noyau et des différences entre les SVM et les réseaux de neurones. Les SVM à marge souple sont introduits comme un moyen de gérer des données non linéairement séparables, permettant d'ajouter une valeur de pénalité aux points qui ne respectent pas les contraintes de classification. L'astuce du noyau permet le calcul du produit scalaire dans un espace de dimension supérieure, élargissant l'espace des caractéristiques pour augmenter considérablement la puissance du modèle. Les différences entre les SVM et les réseaux de neurones sont expliquées, et le passage aux réseaux de neurones en raison de leur capacité à effectuer des types de classification plus avancés, même s'ils ne sont pas entièrement compris, est discuté.
Apprentissage profond 1 : Rétropropagation pour les tenseurs, Réseaux de neurones convolutifs (MLVU2019)
7 Apprentissage profond 1 : Rétropropagation pour les tenseurs, Réseaux de neurones convolutifs (MLVU2019)
Cette première partie de la vidéo sur l'apprentissage en profondeur et la rétropropagation couvre plusieurs sujets, notamment les bases d'un cadre d'apprentissage en profondeur, les tenseurs, l'algorithme de rétropropagation et le problème du gradient de fuite. Le conférencier explique comment les réseaux de neurones peuvent être mis en œuvre à l'aide d'une séquence d'opérations d'algèbre linéaire, et comment l'algorithme de rétropropagation peut être utilisé pour définir un modèle comme une composition de fonctions. La vidéo explique également comment calculer les dérivées à l'aide d'opérations matricielles et explore des solutions au problème du gradient de fuite, telles que l'initialisation du poids et l'utilisation de ReLU comme fonction d'activation. Enfin, la vidéo aborde la descente de gradient en mini-lot et divers optimiseurs pouvant être utilisés dans un réseau neuronal complexe.
Cette deuxième partie couvre une gamme de sujets liés à l'apprentissage en profondeur, y compris les algorithmes d'optimisation et les techniques de régularisation. L'optimisation d'Adam est expliquée comme un algorithme populaire pour l'apprentissage en profondeur, tandis que la régularisation L1 et L2 est explorée comme des méthodes pour empêcher le surajustement. Le potentiel des réseaux de neurones dans le traitement d'images est également discuté, les réseaux de neurones convolutifs étant mis en évidence comme un outil puissant pour les tâches de reconnaissance d'images. La vidéo se penche également sur le fonctionnement de ces réseaux et sur la façon dont ils créent des fonctionnalités pour reconnaître des images complexes, ainsi que sur le concept d'apprentissage de bout en bout comme moyen de surmonter les limites de l'enchaînement de plusieurs modules.
8 Probabilité 2 : Vraisemblance maximale, modèles de mélange gaussien et maximisation des attentes (MLVU2019)
8 Probabilité 2 : Vraisemblance maximale, modèles de mélange gaussien et maximisation des attentes (MLVU2019)
Cette section de la vidéo était centrée sur les modèles de probabilité pour l'estimation de la densité à l'aide de l'estimation du maximum de vraisemblance, des distributions normales, des modèles de mélange gaussien et de l'algorithme de maximisation des attentes. L'orateur a expliqué le principe du maximum de vraisemblance et a montré son application dans la sélection du meilleur modèle de probabilité. Ils ont exploré les distributions normales, expliqué la différence entre les fonctions de probabilité et de densité de probabilité et introduit les modèles de mélange gaussien. Le conférencier a également discuté de la méthode d'échantillonnage à partir d'une distribution normale univariée et multivariée, et de la façon dont le modèle de mélange gaussien aide à identifier différents groupes au sein d'une population. De plus, l'algorithme de maximisation des attentes a été introduit pour ajuster les modèles de mélange gaussien aux ensembles de données. L'orateur a également expliqué comment formaliser l'approche de maximisation des attentes en utilisant l'approximation de la fonction Q et a prouvé qu'elle converge vers un optimum local.
Cette vidéo couvre les sujets du maximum de vraisemblance, des modèles de mélange gaussien et de la maximisation des attentes (EM). L'orateur explique l'algorithme EM, sa preuve et pourquoi il converge. Ils discutent également de l'étape M, où ils maximisent L en choisissant thêta tout en gardant Q fixe. L'ajustement d'un modèle de mélange gaussien aux données nécessite l'utilisation de l'algorithme EM, et l'orateur explique ses applications telles que le regroupement et l'analyse exploratoire, et comment il peut être utilisé pour la classification en ajustant un modèle de mélange gaussien à chaque classe. La vidéo mentionne également la conférence à venir sur l'ajustement des modèles de probabilité aux réseaux de neurones complexes.
Cours 9 Deep Learning 2 : Modèles génératifs, GAN, auto-encodeurs variationnels (VAE) (MLVU2019)
9 Apprentissage profond 2 : modèles génératifs, GAN, auto-encodeurs variationnels (VAE) (MLVU2019)
La vidéo couvre divers sujets liés à l'apprentissage en profondeur, y compris les données fractionnées pour les projets d'apprentissage en profondeur, l'apprentissage par transfert et un accent sur les modèles génératifs. Le conférencier explore le concept d'utilisation de réseaux de neurones pour générer des résultats aléatoires et des distributions de probabilité, expliquant différentes méthodes de formation de générateurs tels que les réseaux antagonistes génératifs et les auto-encodeurs. Ils se penchent également sur les GAN, les GAN conditionnels, la stéganographie et l'importance des auto-encodeurs dans diverses applications d'apprentissage automatique telles que la manipulation de données et la réduction de la dimensionnalité. L'orateur discute de la manipulation de données dans l'espace latent pour des manipulations de haut niveau de données sans beaucoup de données étiquetées et de la nécessité d'une approche alternative comme les auto-encodeurs variationnels.
Cette deuxième partie de la vidéo explore les auto-encodeurs variationnels (VAE), un type de modèle génératif visant à résoudre le problème de l'effondrement des modes souvent rencontré avec d'autres modèles. Deux réseaux de neurones sont utilisés pour coder l'entrée dans l'espace latent et la décoder dans l'espace d'entrée, ce qui permet d'optimiser à la fois l'encodage et le décodage. Le locuteur décompose la fonction de perte en un terme de divergence KL et un terme de probabilité logarithmique attendu, qui peuvent être utilisés pour optimiser le réseau. Les défis de la maximisation d'une attente dans les VAE sont expliqués, et l'astuce de reparamétrisation est discutée comme un moyen de surmonter ce problème. L'intervenant compare les VAE à d'autres techniques telles que les GAN et l'ACP, concluant que si les VAE sont plus puissants, ils sont aussi plus difficiles à entraîner.
Cours 10 Modèles d'arbres et ensembles : Arbres de décision, AdaBoost, Gradient Boosting (MLVU2019)
10 modèles d'arbres et ensembles : arbres de décision, AdaBoost, Gradient Boosting (MLVU2019)
Cette première partie de la vidéo présente les arbres de décision, un modèle d'apprentissage automatique populaire utilisé pour la classification et la régression, qui fonctionne en segmentant l'espace d'instance et en choisissant une classe pour chaque segment. La vidéo explique également comment les arbres de décision peuvent être formés à l'aide du gain d'informations et comment l'élagage peut aider à atténuer le surajustement. L'orateur souligne l'importance de diviser les données en ensembles de formation, de validation et de test pour assurer l'équité entre les modèles. De plus, la vidéo traite de l'apprentissage d'ensemble, où plusieurs arbres de décision ou d'autres modèles sont formés et combinés pour résoudre des problèmes tels que la variance élevée et l'instabilité. Le boosting est également introduit en tant que technique d'ensemble de modèles, qui implique la formation séquentielle de classificateurs et la repondération des données pour améliorer l'ensemble. Enfin, l'algorithme Adaboost est expliqué, qui sélectionne des classificateurs qui minimisent une fonction de perte pour améliorer l'ensemble.
Cette deuxième partie de la vidéo couvre divers modèles et ensembles d'arbres, y compris AdaBoost et le gradient boosting. AdaBoost est une méthode de boost populaire pour les modèles de classification qui pondère les instances de données en fonction des performances du classifieur. L'amplification de gradient consiste à initialiser un modèle avec une fonction constante, à calculer des résidus, à ajuster un nouveau modèle aux résidus étiquetés et à l'ajouter à l'ensemble. L'orateur explique les différences entre le gradient boosting et AdaBoost et note que les ensembles ne sont pas beaucoup utilisés dans la recherche car ils peuvent fausser les résultats. De plus, le bagging réduit la variance et le boosting réduit le biais.
Cours 11 Données séquentielles : modèles de Markov, incorporations de mots et LSTM
11 Données séquentielles : modèles de Markov, incorporations de mots et LSTM
Dans cette vidéo, l'intervenant aborde les différents types de données séquentielles rencontrées en machine learning, comme les données numériques ou symboliques agencées en temps ou en séquence. Ils introduisent les modèles de Markov, les incorporations de mots et les LSTM comme modèles pour résoudre ces problèmes. La vidéo décrit le processus de formation et de prédiction avec des données séquentielles, y compris le concept de validation et de formation sur les données qui se sont produites avant la chose spécifique testée. De plus, le conférencier explique comment modéliser des séquences avec des réseaux de neurones, y compris comment gérer des séquences de différentes longueurs et modélisation temporelle, et le processus de formation d'un réseau de neurones récurrent en utilisant la rétropropagation dans le temps. Enfin, la vidéo couvre les aspects de la classification de la séquence à l'étiquette, qui peuvent être améliorés avec des modèles de Markov lorsque les réseaux de neurones récurrents oublient rapidement les choses.
La vidéo couvre une gamme de sujets liés au traitement séquentiel des données, y compris les modèles de Markov et leurs limites, les réseaux de mémoire à long court terme (LSTM) et leurs avantages, l'utilisation des LSTM pour la génération de texte et d'image, les techniques de forçage des enseignants et le sous-titrage d'images. L'orateur fournit des explications détaillées sur la structure LSTM et les différentes portes qu'elle contient, ainsi que sur la manière de former et d'échantillonner à partir de ces réseaux pour des tâches telles que la génération de texte shakespearien et le sous-titrage d'images. L'importance d'utiliser des couches d'intégration pour améliorer les LSTM au niveau des mots est également discutée, ainsi que l'éventail des méthodes disponibles pour le traitement des séquences - des modèles les plus simples aux plus puissants comme les LSTM.
12 modèles matriciels : systèmes de recommandation, convolutions PCA et Graph
12 modèles matriciels : systèmes de recommandation, convolutions PCA et Graph
Dans la première partie de la vidéo, le conférencier discute des modèles matriciels et de leurs applications dans les systèmes de recommandation, qui peuvent être utilisés pour les recommandations de produits, les actualités et les réseaux sociaux. Les systèmes de recommandation reposent sur des commentaires explicites et implicites ainsi que sur des informations secondaires, et peuvent être manipulés pour diffuser de fausses informations s'ils ne sont pas conçus correctement. La factorisation matricielle est une méthode courante pour prédire les notes en fonction du comportement de l'utilisateur, avec le problème d'optimisation consistant à trouver des matrices U et M pour rendre UTM aussi proche que possible de R résolu par des méthodes d'erreur au carré et en calculant la norme de Frobenius. L'orateur discute également des méthodes d'optimisation de ce problème à l'aide de la descente de gradient et explique la règle de mise à jour du gradient pour le filtrage collaboratif. En outre, le conférencier couvre cinq façons d'améliorer le modèle de factorisation matricielle, y compris le contrôle des biais de l'utilisateur et du film, l'utilisation de likes implicites et l'intégration d'informations sur le site. Enfin, le conférencier discute de la puissance de la factorisation matricielle dans le cadre classique de l'apprentissage automatique, des extensions de l'ACP dans la factorisation matricielle et de l'utilité des modèles de graphes dans le stockage des données.
La deuxième partie de la vidéo présente divers modèles matriciels pour les systèmes de recommandation, y compris les convolutions de graphes pour la classification des nœuds et la prédiction des liens. Les convolutions de graphe mélangent les incorporations de nœuds en multipliant la matrice de contiguïté avec les incorporations d'origine, mais cette approche a des limites dans la représentation de grands graphes sociaux. Les méthodes de validation traditionnelles ne fonctionnent pas pour les modèles de fonctionnalités mixtes utilisés dans les systèmes de recommandation, donc un apprentissage transductif est nécessaire, où seules les étiquettes d'ensemble de formation sont retenues, mais pas les fonctionnalités. De plus, la modélisation des données de temps et d'évaluation nécessite de prendre en compte les données d'horodatage et l'apprentissage transductif. La vidéo se termine par un résumé de la conférence et un aperçu de la discussion suivante sur l'apprentissage par renforcement.
13 Apprentissage par renforcement : gradients de politique, apprentissage Q, AlphaGo, AlphaStar (MLVU2019)
13 Apprentissage par renforcement : gradients de politique, apprentissage Q, AlphaGo, AlphaStar (MLVU2019)
La vidéo fournit une introduction à l'apprentissage par renforcement et à ses composants fondamentaux, en discutant d'exemples tels que la voiture d'équilibrage robotisée et le jeu de tic-tac-toe. L'orateur se penche sur les défis de l'apprentissage par renforcement, y compris les fonctions non différenciables, le retard dans la réception des récompenses et le problème d'attribution des crédits. Le problème d'attribution de crédits est résolu par des techniques telles que la recherche aléatoire, les gradients de politique et le Q-learning, où l'orateur explique chaque algorithme, ses avantages et ses limites. L'algorithme d'apprentissage Q est discuté plus en détail, avec une explication de son fonctionnement en utilisant un grand tableau de nombres pour représenter les valeurs Q. La présentation se termine par une explication de la façon dont le Q-learning et AlphaGo ont révolutionné le domaine de l'apprentissage par renforcement.
14 Bilan : biais inductif, biais algorithmique, impact social de l'apprentissage automatique (MLVU2019)
14 Bilan : biais inductif, biais algorithmique, impact social de l'apprentissage automatique (MLVU2019)
Cette première partie de la vidéo fournit un examen complet des sujets d'apprentissage automatique, y compris les fonctions de perte, les systèmes d'apprentissage en profondeur, les biais inductifs et algorithmiques et les problèmes ouverts dans l'apprentissage automatique. L'orateur souligne l'importance de la méthodologie et des cas d'utilisation réels dans le processus de science des données, et fournit des conseils pour étudier et surmonter la procrastination. Le conférencier discute également des stratégies pour améliorer la compréhension des concepts d'apprentissage automatique et propose des ressources pour un apprentissage plus approfondi. Enfin, la vidéo met en évidence le problème de la généralisation dans les modèles d'apprentissage automatique et l'importance des biais inductifs dans l'amélioration des performances des modèles.
La deuxième partie de la vidéo aborde plusieurs problèmes liés à l'apprentissage automatique, notamment le biais inductif, le biais algorithmique et l'impact social de l'apprentissage automatique. Le biais inductif peut être intégré à un réseau de neurones pour résoudre les problèmes de causalité, de composition et de généralisation. Cependant, cette approche présente également des limites, notamment une diminution de la robustesse par rapport aux variables non modélisées. Les biais algorithmiques peuvent être perpétués si les modèles d'apprentissage automatique renforcent les biais dans les données. Cela peut être problématique dans des cas tels que les algorithmes de reconnaissance faciale qui ne reconnaissent pas les personnes de couleur ou les algorithmes utilisés dans le système judiciaire américain qui ont des préjugés envers les Noirs. Le développement responsable de ces systèmes est important pour éviter de perpétuer les préjugés et promouvoir l'équité dans les processus décisionnels.