Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
CS480/680 Cours 6 : Traduction de mots non supervisée (Kira Selby)
CS480/680 Cours 6 : Traduction de mots non supervisée (Kira Selby)
La vidéo traite de la traduction de mots non supervisée, qui implique la formation d'un modèle d'apprentissage automatique pour traduire vers et depuis une langue sans aucune information multilingue ni correspondance de dictionnaire. Le modèle Muse est présenté comme une approche qui peut atteindre une précision de pointe sur des centaines de langues sans aucune information multilingue et se rapproche des modèles supervisés en termes de performances. Le processus de traduction de mots non supervisée utilise une matrice qui traduit les espaces d'intégration de différents mots de langue, en utilisant GAN ou des réseaux contradictoires génératifs. En formant ces deux modèles l'un contre l'autre, un moyen de mapper deux distributions sur un espace est créé, fournissant de meilleurs résultats de traduction. Les modèles peuvent atteindre une précision de 82,3 % dans les traductions mot à mot.
CS480/680 Cours 6 : Vérification des faits et apprentissage par renforcement (Vik Goel)
CS480/680 Cours 6 : Vérification des faits et apprentissage par renforcement (Vik Goel)
L'informaticien Vik Goel discute de l'application de l'apprentissage par renforcement dans la vérification des informations en ligne et propose d'utiliser un système de recommandation pour insérer des preuves à l'appui en temps réel. Il suggère d'utiliser un vaste corpus d'articles universitaires comme source de données pour entraîner un classificateur à prédire où une citation est nécessaire. De plus, Goel explique comment les chercheurs ont commencé à coder les priors humains dans des modèles d'apprentissage par renforcement pour accélérer le processus et reconnaître différents objets dans les jeux vidéo. Cela présente un domaine de recherche prometteur où des priors supplémentaires peuvent améliorer le processus d'apprentissage.
CS480/680 Cours 6 : Réseaux somme-produit (Pranav Subramani)
CS480/680 Cours 6 : Réseaux somme-produit (Pranav Subramani)
La conférence aborde les concepts de réseaux somme-produit (SPN), qui sont des réseaux composés de sommes et de produits, utilisés pour la modélisation probabiliste traitable qui produit des temps d'exécution non exponentiels et a de nombreuses applications telles que l'interprétabilité et le calcul facile de la densité marginale. La vidéo mentionne également les excellentes performances de SPN avec les réseaux de neurones convolutifs, son potentiel dans la création de meilleurs modèles génératifs lorsqu'il est combiné avec des modèles tels que les GAN et les encodeurs d'eau à variation, et les domaines de recherche potentiels inexploités pour les SPN, notamment la robustesse de l'adversaire, les scénarios d'apprentissage par renforcement et la modélisation des utilités attendues. dans les jeux. La garantie théorique d'interprétation du modèle et l'opportunité pour les universitaires d'apporter des contributions significatives dans le domaine de l'apprentissage automatique ont également été soulignées.
CS480/680 Cours 6 : EM et modèles de mélange (Guojun Zhang)
CS480/680 Cours 6 : EM et modèles de mélange (Guojun Zhang)
Dans CS480/680 Lecture 6, le professeur Guojun Zhang aborde les bases de l'apprentissage non supervisé et du regroupement, en se concentrant sur les modèles de mélange et leur utilisation dans le regroupement des données. La conférence est centrée sur l'algorithme d'attente-maximisation et ses processus Estep et Mstep, ainsi que sur la descente de gradient comme méthode d'optimisation. Le projet potentiel proposé consiste à étudier le comportement de l'EM et de la descente de gradient dans l'apprentissage des modèles mixtes, le but ultime étant de proposer un meilleur algorithme pour éviter les mauvais minimums locaux. Une formation en mathématiques est notée comme nécessaire pour le projet.
CS480/680 Cours 6 : Compression de modèles pour la PNL (Ashutosh Adhikari)
CS480/680 Cours 6 : Compression de modèles pour la PNL (Ashutosh Adhikari)
Dans cette vidéo, le présentateur aborde le concept de compression de modèle pour la PNL et les défis du temps de traitement et des besoins en mémoire à mesure que le nombre et la profondeur des réseaux de neurones profonds augmentent. Les techniques de compression de modèles sont catégorisées et la méthode la plus ancienne, l'élagage et le partage des paramètres, est introduite. L'orateur développe en outre le concept d'un système étudiant-enseignant pour la compression de modèles en PNL et comment la fonction objectif est utilisée pour compresser un modèle plus grand en un modèle d'étudiant plus petit tout en conservant la précision. Enfin, l'importance potentielle de la compression des modèles dans le contexte des travaux récents sur le développement de modèles NLP à grande échelle est mise en évidence.
CS480/680 Cours 7 : Mélange de gaussiennes
CS480/680 Cours 7 : Mélange de gaussiennes
Dans ce cours sur le mélange de gaussiennes, l'orateur explique comment le modèle peut être utilisé pour la classification en construisant une distribution a priori pour chaque classe, ce qui permet la construction d'un modèle probabiliste utilisant le théorème de Bayes pour estimer la probabilité d'une classe pour une donnée point de données. La conférence couvre également le processus de calcul de la probabilité qu'un point de données appartienne à une certaine classe et comment cela est utilisé pour déterminer la prédiction de classe. Les notes de cours explorent la relation entre la fonction softmax et la distribution arc max et comment la forme et les limites de la gaussienne sont déterminées par la matrice de covariance. Enfin, la conférence détaille le processus d'apprentissage du maximum de vraisemblance et comment il peut être utilisé pour estimer la moyenne et la matrice de covariance pour un mélange de modèles gaussiens.
CS480/680 Cours 8 : Régression logistique et modèles linéaires généralisés
CS480/680 Cours 8 : Régression logistique et modèles linéaires généralisés
Cette première partie du cours "CS480/680 : Régression logistique et modèles linéaires généralisés" introduit l'idée de la famille exponentielle des distributions et sa relation avec la régression logistique, une technique puissante utilisée pour les problèmes de classification. La conférence explique que la régression logistique vise à ajuster la meilleure fonction logistique qui modélise la postérieure pour un ensemble de données donné, et pour les problèmes avec quelques dimensions et poids, la méthode de Newton peut être utilisée pour trouver le minimum de la fonction objectif, qui est un convexe fonction. L'instructeur souligne également l'importance de la régression logistique dans les systèmes de recommandation et le placement d'annonces, où la simplicité et l'efficacité de la technique la rendent idéale pour faire des recommandations personnalisées en fonction des caractéristiques et des comportements des utilisateurs.
Le cours aborde également le thème de la régression logistique et des modèles linéaires généralisés. L'instructeur discute des limites de la méthode de Newton pour la régression logistique, telles que le problème du surajustement causé par des poids arbitraires importants et des problèmes de singularité dans la matrice hessienne. Pour éviter le surajustement, une régularisation est suggérée. L'instructeur présente des modèles linéaires généralisés (GLM) qui peuvent être utilisés pour travailler efficacement avec des séparateurs non linéaires. Les GLM impliquent le mappage des entrées dans un nouvel espace où la régression linéaire et la classification peuvent être effectuées de manière non linéaire tant que le mappage est non linéaire. Le cours couvre également les fonctions de base et leurs types qui peuvent être utilisés pour effectuer une régression et une classification non linéaires.
CS480/680 Cours 9 : Perceptrons et réseaux de neurones à une seule couche
CS480/680 Cours 9 : Perceptrons et réseaux de neurones à une seule couche
Cette conférence présente les réseaux de neurones en mettant l'accent sur le type élémentaire, le perceptron, qui produit un séparateur linéaire pour la classification. La conférence explore comment les poids sont utilisés pour calculer une combinaison linéaire d'entrées qui passent par une fonction d'activation pour produire des sorties, et comment différents poids peuvent être utilisés pour approximer des portes logiques telles que les portes ET, OU et NON. Le conférencier discute du réseau de neurones à anticipation et comment l'algorithme d'apprentissage du perceptron est utilisé pour la classification binaire et comment la descente de gradient peut optimiser les poids. Les limites de l'utilisation d'une ligne pour séparer les données sont discutées et la fonction d'activation sigmoïde logistique est présentée comme une solution possible, en mettant l'accent sur la façon dont les poids peuvent être entraînés à l'aide de la fonction d'activation sigmoïde logistique.
Cette conférence sur les Perceptrons et les réseaux de neurones à une seule couche couvre l'utilisation de fonctions d'activation logistiques sigmoïdes pour minimiser l'erreur quadratique et l'introduction du taux d'apprentissage en tant que paramètre crucial dans la descente de gradient séquentiel. Le conférencier montre également comment les réseaux de neurones à plusieurs couches peuvent être composés pour se rapprocher arbitrairement de n'importe quelle fonction en utilisant des fonctions de maintien de la corbeille, et comment la rétropropagation peut être utilisée pour entraîner un réseau à apprendre des fonctions arbitraires. L'instructeur met l'accent sur la polyvalence et l'efficacité des réseaux de neurones, citant leur utilisation généralisée pour résoudre divers problèmes tels que la reconnaissance vocale, la vision par ordinateur, la traduction automatique et les incorporations de mots.
CS480/680 Cours 10 : Réseaux de neurones multicouches et rétropropagation
CS480/680 Cours 10 : Réseaux de neurones multicouches et rétropropagation
Cette conférence sur les réseaux de neurones multicouches et la rétropropagation explique les limites des modèles linéaires et le besoin de modèles non linéaires tels que les réseaux de neurones multicouches. Le conférencier discute des différentes fonctions d'activation qui peuvent être utilisées dans les réseaux de neurones et comment elles permettent des fonctions de base non linéaires. Le cours explique ensuite comment l'algorithme de rétropropagation est utilisé pour calculer le gradient de l'erreur par rapport à chaque poids dans un réseau de neurones. Les outils de différenciation automatique sont également présentés comme un moyen de calculer efficacement les deltas et les gradients dans un réseau de neurones. Dans l'ensemble, la conférence met l'accent sur la flexibilité et la puissance des réseaux de neurones pour se rapprocher d'un large éventail de fonctions.
Le conférencier dans cette vidéo discute des problèmes d'optimisation des réseaux de neurones, tels que la convergence lente, l'optimisation locale, l'optimisation non convexe et le surajustement. Pour surmonter une convergence lente, des techniques telles que la régularisation et l'abandon peuvent être utilisées. De plus, l'orateur explique le comportement de la descente de gradient pour l'optimisation, soulignant la nécessité d'optimiser la taille des pas pour améliorer son efficacité. L'algorithme d'attribution DES est proposé comme solution, qui ajuste le taux d'apprentissage de chaque dimension séparément. L'orateur présente également RMSProp, une moyenne mobile pondérée des gradients précédents. Enfin, l'orateur discute d'Adam, qui consiste à prendre une moyenne mobile pondérée du gradient lui-même, et montre qu'il surpasse d'autres techniques telles que SGD Nesterov.
CS480/680 Cours 11 : Méthodes du noyau
CS480/680 Cours 11 : Méthodes du noyau
Dans cette conférence, le concept de méthodes de noyau est présenté comme un moyen de mettre à l'échelle des modèles linéaires généralisés en mappant des données d'un espace dans un nouvel espace à l'aide d'une fonction non linéaire. L'astuce duale ou astuce du noyau est expliquée comme une technique qui permet de travailler dans des espaces de grande dimension sans payer de coûts supplémentaires, conduisant à l'utilisation d'une fonction noyau qui calcule le produit scalaire de paires de points dans le nouvel espace. Diverses méthodes de construction de noyaux sont discutées, y compris les noyaux polynomiaux et gaussiens, qui peuvent être utilisés pour mesurer la similarité entre les points de données et sont utiles dans les tâches de classification. Des règles de composition des noyaux sont également introduites pour construire de nouveaux noyaux capables de contrôler leur complexité. Le cours insiste sur l'importance de choisir des fonctions qui ont une correspondance avec Phi transposer Phi, car la matrice de gramme doit être positive semi-définie et avoir des valeurs propres supérieures ou égales à zéro.
Dans ce cours sur les méthodes par noyau, l'orateur définit les noyaux comme des fonctions semi-définies positives qui peuvent être décomposées en une matrice multipliée par sa transposée. Divers types de noyaux, tels que polynomiaux et gaussiens, et leurs applications sont discutés pour comparer différents types de données tels que des chaînes, des ensembles et des graphiques. L'orateur explique également comment les noyaux de sous-chaînes peuvent rapidement calculer la similarité entre les mots en augmentant la longueur des sous-chaînes et en utilisant la programmation dynamique. De plus, les machines à vecteurs de support se sont avérées efficaces pour effectuer la classification des documents à l'aide d'articles de presse de Reuters.