
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Cours 21 : Minimiser une fonction étape par étape
Conférence 21 : Minimiser une fonction étape par étape
Cette conférence vidéo traite des algorithmes de base utilisés pour minimiser une fonction et de leurs taux de convergence, en particulier la méthode de Newton et la descente la plus raide. Il met également en évidence l'importance de la convexité, qui garantit que la fonction a un minimum, et introduit le concept d'ensembles convexes et de fonctions convexes. L'enseignant explique comment tester la convexité d'une fonction, qui détermine si elle a des points de selle ou des minimums locaux, par opposition à un minimum global. La vidéo se termine par une discussion sur Levenberg Marquardt, une version moins chère de la méthode de Newton qui n'est pas entièrement de second ordre.
Cours 22. Descente en gradient : descente au minimum
22. Descente en pente : Descente au minimum
Dans la vidéo "Gradient Descent : Downhill to a Minimum", le conférencier discute de l'importance de la descente de gradient dans l'optimisation et l'apprentissage en profondeur, où l'objectif est de minimiser une fonction. L'orateur introduit le gradient et le Hessian, et illustre les étapes de descente les plus raides à l'aide d'une fonction quadratique. L'orateur discute également de la façon d'interpréter le gradient et le Hessian, ainsi que leur rôle dans la mesure de la convexité. L'orateur se penche sur le choix du taux d'apprentissage approprié, soulignant l'importance du nombre de conditions dans le contrôle de la vitesse de convergence. La vidéo fournit également des exemples pratiques et des formules pour aider à comprendre le concept de descente de gradient, y compris la méthode de la balle lourde.
Cours 23. Accélérer la descente de gradient (utiliser l'élan)
23. Accélérer la descente de gradient (utiliser Momentum)
Cette vidéo traite du concept d'élan dans l'accélération de la descente de gradient. Le présentateur explique la formule de base de la descente en gradient et montre comment l'ajout d'élan peut entraîner une descente plus rapide que la méthode ordinaire, entraînant finalement des améliorations significatives. Ils discutent également d'un modèle continu de descente la plus raide et expliquent comment il peut être analysé comme une équation différentielle du second ordre avec un terme de quantité de mouvement. Le présentateur souligne l'importance de minimiser les deux valeurs propres lors de l'utilisation de la quantité de mouvement pour minimiser la plus grande valeur propre en choisissant des valeurs pour s et bêta pour rendre les valeurs propres de la matrice aussi petites que possible. Ils discutent également de la méthode de Nesterov et suggèrent qu'il peut être possible d'obtenir d'autres améliorations en remontant deux ou trois étapes ou plus.
Cours 24. Programmation linéaire et jeux à deux
24. Programmation linéaire et jeux à deux
Cette vidéo YouTube couvre le sujet de la programmation linéaire et des jeux à deux. La programmation linéaire est le processus d'optimisation d'une fonction de coût linéaire soumise à un ensemble de contraintes linéaires, et elle est utilisée dans des domaines tels que l'économie et l'ingénierie. La vidéo explique les algorithmes utilisés dans la programmation linéaire, y compris la méthode du simplexe et les méthodes des points intérieurs, ainsi que le concept de dualité, où le problème primal et son problème dual sont étroitement liés et peuvent être résolus à l'aide de la méthode du simplexe. La vidéo explique également comment la programmation linéaire peut être appliquée aux jeux à deux, y compris le processus de recherche d'une limite supérieure sur le débit maximal dans un réseau et la résolution d'un jeu avec une matrice. Enfin, la vidéo discute brièvement des limites de l'application de ces techniques à des jeux à trois personnes ou plus et mentionne que la prochaine conférence couvrira la descente de gradient stochastique.
Cours 25. Descente de gradient stochastique
25. Descente de gradient stochastique
Dans cette vidéo, le concept de descente de gradient stochastique (SGD) est présenté comme une méthode d'optimisation pour résoudre des problèmes d'apprentissage automatique à grande échelle souvent posés sous la forme d'un problème de somme finie. L'orateur explique comment SGD sélectionne des points de données aléatoires pour calculer le gradient afin d'accélérer le calcul et comment il se comporte différemment de la descente de gradient par lots lorsqu'il s'approche de l'optimum en raison de la nature fluctuante de la méthode. La propriété clé de SGD est que l'estimation du gradient stochastique est une version non biaisée du vrai gradient dans l'attente et la variance du gradient stochastique doit être contrôlée pour réduire le bruit. L'utilisation de mini-lots est discutée comme un moyen de parallélisme bon marché dans la formation GPU d'apprentissage en profondeur, mais la sélection de la bonne taille de mini-lots reste une question ouverte qui peut avoir un impact sur la robustesse de la solution en présence de données invisibles. Les défis de l'optimisation de SGD incluent la détermination de la taille des mini-lots et le calcul des gradients stochastiques, mais les chercheurs tentent de comprendre l'efficacité de SGD dans les réseaux de neurones en développant une théorie de la généralisation.
Cours 26. Structure des réseaux de neurones pour l'apprentissage en profondeur
26. Structure des réseaux de neurones pour l'apprentissage en profondeur
Cette vidéo traite de la structure des réseaux de neurones pour l'apprentissage en profondeur. L'objectif est de classer les données de manière binaire en construisant un réseau neuronal avec des vecteurs de caractéristiques qui ont m caractéristiques, créant une fonction d'apprentissage qui peut classer les données dans l'une des deux catégories. La non-linéarité est essentielle dans la création de ces fonctions, car les classificateurs linéaires sont incapables de séparer les données non linéaires. La vidéo traite également de l'importance du nombre de poids et de couches dans le réseau neuronal et fournit des ressources telles que le terrain de jeu TensorFlow pour que les utilisateurs s'exercent à créer des fonctions. Enfin, la vidéo traite de la récursivité utilisée pour prouver la formule du nombre de pièces plates obtenues en coupant un gâteau et de son lien avec le problème d'optimisation consistant à minimiser la perte totale dans l'apprentissage en profondeur.
Cours 27. Rétropropagation : trouver des dérivées partielles
27. Rétropropagation : trouver des dérivées partielles
Cette vidéo couvre plusieurs sujets liés à la rétropropagation et à la recherche de dérivées partielles. L'orateur démontre l'utilisation de la règle de la chaîne pour les dérivées partielles et souligne l'importance de l'ordre des calculs dans la multiplication matricielle. La rétropropagation est mise en évidence comme un algorithme efficace pour calculer les gradients, et divers exemples sont donnés pour démontrer son efficacité. La convergence de la descente de gradient stochastique est brièvement discutée, ainsi qu'une idée de projet liée à l'utilisation d'un ordre aléatoire d'échantillons de fonction de perte dans la descente de gradient stochastique. Dans l'ensemble, la vidéo donne un aperçu complet de la rétropropagation et de ses applications.
Cours 30 : Remplir une matrice de rang un, circulants !
Cours 30 : Remplir une matrice de rang un, circulants !
Dans la leçon 30, le conférencier discute de la réalisation d'une matrice de rang un et de matrices circulantes. Ils commencent par un déterminant 2x2 et l'utilisent pour affiner les valeurs qui peuvent être remplies dans une matrice pour lui donner le premier rang. Le conférencier passe ensuite à un problème combinatoire pour une matrice 4x4 et introduit des matrices circulantes qui présentent des motifs cycliques qui peuvent être créés avec seulement quatre nombres donnés. Le cours couvre également la convolution cyclique, les valeurs propres et les vecteurs propres des matrices circulantes, qui sont importants dans le traitement du signal.
Cours 31. Vecteurs propres des matrices circulantes : matrice de Fourier
31. Vecteurs propres des matrices circulantes : matrice de Fourier
Dans cette vidéo sur les vecteurs propres des matrices circulantes, le conférencier explique comment les matrices circulantes sont liées au traitement d'image et à l'apprentissage automatique, ainsi que sa connexion à la matrice de Fourier. Le conférencier insiste sur l'importance de comprendre les matrices de convolution et de circulation en relation avec la transformée de Fourier discrète (DFT) et les transformées de Fourier. L'orateur discute des vecteurs propres des matrices circulantes, en particulier la matrice de Fourier, et comment ils sont tous construits à partir du même ensemble de huit nombres qui sont aussi les valeurs propres. L'orateur parle également des propriétés de la matrice de Fourier, y compris la façon dont les colonnes sont orthogonales mais pas orthonormées et comment ses vecteurs propres s'additionnent à zéro en raison de la symétrie de la matrice circulante, ce qui les rend orthogonaux les uns aux autres. Enfin, l'orateur démontre le concept du vecteur Argan en tant que vecteur propre de la matrice de Fourier avec des exemples.
Cours 32: ImageNet est un réseau de neurones convolutifs (CNN), la règle de convolution
Cours 32: ImageNet est un réseau de neurones convolutifs (CNN), la règle de convolution
Dans la conférence 32 d'un cours d'apprentissage en profondeur, la puissance des réseaux de neurones convolutifs (CNN) dans la classification d'images est discutée, avec l'exemple du concours ImageNet remporté par un grand CNN profond comprenant des couches de convolution, des couches normales et des couches de regroupement maximales. Le cours porte également sur la règle de convolution, qui relie multiplication et convolution, avec des exemples de convolutions bidimensionnelles, l'utilisation du produit de Kronecker pour une transformée de Fourier bidimensionnelle et dans le traitement du signal, et la différence entre périodique et non périodique. cas en ce qui concerne la convolution. Le conférencier discute également des vecteurs propres et des valeurs propres d'une matrice circulante et de l'opération de somme de Kronecker.