Apprentissage Automatique et Réseaux Neuronaux - page 26

 

Cours 1: L'espace colonne de A contient tous les vecteurs Ax



Conférence 1: L'espace colonne de A contient tous les vecteurs Ax

Cette conférence se concentre sur le concept de l'espace colonne d'une matrice, qui est une collection de tous les vecteurs qui peuvent être obtenus en multipliant la matrice avec tous les vecteurs possibles. Le conférencier explique que l'espace des colonnes dépend de la matrice et pourrait être tout l'espace de R3 ou un sous-ensemble plus petit de celui-ci. Le professeur aborde en outre les concepts d'espacement des lignes, de rang de colonne et de rang de ligne, ainsi que la relation entre ces rangs. La conférence aborde également brièvement le premier grand théorème de l'algèbre linéaire, qui stipule que le rang de colonne d'une matrice est égal au rang de ligne de la matrice. De plus, le professeur discute des méthodes de multiplication matricielle et du nombre de multiplications requises pour le processus. Dans l'ensemble, la conférence offre une introduction à l'algèbre linéaire et à son importance dans l'apprentissage à partir de données.

  • 00:00:00 Dans cette section, le professeur se présente et présente le cours, qui se concentre sur l'apprentissage à partir de données et implique beaucoup d'algèbre linéaire. Il mentionne un site public avec une table des matières pour le prochain livre, ainsi que le fait qu'il n'y aura pas de quiz, seulement des devoirs qui couvriront à la fois des questions d'algèbre linéaire et des applications pratiques telles que la reconnaissance de l'écriture manuscrite et l'assemblage d'images. Le professeur commence ensuite par les bases de l'algèbre linéaire en démontrant la bonne façon de multiplier une matrice par un vecteur et explorera plus tard la multiplication de matrices par des matrices.

  • 00:05:00 Dans cette section, le conférencier explique l'importance de penser une matrice comme un objet entier qui multiplie un vecteur pour donner un autre vecteur. Il introduit le concept de l'espace colonne d'une matrice, qui est une collection de tous les vecteurs qui peuvent être obtenus en multipliant la matrice par tous les vecteurs possibles. Il explique que l'espace des colonnes dépend de la matrice et pourrait être tout l'espace de R3 ou un sous-ensemble plus petit de celui-ci. En fin de compte, le conférencier souligne que l'algèbre linéaire fournit un moyen de répondre aux questions sur les collections de vecteurs, telles que l'espace des colonnes d'une matrice.

  • 00: 10: 00 Dans cette section, le conférencier explique que l'espace des colonnes d'une matrice aléatoire 3x3 n'est pas nécessairement tous les trois, mais peut plutôt être un plan ou même une ligne. Il donne un exemple de matrice dont l'espace de colonne est juste une ligne, et un autre exemple de matrice dont la troisième colonne est une combinaison des deux premières, faisant de son espace de colonne un plan au lieu de tout l'espace. Il présente ensuite les matrices de rang un, qui sont des éléments constitutifs de l'algèbre linéaire et de la science des données, et montre comment elles peuvent être considérées comme une colonne multipliée par une multiplication de lignes.

  • 00:15:00 Dans cette section, le conférencier discute de l'espace des colonnes d'une matrice, qui est l'ensemble de toutes les combinaisons possibles de ses colonnes. Il explique le concept de colonnes indépendantes et le nombre de colonnes indépendantes d'une matrice, ce que l'on appelle son rang. Le rang est le nombre de colonnes indépendantes qui remplissent l'espace, et une base est constituée des colonnes indépendantes. Le conférencier montre comment trouver un moyen naturel de créer une base pour l'espace des colonnes en recherchant des vecteurs qui ne sont pas des combinaisons de ceux déjà choisis. Il présente une matrice à trois colonnes, dont deux sont indépendantes et forment la base de l'espace des colonnes, tandis que la troisième n'est pas indépendante et ne peut pas faire partie de la base.

  • 00:20:00 Dans cette section du cours, l'instructeur explique le processus de factorisation matricielle et présente la première factorisation matricielle, célèbre dans l'enseignement proche de l'algèbre. Le processus consiste à produire une matrice R qui indique à l'utilisateur comment obtenir les colonnes d'une matrice à partir des colonnes d'une autre matrice. La forme de R est déterminée par la matrice d'origine, et l'instructeur poursuit en expliquant comment mettre les bons nombres pour obtenir la bonne factorisation de la matrice. La conférence aborde également brièvement le premier grand théorème de l'algèbre linéaire, qui stipule que le rang de colonne d'une matrice est égal au rang de ligne de la matrice.

  • 00:25:00 Dans cette section, le conférencier présente le concept d'espacement des lignes et sa relation avec l'espacement des colonnes. Il explique que l'espace ligne d'une matrice est la combinaison de ses lignes, tandis que l'espace colonne d'une matrice est la combinaison de ses colonnes. Il explique en outre que la dimension de l'espace de ligne est le rang de ligne de la matrice, qui peut être déterminé en trouvant une base pour l'espace de ligne. Le conférencier souligne l'importance de ce fait et offre une preuve, montrant que les lignes d'une matrice peuvent former une base pour son espace ligne.

  • 00:30:00 Dans cette section du cours, le professeur explique comment vérifier si deux vecteurs sont une base pour l'espacement des lignes en vérifiant s'ils sont indépendants et si leurs combinaisons produisent toutes les lignes. Il le démontre à travers un exemple impliquant la multiplication matricielle et montre que la factorisation a = CR est l'idée clé pour trouver l'espace des lignes. L'espace des colonnes, également connu sous le nom de plage, est également abordé en mettant l'accent sur les différentes langues et les différentes manières d'exprimer les concepts mathématiques fondamentaux.

  • 00: 35: 00 Dans cette section, le conférencier aborde les concepts de rang de colonne et de rang de ligne, qui sont le nombre de colonnes et de lignes respectivement dans une matrice qui sont linéairement indépendantes, ainsi que la relation entre ces deux rangs. Il explique que pour une grande matrice, il n'est pas pratique d'examiner toutes les entrées et qu'un échantillonnage aléatoire doit être utilisé, par exemple en prenant un vecteur aléatoire X et en regardant son axe correspondant. L'enseignant aborde également les factorisations telles que la prise de colonnes ou de lignes d'une matrice, et la forme échelonnée réduite d'une matrice.

  • 00:40:00 Dans cette section de la vidéo, le professeur Gilbert Strang explique que les problèmes d'algèbre linéaire feront partie des devoirs du cours. Cependant, ce qui rend ce cours spécial, ce sont les autres devoirs en ligne, qui peuvent être effectués avec MATLAB, Python ou Julia. Il explique comment les concepts du cours sont attribués au professeur Rao, de l'Université du Michigan, qui avait précédemment créé des problèmes de devoirs en ligne pour un cours réussi en EE au Michigan. Le professeur Johnson, qui fait partie de ce cours, donne un tutoriel sur Julia chaque semestre, auquel les étudiants peuvent assister. Alors que MATLAB a lancé une rampe d'accès à l'apprentissage en profondeur, Julia devient également un langage populaire pour l'apprentissage en profondeur en raison de sa facilité d'utilisation.

  • 00:45:00 Dans cette section du cours, l'instructeur aborde le sujet de la multiplication d'une matrice par un vecteur. Bien que cela puisse sembler simple pour beaucoup, l'instructeur explore une manière plus approfondie de comprendre la multiplication matricielle, où elle devient une combinaison de colonnes et de lignes. Cette approche est une généralisation de l'idée AX=B, où AB est la somme des produits externes. Le cours aborde brièvement le nombre de multiplications individuelles requises pour une matrice M par N multipliée par une matrice N par P.

  • 00: 50: 00 Dans cette section, le conférencier discute du nombre de multiplications nécessaires pour la multiplication matricielle en utilisant l'exemple d'une ancienne méthode et d'une nouvelle méthode. Dans l'ancienne méthode, n multiplications sont nécessaires pour faire un produit scalaire, et il y a m et p produits scalaires dans la réponse, ce qui donne m et p multiplie globalement. Cependant, la nouvelle méthode nécessite des multiplications mp pour chaque multiplication de colonne et de ligne, et il y en a n, ce qui conduit à mp fois n multiplications. Malgré les différentes méthodologies, les deux méthodes aboutissent à la même réponse, et le conférencier indique qu'il en reparlera vendredi.
 

Cours 2 : Multiplier et factoriser des matrices



Cours 2 : Multiplier et factoriser des matrices

Ce cours couvre les bases de la multiplication et de la factorisation des matrices. L'auteur explique comment les matrices ont des dimensions à la fois dans les espaces de ligne et de colonne, et comment l'espace de ligne a la dimension R tandis que l'espace nul a la dimension M moins R. La conférence traite également de la relation entre les lignes et les solutions d'une équation, ainsi que l'orthogonalité des vecteurs dans l'espace à deux dimensions. Enfin, l'auteur explique le théorème fondamental de l'algèbre linéaire, selon lequel les dimensions d'un espace ressortent au moment où la géométrie est élaborée.

  • 00: 00: 00 Dans cette conférence, Gilbert Strang explique comment multiplier des matrices en utilisant la colonne fois la ligne comme méthode. Elle explique également les cinq factorisations clés des matrices et leur importance en mathématiques. Enfin, elle montre comment créer des matrices et discute de leur importance en algèbre linéaire.

  • 00:05:00 Dans cette conférence, l'auteur discute du concept de matrices orthogonales et de leur signification. Il poursuit en expliquant la règle de la multiplication matricielle et montre comment elle peut être appliquée à deux exemples simples. Il procède ensuite à discuter du rang d'une matrice et comment il est lié aux colonnes et aux lignes de la matrice. Enfin, l'auteur montre comment multiplier une matrice par sa matrice diagonale.

  • 00:10:00 Dans cette conférence, le professeur Gilbert Strang donne un bref aperçu du problème des valeurs propres symétriques et de ses diverses applications. Il démontre ensuite comment la division d'une matrice en morceaux de rang 1 peut fournir les vecteurs propres et les valeurs propres corrects.

  • 00:15:00 Dans cette conférence, le professeur Gilbert Strang couvre les factorisations fondamentales des matrices, y compris la décomposition en valeurs singulières (SVD). Il discute également de l'élimination et explique comment elle est exprimée par L fois U. Enfin, il montre comment cela peut être appliqué à une matrice inversible et montre comment elle se factorise en triangle inférieur fois triangulaire supérieur.

  • 00:20:00 Dans cette conférence, le professeur Gilbert Strang explique le concept d'élimination et comment il est utilisé dans la résolution d'équations. Il montre ensuite comment l'élimination peut être appliquée à une matrice deux par deux et donne un exemple illustrant le processus.

  • 00:25:00 Le théorème fondamental de l'algèbre linéaire stipule qu'il existe quatre sous-espaces d'une matrice, chacun avec une dimension différente. Les sous-espaces sont l'espace des lignes, l'espace des colonnes, l'espace vectoriel de toutes les transformations linéaires sur la matrice et l'espace de toutes les matrices.

  • 00:30:00 L'espace nul d'une matrice est l'ensemble des solutions du mot "null" (un vecteur avec toutes ses composantes égales à zéro). Cet espace est fermé, c'est-à-dire qu'il ne contient aucune solution à « ax égal à zéro » qui ne soit également solution à « e ». De plus, l'espace nul d'une transposition est l'ensemble des solutions au mot "null" qui sont également des solutions à "x transpose y".

  • 00: 35: 00 Le théorème fondamental de l'algèbre linéaire stipule qu'il existe généralement des solutions indépendantes aux équations d'un système si les dimensions des deux espaces impliqués sont égales. Ce théorème est souvent utilisé pour déterminer les dimensions d'un système d'équations.

  • 00:40:00 Le cours Multiplication et factorisation des matrices couvre les principes fondamentaux de la multiplication et de la factorisation des matrices. La conférence explique que les matrices ont des dimensions à la fois dans les espaces de ligne et de colonne, et que l'espace de ligne a la dimension R tandis que l'espace nul a la dimension M moins R. La dernière section de la conférence traite de la géométrie des espaces matriciels et montre comment trouver des vecteurs qui résolvent une équation particulière dans une matrice.

  • 00:45:00 Dans cette conférence, l'auteur explique la relation entre les lignes et les solutions d'une équation, ainsi que l'orthogonalité des vecteurs dans un espace bidimensionnel. Il discute également du théorème fondamental de l'algèbre linéaire, qui stipule que les dimensions d'un espace sortent juste lorsque la géométrie est élaborée.
 

Cours 3. Colonnes orthonormées en Q Donner Q'Q = I



3. Colonnes orthonormées dans Q Donner Q'Q = I

Cette section de la vidéo explique le concept de matrices orthogonales et leur signification en algèbre linéaire numérique. Le locuteur prouve que la longueur au carré de QX doit être la même que X transpose QX en utilisant le fait que Q transpose Q est égal à l'identité. La vidéo traite également de la construction de matrices orthogonales à l'aide de diverses méthodes telles que les matrices de Gordan et les matrices de Householder. L'importance et la construction des ondelettes sont également expliquées, ainsi que le concept d'utilisation de vecteurs propres orthogonaux dans le traitement du signal. Enfin, l'orateur explique comment tester des vecteurs orthogonaux avec des nombres complexes et mentionne que les matrices orthogonales ont des vecteurs propres orthogonaux avec des valeurs propres différentes.

  • 00:00:00 Dans cette section, le sujet porte sur les matrices Q, qui portent le nom de leurs colonnes orthonormées. Le fait clé dans les matrices Q est que les colonnes orthonormées se traduisent par le simple fait que Q transpose Q est égal à la matrice d'identité. L'explication en est que la longueur au carré de chaque vecteur dans la partie normale de la matrice est 1, ce qui donne un un dans la matrice d'identité. La partie orthogonale de la matrice a des zéros, produisant une identité simple. Pour les matrices carrées Q, Q transpose est égal à la matrice identité, faisant de Q une matrice orthogonale. Si Q est rectangulaire, un exemple d'obtention d'une matrice orthogonale 2 par 2 est par cos et sinus thêta. La matrice représente une rotation.

  • 00: 05: 00 Dans cette section de la vidéo, l'orateur discute de la propriété importante des matrices orthogonales, à savoir qu'elles ne modifient la longueur d'aucun vecteur. Cette propriété les rend populaires pour les algorithmes numériques car il n'y a jamais de sous-dépassement ou de dépassement lors de la multiplication par des matrices orthogonales. Le locuteur prouve que la longueur au carré de QX doit être la même que X transpose QX en utilisant le fait que Q transpose Q est égal à l'identité. L'orateur mentionne également que les matrices orthogonales sont également appelées matrices orthogonales et pose quelques exemples de matrices orthogonales deux par deux.

  • 00: 10: 00 Dans cette section, l'orateur discute du concept de matrice de réflexion, qui est obtenue après avoir apporté une modification mineure à une matrice de rotation. La matrice résultante est symétrique et a un déterminant de -1. Lorsqu'elle est appliquée aux vecteurs unitaires (1,0) et (0,1), la matrice les reflète respectivement sur une ligne et perpendiculairement à la première colonne. L'orateur mentionne également que des matrices plus grandes comme celles-ci sont appelées réflexions de Householder.

  • 00: 15: 00 Dans cette section, la transcription traite du concept de matrices orthogonales et de leur signification en algèbre linéaire numérique. La matrice Householder est présentée comme une matrice orthogonale importante. Une matrice Householder est créée en commençant par un vecteur unitaire et en soustrayant deux fois le produit du vecteur unitaire et de sa transposée, ce qui donne une matrice symétrique et orthogonale. La transcription explique que ces matrices sont utiles pour rendre les choses orthogonales et note qu'elles sont meilleures que la méthode de Gram-Schmidt. Le processus de vérification si la matrice Householder est orthogonale est également démontré, concluant qu'il s'agit d'une famille fiable de matrices orthogonales symétriques.

  • 00: 20: 00 Dans cette section, l'orateur discute de la construction de matrices orthogonales en utilisant le concept de matrices de Gordan, qui sont des matrices composées uniquement de uns et de négatives. Il construit des exemples stimulants de matrices de Gordan, chaque colonne étant orthogonale l'une à l'autre. L'orateur note que ce concept peut être utile dans la théorie de l'encodage et suggère qu'il existe une matrice orthogonale 12x12 composée de uns et de négatifs, ce qui conduit à une conjecture selon laquelle chaque taille de matrice (en plus de 1x1 et 3x3) peut être construite de cette manière.

  • 00: 25: 00 Dans cette section, l'orateur discute de la conjecture sur l'existence d'une matrice orthogonale possible des uns et des moins uns avec des colonnes orthogonales de chaque taille n. Bien qu'aucun moyen systématique n'ait été trouvé pour le prouver, il est suggéré que chaque multiple de quatre pourrait être une possibilité. L'orateur discute également de l'importance et de la construction des ondelettes, qui sont des constructions simples mais significatives qui aident à produire des vecteurs orthogonaux, en particulier pour les matrices symétriques. L'orateur illustre ce concept en dessinant une matrice de cas quatre par quatre de quatre quadrants, chacun composé de vecteurs orthogonaux qui suivent un modèle de uns et moins uns.

  • 00:30:00 Dans cette section, l'orateur discute des ondelettes et de la construction de la matrice d'ondelettes de Haar, qui a été développée de nombreuses années avant que le terme "ondelettes" ne soit inventé. La matrice de Haar a des fonctions très simples qui la rendent utilisable, et elle se compose de uns et de moins uns suivis de zéros. La matrice a l'avantage d'être clairsemée et participe à prendre la moyenne et les différences entre les valeurs à différentes échelles. Les ondelettes ont été développées par Ingrid Dobashi, qui a trouvé des familles de matrices orthogonales qui avaient de bonnes propriétés. Cette discussion mène au cours suivant sur les valeurs propres, les vecteurs propres et les matrices définies positives.

  • 00:35:00 Dans cette section, l'orateur parle de l'importance des vecteurs propres orthogonaux. Les vecteurs propres des matrices symétriques et orthogonales sont automatiquement orthogonaux, ce qui simplifie la recherche de vecteurs orthogonaux. Le vecteur propre le plus important est la transformée de Fourier discrète, qui entre dans la transformée de Fourier rapide. L'orateur démontre comment les vecteurs propres de Q sont orthogonaux et rappelle que la transformée de Fourier discrète est extrêmement utile dans le traitement du signal car elle aide à diviser les vecteurs en leurs fréquences. Les matrices de permutation sont une réorganisation de la matrice d'identité et leurs colonnes sont orthogonales, ce qui en fait des gagnants. L'orateur conclut en expliquant comment la discussion de mercredi se concentrera sur les vecteurs propres et les valeurs propres d'une file d'attente.

  • 00: 40: 00 Dans cette section, l'orateur discute des matrices orthogonales, des rotations, des réflexions et des vecteurs propres. La vidéo explique comment fonctionnent les vecteurs propres des matrices de permutation et que la première colonne est orthogonale à la seconde (ou en termes de fréquence, la colonne zéro est orthogonale à la première colonne). La vidéo montre ensuite comment chacune des quatre colonnes est un vecteur propre de la permutation et comment elles sont orthogonales les unes aux autres. Enfin, la vidéo mentionne que c'est similaire à des trucs de Fourier discrets mais au lieu de e au I, II au IX, il y a des vecteurs.

  • 00:45:00 Dans cette section de la vidéo, le conférencier explique comment tester des vecteurs orthogonaux avec des nombres complexes. Il mentionne que prendre le produit scalaire sans le conjugué complexe peut ne pas être précis, mais l'utilisation du conjugué complexe peut montrer l'orthogonalité. L'orateur mentionne également que les vecteurs propres d'une matrice orthogonale avec différentes valeurs propres doivent être orthogonaux.
 

Cours 4. Valeurs propres et vecteurs propres



4. Valeurs propres et vecteurs propres

Cette vidéo explique le concept de valeurs propres et de vecteurs propres, et comment ils peuvent être utilisés pour calculer des transformations linéaires. Il montre également comment les vecteurs propres peuvent être utilisés pour trouver des équations linéaires dans un système.

  • 00:00:00 Dans cette vidéo, l'auteur explique le concept de vecteurs propres et de valeurs propres pour les matrices carrées. Ils discutent également de l'utilité des vecteurs propres et des valeurs propres pour certains problèmes. Enfin, l'auteur discute des matrices symétriques définies positives et de leur importance.

  • 00:05:00 La vidéo traite du concept de valeurs propres et de vecteurs propres, et comment ils peuvent être utilisés pour calculer des transformations linéaires. Il montre également comment les vecteurs propres peuvent être utilisés pour trouver des équations linéaires dans un système.

  • 00:10:00 Cette vidéo explique comment les valeurs propres et les vecteurs propres peuvent être utilisés pour résoudre rapidement des équations aux différences. La première utilisation des vecteurs propres est de pouvoir résoudre le principe pour lequel ils ont été inventés, qui est de pouvoir résoudre les différences dans les équations vectorielles. De plus, la vidéo explique comment des matrices similaires ont les mêmes valeurs propres.

  • 00:15:00 La vidéo explique comment les valeurs propres sont calculées et comment elles sont liées aux vecteurs propres. Il explique également comment les valeurs propres sont préservées lorsque les matrices sont multipliées.

  • 00:20:00 Dans cette vidéo, le présentateur discute du concept de valeurs propres et de vecteurs propres, et explique pourquoi ils peuvent ne pas être identiques. Il poursuit ensuite en expliquant comment deux matrices avec les mêmes valeurs propres peuvent encore être différentes en termes de vecteurs propres.

  • 00:25:00 Dans cette vidéo, l'auteur se spécialise dans les matrices symétriques pour discuter de la particularité des valeurs propres et des vecteurs propres. Il prétend qu'une matrice anti-symétrique a des valeurs propres imaginaires.

  • 00:30:00 Dans cette vidéo, les valeurs propres et les vecteurs propres d'une matrice sont expliqués. Deux vérifications rapides sont effectuées pour vérifier que le calcul a été effectué correctement, puis la trace d'une matrice est affichée. Enfin, les matrices symétriques et définies positives sont expliquées.

  • 00:35:00 La vidéo traite des valeurs propres et des vecteurs propres d'une matrice symétrique. Les valeurs propres et les vecteurs propres sont importants pour comprendre la structure de la matrice, et il est possible de vérifier que les valeurs propres restent les mêmes. De plus, la vidéo explique comment obtenir une matrice diagonale.

  • 00:40:00 Dans cette vidéo, l'auteur diagonalise une matrice, trouve les valeurs propres et trouve un M pour que les vecteurs propres soient similaires. Il écrit ensuite ces informations sous forme de matrice et confirme qu'elles sont correctes.

  • 00:45:00 Cette vidéo traite des concepts de valeurs propres et de vecteurs propres, et de leur relation. Il explique ensuite comment une matrice symétrique peut avoir différentes représentations de vecteurs propres et de valeurs propres, et comment calculer ces représentations à l'aide du théorème spectral.
 

Cours 5. Matrices définies et semi-définies positives



5. Matrices définies et semi-définies positives

Dans cette vidéo, l'orateur résume les faits saillants des conférences précédentes en algèbre linéaire, y compris les valeurs propres, les déterminants et les pivots, qui fournissent tous des tests pour les matrices définies positives. L'orateur explique ensuite la relation entre les matrices positives définies et indéfinies, leur connexion aux valeurs propres et aux déterminants, et comment calculer l'énergie dans le vecteur X pour une matrice. Le conférencier aborde également les concepts d'apprentissage en profondeur, de réseaux de neurones, d'apprentissage automatique et de minimisation d'une énergie. Ils abordent le concept d'une fonction convexe et expliquent comment elle peut être utilisée dans l'apprentissage en profondeur. Enfin, l'orateur introduit des exercices pour les matrices définies et semi-définies positives et mentionne brièvement le sujet à venir de la décomposition en valeurs singulières.

  • 00:00:00 Dans cette section, l'orateur résume les points saillants des cinq conférences précédentes en algèbre linéaire, y compris les valeurs propres, une transposée, des déterminants et des pivots, qui fournissent tous des tests pour les matrices définies positives. Il explique que les matrices définies positives sont les meilleures des matrices symétriques et ont des valeurs propres positives, mais il existe des tests supplémentaires au-delà des valeurs propres. L'orateur montre comment déterminer si une matrice deux par deux est définie positive en se demandant si elle a des valeurs propres positives, un déterminant positif, des pivots positifs ou si elle peut être factorisée d'une certaine manière.

  • 00:05:00 Dans cette section, l'orateur discute des matrices positives définies et indéfinies et de leur lien avec les valeurs propres et les déterminants. Le déterminant d'une matrice est lié à ses valeurs propres, car elles sont le produit des valeurs propres, et si le déterminant est négatif, alors il y a au moins une valeur propre négative. Les matrices indéfinies peuvent être rendues définies positives en ajustant les entrées diagonales, et les principaux déterminants (déterminants des sous-matrices dans le coin supérieur gauche) doivent réussir des tests pour garantir une définition positive. L'orateur relie également les pivots aux déterminants et à l'élimination. En fin de compte, l'orateur définit les matrices définies positives comme celles qui réussissent le test énergétique.

  • 00:10:00 Dans cette section, l'orateur montre comment calculer l'énergie dans le vecteur X pour une matrice et montre que l'énergie d'une matrice définie positive est supérieure à zéro. L'énergie, dans ce cas, est une fonction quadratique pure qui pourrait être une fonction de perte utilisée dans l'apprentissage en profondeur pour minimiser la différence entre les données d'apprentissage et le nombre obtenu. Les nombres diagonaux de la matrice 3 et 6 donnent les pièces diagonales, et les termes croisés, qui peuvent devenir négatifs, donnent 8 X Y.

  • 00:15:00 Dans cette section, l'orateur explique la relation entre l'apprentissage en profondeur, les réseaux de neurones, l'apprentissage automatique et la minimisation d'une énergie. L'orateur utilise l'analogie d'un bol pour démontrer visuellement comment les réseaux de neurones fonctionnent pour trouver le quadratique minimum pour un problème, et comment le fait d'avoir des termes non linéaires peut rendre le problème plus compliqué. Ils expliquent ensuite comment l'apprentissage automatique sur de gros problèmes peut prendre plus d'une semaine à calculer, car il implique de minimiser des fonctions compliquées pouvant inclure plus de 100 000 variables. L'orateur aborde également l'idée d'une fonction convexe et explique comment elle peut être utilisée dans l'apprentissage en profondeur.

  • 00:20:00 Dans cette section, l'orateur aborde le concept de descente de gradient, qui est le principal algorithme utilisé dans l'apprentissage en profondeur, les réseaux de neurones et l'apprentissage automatique. Partant d'un point initial sur une surface, l'algorithme calcule les dérivées de la fonction pour déterminer la direction de la pente ou du gradient le plus raide, puis suit ce chemin jusqu'à ce qu'il atteigne un minimum ou tourne vers le haut. L'algorithme implique le recalcul du gradient à chaque étape jusqu'à ce que le niveau de précision souhaité soit atteint.

  • 00:25:00 Dans cette section, le concept de descente de gradient est expliqué, qui est couramment utilisé dans l'apprentissage automatique pour l'optimisation. Il est mentionné que seules les dérivées premières sont généralement calculées pour l'optimisation, car le calcul des dérivées secondes pour un grand nombre de variables peut être compliqué. Cependant, la descente en pente a des limites, comme lors de la descente d'une vallée étroite. Les matrices définies positives sont importantes car elles donnent une forme de bol pour l'optimisation, mais si les valeurs propres sont éloignées, cela peut causer des problèmes. Enfin, la conversation s'oriente vers les devoirs.

  • 00:30:00 Dans cette section, l'orateur introduit des exercices pour les matrices définies et semi-définies positives. L'orateur donne un exemple d'une matrice définie positive S et d'une matrice définie positive T, et demande si leur addition, S + T, est définie positive. L'orateur utilise le test d'énergie pour répondre à cette question, séparant l'équation en deux parties pour montrer qu'elle est bien définie positive. L'orateur discute également de la positivité de l'inverse du péché, en utilisant le premier test. L'orateur note qu'une matrice doit être symétrique avant d'avoir des valeurs propres réelles et de pouvoir subir d'autres interrogations.

  • 00:35:00 Dans cette section, l'orateur discute du concept de matrices définies positives et introduit l'idée de matrices semi-définies. Une matrice définie positive est une matrice symétrique où toutes les valeurs propres sont positives. L'orateur montre comment une matrice orthogonale multipliée par sa transposée sur une matrice définie positive donne une matrice symétrique. Ils expliquent alors comment des matrices similaires ont les mêmes valeurs propres et que cette nouvelle matrice symétrique est bien définie positive. L'orateur introduit ensuite le concept de matrices semi-définies, qui ont des valeurs propres supérieures ou égales à zéro. Ils expliquent comment les matrices semi-définies ont un déterminant de zéro et peuvent avoir une valeur propre nulle, mais leur valeur de trace donnera un nombre positif.

  • 00:40:00 Dans cette section, le concept de matrices définies positives est élargi pour inclure les matrices semi-définies positives qui se trouvent sur le bord des matrices définies positives. Les valeurs propres d'une matrice de tous les uns sont calculées comme étant 3, 0 et 0, ce qui en fait une matrice semi-définie positive. Les tests pour les valeurs propres et les énergies supérieures ou égales à 0 restent les mêmes, mais les colonnes dépendantes sont désormais autorisées. La matrice doit être symétrique, et si son rang est seulement 1, alors elle ne peut pas être définie positive, mais elle est semi-définie positive si les valeurs propres sont positives.

  • 00:45:00 Dans cette section, l'orateur mentionne brièvement que le sujet de la prochaine section sera la décomposition en valeurs singulières (SVD). Ils notent également qu'ils ont maintenant couvert les matrices définies et semi-définies positives, indiquant qu'ils passent à des sujets plus avancés en algèbre linéaire.
 

Cours 6. Décomposition en valeurs singulières (SVD)



6. Décomposition en valeurs singulières (SVD)

Cette vidéo explique le concept de décomposition en valeurs singulières (SVD), qui est utilisé pour factoriser une matrice en trois matrices, où celle du milieu est diagonale et contient les valeurs singulières. Le SVD aide à comprendre la relation entre A, Sigma et V, aidant finalement à résoudre les équations. La vidéo traite de l'importance des vecteurs orthogonaux, des vecteurs propres et des valeurs propres dans SVD, et met l'accent sur l'orthogonalité des matrices A et V. La vidéo explique également la représentation graphique du processus SVD et la décomposition des pôles d'une matrice. Enfin, la vidéo traite du processus d'extraction de la partie la plus importante d'une grande matrice de données à l'aide de SVD.

  • 00:00:00 Dans cette section, l'instructeur aborde le concept de décomposition en valeurs singulières (SVD) qui est similaire aux valeurs propres mais applicable aux matrices rectangulaires. Les valeurs propres ne sont pas réalisables pour les matrices rectangulaires car les vecteurs propres sont complexes ou non orthogonaux. SVD introduit deux ensembles de vecteurs singuliers et de valeurs singulières à la place des vecteurs propres et des valeurs propres, respectivement. La clé de SVD est qu'une transposition a est une grande matrice, qui est carrée et représente le produit de matrices rectangulaires. La première étape pour effectuer SVD est de montrer que toute matrice peut être factorisée en u fois sigma fois V transpose.

  • 00:05:00 Dans cette section, l'orateur discute de la factorisation de la matrice A transpose A et introduit le concept de vecteurs propres et de valeurs propres. La matrice a des valeurs propres définies positives, qui sont utilisées pour calculer leurs racines carrées. Les vecteurs propres de cette matrice sont carrés, symétriques et définis positifs. La matrice résultante a les mêmes valeurs propres mais des vecteurs propres différents. L'orateur parle ensuite de la factorisation de A, où l'on cherche un ensemble de vecteurs orthogonaux V pouvant être multipliés par A pour obtenir un ensemble de vecteurs orthogonaux U. Ces vecteurs seront utilisés pour calculer la décomposition en valeurs singulières (SVD ). Le but de SVD est de trouver une factorisation de A en trois matrices, où celle du milieu est diagonale et contient les valeurs singulières de A.

  • 00:10:00 Dans cette section, le concept de la propriété orthogonale des V dans l'espace de sortie est exploré dans la grande image de l'algèbre linéaire où l'espace est divisé en espace de colonne, espace nul et autres. Il est démontré que lorsque les V sont multipliés par a, les utilisations résultantes sont également orthogonales, ce qui rend les V spéciaux. Une forme matricielle des équations est présentée, et il est révélé qu'en regardant une transposée a, le problème de trouver des utilisations orthogonales et orthonormées peut être simplifié. On en conclut qu'une transposée a est symétrique, définie positive et a une forme diagonale, ce qui nous indique les propriétés des V.

  • 00:15:00 Dans cette section, l'orateur discute du concept de décomposition en valeurs singulières (SVD). Les V dans le SVD sont les vecteurs propres de la transposée de A. Le Sigma Transpose Sigma sont les valeurs propres de A transposent A. Le SVD est établi en prenant l'étape finale de compréhension des vecteurs propres pour les valeurs propres doubles ou triples. Le SVD aide à comprendre la relation entre A, Sigma et V, ce qui aidera finalement à résoudre des équations comme A fois A transposer fois X est égal à B.

  • 00:20:00 Dans cette section, l'orateur explique l'étape finale du processus de décomposition en valeurs singulières (SVD), qui prouve que les vecteurs de base choisis U sont orthogonaux. Pour ce faire, le locuteur montre que le produit scalaire de U1 et U2 est égal à zéro. Puisque U1 est AV1/Sigma1 et U2 est AV2/Sigma2, le dénominateur de la fraction est annulé, ce qui laisse V1 transposer fois la matrice fois V2, qui est Sigma2 transpose V2. Comme V2 est un vecteur propre de A transpose A, le produit scalaire entre U1 et U2 est égal à zéro, prouvant ainsi que les vecteurs de base U sont orthogonaux.

  • 00:25:00 Dans cette section, l'orateur discute de l'orthogonalité des matrices A et V dans la décomposition en valeurs singulières (SVD) et de leur relation avec les vecteurs propres. Les matrices A et V sont orthogonales l'une à l'autre dans l'espace des colonnes et des lignes, respectivement. L'orateur discute ensuite de l'histoire de la découverte et de l'importance de cette relation dans les matrices de données. L'orateur met en garde contre l'utilisation de A transpose A pour calculer le SVD car cela peut être coûteux en calcul et vulnérable aux erreurs d'arrondi. Enfin, l'orateur utilise un diagramme pour expliquer comment les facteurs SVD peuvent être considérés comme une série de rotations et d'étirements.

  • 00:30:00 Dans cette section, le concept de décomposition en valeurs singulières (SVD) est expliqué à travers une représentation graphique du processus. La vidéo montre comment la matrice orthogonale fait tourner les vecteurs unitaires et comment Sigma les étire, ce qui donne une ellipse. Enfin, la matrice orthogonale U est appliquée, ce qui fait tourner l'ellipse. Si la matrice est définie positive et symétrique, alors U est identique à V, et le S initialement donné en entrée est identique à la sortie A. La vidéo explique également comment les paramètres de la factorisation peuvent être comptés.

  • 00:35:00 Dans cette section, l'orateur explique la correspondance des nombres entre les côtés gauche et droit dans la décomposition en valeurs singulières (SVD) en utilisant un exemple deux par deux. La rotation dans le SVD nécessite deux paramètres, tandis que l'étirement nécessite deux paramètres, ce qui donne un total de quatre paramètres correspondant aux quatre nombres dans le SVD. De plus, l'orateur parle du calcul du SVD pour une matrice trois par trois et suggère qu'une rotation dans l'espace 3D nécessite trois paramètres, à savoir le roulis, le tangage et le lacet. Enfin, l'orateur mentionne que l'exemple pour le SVD présenté dans le texte est pour une matrice spécifique et introduit quelques faits sur les valeurs propres et les valeurs singulières.

  • 00:40:00 Dans cette section, l'orateur explique que le déterminant du produit SVD est égal au produit des valeurs singulières. L'exemple utilisé montre que le produit des Sigma est également égal au déterminant. Cependant, le calcul d'exemples de SVD prend plus de temps puisqu'il faut prendre les racines carrées de l'argument. L'orateur souligne que les éléments les plus importants du SVD seront utilisés lors de la prochaine session, y compris les formes SVD plus petites et plus grandes, qui consistent respectivement en des valeurs non nulles et tiennent compte de l'espace nul.

  • 00:45:00 Dans cette section, l'orateur présente la décomposition des pôles d'une matrice, qui factorise toute matrice en une matrice symétrique multipliée par une matrice orthogonale. Il s'agit d'une factorisation célèbre en ingénierie et en géométrie, et elle peut être obtenue rapidement à partir du SVD. En mettant l'identité et en décalant légèrement les choses, le S et Q peuvent être lus à partir du SVD pour récupérer cette décomposition d'une matrice, qui en langage d'ingénierie mécanique nous dit que toute déformation peut être décrite comme un étirement symétrique et une torsion interne .

  • 00:50:00 Dans cette section, l'orateur explique le processus d'extraction de la partie la plus importante d'une grande matrice de données, ce que la science des données doit faire, puisqu'une partie de la matrice est du bruit et une partie du signal. Pour trouver la partie la plus significative du signal, le locuteur examine la u Sigma Vtranspose, en retirant le nombre le plus essentiel, Sigma 1. Ce nombre, avec sa colonne et sa ligne, forme la partie la plus critique de la matrice, car il a le rang un le plus substantiel, et est donc la partie de la matrice avec la variance la plus élevée. L'étape suivante consiste à calculer ces trois éléments pour mieux comprendre les données.
 

Cours 7. Eckart-Young : La matrice de rang k la plus proche de A



7. Eckart-Young : la matrice de rang k la plus proche de A

Dans cette vidéo YouTube, le conférencier explique le concept d'analyse en composantes principales (ACP), qui est utilisé pour comprendre une matrice de données et en extraire des informations significatives. L'importance des k plus grandes valeurs singulières d'une matrice, qui contiennent les informations les plus cruciales, est mise en évidence, et le théorème d'Eckart-Young, qui stipule que les k premières pièces d'une décomposition en valeurs singulières fournissent la meilleure approximation d'une matrice de rang k , est introduit. L'orateur aborde également différents types de normes pour les vecteurs et les matrices, y compris les normes l2, l1 et l'infini. L'importance de la norme de Frobenius dans la compétition Netflix et les IRM est mise en évidence, ainsi que le concept de la matrice de rang k la plus proche de A. L'orateur discute également de l'utilisation de matrices orthogonales pour préserver les propriétés de la matrice d'origine et introduit le concept de la décomposition en valeurs singulières (SVD) et son lien avec l'ACP. Enfin, l'importance de résoudre un système linéaire d'équations impliquant la matrice rectangulaire A et sa transposition est discutée, ainsi que l'utilisation de la méthode SVD pour trouver le meilleur rapport âge/taille pour un ensemble de données donné.

  • 00:00:00 Dans cette section, le conférencier explique le concept d'analyse en composantes principales (ACP), qui est un outil utilisé pour comprendre une matrice de données. Il souligne l'importance d'extraire des informations significatives des données plutôt que de tout copier. Il explique que les k plus grandes valeurs singulières de la matrice contiennent les faits les plus importants, et un K est la meilleure approximation d'une matrice de rang K. Le théorème d'Eckert-Young, qui stipule que l'utilisation des K premières pièces d'une décomposition en valeurs singulières est la meilleure approximation d'une matrice de rang K, est introduit, et le conférencier explique les différentes mesures de la norme d'une matrice.

  • 00:05:00 Dans cette section, l'orateur discute de différents types de normes pour les vecteurs et les matrices. La norme l2, ou la plus grande valeur singulière, est une norme importante pour les matrices. L'orateur explique que lors de la minimisation d'une fonction à l'aide de la norme l1, le vecteur gagnant est clairsemé, ou principalement constitué de composants 0, ce qui est utile dans le traitement et la détection du signal. La norme l1 est également connue sous le nom de poursuite de base et est importante car elle permet l'interprétation des composants du vecteur gagnant. Les normes l2 et l1 sont comparées, et le locuteur introduit également la norme de l'infini.

  • 00:10:00 Dans cette section, l'orateur explique trois normes matricielles importantes. La première est la norme à deux, qui est similaire à la longueur d'un vecteur et satisfait l'inégalité triangulaire. La seconde est la norme de Frobenius, qui traite les entrées d'une matrice comme un long vecteur et prend la racine carrée de la somme de leurs carrés. La troisième est la norme nucléaire, qui est la somme des valeurs singulières d'une matrice. Ces normes sont importantes car elles satisfont toutes à l'énoncé d'Eckart-Young selon lequel l'approximation de rang K la plus proche d'une matrice peut être trouvée à partir de ses K premières valeurs singulières.

  • 00:15:00 Dans cette section, l'orateur explique comment les normes L2 et Frobenius d'une matrice dépendent uniquement de ses valeurs singulières. La norme Frobenius a été utilisée dans le concours Netflix où les participants devaient compléter une grande matrice de classements de films avec des entrées manquantes, et il s'est avéré être la bonne norme pour la meilleure réalisation de la norme nucléaire de la matrice. Cette méthode de complétion de matrice est maintenant utilisée pour les examens IRM avec des données manquantes, où elle peut produire une excellente image même avec des données incomplètes.

  • 00:20:00 Dans cette section, l'orateur aborde le concept de la matrice de rang k la plus proche de A. Il s'agit de compléter une matrice en remplissant ce que l'IRM aurait vu dans les positions où il n'a pas regardé assez longtemps, en utilisant la norme nucléaire. L'exemple donné est celui d'une matrice de rang quatre, et pour trouver la meilleure approximation du rang deux, le locuteur choisit 4 et 3 comme les deux plus grandes valeurs. Toute autre matrice B serait plus éloignée de A que cette matrice choisie, bien que ce ne soit pas évident car cela dépend de la norme. Le point du théorème est qu'il n'est pas facile de trouver la matrice de rang k la plus proche de A, et une preuve est nécessaire.

  • 00:25:00 Dans cette section, l'orateur explique comment les matrices diagonales ne sont pas aussi spéciales qu'elles le paraissent et introduit le concept de matrice orthogonale, qui peut être utilisée pour multiplier les deux côtés d'une matrice donnée. L'orateur pose la question de ce qu'il advient des valeurs singulières d'une matrice lorsqu'elles sont multipliées par une matrice orthogonale, et explique que les valeurs singulières ne changeront pas. L'orateur explique également que les normes des vecteurs ne sont pas modifiées par les matrices orthogonales et conclut que les matrices orthogonales sont tout aussi bonnes que les matrices diagonales en termes de préservation des propriétés de la matrice d'origine.

  • 00:30:00 Dans cette section, le concept de décomposition en valeurs singulières (SVD) a été expliqué dans le contexte de l'assurance qualité matricielle. La matrice QA's SVD est composée d'une matrice diagonale, Sigma, à sa droite ; V transposé à droite de Sigma ; et Q u à gauche de Sigma, où Q u est une matrice orthogonale. Cette section a introduit le concept d'analyse en composantes principales (ACP) et expliqué comment extraire des informations significatives à partir de points de données. La première étape de l'ACP consistait à obtenir la moyenne zéro en soustrayant les valeurs moyennes des points de données pour chaque composant. La section expliquait en outre comment les valeurs résultantes pouvaient être utilisées pour trouver la relation linéaire entre les composants.

  • 00:35:00 Dans cette section, l'orateur discute de l'analyse en composantes principales (ACP) et de la façon dont elle diffère des moindres carrés. Alors que les moindres carrés mesurent les erreurs entre les points et une ligne, l'ACP mesure la distance perpendiculaire des points à une ligne et additionne leurs carrés pour les minimiser. Par conséquent, la solution à ce problème implique les sigmas de décomposition en valeurs singulières (SVD) au lieu des équations trouvées dans l'algèbre linéaire ordinaire. L'orateur distingue le problème de la recherche de la meilleure relation linéaire en ACP de la recherche de la solution des moindres carrés car le premier problème vise à modéliser des données non linéaires de manière linéaire.

  • 00:40:00 Dans cette section, l'orateur discute de l'importance de résoudre un système linéaire d'équations impliquant la matrice rectangulaire A et sa transposée. S'il s'agit d'une application fondamentale en 1806, l'orateur note qu'il ne s'agit pas de l'analyse en composantes principales (ACP), que les statisticiens appliquent depuis longtemps. Il note que la matrice de covariance ou la matrice de covariance de l'échantillon, qui implique la moyenne et la variance, joue un rôle énorme dans de telles applications statistiques. En particulier, la matrice de covariance d'échantillon est calculée à partir des échantillons et normalisée par le nombre de points de données, et c'est exactement un train aa transposé.

  • 00:45:00 Dans cette section, l'orateur présente un problème qui consiste à trouver le meilleur rapport âge/taille pour un ensemble de données donné. L'objectif est de minimiser la distance entre les données données et la solution. L'orateur suggère que la réponse réside dans la recherche du vecteur qui pointe dans la bonne direction, qui pourrait être une composante principale de la matrice définie positive symétrique. La méthode SVD est proposée comme solution à ce problème.
 

Cours 8 : Normes des vecteurs et des matrices



Conférence 8 : Normes des vecteurs et des matrices

Cette conférence aborde le concept de normes de vecteurs et de matrices, y compris les normes L1 et max, et leur application dans des domaines tels que la détection de compression et le traitement du signal. La conférence couvre également l'importance de l'inégalité triangulaire dans les normes, la forme des normes s et la connexion entre la norme L2 des vecteurs et des matrices. De plus, la conférence explore la norme de Frobenius et la norme nucléaire, qui reste une conjecture pour optimiser les réseaux de neurones, et souligne l'importance de l'enseignement et de l'apprentissage aux côtés des étudiants.

  • 00:00:00 Dans cette section, l'orateur discute d'une observation intéressante faite par un membre du corps professoral de la Sloan School du MIT concernant la façon dont les gens devinent le résultat des lancers de pièces. Il explique que même si, en théorie, la stratégie optimale serait de deviner systématiquement face, les gens et les animaux finissent par deviner pile environ un quart du temps, même si les chances d'obtenir face sont beaucoup plus élevées. La raison n'est pas expliquée car l'orateur n'a pas eu assez de temps pour entendre l'explication. Le conférencier introduit également brièvement le concept de normes et leur importance dans la mesure de la taille des vecteurs, des matrices, des tenseurs et des fonctions.

  • 00:05:00 Dans cette section, le concept de normes de vecteurs et de matrices est discuté. Le conférencier présente différents types de normes comme la norme L1 et la norme max qui font partie intégrante du domaine de la détection de compression et du traitement du signal. Il explique que la norme P est égale à la puissance P à la puissance P ici P, où prendre les puissances P et les racines P donnera la norme de deux V pour avoir un facteur de deux par rapport à la norme de V. De plus, le zéro norme est introduite, dont le nombre de composantes non nulles donne une mesure de la parcimonie des matrices et des vecteurs. Cependant, ce n'est pas une norme car cela enfreint la règle selon laquelle le même nombre de composants non nuls a la même norme, et les articles de mathématiques entre un et l'infini où des normes appropriées existent sont discutés.

  • 00:10:00 Dans cette section, le conférencier discute des normes des vecteurs et des matrices. La boule unitaire de la norme est un cercle dont l'équation v1 au carré plus v2 au carré est égale à un. La boule unitaire pour la norme l1 est un losange avec le graphique en ligne droite de v1 plus v2 égal à un dans le quadrant positif. La boule unitaire pour la norme max est également tracée avec les points zéro, +/- un et +/- i égal à max, et le reste de la limite demande un peu de réflexion pour être compris. Au fur et à mesure que le nombre p change, la norme commence par un losange, se gonfle pour devenir un cercle à p égal à deux et devient un carré à p égal à l'infini. Enfin, la norme 0 n'est pas incluse, et les points avec un seul non nul sont sur les axes.

  • 00:15:00 Dans cette section, le conférencier discute de différents types de normes, telles que la norme L1 ou Manhattan, la norme L2 ou euclidienne et la norme s, qui est une norme de matrices symétriques définies positives. L'enseignant note l'importance de l'inégalité triangulaire dans les normes, qui est brisée dans certains cas, comme lors de l'utilisation de la norme Lp avec p inférieur à un. De plus, il est démontré que la norme s a une forme spécifique qui satisfait la propriété de convexité, qui n'est pas possédée par certaines normes qui violent les règles d'une norme.

  • 00:20:00 Dans cette section, le conférencier aborde les différents types de normes applicables aux vecteurs et aux matrices. La norme L2 est utilisée lorsque la matrice S est la matrice identité, mais l'utilisation d'une matrice S différente modifiera la forme de la norme. Un cas typique est S égal à 3, ce qui crée une norme pondérée représentée par une ellipse. Toutes les normes vectorielles sont des variations de la norme L2 avec des valeurs différentes pour P. Le conférencier mentionne également brièvement le problème de poursuite de base et la régression de crête avec leurs normes respectives L1 et L2.

  • 00:25:00 Dans cette section, le conférencier aborde le concept de normes en optimisation, en particulier les normes L1 et L2. En utilisant l'exemple de trouver le point sur une ligne avec la plus petite norme L2 puis la plus petite norme L1, l'enseignant souligne que le point avec la plus petite norme L1 est le gagnant et a le plus de zéros, ce qui en fait un vecteur creux. C'est un fait important qui s'étend à des dimensions supérieures et rend la norme L1 spéciale. Dans l'ensemble, la conférence se penche sur les nuances et les applications des normes dans l'optimisation des réseaux de neurones et de la vie en général.

  • 00:30:00 Dans cette section, l'orateur discute du vainqueur de la norme L1 et du fait qu'il n'est pas conseillé de monter plus haut sur la ligne car cela augmente le non-zéro par rapport à la deuxième composante. Ils introduisent également la notion de deux normes de matrices et comment elle est connectée aux deux normes de vecteurs par un facteur d'explosion, qui est le rapport maximal des deux normes de AX sur les deux normes de X. La norme matricielle est défini comme le facteur d'explosion maximal sur tous les X.

  • 00:35:00 Dans cette section, le conférencier discute des normes des matrices et comment trouver une bonne norme d'une matrice. Il explique que la valeur maximale du rapport obtenu par les deux normes est appelée Sigma 1. Cette valeur peut être utilisée pour déterminer ce qu'est le vecteur singulier sans pour autant les trouver tous. De plus, d'autres normes matricielles peuvent être obtenues en maximisant ce facteur d'explosion dans cette norme vectorielle. Les vecteurs singuliers sont un moyen de trouver les normes, ainsi, les vecteurs propres peuvent ne pas fonctionner lorsqu'il s'agit de matrices qui ne sont pas symétriques.

  • 00:40:00 Dans cette section, le conférencier discute de la norme de Frobenius des matrices, qui est notée par un F majuscule et équivaut à la racine carrée de la somme de tous les éléments de la matrice au carré. Cette norme est liée aux Sigma, les carrés des valeurs singulières de la SVD. En outre, la conférence explore comment la matrice orthogonale et la norme de Frobenius sont liées et comment la norme nucléaire est liée aux algorithmes d'optimisation de l'apprentissage en profondeur.

  • 00:45:00 Dans cette section, le conférencier discute de la conjecture selon laquelle, dans une situation de modèle, l'optimisation par descente de gradient sélectionne les poids qui minimisent la norme nucléaire. La norme nucléaire est la somme des valeurs singulières d'une matrice, similaire à la norme L1 pour les vecteurs. Cette conjecture reste à prouver, mais l'idée a des applications potentielles dans l'apprentissage en profondeur et la détection compressée. Le professeur souligne que son travail n'est pas de noter ses étudiants mais d'enseigner et d'apprendre avec eux. La conférence se termine par une annonce du devoir trois, qui utilisera les notes des sections huit et neuf.
 

Cours 9. Quatre façons de résoudre les problèmes des moindres carrés



9. Quatre façons de résoudre les problèmes des moindres carrés

Dans cette vidéo, l'instructeur discute du concept des moindres carrés et des différentes façons de l'aborder. Il souligne l'importance des moindres carrés, car c'est un problème essentiel en algèbre linéaire et sert de ciment qui maintient l'ensemble du cours ensemble. La vidéo couvre la pseudo-inverse des matrices, la SVD des matrices inversibles et non inversibles, et différentes méthodes pour résoudre les problèmes des moindres carrés, y compris le plan de Gauss et les colonnes orthogonales. La vidéo aborde également l'idée de minimiser la distance entre ax + b et les mesures réelles à l'aide de la norme L2 au carré et son lien avec la régression linéaire et les statistiques. De plus, la vidéo donne un aperçu d'un projet qui utilise le matériel appris dans le cours, en se concentrant sur des domaines tels que l'apprentissage automatique et l'apprentissage en profondeur.

  • 00:00:00 Dans cette section, l'instructeur discute de l'importance des moindres carrés et de la façon dont il s'agit d'un problème essentiel en algèbre linéaire. Il mentionne qu'il existe différentes façons d'aborder les moindres carrés, et ce sujet est le ciment qui maintient l'ensemble du cours ensemble. Il mentionne également qu'il n'y aura pas d'examens ou de tests finaux, mais à la place, il encouragera un projet qui utilise la matière apprise dans le cours. Le projet comprendra différents domaines comme l'apprentissage automatique et l'apprentissage en profondeur, et il enverra un message sur les détails du projet au fur et à mesure.

  • 00:05:00 Dans cette section, l'intervenant explique le concept de pseudo-inverse d'une matrice. L'inverse, lorsqu'il existe, nous permet de multiplier par lui et de revenir ensuite au vecteur d'origine, mais pour une matrice sans inverse, nous nous tournons vers le pseudo-inverse. Ceci est pertinent dans les cas où la matrice est rectangulaire, a des valeurs propres nulles ou a un espace nul. L'orateur utilise une image de l'espace des rangées et des colonnes pour expliquer quelles parties de l'image sont inversibles et lesquelles sont sans espoir. La pseudo-inverse sera utilisée pour résoudre des problèmes lorsque la matrice n'est pas inversible, fournissant une solution adéquate.

  • 00:10:00 Dans cette section, l'orateur explique comment définir le pseudo-inverse d'une matrice pour les situations où une matrice ne peut pas être inversée. Ils expliquent comment gérer l'espace nul d'une matrice et ce que la pseudo-inverse devrait faire dans ce cas. L'orateur fournit un plan de ce que le pseudo-inverse devrait faire dans l'espace des colonnes et l'espace orthogonal où personne ne le frappe. En utilisant le SVD, ils fournissent une formule pour la pseudo-inverse qui consiste à projeter une matrice sur la matrice d'identité sur la moitié supérieure et zéro sur la moitié inférieure.

  • 00:15:00 Dans cette section, la vidéo traite de la SVD (décomposition en valeurs singulières) d'une matrice inversible, où la SVD ramène les V aux U ou vice versa. Si une matrice n'est pas inversible, alors sa SVD nécessite que sa matrice Sigma rectangulaire soit remplacée par sa pseudo-inverse. La vidéo montre un exemple de matrice avec deux colonnes indépendantes où Sigma n'a que deux non-zéros, et le reste sont des zéros, représentant une situation singulière totale. Par conséquent, la meilleure option consiste à utiliser le pseudo-inverse de Sigma à la place de Sigma inverse.

  • 00:20:00 Dans cette section, le concept de Sigma plus, le pseudo-inverse de Sigma, est introduit comme solution pour les matrices rectangulaires qui ne peuvent pas être inversées. Le pseudo-inverse est utilisé pour résoudre le problème des moindres carrés où il existe une équation ax égale à B, mais a n'est pas inversible. Ce problème survient lorsqu'il y a trop de mesures ou de bruit. La matrice Sigma plus est utilisée pour obtenir les vecteurs dans l'espace des colonnes, tandis que les vecteurs dans l'espace orthogonal sont considérés comme insolubles. La première façon de résoudre le problème des moindres carrés est d'utiliser la matrice Sigma plus pour donner la solution.

  • 00:25:00 Dans cette section, l'orateur discute du problème des moindres carrés consistant à ajuster une ligne droite à des mesures bruyantes à l'aide d'un système linéaire d'équations. Ils expliquent que si les mesures se situent sur une ligne, alors le système linéaire a une solution, mais en général, ce n'est pas le cas. Ils introduisent ensuite l'idée de minimiser la distance entre ax + b et les mesures réelles en utilisant la norme L2 au carré. Cette technique a été proposée par Gauss et est utilisée pour trouver les meilleures valeurs de C et D dans l'équation Cx + D qui représente la droite la plus proche des mesures.

  • 00:30:00 Dans cette section, l'orateur explique le concept des moindres carrés et comment il est utilisé pour résoudre des problèmes insolubles dans la régression linéaire et les statistiques. En minimisant la fonction de perte quadratique, un système d'équations linéaires est produit qui donne finalement la meilleure réponse, suivant les conseils de Gauss. Le meilleur X est trouvé en résolvant l'équation a transpose a fois X est égal à a transpose B, ce qui conduit au minimum. L'orateur dessine ensuite un graphique pour expliquer le concept d'espace de colonne de A et comment B n'est pas dans l'espace de colonne, et comment les carrés et les équations normales conduisent au meilleur AX.

  • 00:35:00 Dans cette section, l'orateur discute de différentes méthodes pour résoudre les problèmes des moindres carrés. La méthode 2 consiste à résoudre les équations normales à l'aide de matrices dans MATLAB. Cependant, cette méthode peut ne pas fonctionner si la matrice a des colonnes presque singulières. La méthode 3 consiste à utiliser le plan de Gauss, qui ne fonctionne que si la matrice a des colonnes indépendantes, ce qui signifie que la matrice est inversible. La méthode pseudo-inverse peut également être utilisée lorsque la matrice n'est pas inversible mais a des colonnes indépendantes. L'importance de l'inversibilité de la matrice est soulignée tout au long de la section.

  • 00:40:00 Dans cette section, l'orateur explique que lorsque l'espace nul est nul, la réponse de la méthode pseudo-inverse est la même que la réponse provenant de la méthode d'une transposition d'une inverse d'une transposition B. Cependant, le le locuteur note que l'espace nul d'une transposition n'est pas inversible, mais une transposition a est inversible. De plus, l'orateur explique que la matrice aa transposée fait de son mieux pour être l'inverse, mais ce n'est pas assez proche. Il est démontré que le pseudo-inverse fonctionne lorsque le rang est égal.

  • 00:45:00 Dans cette section, l'orateur discute de deux autres façons de résoudre les problèmes des moindres carrés. La troisième méthode consiste à obtenir d'abord des colonnes orthogonales, ce qui faciliterait le problème. La procédure de Gram-Schmidt est un moyen d'obtenir des vecteurs orthogonaux de manière naturelle. La quatrième et dernière façon de résoudre les problèmes des moindres carrés n'est pas discutée en détail, mais elle consiste à tirer parti du fait que les données dans la vie réelle sont souvent rares. L'orateur conclut en notant que les moindres carrés ne sont pas un nouveau concept et continuent d'être utilisés pour une bonne raison.
 

Cours 10 : Enquête sur les difficultés avec Ax = b



Cours 10 : Enquête sur les difficultés avec Ax = b

Dans ce cours sur l'algèbre linéaire numérique, les difficultés de résolution d'équations linéaires de la forme Ax=b sont discutées. Ces difficultés surviennent lorsque la matrice A est presque singulière, ce qui rend son inverse déraisonnablement grand, et lorsque le problème est trop grand avec une matrice géante impossible à résoudre en un temps raisonnable. L'enseignant propose plusieurs possibilités de résolution du problème, allant du cas normal facile au cas extrêmement difficile des équations sous-déterminées. L'utilisation de l'algèbre linéaire aléatoire, des méthodes itératives et du SVD est discutée, ainsi que l'importance de trouver des solutions qui fonctionnent sur les données de test, en particulier avec l'apprentissage en profondeur. De plus, le conférencier souligne que le SVD reste le meilleur outil pour diagnostiquer les problèmes de matrice.

  • 00:00:00 Dans cette section, le conférencier discute des difficultés qui peuvent survenir lors de la tentative de résolution de l'équation Ax = B. Il note que le problème peut se produire dans différentes tailles et rangs, et peut être presque singulier ou pas presque singulier. Il décrit plusieurs possibilités pour résoudre le problème, allant du cas normal facile d'une matrice carrée avec un nombre de condition raisonnable, au cas extrêmement difficile des équations sous-déterminées. Dans ce dernier cas, l'enseignant constate que le problème est courant en deep learning et que plusieurs solutions peuvent exister.

  • 00:05:00 Dans cette section, le conférencier discute des problèmes difficiles avec Ax = b et comment les aborder. Ces problèmes surviennent généralement lorsque les colonnes de la matrice sont presque dépendantes, ce qui rend problématique l'acceptation des colonnes a1, a2, jusqu'à a de la matrice donnée. La solution consiste à trouver des vecteurs de colonne orthonormés dans cet espace de colonne en utilisant Gram-Schmidt et en fixant les colonnes en les orthogonalisant. Le conférencier réserve la discussion de Gram-Schmidt au cours suivant mais entrevoit l'importance du pivotement des colonnes qui permet de réordonner les colonnes, un concept qui s'applique également à l'élimination.

  • 00:10:00 Dans cette section, le conférencier discute des difficultés liées à la résolution d'équations linéaires de la forme Ax=b, y compris la possibilité que la matrice soit presque singulière, rendant son inverse déraisonnablement grand. Le conférencier parle également des problèmes inverses, qui sont généralement des problèmes où vous connaissez la sortie du système, mais vous devez déterminer la structure ou l'entrée du réseau. Ces problèmes donnent souvent des matrices presque singulières, ce qui rend difficile la résolution précise du système sans ajouter un terme de pénalité pour minimiser le problème. Les mondes Leu et QR, les échanges de lignes et l'orthogonalisation de Gram-Schmidt sont également mentionnés.

  • 00:15:00 Dans cette section, nous découvrons certaines difficultés liées à la résolution d'équations linéaires à l'aide de la méthode Ax = b. L'une de ces difficultés survient lorsque la matrice A est mal conditionnée, ce qui conduit à des vecteurs proches de zéro et à un inverse géant d'une transposée a. Pour contrer cela, nous devons pénaliser A, ce qui le rend plus bien conditionné, mais déplace également le problème pour décider de combien le pénaliser. Une autre méthode est celle des méthodes itératives, comme la méthode du gradient conjugué, où nous nous rapprochons de plus en plus de la réponse exacte jusqu'à ce qu'elle soit suffisamment proche. Lorsque le problème est trop grand avec une matrice géante impossible à résoudre en un temps raisonnable, l'algèbre linéaire aléatoire est utilisée pour échantillonner les colonnes et les lignes de la matrice afin de fournir une réponse à partir de l'échantillon.

  • 00:20:00 Dans cette section, le conférencier discute de l'utilisation de l'algèbre linéaire randomisée pour déterminer des solutions à des problèmes difficiles dans les cas où la matrice est raisonnable. Bien qu'il n'y ait aucune garantie que les solutions seront correctes, l'utilisation des probabilités des inégalités peut donner une bonne solution au problème. Les méthodes itératives et les algorithmes randomisés, ainsi que l'utilisation du SVD, sont discutés comme méthodes de recherche de solutions. Le conférencier souligne l'importance de trouver des solutions qui fonctionnent sur les données de test, en particulier avec l'apprentissage en profondeur, et discute des questions mathématiques profondes qui se posent avec ce problème. Le SVD est expliqué comme une solution potentielle lorsque la matrice est presque singulière.

  • 00:25:00 Dans cette section, le professeur discute d'une méthode pour régulariser le problème de trouver la somme minimale de ax moins B au carré en présence de grands inverses. En utilisant un problème des moindres carrés avec un terme de pénalité supplémentaire qui inclut un delta positif, même lorsque cette valeur passe à zéro ou fait des choses folles, le problème sera toujours résoluble et la fonction est garantie d'être loin du singulier. Lorsque delta tend vers zéro, le comportement du résultat change radicalement, et ce facteur peut dépendre du niveau de bruit dans le système.

  • 00:30:00 Dans cette section de la vidéo, l'orateur discute de la solution pour un delta donné et analyse quand la solution existe. L'accent est mis sur la résolution d'un problème un par un, ce qui implique de trouver le minimum d'un problème des moindres carrés pénalisés. L'équation est résolue en mettant la dérivée à zéro, et la valeur X résultante est utilisée pour déterminer la limite lorsque Delta tend vers zéro. Les deux possibilités sont que Sigma n'est pas nul et que la solution se rapproche de l'inverse de Sigma, ou que Sigma est nul et que la solution n'existe pas.

  • 00:35:00 Dans cette section de la vidéo, l'orateur discute du comportement de l'approche des carrés pénalisés lorsque le terme de pénalité passe à zéro. L'orateur note que dans ce cas, le système se comporte de façon étrange, avec une bifurcation soudaine entre zéro et une borne non nulle. Cette limite est identifiée comme la pseudo-inverse, et à mesure que Delta devient de plus en plus petit, la solution du système se rapproche de la pseudo-inverse, qui est la réponse toujours correcte pour le système. L'orateur note que dans un cas pratique, cette approche serait utile pour trouver les paramètres inconnus d'un système, tels que les résistances et les inductances dans un circuit électrique.

  • 00:40:00 Dans cette section, l'enseignant explique que la solution au problème Ax=b peut être obtenue en ajoutant un terme de pénalité pour régulariser le problème. Le terme de pénalité peut être introduit en utilisant la norme L1, qui donne des solutions creuses sans beaucoup de petits composants dans la réponse. Il discute également de l'importance des méthodes itératives en algèbre linéaire conventionnelle et Gram-Schmidt avec ou sans pivotement. Cependant, il décide de couvrir ces sujets dans la prochaine conférence.

  • 00:45:00 Dans cette section, le conférencier explique comment le SVD est un outil efficace pour prouver des choses sur les matrices ; il simplifie un problème compliqué en un problème concernant une matrice diagonale Sigma au milieu, c'est pourquoi il est utile pour diagnostiquer tout problème de matrice. De plus, le conférencier fournit une formule pour un cas particulier de problème, avec Sigma comme matrice diagonale, ce qui implique que la compréhension du comportement de Sigma, en particulier sur chaque entrée diagonale, est essentielle pour poursuivre de tels cas. Le SVD, souligne le conférencier, reste le meilleur outil pour cela. Enfin, le conférencier souligne que cette conférence est une étude de ce dont traite l'algèbre linéaire numérique, et bien que tous les sujets n'aient pas encore été couverts, ils le seront dans les sessions restantes.