Apprentissage Automatique et Réseaux Neuronaux - page 27

 

Cours 11 : Minimiser ‖x‖ sous réserve de Ax = b



Conférence 11 : Minimiser ‖x‖ sous réserve de Ax = b

Dans cette conférence, le conférencier couvre une gamme de sujets liés à l'algèbre linéaire numérique. Ils commencent par discuter des problèmes qui peuvent survenir lors de la résolution de Ax = b, puis passent au processus de Gram-Schmidt pour trouver une base orthogonale pour un espace, et à la méthode de Gram-Schmidt modifiée pour minimiser "x" sous réserve de Ax = b . L'orateur introduit également le concept d'échange de colonnes ou de pivotement de colonnes dans un algorithme de Gram-Schmidt plus professionnel et discute d'une amélioration du processus standard de Gram-Schmidt pour orthonormaliser les colonnes d'une matrice A. Ils abordent également l'idée de l'espace de Krylov pour résoudre le problème Ax=b et l'importance d'avoir une bonne base pour minimiser ‖x‖ sous réserve de Ax = b. Enfin, ils mentionnent qu'ils en ont terminé avec le problème de la minimisation de x sous réserve de Ax=b et qu'ils passent à la question du traitement des très grandes matrices.

  • 00:00:00 Dans cette section, le conférencier mentionne trois choses. Tout d'abord, les problèmes qui peuvent survenir lors de la résolution de Ax=b, y compris où A est trop grand pour tenir dans le noyau mais où d'autres méthodes sont disponibles. Deuxièmement, il montre la première ébauche de deux pages de son livre et explique le processus de deux ans qu'il a suivi pour le perfectionner et l'améliorer. Troisièmement, il discute de la minimisation de différentes normes, telles que la norme à l'infini L1 ou L2 ou max L, pour la condition de résolution avec la contrainte d'une équation satisfaite, fournissant une représentation visuelle de la différence entre les normes à l'infini L1, L2 et L.

  • 00:05:00 Dans cette section, l'orateur discute du point gagnant pour différentes boules unitaires dans différents espaces normatifs, y compris L1, L2 et L infini. Il montre comment trouver le point gagnant, ou le point qui touche la ligne en premier, dans chaque cas. Il présente ensuite le sujet du jour, Gram-Schmidt, qui est un moyen de rendre orthogonale une matrice non orthogonale en trouvant un ensemble différent de vecteurs qui couvrent le même espace tout en étant orthogonaux. Il décrit les faits généraux de Gram-Schmidt et mentionne qu'il s'agit d'un sujet standard enseigné dans les cours d'algèbre linéaire.

  • 00:10:00 Dans cette section, le professeur explique le processus de Gram-Schmidt, qui ouvre l'image d'une matrice pour obtenir une matrice orthogonale avec des colonnes Q1 à Qn orthonormées. La matrice R est utilisée pour dire de quelles combinaisons les Q sont faits ou inversement pour dire comment A est lié au Q final. L'équation pour R est Q transposée fois A, et les entrées dans R ne sont que le produit interne des Q. avec les As. Le professeur montre qu'il n'y a rien de mystérieux dans R à cause de la matrice orthogonale Q. La commande MATLAB serait QR de A au lieu de Lu de A.

  • 00:15:00 Dans cette section, la conférence explique le processus de Gram-Schmidt pour trouver une base orthogonale pour un espace. Le cours commence par un ensemble de base non orthogonal et le but est de construire un ensemble de base orthogonal. Le processus commence par le premier vecteur de colonne étant le premier vecteur de base, puis en prenant le deuxième vecteur et en l'orthogonalisant avec le premier vecteur. L'étape suivante consiste à construire le troisième vecteur orthogonal aux deux premiers vecteurs. Cela continue jusqu'à ce que l'ensemble de base soit construit orthogonalement. Enfin, nous divisons chaque vecteur par sa norme pour faire de chaque vecteur de base un vecteur unitaire. Gram-Schmidt prend un ensemble de base non orthogonal et génère un ensemble orthogonal adapté aux méthodes de projection.

  • 00:20:00 Dans cette section, l'orateur discute de la méthode Gram-Schmidt modifiée pour minimiser ‖x‖ sous réserve de Ax = b. Ils expliquent le processus de soustraction des composantes de Q1 et Q2 du vecteur et de vérification que le vecteur résultant est orthogonal. Ils abordent également le danger de prendre les lignes dans l'ordre lors de l'élimination et suggèrent d'utiliser la méthode Gram-Schmidt modifiée pour éviter les erreurs de calcul.

  • 00:25:00 Dans cette section de la conférence, l'orateur discute de l'idée d'échange de colonne ou de pivotement de colonne dans un algorithme gram-schmidt plus professionnel. Semblable à l'élimination, dans gram-schmidt, si la nouvelle partie de la colonne est trop petite, elle peut générer des erreurs d'arrondi qui ne peuvent pas être supprimées. Par conséquent, il est essentiel que l'algorithme vérifie la taille du pivot et échange les lignes si nécessaire. L'idée principale derrière l'échange de colonne est de comparer la nouvelle partie de la colonne avec toutes les autres possibilités potentielles pour trouver le plus gros composant avant de décider de l'étape suivante. Ce processus est crucial pour éviter les erreurs d'arrondi qui peuvent affecter la précision du résultat.

  • 00:30:00 Dans cette section, l'orateur explique une amélioration du processus standard de Gram-Schmidt pour orthonormaliser les colonnes d'une matrice A. Au lieu de ne considérer que la colonne suivante dans A, l'amélioration consiste à considérer toutes les colonnes restantes dans A lorsque orthonormaliser chaque nouvelle colonne. L'orateur soutient que ce n'est pas plus de travail que la méthode standard, car toutes les soustractions nécessaires sont calculées plus tôt de toute façon. L'amélioration repose sur la sélection de la plus grande colonne restante et est similaire à la sélection du plus grand pivot dans l'élimination gaussienne.

  • 00:35:00 Dans cette section, le conférencier introduit l'idée de l'espace de Krylov pour résoudre le grand problème matriciel, Ax=b. L'espace de Krylov est une combinaison de vecteurs qui couvrent un espace, et le conférencier utilise des combinaisons de ces vecteurs pour trouver la solution la moins carrée dans cet espace, XJ. L'espace de Krylov est déterminé en multipliant A par J vecteurs, jusqu'à A^k-1B. L'enseignant cherche la meilleure solution dans cet espace pour résoudre le problème Ax=b. Cependant, il y a encore un hic dans cette méthode.

  • 00:40:00 Dans cette section, l'orateur discute de l'importance d'avoir une bonne base pour minimiser ‖x‖ sous réserve de Ax = b. La base doit être orthogonalisée pour faciliter les calculs, et c'est là qu'interviennent les apports de nos émissions nolde et Lan. Une base orthogonale est parfaite pour une projection, et l'orateur explique l'équation qui facilite les calculs. Lorsque les Q sont orthogonaux, les coefficients C peuvent être facilement trouvés en calculant le produit scalaire du vecteur donné X avec chaque Q, puis en appliquant la transposition de Q. Cela permet une solution efficace au problème.

  • 00:45:00 Dans cette section du cours, l'orateur discute du concept de base et comment trouver une bonne base en utilisant les vecteurs de Gram-Schmidt ou de Krylov. L'orateur note que l'utilisation de la méthode Gram-Schmidt dans ce cas est préférable, et mentionne également la section 2.1 du livre sur l'algèbre linéaire numérique, qui résume les techniques courantes dans le domaine telles que Krylov, Arnoldi et Lanczos. Il recommande 'Numerical Linear Algebra' de Golub et van Loan comme un excellent manuel pour ceux qui veulent en savoir plus sur le sujet.

  • 00:50:00 Dans cette section de la vidéo, l'orateur mentionne qu'il en a terminé avec le problème de la minimisation de x soumis à Ax = b et qu'il passe à la question du traitement des très grandes matrices.
 

Cours 12. Calcul des valeurs propres et des valeurs singulières



12. Calcul des valeurs propres et des valeurs singulières

Dans cette vidéo, la méthode QR pour le calcul des valeurs propres et des valeurs singulières est introduite. Le processus consiste à commencer par la matrice souhaitée et à la factoriser en QR, en créant une matrice triangulaire supérieure R qui relie la base non orthogonale à la base orthogonale. Le processus est itéré jusqu'à ce que les entrées diagonales deviennent petites, auquel cas elles peuvent être utilisées pour approximer les valeurs propres. L'orateur discute également d'une méthode de décalage pour calculer les vecteurs propres afin d'accélérer le processus. Les avantages de l'utilisation de MATLAB pour les matrices symétriques sont également mis en évidence. La vidéo aborde également le concept de vecteurs de Krylov pour résoudre les problèmes de valeurs propres pour les grandes matrices.

  • 00:00:00 Dans cette section, le professeur présente la méthode QR pour calculer les valeurs propres et les valeurs singulières d'une matrice. La méthode QR consiste à partir d'une matrice dont les valeurs propres sont souhaitées et à la factoriser en QR. Les colonnes de la matrice sont transformées en une base orthogonale en les orthogonalisant et en créant une matrice R qui relie la base non orthogonale à la base orthogonale, qui est triangulaire supérieure. Ensuite, la méthode consiste à inverser l'ordre et à refaire la même chose pour produire la matrice suivante. Le professeur affirme que les valeurs propres sont les mêmes avant et après la transformation, et que les matrices sont similaires, ce qui est utile pour calculer les valeurs singulières de la matrice.

  • 00:05:00 Dans cette section, le professeur explique le processus de calcul des valeurs propres à l'aide de la factorisation QR. Le processus implique l'itération de la factorisation QR plusieurs fois jusqu'à ce que les entrées diagonales de la matrice résultante deviennent très petites. À ce stade, les entrées diagonales sont proches des valeurs propres réelles de la matrice d'origine et peuvent être utilisées pour les approximer. Le professeur souligne également la convergence rapide de la méthode, les entrées hors diagonale étant mises au cube et s'approchant rapidement de zéro, ce qui rend la méthode extrêmement précise.

  • 00:10:00 Dans cette section, la vidéo traite d'une amélioration de l'algorithme de calcul des vecteurs propres, qui consiste à introduire un décalage. Au lieu de prendre la matrice A, ils prennent la matrice A - siI, où si est un multiple de la matrice identité. Cela décale toutes les valeurs propres de la matrice A de si. Ils travaillent ensuite avec cette matrice décalée, exécutent le processus de Gram-Schmidt et inversent l'ordre pour obtenir une matrice aussi proche que possible de A. Enfin, ils annulent le décalage pour obtenir une nouvelle matrice, A1. L'espoir est que A1 soit toujours similaire à A mais avec un temps de calcul plus rapide.

  • 00:15:00 Dans cette section, le professeur discute de la méthode QR pour calculer les valeurs propres d'une matrice. Il montre un exemple incomplet où il utilise la méthode QR pour montrer que la partie triangulaire inférieure de la matrice commence à disparaître et que les valeurs propres commencent à apparaître sur la diagonale. Le professeur explique ensuite comment améliorer l'efficacité de la méthode QR en tirant parti des zéros dans la matrice d'origine. S'il y a des diagonales supplémentaires avec des zéros, la méthode peut être accélérée en sautant certaines étapes du processus de factorisation QR.

  • 00:20:00 Dans cette section, l'orateur explique comment calculer les valeurs propres et les valeurs singulières. Il n'est pas possible d'obtenir toutes les valeurs propres comme il est impossible d'obtenir une partie triangulaire inférieure entière égale à zéro, ce qui nous donnerait les valeurs propres. C'est parce que les valeurs propres résolvent une équation du nième degré et il y a des siècles, il a été prouvé qu'il est impossible de résoudre une équation instantanée par des étapes simples. De plus, il n'existe pas de formule simple pour trouver des lambdas ou des valeurs singulières. Cependant, il est possible de s'en approcher autant que nous le souhaitons en continuant avec la méthode QR et en réduisant une matrice à la forme de Hessenberg avec une triangulaire plus une diagonale supplémentaire, mais beaucoup de zéros. MATLAB et d'autres systèmes matriciels utilisent la pack et Linpack pour calculer ces valeurs.

  • 00:25:00 Dans cette section de la vidéo, le conférencier discute des avantages de l'utilisation de MATLAB et donne un aperçu des caractéristiques des matrices symétriques. Il explique que si une matrice est symétrique, on peut prédire en toute sécurité qu'elle n'aura qu'une diagonale au-dessus de la diagonale principale, ce qui en fait une matrice tri-diagonale. Cela réduit considérablement le temps nécessaire pour effectuer le calcul QR, car il ne nécessite que de travailler avec des nombres 2n au lieu de N ^ 2. L'orateur aborde également brièvement les valeurs singulières, déclarant qu'elles sont les valeurs propres d'une matrice transposée, mais met en garde contre leur calcul à l'aide de déterminants, car cela est lent, mal conditionné et entraîne une perte d'informations.

  • 00:30:00 Dans cette section, l'orateur discute du concept d'utilisation de matrices orthogonales pour simplifier les matrices symétriques, en les rendant tri-diagonales afin que leurs valeurs propres puissent être facilement trouvées. Ensuite, l'orateur pose la question de ce qu'on peut faire d'une matrice générale pour la simplifier d'une manière qui laisse ses valeurs singulières inchangées. L'orateur relie cette question à la SVD et discute de l'invariance des valeurs singulières sous certaines opérations, comme la multiplication par une matrice orthogonale. La question de savoir quelles autres opérations laissent les valeurs singulières invariantes est laissée ouverte à l'auditoire.

  • 00:35:00 Dans cette section, le conférencier discute de l'effet de la multiplication d'une matrice orthogonale Q sur une matrice diagonale avec des valeurs singulières. On montre que la multiplication de Q sur la matrice diagonale ne change pas les valeurs singulières, et que cela peut être fait des deux côtés de l'équation en utilisant différentes matrices orthogonales. Cette flexibilité accrue permet de réduire la matrice de tri-diagonale à bi-diagonale, ce qui rend l'algorithme plus rapide à mesure qu'il progresse à chaque étape. Le conférencier discute également de l'utilité d'une matrice bi-diagonale pour simplifier la multiplication matricielle.

  • 00:40:00 Dans cette section, l'orateur discute du calcul des valeurs propres et des valeurs singulières, en particulier pour les matrices d'ordre jusqu'à mille. Le SVD consiste à regarder une transposition d'une matrice, qui serait tri-diagonale. Pour trouver des valeurs singulières, on peut s'approcher de la transposée d'une matrice, mais trouver ses valeurs propres nécessiterait qu'elle soit symétrique et tri-diagonale. Cette méthode est efficace pour les matrices jusqu'à une certaine taille, au-delà de laquelle la méthode de Krylov peut être utilisée pour les matrices creuses. La méthode de Krylov limite la matrice à une certaine taille, généralement cent par cent, et trouve le vecteur propre dans cet espace.

  • 00:45:00 Dans cette section, l'orateur explique une approche appelée vecteurs de Krylov qui peut être utilisée pour résoudre des problèmes de valeurs propres pour de grandes matrices. En appliquant l'opération matricielle aux vecteurs de Krylov, qui ont une dimension plus petite que la matrice d'origine, un problème de valeur propre plus petit peut être créé et résolu. Bien qu'ils ne fournissent pas de valeurs propres exactes, les vecteurs de Krylov peuvent donner de bonnes approximations pour certains problèmes. L'orateur introduit également l'idée d'échantillonnage aléatoire pour les grandes matrices et mentionne que cela sera exploré dans la prochaine conférence.
 

Cours 13: Multiplication matricielle randomisée



Cours 13: Multiplication matricielle randomisée

Cette conférence vidéo traite du concept de multiplication matricielle aléatoire, qui consiste à échantillonner les colonnes de la matrice A et les lignes correspondantes de la matrice B avec des probabilités qui s'additionnent à un. La valeur moyenne des échantillons aléatoires peut être calculée pour obtenir la bonne réponse, mais il y aura toujours une variance. La conférence se poursuit par une discussion sur les concepts de moyenne et de variance et sur la manière de choisir les meilleures probabilités qui minimisent la variance. Le processus consiste à introduire une variable inconnue appelée Lambda et à prendre des dérivées par rapport à celle-ci pour trouver le meilleur PJ. L'attention se déplace ensuite vers la question de savoir comment pondérer les probabilités lorsque l'on regarde quelles colonnes d'une matrice sont plus grandes ou plus petites. L'enseignant propose deux possibilités : pondérer les probabilités selon la norme au carré ou mélanger les colonnes de la matrice et utiliser des probabilités égales. Dans l'ensemble, la vidéo fournit une explication détaillée de la multiplication matricielle aléatoire et du processus d'optimisation des probabilités pour obtenir la plus petite variance.

  • 00:00:00 Dans cette section de la vidéo, l'orateur explique le concept de multiplication matricielle aléatoire, qui est une idée qui relève de l'algèbre linéaire aléatoire. Cette méthode est utilisée pour les grandes matrices en échantillonnant les colonnes de la matrice A et les lignes correspondantes de la matrice B, mais pas toutes. Au lieu de cela, différentes pièces sont échantillonnées au hasard avec des probabilités qui s'additionnent à un. En calculant la valeur moyenne des échantillons aléatoires, la bonne réponse peut être obtenue, mais il y aura toujours une variance. Le but est alors de choisir les meilleures probabilités qui minimisent la variance. La conférence se poursuit en discutant des concepts de moyenne et de variance et en pratiquant avec un exemple.

  • 00:05:00 Dans cette section, l'orateur décrit un processus d'échantillonnage aléatoire pour la multiplication matricielle. Le processus consiste à prendre deux colonnes avec des probabilités de moitié chacune, à les additionner, puis à diviser par le nombre de fois qu'elles sont échantillonnées. La moyenne de la matrice randomisée est ensuite calculée à l'aide de la formule de calcul de la moyenne des deux échantillons. La variance est calculée à l'aide de l'une des deux méthodes, dont l'une consiste à additionner les probabilités de différentes valeurs de sortie au carré, tandis que l'autre consiste à prendre la distance moyenne au carré de la moyenne.

  • 00:10:00 Dans cette section de la vidéo, l'orateur discute des concepts de moyenne et de variance dans les statistiques et de leur lien avec leur exemple actuel de calcul de la variance pour la multiplication de matrices aléatoires. Il explique que la variance est une mesure de la somme des carrés entre les points de chaque côté de la moyenne, et que dans son exemple, il additionne les carrés des différences entre sa sortie et la moyenne. Il continue ensuite à calculer la variance pour son exemple spécifique, qui implique deux résultats et probabilités possibles pour chacun.

  • 00:15:00 Dans cette section, l'orateur discute du calcul de la variance et introduit une nouvelle formule de variance utilisant des probabilités et des distances par rapport à la moyenne au carré. L'orateur évoque également le concept d'échantillonnage aléatoire en algèbre linéaire et comment l'ajustement des probabilités peut aider à réduire la variance lorsque B est beaucoup plus grand que A. La probabilité optimale provient du carré de la taille de B divisé par A, et l'orateur prévoit pour en discuter davantage à l'avenir. Enfin, l'orateur mentionne une deuxième formule de variance qui implique la probabilité et la distance de la sortie au carré.

  • 00:20:00 Dans cette section, l'orateur discute de la moyenne et de la variance de la probabilité et montre les deux façons de calculer la moyenne au carré lors de la soustraction de la moyenne. L'attention se déplace ensuite vers la question de savoir comment pondérer les probabilités lorsque l'on regarde quelles colonnes d'une matrice sont plus grandes ou plus petites. L'intervenant suggère deux possibilités : pondérer les probabilités selon la norme au carré ou mélanger les colonnes de la matrice et utiliser des probabilités égales. L'orateur privilégie la première approche et explique comment utiliser les probabilités proportionnelles à la norme au carré.

  • 00:25:00 Dans cette section, le conférencier explique comment redimensionner les probabilités pour qu'elles s'additionnent à un. Il discute ensuite de son plan pour choisir la ligne colonne et la colonne ligne J avec des probabilités particulières et comment il les multipliera. Son approximation, l'approximative aB, sera la somme de tous ces échantillons sur S échantillons. Le conférencier mentionne également que le plan est de choisir les PJ pour minimiser la variance totale et que la moyenne est correcte.

  • 00:30:00 Dans cette section, le conférencier explique comment calculer la variance d'un échantillon dans une multiplication matricielle aléatoire. La moyenne de la somme de tous les échantillons est calculée en multipliant la moyenne d'un échantillon par le nombre d'échantillons, ce qui conduit à la partie difficile du calcul de la variance. Le calcul de la variance dépendra de la pièce, P1 à PR qui a été choisie avec des probabilités dépendant de la taille. Chaque échantillon est certainement faux car il s'agit d'un rang un, donc lors du calcul de la variance, nous n'obtiendrons certainement pas zéro. La variance pour un échantillon s'avère être la somme sur la probabilité de transposition AJ AJ au carré. La moyenne au carré est soustraite de ce calcul pour obtenir la variance complète.

  • 00:35:00 Dans cette section, l'orateur insère les valeurs de PJ et simplifie le dénominateur en une somme d'un JPG d'une norme JP j bj. En additionnant la première puissance et en obtenant C, le locuteur obtient l'expression de la variance. Après avoir pris s échantillons et les avoir combinés, la variance est un nombre fixe, qui est C qu'ils aimeraient réduire. Le locuteur veut montrer que c'est le meilleur choix en choisissant les poids des probabilités en fonction de la longueur de a fois la longueur de B.

  • 00:40:00 Dans cette section, l'orateur discute de l'étape finale d'optimisation des probabilités P1 à PR pour les lignes ou colonnes de la matrice A et les lignes de la matrice B, sous la contrainte qu'elles totalisent 1. Le but est de minimiser l'expression de la variance en choisissant les PJ optimaux. L'orateur introduit l'idée de Lagrange d'intégrer la contrainte dans la fonction en introduisant un nombre inconnu, souvent appelé lambda, pour trouver le meilleur PJ. Cette section conclut la discussion sur l'échantillonnage aléatoire et conduit au dernier sous-problème.

  • 00:45:00 Dans cette section, le conférencier discute du concept de l'idée de Lagrange dans l'optimisation des probabilités à condition qu'elles s'additionnent à un. Le processus implique la construction de l'équation dans la fonction et la prise de dérivées par rapport à lambda, une variable inconnue. Après avoir mis les dérivées à zéro et résolu, vous obtenez la réponse finale recommandée, qui peut être validée en prenant la dérivée par rapport à P. Le conférencier explique également que le multiplicateur de Lagrange est le nombre correct pour rendre l'équation égale à un.

  • 00:50:00 Dans cette section, le professeur explique le processus de choix des probabilités pour obtenir la plus petite variance dans un système randomisé. Il mentionne que les probabilités idéales sont plus élevées lorsque la colonne est plus grande, donc trouver les longueurs des colonnes est une condition préalable avant l'échantillonnage aléatoire. Bien que la variance puisse être un peu difficile à calculer, il encourage les élèves à parcourir les notes lentement et à revoir les formules pour une meilleure compréhension, car ils utiliseront plus sérieusement les probabilités à l'avenir.
 

Cours 14. Changements de bas rang dans A et son inverse



14. Changements de bas rang dans A et son inverse

La vidéo traite du concept de matrices de rang inférieur et de leur importance dans les matrices de fonctions, en particulier la formule d'inversion de matrice qui trouve l'inverse d'une matrice N par n en termes d'une matrice 1 par 1 plus simple. La formule est utile pour trouver l'inverse des matrices qui ont des perturbations de rang faible et peut simplifier le processus de recherche des inverses. L'orateur montre comment la formule fonctionne en présentant la formule de la deuxième matrice et montre comment la même logique a été appliquée pour arriver à la réponse. La vidéo traite également des applications pratiques de cette formule, en particulier dans les problèmes des moindres carrés et le filtre de Kalman.

  • 00:00:00 Dans cette section, le professeur discute du concept de matrices de rang inférieur et de leur importance dans les matrices de fonctions. Le sujet principal est une formule célèbre appelée la formule d'inversion de matrice, également connue sous le nom de changements de rang inférieur dans A et son inverse. La formule trouve l'inverse d'une matrice N par n en termes d'une matrice 1 par 1 plus simple utilisant une transposée UV et en la divisant par 1 moins la transposée de V fois U. La formule est utile pour trouver l'inverse des matrices qui ont une faible classer les perturbations et peut être utilisé pour simplifier le processus de recherche des inverses. Le professeur explique le fonctionnement de cette formule et ses applications pratiques.

  • 00:05:00 Dans cette section, l'orateur explique comment la modification d'une matrice de rang 1 entraînera une modification de son inverse de rang un. La formule qu'il présente calcule un inverse N par n en termes d'inverse 1 par 1, ce qui est très utile. L'orateur montre ensuite comment vérifier la formule en multipliant l'inverse revendiqué par la matrice d'origine et en espérant obtenir une matrice d'identité. L'orateur montre comment la formule fonctionne en présentant la formule de la deuxième matrice et montre comment la même logique a été appliquée pour arriver à la réponse.

  • 00:10:00 une formule pour un changement de rang inférieur dans la matrice A et son inverse. La formule implique de prendre l'inverse d'une matrice N par n mais peut être remplacée par une matrice K par K, qui est une perturbation plus petite de la matrice d'identité. La formule est avérée vraie par une vérification et peut être utile pour perturber une matrice A. Les noms des personnes qui ont découvert cette formule sont également répertoriés.

  • 00:15:00 Dans cette section, l'orateur discute des changements qui se produisent lors de la prise de l'inverse d'une matrice de rang inférieur A. Ils utilisent des manipulations algébriques pour montrer que lors de la prise de l'inverse de A, certains termes peuvent être éliminé, conduisant à une expression simplifiée. L'orateur note que s'ils sont capables de prouver la formule en vérifiant qu'elle produit la matrice d'identité, il est important de considérer comment la formule peut être dérivée en premier lieu. Ils suggèrent d'utiliser la formule pour résoudre un système linéaire avec une nouvelle mesure ou observation dans la méthode des moindres carrés.

  • 00:20:00 Dans cette section, l'orateur explique comment traiter de nouvelles mesures lors de la résolution de problèmes de moindres carrés. Avec une matrice rectangulaire A, l'ajout d'une mesure ou d'un point de données supplémentaire à la solution donne une nouvelle matrice et un nouveau côté droit à résoudre. Cependant, au lieu de recalculer la multiplication matricielle A^TA, l'orateur décrit comment développer la matrice avec la nouvelle mesure, la transposer et l'utiliser pour calculer la solution mise à jour. En utilisant ce qui est déjà calculé, cela permet une résolution plus efficace du point de vue des calculs des problèmes des moindres carrés.

  • 00:25:00 Dans cette section, l'orateur discute de la perturbation de A et de son inverse avec de nouvelles données, ce qui fournit un changement de rang 1 dans A transpose A. Ce concept est applicable aux problèmes des moindres carrés, et le filtre de Kalman est un exemple d'un méthode récursive des moindres carrés qui utilise cette approche. Le filtre de Kalman est utilisé pour guider les missiles et les satellites en suivant de nouvelles données et en mettant à jour la solution, ce qui est une application importante de ce concept dans la pratique.

  • 00:30:00 Dans cette section de la vidéo, l'orateur explique comment appliquer la formule de Sherman-Morrison-Woodbury pour calculer les changements de rang inférieur dans A et son inverse. Ils mentionnent que le filtre de Kalman, qui est utilisé pour les moindres carrés dynamiques, a deux facteurs supplémentaires qui sont pris en compte - la matrice de covariance et l'équation d'état. La matrice de covariance traite de la façon dont les erreurs sont corrélées et l'équation d'état indique de combien le satellite (dans l'exemple) doit se déplacer. Le filtre de Kalman est une version améliorée des carrés récursifs qui traite de la modification des mesures tout en laissant une grande partie inchangée.

  • 00:35:00 Dans cette section, l'orateur discute de l'utilisation de la formule de mise à jour de rang inférieur dans la résolution de systèmes linéaires. La formule consiste à perturber la matrice d'un problème résolu par le rang un et à utiliser l'inverse de la matrice d'origine pour résoudre rapidement le nouveau problème. Cette approche peut réduire considérablement le temps nécessaire pour résoudre un nouveau problème et est particulièrement utile pour les grandes matrices où les méthodes d'élimination traditionnelles prendraient du temps.

  • 00:40:00 Dans cette section, l'orateur explique comment trouver l'inverse d'une matrice en combinant des solutions à différents problèmes. En factorisant la matrice A en Lu, tout le travail acharné est effectué sur le côté gauche, et trouver les solutions aux différents côtés droits ne nécessite qu'une rétrosubstitution. En utilisant la formule de Sherman-Morrison-Woodbury, la réponse X peut être obtenue en combinant les solutions W et Z. La formule modifie la solution W par un terme qui vient de Sherman-Morrison Woodbury, et le terme au numérateur est un multiple de Z fois X.

  • 00:45:00 Dans cette section, l'orateur explique comment les changements de rang inférieur dans une matrice A peuvent affecter son inverse et fournit une formule pour inverser une matrice N par N en commutant et en inversant une matrice K par K. La formule consiste à soustraire une copie de l'inverse et à ajouter quelques autres pièces, et aboutit finalement à un changement de rang K par rapport à l'inverse d'origine. L'orateur note que cette formule a des applications pratiques et encourage les téléspectateurs à l'écrire pour référence future.

  • 00:50:00 Dans cette section, l'orateur discute de l'inverse d'une matrice K par K et reconnaît l'abondance de formules couvertes au cours de l'heure et des 50 minutes précédentes. La section se termine en indiquant que les notes couvrent certaines applications et passeront à d'autres aspects du rang inférieur.
 

Cours 15. Matrices A(t) En fonction de t, Dérivée = dA/dt



15. Matrices A(t) En fonction de t, Dérivée = dA/dt

Cette vidéo couvre divers sujets liés aux matrices, y compris les changements dans les matrices et leur inverse, ainsi que les changements dans les valeurs propres et les valeurs singulières au fil du temps. L'orateur explique les formules clés pour calculer ces changements et souligne l'importance de comprendre le calcul différentiel en algèbre linéaire. De plus, la conférence discute de l'importance de la normalisation et explore les théorèmes d'entrelacement pour les valeurs propres dans les matrices symétriques et de rang 1. Enfin, la vidéo se termine par un examen des sujets abordés et une promesse de les développer dans de futures conférences.

  • 00:00:00 Dans cette section, l'orateur discute des changements dans les matrices, les valeurs propres et les valeurs singulières lorsqu'une matrice change. L'accent est mis sur la compréhension des formules de modification de la matrice inverse, de la dérivée de l'inverse et des modifications des valeurs propres et des valeurs singulières lorsqu'une matrice change. L'orateur explique que même si une formule exacte pour le changement des valeurs propres et des valeurs singulières peut ne pas être
    possible, ils peuvent toujours dériver des inégalités pour comprendre l'ampleur du changement. Le cours couvre également la configuration de la matrice A, qui dépend du temps (T) et de l'inverse A inverse.

  • 00:05:00 Dans cette section, l'orateur discute d'une identité en calcul qui complète la discussion de la section précédente sur l'inverse des matrices. La formule indique que la dérivée de la matrice inverse est égale à moins une fois l'inverse de la matrice, multipliée par la dérivée de la matrice et l'inverse de la matrice. L'orateur explique comment trouver la dérivée de la matrice inverse en l'appelant "changement de l'inverse" et en divisant les deux côtés de la formule par delta T. Enfin, l'orateur applique le calcul pour laisser Delta T aller à zéro, conduisant à une intuition compréhension de la formule. L'orateur exprime également son opinion sur l'accent mis par le calcul dans les mathématiques universitaires, déclarant qu'il éclipse l'algèbre linéaire.

  • 00:10:00 Dans cette section, l'orateur explique la formule de la dérivée d'une matrice A en tant que dA/dt par rapport au temps t, lorsque delta T tend vers zéro. Le rapport Delta a divisé par Delta T a une signification, et lorsque Delta T s'approche de zéro, l'équation devient inverse. La dérivée de un sur X dans le cas un par un n'est que de 1 sur X au carré, et ceci est parallèle aux formules lorsque Delta a est de taille normale mais de rang inférieur. L'accent de la conférence se déplace ensuite sur les valeurs propres de lambda et sur la façon dont elles changent lorsqu'une matrice change, avec deux possibilités, un petit changement et un ordre complet d'un changement. La conférence se termine par des faits entourant les valeurs propres et les vecteurs propres.

  • 00:15:00 Dans cette section, le concept de vecteurs propres et de valeurs propres pour les matrices qui dépendent d'un paramètre est expliqué. La matrice A est explorée en détail, avec le vecteur propre X à gauche qui a la même valeur propre que AX. En revanche, le vecteur propre Y, pour une matrice symétrique A, s'utilise de la même manière avec la transposée de A ou AT. L'importance de la normalisation, en particulier Y transpose fois X égal un, est soulignée. L'auteur procède ensuite à prendre la dérivée d'une formule et explique comment déformer l'équation pour s'adapter à ce nouveau contexte.

  • 00:20:00 Dans cette section, l'orateur explique comment la dérivée d'une matrice peut être utilisée pour trouver la dérivée de ses valeurs propres et vecteurs propres au fil du temps. En utilisant la règle du produit, ils dérivent une formule pour la dérivée du produit de trois termes qui dépendent du temps. En réarrangeant les termes et en appliquant la formule de diagonalisation, ils arrivent à une formule simple pour la dérivée de la valeur propre. L'orateur note que bien qu'il s'agisse d'une technique classique, elle n'est pas toujours largement connue ou enseignée dans les cours.

  • 00:25:00 Dans cette section, l'orateur discute d'une formule pour trouver la dérivée d'une valeur propre en utilisant la vitesse à laquelle la matrice change et les vecteurs propres à gauche et à droite. Ils simplifient la formule pour montrer que deux termes s'annulent et que le terme restant est la bonne réponse pour la dérivée. Ils utilisent le fait que la dérivée de un est nulle pour prouver cette annulation. L'orateur mentionne également que cette formule n'implique pas la dérivée du vecteur propre et peut également être utilisée pour trouver des dérivées de niveau supérieur.

  • 00:30:00 Dans cette section, l'orateur discute du changement des valeurs propres après un changement de rang un vers une matrice symétrique. Il note que le changement est un vrai vecteur et non un différentiel, il n'y a donc pas de formule exacte pour les nouvelles valeurs propres. Cependant, il partage certains faits connus, tels que les valeurs propres sont dans l'ordre décroissant et le changement de rang un est positif semi-défini. Il demande également au public de considérer le vecteur propre de la matrice de transposition uu et explique qu'il s'agit d'une colonne de matrice n par n complète multipliée par une ligne. Il conclut en précisant que le nombre résultant de ce calcul est supérieur à zéro.

  • 00:35:00 Dans cette section, l'orateur discute d'une matrice symétrique et de ce qui se passe lorsqu'une matrice de rang un y est ajoutée. Ils concluent que cela se traduit par des matrices semi-définies positives et que les nouvelles valeurs propres (lambdas) sont plus grandes que les valeurs propres d'origine (gammas). Cependant, la différence de taille n'est pas significative et il existe un théorème appelé "entrelacement" qui garantit que les valeurs propres ne se dépassent pas. Plus précisément, lambda 1 est plus grand que gamma 1, mais lambda 2 est plus petit que gamma 1. Il s'agit d'un théorème utile qui garantit l'ordre des valeurs propres lorsqu'une matrice positive de rang un est ajoutée à une matrice symétrique.

  • 00:40:00 Dans cette section, le professeur discute des valeurs propres d'une matrice de rang 2 résultant d'une matrice symétrique et d'un changement de rang 1. Il explique que le rang de la matrice de changement est 2, indiquant deux valeurs propres non nulles, et sa nature semi-définie positive signifie que les valeurs propres augmenteraient en l'ajoutant à la matrice d'origine. Cependant, il révèle un théorème qui stipule que les valeurs propres ne peuvent pas dépasser les valeurs propres d'origine lors de l'ajout d'une matrice semi-définie positive. Il applique cela aux valeurs alpha et les compare aux lambdas, concluant finalement que la valeur alpha 2 ne peut pas dépasser lambda 1 et que la valeur alpha 3 reste inconnue.

  • 00:45:00 Dans cette section, le conférencier explique l'entrelacement des valeurs propres avec un exemple de matrice symétrique. La version réduite de cette matrice a également des valeurs propres, et elles s'entrelacent avec les valeurs propres de la matrice d'origine. Cependant, le conférencier s'inquiète de l'entrelacement des valeurs propres lors du changement de rang. Si le nouveau vecteur propre est multiplié par un grand nombre, il peut potentiellement déplacer la valeur propre vers le haut, ce qui semble contredire le théorème d'entrelacement. Le conférencier laisse cela comme une question à laquelle répondre dans la prochaine conférence.

  • 00:50:00 Dans cette section, le conférencier discute des valeurs propres et des vecteurs propres et explique pourquoi un vecteur propre particulier ayant une valeur propre lambda 2 plus 20 n'invalide pas les déclarations précédentes. Le cours magistral se termine par un examen des sujets abordés et une note pour poursuivre la discussion au cours suivant.
 

Cours 16. Dérivées des valeurs inverses et singulières


16. Dérivées des valeurs inverses et singulières

Cette vidéo couvre une variété de sujets, y compris la dérivée des valeurs inverses et singulières d'une matrice, l'entrelacement et la norme nucléaire d'une matrice. L'orateur présente une formule pour la dérivée des valeurs singulières, en utilisant le SVD, pour comprendre comment une matrice change au fil du temps, tout en établissant des limites pour les changements de valeurs propres dans les matrices symétriques. L'inégalité de Vial est introduite comme un moyen d'estimer les valeurs lambda d'une matrice, et la poursuite de base est utilisée dans les problèmes de complétion de matrice. L'orateur discute également de l'idée que la norme nucléaire d'une matrice provient d'une norme qui n'en est pas tout à fait une norme et introduit le concept de Lasso et de détection compressée qui sera discuté dans la prochaine leçon.

  • 00:00:00 Dans cette section, l'instructeur aborde divers sujets, notamment la recherche de la dérivée de l'inverse d'une matrice, la dérivée d'une valeur propre et la dérivée de la valeur singulière. L'instructeur partage une formule pour la dérivée de la valeur singulière, qu'il a récemment découverte, et mentionne que la formule de la dérivée de l'inverse n'est pas simplement la dérivée de la matrice d'origine. Il parle également des devoirs de laboratoire, demande des conseils sur un projet et mentionne la prochaine conférence du professeur Townsend sur l'algèbre linéaire appliquée. L'instructeur poursuit en expliquant comment trouver systématiquement la dérivée d'une matrice au carré et pourquoi la formule communément admise est incorrecte.

  • 00:05:00 Dans cette section, l'orateur discute de la dérivée des valeurs singulières, qui est similaire à la dérivée des valeurs propres. La formule de la dérivée des valeurs singulières est donnée par la transposée de da/dt fois le vecteur singulier de a. Cette formule repose sur le SVD, qui dit que a fois V est égal à Sigma U. En utilisant ces faits et en manipulant l'équation, il est possible de dériver la formule de la dérivée des valeurs singulières. Cette formule est utile pour comprendre comment une matrice change au fil du temps et peut être appliquée dans divers domaines tels que la physique et l'ingénierie.

  • 00:10:00 Dans cette section, l'orateur discute des dérivées des valeurs inverses et singulières. Ils commencent par expliquer la formule des valeurs singulières en termes de SVD d'une matrice, puis prennent la dérivée de l'équation. L'orateur utilise la règle du produit et simplifie l'équation résultante pour trouver le terme qui lui donnera la réponse qu'il recherche. Ils démontrent ensuite que les deux autres termes seront nuls, ce qui prouve que leur terme choisi est le bon. Enfin, ils utilisent des produits scalaires et un nombre pour montrer que la dérivée de U avec U transposée est égale à zéro.

  • 00:15:00 Dans cette section, l'orateur discute des dérivées des valeurs singulières et des valeurs propres d'une matrice symétrique. Bien qu'une formule exacte pour le changement des valeurs singulières ou propres ne puisse pas être calculée, des limites peuvent être établies en reconnaissant que les changements positifs des valeurs propres ne les feront pas diminuer. L'entrelacement des anciennes et des nouvelles valeurs est illustré par le fait que la deuxième valeur propre ne dépassera pas la première ancienne valeur propre, et la première nouvelle valeur propre ne sera pas inférieure à la première ancienne valeur propre, ce qui rend ces concepts utiles pour comprendre le SVD.

  • 00:20:00 Dans cette section de la vidéo, l'orateur pose une question casse-tête concernant l'effet de l'amplification du deuxième vecteur propre sur les valeurs propres d'une matrice. Il souligne que si la deuxième valeur propre est augmentée d'une certaine quantité, notée thêta, elle peut éventuellement dépasser la première valeur propre, ce qui pose un problème potentiel. Cependant, il explique ensuite son processus de pensée et montre que ce n'est pas réellement un problème car la première valeur propre reste inchangée, tandis que la deuxième valeur propre est poussée vers le haut mais finit par converger vers la somme de lambda 1 et Theta.

  • 00:25:00 Dans cette section, l'orateur discute de l'entrelacement et de l'inégalité de Vial. L'inégalité de Vial est un moyen d'estimer les valeurs lambda d'une matrice, qui sont les valeurs propres ordonnées de la plus grande à la plus petite. L'inégalité est vraie pour toute matrice symétrique et stipule que la plus grande valeur propre de la somme de deux matrices symétriques est inférieure ou égale à la somme des plus grandes valeurs propres de chaque matrice individuellement. Cette propriété d'entrelacement vaut non seulement pour les perturbations de rang un, mais aussi pour les perturbations d'autres rangs. L'orateur utilise l'exemple de l'ajout d'une matrice positive, T, sur S et explique comment cela se rapporte à l'inégalité de Vial.

  • 00:30:00 Dans cette section, l'orateur discute de l'inégalité de Vile et de son lien avec l'entrelacement. L'inégalité de Vile donne une limite sur la façon dont une valeur propre peut augmenter, et ce fait est crucial pour comprendre le phénomène d'entrelacement. L'orateur mentionne qu'il existe deux façons de prouver l'entrelacement, y compris l'inégalité de Vile et une autre méthode impliquant un graphe. La section présente également la détection compressée, qui sera abordée dans la prochaine partie de la vidéo.

  • 00:35:00 Dans cette section, le concept de la norme nucléaire d'une matrice est introduit, qui est la somme des valeurs singulières de la matrice. Cela peut être considéré comme la norme L1 pour un vecteur. Il a une propriété spéciale, similaire à la norme L1, où la minimisation de la norme nucléaire avec une contrainte donne une solution creuse. Cette propriété est utile dans les problèmes de complétion de matrice, où les données manquantes dans une matrice doivent être remplies. Les nombres qui minimisent la norme nucléaire sont un bon choix pour remplir les données manquantes. La norme nulle d'un vecteur, qui représente le nombre de non-zéros, n'est pas une norme, mais elle peut être déplacée vers la norme la plus proche, qui est la norme L1. Cette norme est la somme des valeurs absolues des composantes du vecteur. La minimisation de cette norme soumise à certaines conditions est appelée poursuite de base et est utilisée dans les problèmes de complétion de matrices.

  • 00:40:00 Dans cette section, l'orateur discute de l'idée que la norme nucléaire d'une matrice provient d'une norme qui n'est pas tout à fait une norme. Il explique que le rang de la matrice est équivalent à cette norme mais n'est pas une norme car il n'est pas évolutif si la taille de la matrice est doublée. L'orateur poursuit en décrivant la conjecture selon laquelle l'algorithme d'apprentissage en profondeur de la descente de gradient trouve la solution au problème minimum dans la norme nucléaire, et introduit le concept de Lasso et de détection compressée qui sera discuté plus en détail dans la prochaine conférence.
 

Cours 17 : Décroissance rapide des valeurs singulières



Cours 17 : Décroissance rapide des valeurs singulières

La conférence se concentre sur les matrices et leurs rangs, et sur la rapidité avec laquelle les valeurs singulières diminuent dans les mathématiques computationnelles. Le conférencier examine les matrices de rang inférieur et démontre comment elles ont beaucoup de zéros dans leur séquence de valeurs singulières, ce qui rend plus efficace l'envoi de la matrice à un ami sous forme de rang inférieur que sous forme de rang complet. Ils introduisent également le rang numérique d'une matrice, qui est défini en laissant une marge de manœuvre pour définir la tolérance des valeurs singulières d'une matrice. En échantillonnant des fonctions lisses, qui peuvent être bien approchées par des polynômes, le rang numérique peut être faible, ce qui entraîne une approximation de rang inférieur de la matrice X. Le cours comprend également des exemples de matrices gaussiennes et de Vandermonde pour expliquer comment elles peuvent conduire à matrices de faible rang, et discute de l'utilité des nombres de Zolotarev pour délimiter des valeurs singulières.

  • 00:00:00 Dans cette section, un professeur explique pourquoi les matrices de rang inférieur sont si répandues dans le monde des mathématiques computationnelles. Il discute de l'importance des valeurs singulières, qui nous renseignent sur le rang d'une matrice et sur la façon dont elle peut être approchée par une matrice de rang inférieur. Il poursuit en expliquant qu'une matrice X peut être décomposée en une somme de K matrices de rang un si elle a K valeurs singulières non nulles. De plus, l'espace de colonne et l'espace de ligne de X ont tous deux la dimension K. La séquence de valeurs singulières est unique à une matrice, et l'accent est mis sur l'identification des propriétés de X qui font apparaître des matrices de rang inférieur dans divers problèmes mathématiques.

  • 00:05:00 Dans cette section, le conférencier discute des matrices de rang inférieur et du fait qu'elles ont beaucoup de zéros dans leur séquence de valeurs singulières. Une matrice de rang inférieur est celle où il est plus efficace d'envoyer la matrice à un ami sous une forme de rang inférieur que sous une forme de rang complet. La conférence utilise différents drapeaux pour démontrer le concept de matrices de rang inférieur, les rangs extrêmement bas étant fortement alignés sur les coordonnées des lignes et des colonnes. Au fur et à mesure que le rang augmente, l'alignement devient flou et il devient plus difficile de voir si la matrice est de rang inférieur. Les matrices de rang élevé sont inefficaces à envoyer sous une forme de rang inférieur.

  • 00:10:00 Dans cette section, le conférencier examine la matrice de drapeau triangulaire pour comprendre pourquoi les motifs diagonaux ne conviennent pas à la compression de rang inférieur. La matrice de tous les uns a une propriété similaire à la matrice préférée de Gil lorsque son inverse est pris. En examinant les valeurs singulières de cette matrice, l'enseignant montre que les motifs triangulaires ne se prêtent pas à une compression de rang inférieur. Cependant, le boîtier circulaire et le motif du drapeau japonais sont pratiques pour une compression de bas rang.

  • 00:15:00 Dans cette section, le conférencier discute du rang d'un cercle, en particulier du drapeau japonais. En décomposant le drapeau en un cercle, une pièce de rang un au milieu et un carré, le rang peut être déterminé en additionnant les rangs de chaque pièce. Le conférencier montre que la pièce de rang un est délimitée par un, puis utilise la symétrie pour déterminer le rang de la pièce carrée, qui dépend du rayon du cercle. En faisant quelques calculs avec la trigonométrie, le conférencier conclut que le rang est d'environ 1/2, ce qui rend efficace la représentation du drapeau japonais sous une forme de rang inférieur. Cependant, la plupart des matrices en mathématiques computationnelles ne sont pas de rang fini mais de rang numérique, qui est similaire au rang mais permet une certaine approximation.

  • 00:20:00 Dans cette section, nous apprenons le rang numérique d'une matrice, qui est défini en laissant une marge de manœuvre pour définir la tolérance des valeurs singulières d'une matrice. Le rang numérique est K si K est la première valeur singulière au-dessus d'epsilon, qui dénote la tolérance, et le rang est le même que la dernière valeur singulière au-dessus d'epsilon, et est la première valeur singulière en dessous d'epsilon. Les matrices numériquement de rang inférieur ne sont pas seulement des matrices de rang inférieur, mais également des matrices de rang complet avec des valeurs singulières décroissantes rapidement. Cela nous permet de compresser les matrices en utilisant une approximation de rang inférieur tout en permettant un niveau de tolérance raisonnable dans la pratique. La matrice de Hilbert est un exemple de matrice de rang complet avec un rang numérique bas.

  • 00:25:00 Dans cette section, le conférencier explique comment les matrices peuvent être de rang numérique bas mais pas nécessairement de rang bas en général. La matrice de Vandermonde en est un exemple classique. Cette matrice apparaît dans une interpolation polynomiale à des points réels et est souvent de rang numériquement bas, ce qui la rend difficile à inverser. Cependant, un rang numérique bas n'est pas toujours souhaitable, en particulier lorsqu'on essaie de trouver l'inverse. Le conférencier explique que la raison pour laquelle il y a tant de matrices de rang inférieur est que le monde est lisse, ce qui signifie que les matrices sont numériquement de rang inférieur. Un exemple est donné où un polynôme à deux variables est échantillonné, et il est montré que la matrice résultante est mathématiquement de rang bas avec epsilon égal à zéro.

  • 00:30:00 Dans cette section, l'orateur explique comment obtenir une approximation de rang inférieur pour une matrice X en échantillonnant une fonction et en approximant cette fonction par un polynôme. Si un polynôme de deux variables peut être écrit, avec un degré M à la fois en x et en y, puis échantillonné, le x résultant aura un rang bas avec epsilon égal à zéro, ayant au plus M rang au carré. En échantillonnant des fonctions lisses, qui peuvent être bien approchées par des polynômes, le rang numérique peut être faible, ce qui entraîne une approximation de rang inférieur de la matrice X. Cependant, le raisonnement derrière cette méthode ne fonctionne pas bien pour la matrice de Hilbert, qui est de plein rang.

  • 00:35:00 Dans cette section, le conférencier explique comment trouver une raison appropriée pour délimiter le rang d'une matrice. De nombreuses personnes ont essayé de trouver un polynôme capable de prédire avec précision le rang d'une matrice, mais les méthodes n'ont pas été satisfaisantes. Le conférencier introduit l'idée des matrices de Sylvester, qui sont des matrices qui satisfont une certaine équation appelée l'équation de Sylvester. En trouvant un A, un B et un C qui satisfont l'équation, on peut montrer qu'une matrice est de rang numérique bas. Le conférencier donne un exemple utilisant la matrice de Hilbert et une manière spécifique de multiplier par un demi à gauche et à droite pour satisfaire l'équation de Sylvester.

  • 00:40:00 Dans cette section, la conférence a fourni des exemples de matrices gaussiennes et de Vandermonde pour expliquer comment les permutations et la multiplication peuvent conduire à des matrices de rang inférieur. La conférence explique que si X satisfait une équation semestrielle, alors une borne peut être trouvée sur les valeurs singulières de toute matrice qui satisfait une expression similaire à celle des matrices gaussiennes et de Vandermonde, appelée norme de Frobenius. Le Fuller et la borne sont utilisés pour démontrer ce rang numérique bas dans les matrices, avec des exemples donnés pour démontrer un lien entre la satisfaction de certaines équations et l'apparition de ces matrices de rang bas dans la pratique.

  • 00:45:00 Dans cette section, le conférencier explique comment le problème abstrait des valeurs singulières délimitées par les nombres de Zolotarev est utile car de nombreuses personnes ont déjà étudié ces nombres. La principale raison pour laquelle cela est utile est que les ensembles E et F sont séparés, et c'est ce qui fait que le nombre de Zolotarev devient petit extrêmement rapidement avec k. Le conférencier utilise la matrice de Hilbert comme exemple pour montrer comment le nombre de Zolotarev peut donner une limite sur le rang numérique, indiquant pourquoi il y a tant de matrices de rang inférieur en mathématiques computationnelles. Le conférencier mentionne également la malédiction non officielle entourant les deux personnes clés qui ont travaillé sur le problème de Zolotarev ; tous deux sont morts à l'âge de 31 ans, c'est pourquoi il y a un point d'interrogation à côté du nom de Pencil.
 

Cours 18 : Paramètres de comptage en SVD, LU, QR, points de selle



Cours 18 : Paramètres de comptage en SVD, LU, QR, points de selle

Dans cette conférence, l'orateur passe en revue diverses factorisations matricielles telles que L&U, Q&R et les matrices de vecteurs propres et compte le nombre de paramètres libres dans chacune de ces matrices. Ils discutent également du calcul de Qs par rapport à SVD et comptent le nombre de paramètres dans le SVD pour une matrice de rang-R. Le conférencier explique également le concept de points de selle dans les matrices et comment les trouver en utilisant des techniques d'optimisation et des multiplicateurs de Lagrange. Enfin, le conférencier discute du signe des valeurs propres d'une matrice symétrique et comment le quotient de Rayleigh peut aider à déterminer la valeur maximale et le vecteur propre correspondant de la matrice.

  • 00:00:00 Dans cette section, l'orateur passe en revue les grandes factorisations d'une matrice, telles que L&U, Q&R et les matrices de vecteurs propres, et compte le nombre de paramètres libres dans chacune de ces matrices. L'orateur note que le nombre de paramètres libres dans L&U ou Q&R doit correspondre au nombre de paramètres dans la matrice d'origine, et que les paramètres libres des matrices de valeurs propres et de vecteurs propres totalisent N au carré. L'orateur note que cet exercice n'est pas souvent vu dans les manuels, mais qu'il s'agit d'une révision importante pour comprendre l'algèbre linéaire.

  • 00:05:00 Dans cette section, l'orateur discute du nombre de paramètres libres dans différentes factorisations matricielles, y compris SVD, LU, QR et décomposition polaire. L'orateur note que le nombre de paramètres libres dans une matrice orthogonale N par n Q est N-1 pour la première colonne et N-2 pour les colonnes suivantes en raison des conditions de normalisation et d'orthogonalité. Ils discutent également du nombre de paramètres libres dans une matrice symétrique S, qui est 1/2 N fois N moins 1 plus le nombre d'éléments diagonaux. Ils montrent ensuite comment ces décomptes s'additionnent pour différentes factorisations, y compris L fois U, Q fois R et Q fois S. Enfin, ils mentionnent la décomposition polaire comme une autre factorisation qui se traduit par une orthogonale fois une matrice symétrique.

  • 00:10:00 Dans cette section, le conférencier discute du calcul de Qs par rapport au SVD, puis compte les paramètres dans le SVD. Le plus grand rang que la matrice rectangulaire peut avoir est M, ce qui se traduira par une matrice M par N pour le SVD. Le conférencier s'attend à ce qu'il s'additionne au total de la matrice d'origine, qui a des paramètres MN. Le compte de S est égal à M et le compte de V est égal à N. Le compte de U est égal à 1/2 (M^2 + M) s'il s'agit d'une matrice orthogonale M par M.

  • 00:15:00 Dans cette section, l'orateur explique comment compter les paramètres importants dans la décomposition en valeurs singulières (SVD) d'une matrice pour une matrice de rang-R. Les M colonnes de V qui correspondent à des valeurs singulières non nulles sont les seules parties importantes de la matrice. Pour compter le nombre de paramètres, le locuteur utilise une formule tenant compte du nombre différent de paramètres nécessaires dans chaque colonne orthogonale de V, jusqu'à la Mème colonne. La formule consiste à ajouter 1 à NM pour chaque colonne et à soustraire ce nombre de la moitié de M au carré plus M plus 1. Le résultat de la formule est le décompte final des paramètres dans le SVD d'une matrice de rang-R.

  • 00:20:00 Dans cette section, l'orateur discute des matrices de rang R et du nombre de paramètres dont elles disposent. Les matrices de rang R ne sont pas un sous-espace car différentes matrices peuvent avoir le même rang, ce qui en fait plus comme une surface, avec des pièces différentes. Le locuteur considère qu'une matrice de rang R a R paramètres. Ils poursuivent ensuite pour trouver le nombre de paramètres dans une matrice de rang R. Le nombre de paramètres est R pour Sigma, (R + 1) / 2 pour V, et (M - 1) + (M - 2) + ... + (M - R) pour U.

  • 00:25:00 Dans cette section du cours, l'instructeur discute du concept de points de selle dans les matrices, qui sont différents des maxima et des minima. Les points de selle surviennent lors de l'optimisation d'une fonction de coût quadratique soumise à des contraintes linéaires à l'aide de multiplicateurs de Lagrange. L'instructeur présente lambda et montre comment il est utilisé dans le lagrangien pour former une fonction qui dépend à la fois de X et de lambda. Cette fonction peut ensuite être optimisée pour trouver les points de selle qui peuvent survenir. L'instructeur mentionne également une autre source de points de selle, qui surviennent dans des matrices qui ne sont ni définies positives ni définies négatives.

  • 00:30:00 Dans cette section, l'orateur explique comment trouver les points de selle d'une fonction et montre comment ils surviennent dans une classe importante de problèmes représentés par une matrice de blocs. La fonction a des points de selle, pas un maximum. La contribution de Lagron à ce problème consiste à prendre les dérivées par rapport à X et lambda, produisant respectivement n et m équations. En fin de compte, la matrice représentée par la matrice de blocs indique qu'elle n'est pas définie positive, et cette information peut être utilisée pour déterminer les points de selle.

  • 00:35:00 Dans cette section, le conférencier explique comment le déterminant d'une matrice peut aider à déterminer les signes de ses valeurs propres. À l'aide d'un exemple simple, il montre que si le déterminant est négatif, il doit y avoir des valeurs propres des deux signes. Il relie ensuite cela aux matrices KKT utilisées dans l'optimisation et soutient qu'elles sont généralement indéfinies, mais qu'elles ont un bloc défini positif qui leur est associé. Il démontre que, lors de l'utilisation de l'élimination de bloc sur ce bloc défini positif, tous les n pivots seront positifs, ce qui conduit à la conclusion que les matrices KKT ont à la fois des valeurs propres positives et négatives.

  • 00:40:00 Dans cette section, le conférencier discute des points de selle et de leur relation avec les contraintes. Il explique comment déterminer le signe des valeurs propres d'une matrice symétrique, à partir des signes de ses pivots. Le conférencier définit également le quotient de Rayleigh et examine comment il peut nous aider à déterminer la valeur maximale et le vecteur propre correspondant d'une matrice symétrique. La conférence se termine par une explication de la façon dont toute valeur que nous insérons dans le quotient de Rayleigh sera inférieure à la valeur maximale.

  • 00:45:00 Dans cette section, l'orateur discute du concept de points de selle dans le quotient de Rayleigh. Il existe des lambdas intermédiaires difficiles à gérer entre le minimum et le maximum. Cependant, au maximum et au minimum, les valeurs de quotient sont faciles à mesurer. Si un vecteur est sélectionné dans n'importe quelle dimension, nous pouvons calculer R de X, qui se situe entre le maximum et le minimum. L'orateur dit que parler des détails des points de selle sera enregistré pour la prochaine conférence, mais avant cela, le troisième laboratoire sera donné, qui enseigne le surajustement, l'apprentissage en profondeur et est prévu après la pause.
 

Cours 19. Suite des points de selle, principe Maxmin



19. Points de selle suite, principe Maxmin

Dans cette vidéo, l'orateur continue de discuter des points de selle et de la façon de trouver les valeurs minimales et maximales à l'aide du quotient de Rayleigh dans un espace bidimensionnel. Le théorème d'entrelacement est expliqué, ce qui implique d'écrire les points de selle comme le maximum d'un minimum pour trouver rapidement les maxima et les minima. L'orateur met également en garde contre le surajustement lors de l'ajustement des données avec un polynôme de haut degré et discute de deux laboratoires ouverts pour la classe, impliquant des points de selle et un réseau de neurones simple. Les concepts de moyenne et de variance dans les statistiques et la variance et la covariance de l'échantillon sont expliqués, l'orateur notant que la matrice de covariance pour les sorties totalement dépendantes ne serait pas inversible, et pour les scénarios de sondage avec plusieurs personnes vivant dans une maison, une certaine covariance est attendue mais pas tout à fait indépendant.

  • 00:00:00 Dans cette section, l'orateur discute de l'importance de comprendre les points de selle par rapport à la recherche du minimum de la fonction de coût total dans l'apprentissage en profondeur. Ils fournissent un exemple de quotient de Rayleigh et une matrice simple S pour illustrer les faits principaux des points de selle, les valeurs maximales et minimales de la fonction et la présence d'un point de selle. L'orateur mentionne également leurs plans pour discuter du troisième laboratoire, des projets et des statistiques de base, en particulier la matrice de covariance.

  • 00:05:00 Dans cette section, l'orateur discute des points de selle et comment trouver les valeurs minimales et maximales en chargeant tout sur une variable et en calculant les dérivées pour trouver où elles sont égales à zéro. Ils montrent comment trouver la valeur minimale et montrent que les vecteurs propres et les valeurs propres de la matrice aident à trouver l'emplacement et la valeur du point de selle. L'orateur explique également comment calculer les dérivées secondes et la matrice symétrique. Ils soulignent l'importance de calculer les valeurs du point de selle et suggèrent de travailler avec des codes et d'être conscient du processus.

  • 00:10:00 Dans cette section, l'orateur discute de l'idée des points de selle et de la façon de les écrire comme le maximum d'un minimum afin de revenir rapidement aux maxima et minima. Il explique que cela conduit au théorème d'entrelacement et donne un exemple de prise du minimum sur un sous-espace bidimensionnel pour trouver le minimum du quotient de Rayleigh. En prenant le maximum de ce minimum sur tous les sous-espaces, il est capable d'obtenir lambda, la valeur du point de selle.

  • 00:15:00 Dans cette section, l'orateur explique comment trouver les valeurs maximales et minimales dans un espace à deux dimensions à l'aide du quotient de Rayleigh. Il démontre que la valeur maximale est de trois en prenant le maximum sur tous les espaces 2D possibles et en montrant que ce choix particulier de V a donné la réponse de trois. L'orateur explique ensuite comment la valeur minimale sera inférieure à trois pour tout autre sous-espace, ce qui signifie que la valeur maximale des minimums est également de trois. Le concept de points de selle est également discuté, l'orateur notant que ces points se produisent souvent dans les points les plus élevés de certaines régions, et qu'ils peuvent être des maxima de minima ou des minima de maxima. La vidéo se termine par une discussion sur les projets et une invitation pour les téléspectateurs à poser des questions à leur sujet.

  • 00:20:00 Dans cette section, l'orateur explique un modèle de surajustement dans lequel un polynôme de degré 5 est utilisé pour ajuster 6 points. L'orateur souligne que le polynôme du 5ème degré serait un ajustement exact aux points de données, mais ce serait également un modèle défectueux car il ne serait ni lisse ni agréable. Cet exemple sert d'avertissement contre le surajustement, qui se produit lorsqu'un modèle est trop complexe et trop étroitement adapté aux données d'apprentissage.

  • 00:25:00 Dans cette section, l'orateur aborde le problème de l'ajustement des données avec un polynôme de haut degré. Bien que l'ajustement d'une ligne droite puisse entraîner un sous-ajustement, l'ajustement d'un polynôme de haut degré peut entraîner un surajustement car il crée un ajustement parfait pour tous les points de données donnés, sans tenir compte du bruit dans les données. L'idée d'un ajustement parfait est liée à la matrice de Vandermonde, qui a un grand inverse en raison du vecteur de coefficient géant résultant de l'ajustement parfait. La matrice a une large gamme de valeurs singulières, avec des valeurs minuscules apparaissant à côté des valeurs de taille ordinaire. En tant que tel, il peut être difficile de trouver le bon degré de polynôme à ajuster aux données pour trouver un équilibre entre le sous-ajustement et le surajustement.

  • 00:30:00 Dans cette section, l'orateur décrit deux exemples de laboratoires ouverts pour sa classe, l'un impliquant des points de selle et l'autre impliquant un simple réseau de neurones. Pour l'exemple du point de selle, l'orateur suggère de soumettre des graphiques et des tableaux de données à la portée de la note et de tirer des conclusions sur la sécurité et le risque d'augmenter K. En ce qui concerne l'exemple du réseau neuronal, l'orateur décrit un problème de classification de base et encourage les élèves à modifier le modèle comme bon leur semble, tout en utilisant l'algèbre linéaire. L'orateur mentionne également une prochaine réunion du corps professoral sur les plans du MIT pour des cours de pensée computationnelle, dont ce cours est un exemple. Enfin, l'orateur invite les étudiants à lui envoyer un e-mail avec des idées de projet approximatives et des préférences de groupe.

  • 00:35:00 Dans cette section, le professeur discute de l'idée d'un projet pour la classe et précise sa portée. Il mentionne que le projet ne serait pas trop gros, peut-être l'équivalent de trois devoirs, mais pas anodin non plus. Il demande aux étudiants leurs questions et leurs commentaires sur le projet, suggérant la possibilité d'inclure des sujets tels que les réseaux de neurones convolutifs. Le professeur mentionne également que certains étudiants avaient initié une réunion au Media Lab, et celle-ci s'était déroulée avec succès. Il demande si les gens seraient à nouveau intéressés par de telles réunions après les vacances de printemps.

  • 00:40:00 Dans cette section, l'orateur présente les concepts de moyenne et de variance dans les statistiques, leur relation avec la production réelle et la production attendue, et la différence entre la moyenne de l'échantillon et la moyenne attendue. La moyenne de l'échantillon est calculée à partir de la sortie réelle d'une expérience, tandis que la moyenne attendue est calculée à partir des probabilités de ces résultats. La variance est également discutée, la variance de l'échantillon et la variance attendue étant distinguées. L'orateur explique que les valeurs attendues de la moyenne et de la variance se rapprocheront des valeurs réelles à mesure que le nombre d'échantillons ou de possibilités augmente.

  • 00:45:00 Dans cette section, le concept de variance d'échantillon est discuté, qui mesure la distance moyenne au carré de la moyenne d'un ensemble de n échantillons. En statistique, la division de n moins un signifie que cette distance est calculée à partir de la moyenne de l'échantillon, et non de zéro, et lorsque n est grand, la différence entre n et n moins un n'est pas significative. La covariance, en revanche, est une idée plus profonde qui implique une manipulation matricielle lorsque plusieurs expériences sont effectuées et que la probabilité conjointe de deux événements distincts est calculée.

  • 00:50:00 Dans cette section, l'orateur discute des deux extrêmes de la sortie de covariance : les sorties indépendantes et les sorties totalement dépendantes. Alors que les sorties indépendantes ont une covariance de 0, les sorties totalement dépendantes ont une covariance maximale, où une sortie est entièrement déterminée par l'autre. L'orateur utilise l'exemple de lancer des pièces collées ensemble pour expliquer ce concept. La matrice de covariance pour les sorties dépendantes ne serait pas inversible et symétrique définie positive, ou semi-définie pour le cas collé. L'orateur mentionne que dans les scénarios de sondage où plusieurs personnes vivent dans une maison, il y aurait une certaine covariance attendue, mais elle ne serait pas entièrement indépendante.
 

Cours 20. Définitions et inégalités



20. Définitions et inégalités

Dans cette section de la vidéo, le conférencier aborde divers concepts de la théorie des probabilités, notamment les matrices de valeur attendue, de variance et de covariance. L'inégalité de Markov et l'inégalité de Chebyshev ont également été introduites comme outils fondamentaux pour estimer les probabilités. L'orateur procède ensuite à l'explication de la relation entre l'inégalité de Markov et l'inégalité de Chebychev, illustrant comment elles conduisent au même résultat. Le concept de covariance et de matrice de covariance, un outil fondamental de la théorie des probabilités, a également été introduit. La vidéo explore également l'idée des probabilités et des tenseurs conjoints, expliquant comment le fait de coller des pièces ensemble ajoute de la dépendance et modifie les probabilités. Enfin, l'orateur discute des propriétés de la matrice de covariance, en soulignant qu'elle est toujours semi-définie positive et qu'elle est une combinaison de matrices semi-définies positives de rang 1.

  • 00:00:00 Dans cette section, le conférencier discute de la valeur attendue, de la variance et de la matrice de covariance. La valeur attendue, symbolisée par « e », est définie comme la moyenne pondérée de tous les résultats possibles en fonction de leurs probabilités. La variance, en revanche, est la valeur attendue du carré de la distance entre la moyenne et chaque point de données. La matrice de covariance peut également être exprimée de manière similaire. Le conférencier explore ensuite une deuxième expression de la variance en écrivant les carrés et en les combinant différemment, ce qui donne un moyen plus efficace de calculer la variance.

  • 00:05:00 Dans cette section, l'orateur discute d'un processus algébrique de simplification d'une équation pour trouver la valeur attendue de x au carré. Il montre que la valeur attendue de x au carré moins la valeur attendue de x moins M au carré est équivalente à la somme des probabilités de x au carré. L'orateur poursuit ensuite en introduisant l'inégalité de Markov, qui est une inégalité statistique qui implique des probabilités et des anticipations. Il note que Markov était un grand mathématicien russe et qu'ils verront les chaînes et les processus de Markov plus tard dans le livre.

  • 00:10:00 Dans cette section, l'orateur explique l'inégalité de Markov, qui peut aider à estimer la probabilité que X soit supérieur ou égal à un certain nombre. L'inégalité stipule que la probabilité que X soit supérieur ou égal à a est inférieure ou égale à la moyenne de X divisé par a. L'orateur donne un exemple utilisant une moyenne de un et une valeur de a de trois, montrant que la probabilité que X soit supérieur ou égal à trois est inférieure ou égale à 1/3. Cependant, l'orateur note que cette inégalité ne s'applique qu'aux événements non négatifs et ne peut pas être utilisée avec des événements dont les sorties vont de l'infini négatif à l'infini positif.

  • 00:15:00 Dans cette section de la vidéo, l'orateur parle d'utiliser un cas particulier pour démontrer la probabilité d'être supérieur ou égal à 3. Ils utilisent la définition de la moyenne pour écrire une équation spécifique, puis font des hypothèses sur les valeurs de X1 à X5 pour satisfaire l'inégalité de Markov. Ils énoncent le fait que les probabilités totalisent 1 et sont toutes supérieures ou égales à 0. Le locuteur procède ensuite à la manipulation de l'équation pour montrer que la probabilité d'être supérieure ou égale à 3 est inférieure ou égale à 1/ 3 en soustrayant certaines valeurs de l'équation. Ils concluent en montrant que l'équation satisfait l'inégalité de Markov.

  • 00:20:00 Dans cette section, l'orateur discute des inégalités de Markov et de Chebyshev en probabilité. L'inégalité de Markov consiste à estimer la probabilité qu'une variable soit supérieure ou égale à une certaine valeur, et elle ne s'applique que lorsque les variables sont toutes supérieures ou égales à zéro. L'inégalité de Chebyshev, d'autre part, traite de la probabilité qu'une variable soit à une certaine distance de la moyenne, et elle ne fait aucune hypothèse sur les entrées. Ces deux inégalités sont des outils fondamentaux pour estimer les probabilités en théorie des probabilités.

  • 00:25:00 Dans cette section, l'orateur explique la relation entre l'inégalité de Markov et l'inégalité de Chebychev. Il introduit une nouvelle variable Y, qui est X moins M au carré, et explique comment calculer sa moyenne. L'orateur applique ensuite l'inégalité de Markov à Y et l'inégalité de Chebychev à X, démontrant comment elles conduisent au même résultat. Enfin, il introduit le concept de covariance et de matrices de covariance.

  • 00:30:00 Dans cette section, l'orateur introduit le concept de covariance et de matrice de covariance, qui est une matrice M par M où M est le nombre d'expériences réalisées en même temps. Pour illustrer ce concept, l'orateur utilise l'exemple de lancer deux pièces avec une sortie (X) par pièce. Si les deux pièces sont retournées indépendamment, il n'y a pas de corrélation entre les sorties, mais si elles sont collées ensemble, les sorties sont corrélées et les probabilités conjointes sont mises dans une matrice 2x2.

  • 00:35:00 Dans cette section, l'orateur discute du concept de probabilités conjointes et de matrices pour des montages expérimentaux impliquant des pièces indépendantes. Ils explorent l'idée d'une structure à trois voies, ou tenseur, dans les cas où il y a trois expériences avec des pièces équitables indépendantes ou lorsque les pièces sont collées ensemble. Les entrées résultantes dans le tenseur seraient les probabilités conjointes, qui peuvent être utilisées pour calculer la probabilité de différents résultats. L'orateur note que si les entrées dans un cas simple d'une expérience non collée sont d'un huitième, le fait de coller les pièces ensemble ajoute de la dépendance et modifie les probabilités.

  • 00:40:00 Dans cette section de la vidéo, l'orateur discute de la probabilité conjointe de lancer trois pièces et comment elle peut être représentée dans une matrice à 3 voies. Il mentionne le concept de tenseurs et de matrices de covariance, définissant ces dernières comme la variance du résultat conjoint de deux expériences, X et Y, exprimée comme une sommation de tous les résultats possibles. L'orateur explique également le symbole P IJ et comment il se rapporte au collage et au décollement des pièces de monnaie dans différentes configurations.

  • 00:45:00 Dans cette section de la vidéo, l'orateur discute de la probabilité conjointe de deux événements - X et Y - et comment calculer cette probabilité pour différentes paires de valeurs. L'orateur donne des exemples d'utilisation de la probabilité conjointe, y compris le calcul de la probabilité d'un certain âge et d'une certaine taille. L'orateur définit également les probabilités marginales, qui sont les probabilités individuelles de chaque événement, et explique comment additionner les probabilités le long des lignes ou des colonnes d'une matrice. L'orateur définit ensuite la matrice de covariance et explique comment calculer ses entrées.

  • 00:50:00 Dans cette section, l'orateur parle de la matrice de covariance et de ses propriétés. Il explique que la variance de l'expérience X est dérivée de l'addition de tous les P IJ, tandis que la variance de l'expérience Y est donnée par la valeur Sigma Y au carré. La covariance entre X et Y est la somme des P IJ multipliés par la distance de X à sa moyenne et la distance de Y à sa moyenne. Dans le cas de pièces indépendantes, la covariance serait nulle, alors que dans le cas de pièces collées, elle serait la même que Sigma X au carré Sigma Y au carré. Le déterminant de la matrice est zéro dans le cas des pièces collées, ce qui montre que la covariance au carré est la même que Sigma X au carré Sigma Y au carré. La matrice de covariance est toujours positive semi-définie et est une combinaison de rang 1 positif semi-défini donc elle est positive semi-définie ou positive définie.