机器学习和神经网络 - 页 26

 

第 5 讲。正定矩阵和半定矩阵



5.正定和半定矩阵

在此视频中,演讲者总结了之前线性代数课程的亮点,包括特征值、行列式和主元,所有这些都提供了正定矩阵的检验。演讲者随后解释了正定矩阵和不定矩阵之间的关系、它们与特征值和行列式的联系,以及如何计算矩阵向量 X 中的能量。演讲者还讨论了深度学习、神经网络、机器学习和最小化能量的概念。他们触及了凸函数的概念,并解释了如何将其用于深度学习。最后,演讲者介绍了正定和半定矩阵的练习,并简要提到了即将到来的奇异值分解主题。

  • 00:00:00 在本节中,演讲者总结了前五节线性代数课程的重点,包括特征值、转置行列式和主元,所有这些都提供了正定矩阵的检验。他解释说,正定矩阵是对称矩阵中最好的,并且具有正特征值,但除了特征值之外还有其他测试。演讲者演示了如何通过询问它是否具有正特征值、正行列式、正主元或是否可以以某种方式因式分解来确定二乘二矩阵是否为正定矩阵。

  • 00:05:00 在本节中,演讲者讨论正定和不定矩阵及其与特征值和行列式的联系。矩阵的行列式与其特征值相关,因为它们是特征值的乘积,如果行列式为负,则至少存在一个负特征值。不定矩阵可以通过调整对角线项使不定矩阵正定,并且前导行列式(左上角子矩阵的行列式)必须通过检验以确保正定性。演讲者还将枢轴连接到行列式和消除。最终,演讲者将正定矩阵定义为通过能量测试的矩阵。

  • 00:10:00 在本节中,演讲者演示了如何计算矩阵向量 X 中的能量,并展示了正定矩阵的能量大于零。在这种情况下,能量是一个纯二次函数,可以是深度学习中使用的损失函数,用于最小化训练数据和获得的数字之间的差异。矩阵 3 和 6 的对角线数给出对角线部分,可以为负的交叉项给出 8 X Y。

  • 00:15:00 在本节中,演讲者解释了深度学习、神经网络、机器学习和最小化能量之间的关系。演讲者使用碗的类比来直观地演示神经网络如何工作以找到问题的最小二次方,以及非线性项如何使问题变得更加复杂。然后他们解释了大型问题的机器学习如何需要一周以上的时间来计算,因为它涉及最小化可能包含超过 100,000 个变量的复杂函数。演讲者还谈到了凸函数的概念,并解释了如何将其用于深度学习。

  • 00:20:00 在本节中,演讲者讨论了梯度下降的概念,这是深度学习、神经网络和机器学习中使用的主要算法。该算法从表面上的初始点开始,计算函数的导数以确定最陡坡度或梯度的方向,然后沿着该路径移动直到达到最小值或向上转弯。该算法涉及在每个步骤重新计算梯度,直到达到所需的精度水平。

  • 00:25:00 本节讲解梯度下降的概念,常用于机器学习中进行优化。提到通常只计算一阶导数以进行优化,因为计算大量变量的二阶导数可能很复杂。然而,梯度下降有局限性,例如在沿着狭窄的山谷下行时。正定矩阵很重要,因为它们为优化提供了类似碗的形状,但如果特征值相距甚远,则可能会导致问题。最后,谈话转向家庭作业。

  • 00:30:00 在本节中,演讲者介绍了正定矩阵和半定矩阵的练习。说话者举了一个正定矩阵S和一个正定矩阵T的例子,问他们的加法S+T是否是正定的。演讲者用能量测试来回答这个问题,把方程分成两部分来证明它确实是正定的。演讲者还使用第一个测试讨论了 sin 倒数的积极性。演讲者指出矩阵必须是对称的才能具有实数特征值并且可以接受进一步的质疑。

  • 00:35:00 在本节中,演讲者讨论了正定矩阵的概念并介绍了半定矩阵的概念。正定矩阵是所有特征值都为正的对称矩阵。演讲者展示了一个正交矩阵乘以它在正定矩阵上的转置如何得到一个对称矩阵。然后他们解释相似的矩阵如何具有相同的特征值,并且这个新的对称矩阵确实是正定的。演讲者随后介绍了半定矩阵的概念,半定矩阵的特征值大于或等于零。他们解释了半定矩阵如何具有零行列式并且可能具有一个零特征值,但它们的迹值将给出一个正数。

  • 00:40:00 在本节中,正定矩阵的概念被扩展到包括位于正定矩阵边缘的半正定矩阵。全1矩阵的特征值计算为3、0、0,成为半正定矩阵。特征值和能量大于或等于 0 的测试保持不变,但现在允许从属列。矩阵必须是对称的,如果它的秩仅为1,则它不能是正定的,但如果特征值是正的,它是半正定的。

  • 00:45:00 在本节中,演讲者简要提到下一节的主题是奇异值分解 (SVD)。他们还指出,他们现在已经涵盖了正定矩阵和半定矩阵,这表明他们正在转向线性代数中更高级的主题。
 

第 6 讲。奇异值分解 (SVD)



6.奇异值分解(SVD)

该视频解释了奇异值分解 (SVD) 的概念,它用于将一个矩阵分解为三个矩阵,其中中间一个是对角线并包含奇异值。 SVD 有助于理解 A、Sigma 和 V 之间的关系,最终有助于求解方程。该视频讨论了正交向量、特征向量和特征值在 SVD 中的重要性,并强调了 A 和 V 矩阵的正交性。该视频还解释了 SVD 过程的图形表示和矩阵的极点分解。最后,视频讨论了使用 SVD 提取大数据矩阵最重要部分的过程。

  • 00:00:00 在本节中,讲师讨论了类似于特征值但适用于矩形矩阵的奇异值分解 (SVD) 的概念。特征值对于矩形矩阵不可行,因为特征向量要么是复数要么不是正交的。 SVD 引入两组奇异向量和奇异值,分别代替特征向量和特征值。 SVD 的关键在于转置 a 是一个大矩阵,它是正方形的,表示矩形矩阵的乘积。执行 SVD 的第一步是证明任何矩阵都可以分解为 u 乘以 sigma 乘以 V 转置。

  • 00:05:00 在本节中,演讲者讨论了矩阵 A 转置 A 的因式分解,并介绍了特征向量和特征值的概念。该矩阵具有正定特征值,用于计算它们的平方根。该矩阵的特征向量是正方形的、对称的和正定的。结果矩阵具有相同的特征值但不同的特征向量。演讲者接着谈到 A 的因式分解,我们正在寻找一组正交向量 V,可以将其与 A 相乘以获得一组正交向量 U。这些向量将用于计算奇异值分解 (SVD) ). SVD 的目标是将 A 分解为三个矩阵,其中中间一个是对角矩阵,包含 A 的奇异值。

  • 00:10:00 在本节中,输出空间中 V 的正交性质的概念在线性代数的大图中进行了探讨,其中空间分为列空间、零空间等。结果表明,当 V 乘以 a 时,得到的用途也是正交的,从而使 V 变得特殊。给出了方程的矩阵形式,并表明通过查看转置 a,可以简化寻找正交和正交用途的问题。得出的结论是转置 a 是对称的、正定的并且具有对角线形式,这告诉我们 V 的性质。

  • 00:15:00 在本节中,演讲者讨论了奇异值分解 (SVD) 的概念。 SVD 中的 V 是 A 转置的特征向量。Sigma 转置 Sigma 是 A 转置 A 的特征值。SVD 是通过理解双或三特征值的特征向量的最后一步建立的。 SVD 有助于理解 A、Sigma 和 V 之间的关系,这最终将有助于求解诸如 A 乘以 A 转置乘以 X 等于 B 等方程。

  • 00:20:00 在本节中,演讲者解释了奇异值分解 (SVD) 过程的最后一步,即证明所选基向量 U 是正交的。为此,演讲者表明 U1 和 U2 的点积为零。由于 U1 是 AV1/Sigma1,U2 是 AV2/Sigma2,因此分数的分母被抵消,留下 V1 转置矩阵乘以 V2,即 Sigma2 转置 V2。由于V2是A转置A的特征向量,U1与U2的点积为零,证明基向量U是正交的。

  • 00:25:00 在本节中,演讲者讨论了奇异值分解 (SVD) 中 A 和 V 矩阵的正交性及其与特征向量的关系。 A 和 V 矩阵显示为分别在列空间和行空间中彼此正交。演讲者随后讨论了数据矩阵中这种关系的发现历史和重要性。演讲者告诫不要使用 A 转置 A 来计算 SVD,因为它可能计算量大且容易出现舍入误差。最后,演讲者使用图表解释了如何将 SVD 因子视为一系列旋转和拉伸。

  • 00:30:00 在本节中,通过过程的图形表示来解释奇异值分解 (SVD) 的概念。该视频演示了正交矩阵如何旋转单位向量,以及 Sigma 如何拉伸它们,从而产生椭圆。最后,应用正交矩阵 U 来旋转椭圆。如果矩阵是正定对称的,那么U和V是一样的,原来给定作为输入的S和A输出是一样的。该视频还解释了如何计算因式分解中的参数。

  • 00:35:00 在本节中,演讲者使用一个二乘二的例子来解释奇异值分解 (SVD) 中左右两侧数字的匹配。 SVD 中的旋转需要两个参数,而拉伸需要两个参数,总共有四个参数与 SVD 中的四个数字相匹配。此外,演讲者还谈到了三乘三矩阵的 SVD 计算,并建议 3D 空间中的旋转需要三个参数,即 roll、pitch 和 yaw。最后,演讲者提到文中提供的 SVD 示例是针对特定矩阵的,并介绍了一些关于特征值和奇异值的事实。

  • 00:40:00 在本节中,演讲者解释了 SVD 乘积的行列式等于奇异值的乘积。使用的示例表明 Sigma 的乘积也等于行列式。但是,SVD 的计算示例需要更多时间,因为必须对参数求平方根。演讲者强调,SVD 最重要的部分将在下一节中使用,包括较小和较大的 SVD 形状,它们分别由非零值组成并负责零空间内容。

  • 00:45:00 在本节中,演讲者介绍了矩阵的极点分解,它将任何矩阵分解为对称矩阵乘以正交矩阵。这是工程和几何中著名的因式分解,可以从 SVD 中快速得到。通过输入恒等式并稍微移动一些东西,可以从 SVD 中读取 S 和 Q 以恢复矩阵的这种分解,这在机械工程语言中告诉我们任何应变都可以描述为对称拉伸和内部扭曲.

  • 00:50:00 在本节中,演讲者解释了从大数据矩阵中提取最重要部分的过程,这是数据科学必须做的,因为矩阵的一部分是噪声,一部分是信号。为了找到信号的最重要部分,说话者检查 u Sigma Vtranspose,挑选出最重要的数字 Sigma 1。这个数字连同它的列和行构成了矩阵的最关键部分,因为它具有最重要的秩一,因此是矩阵中具有最高方差的部分。下一步是计算这三个元素以更全面地理解数据。
 

第 7 讲 Eckart-Young:最接近 A 的秩 k 矩阵



7. Eckart-Young:最接近A的秩k矩阵

在此 YouTube 视频中,讲师解释了主成分分析 (PCA) 的概念,它用于理解数据矩阵并从中提取有意义的信息。突出显示了包含最关键信息的矩阵的最大 k 个奇异值的重要性,以及 Eckart-Young 定理,该定理指出奇异值分解的前 k 个部分提供对秩 k 矩阵的最佳近似, 介绍。演讲者还讨论了向量和矩阵的不同类型范数,包括 l2、l1 和无穷范数。强调了 Frobenius 范数在 Netflix 竞赛和 MRI 扫描中的重要性,以及最接近 A 的秩 k 矩阵的概念。演讲者还讨论了使用正交矩阵来保留原始矩阵的属性并介绍了该概念奇异值分解 (SVD) 及其与 PCA 的关系。最后,讨论了求解涉及矩形矩阵 A 及其转置的线性方程组的重要性,以及使用 SVD 方法寻找给定数据集的最佳年龄与身高比的方法。

  • 00:00:00 在本节中,讲师解释了主成分分析 (PCA) 的概念,这是一种用于理解数据矩阵的工具。他强调了从数据中提取有意义的信息而不是全部复制的重要性。他解释说,矩阵的最大 k 个奇异值包含最重要的事实,并且 K 是秩 K 矩阵的最佳近似值。介绍了 Eckert-Young 定理,该定理指出使用奇异值分解的前 K 个部分是对秩 K 矩阵的最佳近似,讲师解释了矩阵范数的不同度量。

  • 00:05:00 在本节中,演讲者讨论了向量和矩阵的不同类型范数。 l2 范数或最大奇异值是矩阵的重要范数。演讲者解释说,当使用 l1 范数最小化函数时,获胜向量是稀疏的,或者主要由 0 个分量组成,这在信号处理和传感中很有用。 l1 范数也称为基础追踪并且很重要,因为它允许解释获胜向量的组件。 l2和l1范数比较,演讲者还介绍了无穷范数。

  • 00:10:00 在本节中,演讲者解释了三个重要的矩阵范数。首先是二次范数,类似于一个向量的长度,满足三角不等式。第二个是 Frobenius 范数,它将矩阵的条目视为长向量,并取其平方和的平方根。第三个是核范数,它是矩阵奇异值的总和。这些范数很重要,因为它们都满足 Eckart-Young 陈述,即可以从矩阵的前 K 个奇异值中找到最接近矩阵的秩 K 近似值。

  • 00:15:00 在本节中,演讲者讨论矩阵的 L2 和 Frobenius 范数如何仅取决于其奇异值。 Frobenius 范数被用在 Netflix 竞赛中,参赛者必须完成一个包含缺失条目的大型电影排名矩阵,事实证明它是矩阵的最佳核范数完成的正确范数。这种矩阵补全方法现在被用于缺少数据的 MRI 扫描,即使数据不完整,它也可以产生出色的图像。

  • 00:20:00 在本节中,演讲者讨论了最接近 A 的秩 k 矩阵的概念。这涉及通过填充 MRI 在看起来不够长的位置看到的内容来完成矩阵,使用核规范。给出的示例是四阶矩阵,为了找到二阶矩阵的最佳近似值,说话者选择 4 和 3 作为两个最大值。任何其他矩阵 B 都会比所选矩阵更远离 A,尽管它并不明显,因为它取决于范数。定理的要点是要找到最接近A的秩k矩阵并不容易,需要证明。

  • 00:25:00 在本节中,演讲者讨论了对角矩阵并不像看起来那么特殊,并介绍了正交矩阵的概念,该矩阵可用于在给定矩阵的两边相乘。演讲者提出矩阵的奇异值乘以正交矩阵时会发生什么变化的问题,并解释奇异值不会改变。演讲者还解释了向量的范数不会被正交矩阵改变,并得出结论,就保留原始矩阵的性质而言,正交矩阵与对角矩阵一样好。

  • 00:30:00 在本节中,在矩阵 QA 的上下文中解释了奇异值分解 (SVD) 的概念。矩阵QA的SVD由其右边的对角矩阵Sigma构成; V 在 Sigma 右边转置;和 Q u 在 Sigma 的左边,其中 Q u 是一个正交矩阵。本节介绍了主成分分析 (PCA) 的概念,并解释了如何从数据点中提取有意义的见解。 PCA 的第一步是通过减去每个组件的数据点的平均值来获得均值零。该部分进一步解释了如何使用结果值来查找组件之间的线性关系。

  • 00:35:00 在本节中,演讲者讨论了主成分分析 (PCA) 及其与最小二乘法的区别。最小二乘法测量点和线之间的误差,而 PCA 测量点与线的垂直距离并将它们的平方相加以最小化它们。因此,这个问题的解决方案涉及奇异值分解 (SVD) 西格玛,而不是普通线性代数中的方程。演讲者将在 PCA 中寻找最佳线性关系的问题与寻找最小二乘解的问题区分开来,因为前一个问题旨在以线性方式对非线性数据建模。

  • 00:40:00 在本节中,演讲者讨论了求解涉及矩形矩阵 A 及其转置的线性方程组的重要性。虽然这是 1806 年的一个基本应用,但演讲者指出,这与统计学家长期以来应用的主成分分析 (PCA) 不同。他指出,涉及均值和方差的协方差矩阵或样本协方差矩阵在此类统计应用中起着巨大的作用。特别地,样本协方差矩阵是从样本中计算出来的,并通过数据点的数量进行归一化,它恰好是一个训练 aa 转置。

  • 00:45:00 在本节中,演讲者介绍了一个问题,该问题涉及为给定数据集找到最佳的年龄与身高比例。目标是最小化给定数据和解决方案之间的距离。演讲者建议答案在于找到指向正确方向的向量,它可以是对称正定矩阵中的主成分。 SVD 方法被提出来解决这个问题。
 

第 8 讲:向量和矩阵的范数



第 8 讲:向量和矩阵的范数

本讲讨论向量和矩阵范数的概念,包括L1范数和最大范数,以及它们在压缩感知和信号处理等领域的应用。本讲座还涵盖范数中三角不等式的重要性、s 范数的形状以及向量和矩阵的 L2 范数之间的联系。此外,讲座探讨了 Frobenius 范数和核范数,这仍然是优化神经网络的猜想,并强调了与学生一起教学和学习的重要性。

  • 00:00:00 在本节中,演讲者讨论了麻省理工学院斯隆学院的一位教员关于人们如何猜测抛硬币结果的有趣观察。他解释说,虽然从理论上讲,最佳策略是始终猜测正面,但人和动物最终有大约四分之一的时间猜反面,尽管正面的几率要高得多。原因没有解释,因为发言者没有足够的时间听取解释。演讲者还简要介绍了范数的概念及其在衡量向量、矩阵、张量和函数大小方面的重要性。

  • 00:05:00 在本节中,讨论了向量和矩阵范数的概念。讲师介绍了压缩感知和信号处理领域不可或缺的不同类型的范数,例如 L1 范数和最大范数。他解释说,P 范数等于 P 次幂到 P 次幂,在这里取 P 次幂和 P 根将产生两个 V 的范数,与 V 的范数相比具有两倍的因数。此外,零引入了范数,其非零分量的数量给出了矩阵和向量稀疏性的度量。但是,它不是范数,因为它违反了相同数量的非零分量具有相同范数的规则,并且讨论了存在适当范数的介于1和无穷大之间的数学论文。

  • 00:10:00 在本节中,讲师讨论向量和矩阵的范数。范数的单位球是一个圆,方程 v1 的平方加上 v2 的平方等于 1。 l1范数的单位球是正象限中v1加v2等于1的直线图的菱形。最大范数的单位球也用点零、+/- 1 和 +/- i 等于最大值绘制,其余边界需要一点思考才能弄清楚。随着数字 p 的变化,范数从菱形开始,在 p 等于 2 时膨胀为圆形,在 p 等于无穷大时变成正方形。最后,不包括 0 范数,只有一个非零的点在轴上。

  • 00:15:00 在本节中,讲师讨论了不同类型的范数,例如 L1 或曼哈顿范数、L2 或欧几里得范数,以及 s 范数(正定对称矩阵的范数)。讲师指出三角不等式在范数中的重要性,它在某些情况下会被打破,例如当使用 p 小于 1 的 Lp 范数时。此外,s-范数被证明具有满足凸性的特定形状,而某些违反范数规则的范数则不具备这种形状。

  • 00:20:00 在本节中,讲师讨论了可应用于向量和矩阵的不同类型的范数。当矩阵 S 为单位矩阵时使用 L2 范数,但使用不同的矩阵 S 会改变范数的形状。典型情况是 S 等于 3,这会创建一个用椭圆表示的加权范数。所有向量范数都是 L2 范数的变体,具有不同的 P 值。讲师还简要提到了基追踪问题和岭回归及其各自的 L1 和 L2 范数。

  • 00:25:00 在本节中,讲师讨论了优化中范数的概念,特别是 L1 和 L2 范数。以L2范数最小然后L1范数最小的直线上的点为例,讲师强调L1范数最小的点是赢家,零点最多,是稀疏向量。这是一个扩展到更高维度并使 L1 范数变得特殊的重要事实。总的来说,讲座深入探讨了规范在优化神经网络和一般生活中的细微差别和应用。

  • 00:30:00 在本节中,演讲者讨论了 L1 范数获胜者,以及如何进一步提高这条线是不可取的,因为它增加了第二部分的非零值。他们还介绍了矩阵的二范数的概念,以及它如何通过放大因子与向量的二范数相关联,放大因子是 AX 的两个范数与 X 的两个范数的最大比率。矩阵范数被定义为所有 X 的最大放大因子。

  • 00:35:00 在本节中,讲师讨论矩阵的范数以及如何找到一个好的矩阵范数。他解释说,两个范数得到的比值的最大值称为 Sigma 1。这个值可以用来确定奇异向量是什么,而无需实际找到所有奇异向量。此外,可以通过最大化该向量范数中的放大因子来获得其他矩阵范数。奇异向量是一种寻找范数的方法,因此,在处理非对称矩阵时,特征向量可能不起作用。

  • 00:40:00 在本节中,讲师讨论矩阵的 Frobenius 范数,用大写 F 表示,等于所有矩阵元素平方和的平方根。该范数与 Sigma 相关,即 SVD 奇异值的平方。此外,讲座探讨了正交矩阵和 Frobenius 范数如何联系在一起,以及核范数如何与深度学习优化算法相关。

  • 00:45:00 在本节中,讲师讨论了在模型情况下,梯度下降优化挑选出使核范数最小的权重的猜想。核范数是矩阵奇异值的总和,类似于向量的 L1 范数。这个猜想仍未得到证实,但这个想法在深度学习和压缩感知中具有潜在的应用。讲师强调他的工作不是给学生打分,而是和他们一起教和学。讲座以第三作业的公布结束,作业将使用第八和第九部分的笔记。
 

第 9 讲。解决最小二乘问题的四种方法



9. 求解最小二乘问题的四种方法

在此视频中,讲师讨论了最小二乘法的概念和各种方法。他强调了最小二乘法的重要性,因为它是线性代数中的一个基本问题,并且是将整个课程结合在一起的粘合剂。该视频涵盖了矩阵的伪逆、可逆和不可逆矩阵的 SVD,以及解决最小二乘问题的不同方法,包括高斯计划和正交列。该视频还讨论了使用 L2 范数平方最小化 ax + b 与实际测量值之间的距离的想法,以及它与线性回归和统计的关系。此外,该视频提供了对使用课程中所学材料的项目的深入了解,重点关注机器学习和深度学习等领域。

  • 00:00:00 在本节中,讲师讨论了最小二乘法的重要性以及它如何成为线性代数中的基本问题。他提到有多种方法可以接近最小二乘法,而这个主题是将整个课程结合在一起的粘合剂。他还提到不会有任何期末考试或测试,相反,他会鼓励使用课程中所学材料的项目。该项目将包括机器学习和深度学习等不同领域,届时他将发布有关项目细节的信息。

  • 00:05:00 在本节中,演讲者解释了矩阵的伪逆的概念。逆,当它存在时,让我们乘以它然后回到原始向量,但对于没有逆的矩阵,我们转向伪逆。这与矩阵为矩形、具有零特征值或具有零空间的情况有关。演讲者用一张行列空间的图片来解释图像的哪些部分是可逆的,哪些是无望的。当矩阵不可逆时,将使用伪逆来解决问题,提供充分的解决方案。

  • 00:10:00 在本节中,演讲者解释了如何在矩阵不可逆的情况下定义矩阵的伪逆。他们讨论了如何处理矩阵的零空间以及伪逆在这种情况下应该做什么。演讲者提供了伪逆在列空间和没有人打它的正交空间应该做什么的计划。使用 SVD,他们提供了一个伪逆公式,涉及将矩阵投影到上半部分的单位矩阵和下半部分的零。

  • 00:15:00 在本节中,视频讨论了可逆矩阵的 SVD(奇异值分解),其中 SVD 将 V 带回 U,反之亦然。如果一个矩阵不可逆,那么它的 SVD 需要用它的伪逆来代替它的矩形 Sigma 矩阵。该视频显示了一个具有两个独立列的矩阵示例,其中 Sigma 只有两个非零值,其余均为零,表示完全奇异的情况。因此,最好的选择是使用 Sigma 的伪逆代替 Sigma 逆。

  • 00:20:00 在本节中,引入了 Sigma plus 的概念,即 Sigma 的伪逆,作为无法逆的矩形矩阵的解决方案。伪逆用于求解最小二乘问题,其中方程 ax 等于 B,但 a 不可逆。当测量值或噪声过多时,就会出现此问题。 Sigma plus矩阵用于得到列空间中的向量,而正交空间中的向量被认为是无解的。解决最小二乘问题的第一种方法是使用 Sigma 加矩阵给出解决方案。

  • 00:25:00 在本节中,演讲者讨论了使用线性方程组将直线拟合到噪声测量的最小二乘问题。他们解释说,如果测量值位于一条直线上,那么线性系统就有一个解,但一般来说,它没有。然后他们介绍了使用 L2 范数平方最小化 ax + b 与实际测量值之间的距离的想法。该技术由高斯提出,用于在表示最接近测量值的直线的方程 Cx + D 中找到 C 和 D 的最佳值。

  • 00:30:00 在本节中,演讲者解释了最小二乘法的概念以及它如何用于解决线性回归和统计中无法解决的问题。按照高斯的建议,通过最小化二次损失函数,生成一个线性方程组,最终给出最佳答案。最好的 X 是通过求解方程 a 转置 a 乘以 X 等于转置 B 找到的,这导致最小值。讲者接着画图解释A的列空间的概念,B为什么不在列空间,以及平方和正规方程如何得出最好的AX。

  • 00:35:00 在本节中,演讲者讨论了解决最小二乘问题的不同方法。方法 2 涉及在 MATLAB 中使用矩阵求解正规方程。但是,如果矩阵几乎具有奇异列,则此方法可能不起作用。方法 3 涉及使用高斯计划,该计划仅在矩阵具有独立列时有效,这意味着矩阵是可逆的。当矩阵不可逆但具有独立列时,也可以使用伪逆方法。整个部分都强调了矩阵可逆性的重要性。

  • 00:40:00 在本节中,演讲者解释当零空间为零时,伪逆方法的答案与转置 a 逆 a 转置 B 方法的答案相同。但是,演讲者注意到转置的零空间不可逆,但转置 a 是可逆的。此外,演讲者解释说,矩阵 aa 转置已尽其所能进行逆运算,但还不够接近。当等级相等时,伪逆被证明是有效的。

  • 00:45:00 在本节中,演讲者讨论了另外两种解决最小二乘问题的方法。第三种方法涉及首先获取正交列,这将使问题更容易。 Gram-Schmidt 过程是一种以自然方式获得正交向量的方法。解决最小二乘问题的第四种也是最后一种方法没有详细讨论,但它涉及利用现实生活中的数据通常是稀疏的事实。演讲者最后指出,最小二乘不是一个新概念,并且有充分的理由继续使用。
 

第 10 讲:Ax = b 的困难调查



第 10 讲:Ax = b 的困难调查

在本次数值线性代数讲座中,讨论了求解 Ax=b 形式的线性方程的困难。当矩阵 A 几乎是奇异的,使其逆过大时,以及当问题太大且无法在可行时间内解决的巨型矩阵时,就会出现这些困难。讲师概述了解决该问题的几种可能性,从简单的正常情况到极其困难的欠定方程情况。讨论了随机线性代数、迭代方法和 SVD 的使用,以及找到适用于测试数据的解决方案的重要性,尤其是深度学习。此外,讲师强调 SVD 仍然是诊断任何矩阵问题的最佳工具。

  • 00:00:00 在本节中,讲师讨论了在尝试求解方程 Ax = B 时可能出现的困难。他指出,问题可能以各种规模和等级出现,并且可能接近奇异或不接近奇异。他概述了解决该问题的几种可能性,从具有合理条件数的方阵的简单正常情况到欠定方程的极其困难的情况。在后一种情况下,讲师指出该问题在深度学习中很常见,并且可能存在多种解决方案。

  • 00:05:00 在本节中,讲师讨论了 Ax = b 的难题以及如何解决这些问题。这些问题通常出现在矩阵的列几乎相互依赖时,这使得接受给定矩阵的列 a1、a2 到 an 成为问题。对此的解决方案是使用 Gram-Schmidt 并通过正交化来固定列,从而在该列空间中找到标准正交列向量。讲师将 Gram-Schmidt 讨论留到下一课,但预示了列旋转的重要性,它允许对列进行重新排序,这个概念也适用于消除法。

  • 00:10:00 在本节中,讲师讨论了求解 Ax=b 形式的线性方程的困难,包括矩阵可能接近奇异的可能性,使其逆矩阵过大。讲师还谈到了逆向问题,这些问题通常是您知道系统输出但必须确定网络结构或输入的问题。这些问题通常会给出几乎奇异的矩阵,如果不添加惩罚项来最小化问题,就很难准确求解系统。还提到了 Leu 和 QR 世界、行交换和 Gram-Schmidt 正交化。

  • 00:15:00 在本节中,我们将了解使用 Ax=b 方法求解线性方程的一些困难。一个这样的困难是当矩阵 A 的条件很差时,导致向量接近零和转置 a 的巨大逆。为了解决这个问题,我们需要对 A 进行惩罚,这使得它的条件更好,但也将问题转移到决定对它进行多少惩罚。另一种方法是迭代方法,如共轭梯度法,我们一步步接近准确答案,直到足够接近为止。当问题太大且无法在可行时间内解决的巨型矩阵时,使用随机线性代数对矩阵的列和行进行采样以从样本中提供答案。

  • 00:20:00 在本节中,讲师讨论了在矩阵合理的情况下使用随机线性代数来确定难题的解决方案。虽然不能保证解决方案是正确的,但使用不等式的概率可以很好地解决问题。迭代方法和随机算法,以及 SVD 的使用,作为寻找解决方案的方法进行了讨论。讲师强调了找到适用于测试数据的解决方案的重要性,尤其是深度学习,并讨论了与此问题相关的深层数学问题。当矩阵接近奇异时,SVD 被解释为潜在的解决方案。

  • 00:25:00 在本节中,教授讨论了一种正则化问题的方法,该问题在存在大逆的情况下找到 ax 减去 B 平方的最小和。通过使用包含正 delta 的附加惩罚项的最小二乘问题,即使这个值变为零或 a 做了疯狂的事情,问题仍然可以解决并且函数保证远离奇异。当 delta 变为零时,结果的行为会发生巨大变化,而这个因素可能取决于系统中的噪声水平。

  • 00:30:00 在视频的这一部分,演讲者正在讨论给定 Delta 的解决方案并分析解决方案何时存在。重点是解决一个一个的问题,这涉及找到惩罚最小二乘问题的最小值。通过将导数设置为零来求解方程式,所得 X 值用于确定 Delta 趋于零时的极限。两种可能性是 Sigma 不为零且解接近 Sigma 的倒数,或者 Sigma 为零且解不存在。

  • 00:35:00 在视频的这一部分,演讲者讨论了惩罚项变为零时惩罚方块方法的行为。演讲者指出,在这种情况下,系统的行为很奇怪,在零和非零极限之间突然出现分叉。这个极限被确定为伪逆,随着 Delta 越来越小,系统的解接近伪逆,这是系统的始终正确的答案。演讲者指出,在实际情况下,这种方法可用于查找系统的未知参数,例如电路中的电阻和电感。

  • 00:40:00 在这一部分,讲师解释了Ax=b问题的解法可以通过加入惩罚项来正则化问题来实现。惩罚项可以通过使用 L1 范数引入,它给出了答案中没有许多小组件的稀疏解。他还讨论了迭代方法在传统线性代数和 Gram-Schmidt 中使用或不使用主元的重要性。但是,他决定在下一节课中介绍这些主题。

  • 00:45:00 在本节中,讲师讨论了 SVD 如何成为证明矩阵事物的有效工具;它将一个混乱的问题简化为关于中间对角矩阵 Sigma 的问题,这就是为什么它在诊断任何矩阵问题时都很有用。此外,讲师还为问题的特殊情况提供了一个公式,其中 Sigma 是对角矩阵,这意味着理解 Sigma 的行为,特别是在每个对角线条目上的行为,对于处理此类情况至关重要。讲师强调,SVD 仍然是最好的工具。最后,讲师强调本讲座是对数值线性代数处理内容的调查,虽然尚未涵盖所有主题,但它们将在其余课程中涵盖。
 

第 11 讲:根据 Ax = b 最小化‖x‖



第 11 讲:根据 Ax = b 最小化‖x‖

在本讲座中,演讲者涵盖了与数值线性代数相关的一系列主题。他们首先讨论求解 Ax=b 时可能出现的问题,然后转向 Gram-Schmidt 过程以寻找空间的正交基,以及修改后的 Gram-Schmidt 方法最小化 ‖x‖ 受制于 Ax = b .演讲者还介绍了更专业的 Gram-Schmidt 算法中的列交换或列旋转的概念,并讨论了对标准 Gram-Schmidt 过程的改进,以对矩阵 A 的列进行正交化。他们还谈到了 Krylov 空间的概念解决问题 Ax=b 以及在 Ax=b 的情况下最小化‖x‖的良好基础的重要性。最后,他们提到他们已经完成了最小化受 Ax=b 约束的 x 的问题,并且正在继续处理处理非常大的矩阵的问题。

  • 00:00:00 在这一部分中,讲师提到了三件事。首先,求解 Ax=b 时可能出现的问题,包括 A 太大而无法放入核心但有其他方法可用的地方。其次,他展示了两页书的粗略初稿,并解释了他为完善和改进它所经历的两年过程。第三,他讨论了最小化不同的范数,例如 L1 或 L2 或最大 L 无穷范数,以解决满足方程约束的条件,提供 L1、L2 和 L 无穷范数之间差异的可视化表示。

  • 00:05:00 在这一节中,演讲者讨论了不同范数空间中不同单位球的获胜点,包括 L1、L2 和 L 无穷大。他展示了如何在每种情况下找到制胜点,或最先接触线的点。然后他介绍了当天的主题 Gram-Schmidt,这是一种通过找到一组不同的向量来使非正交矩阵正交的方法,这些向量跨越相同的空间同时是正交的。他概述了 Gram-Schmidt 的一般事实,并提到这是线性代数课程中教授的标准主题。

  • 00:10:00 在本节中,教授解释了 Gram-Schmidt 过程,该过程打开矩阵的图片以获得 Q1 至 Qn 列正交的正交矩阵。矩阵 R 用于说明 Q 由哪些组合组成,或者倒过来说明 A 与最终 Q 的关系。R 的方程是 Q 转置乘以 A,R 中的项只是 Q 的内积与作为。教授表明,由于正交矩阵 Q,R 没有什么神秘之处。MATLAB 命令将是 A 的 QR 而不是 A 的 Lu。

  • 00:15:00 在本节中,讲座解释了为空间寻找正交基的 Gram-Schmidt 过程。本讲座从非正交基组开始,目的是构建正交基组。该过程从第一个列向量作为第一个基向量开始,然后取第二个向量并将其与第一个向量正交化。下一步是构建与前两个向量正交的第三个向量。这一直持续到整个基组被正交构造。最后,我们将每个向量除以其范数,使每个基向量成为一个单位向量。 Gram-Schmidt 采用非正交基组并生成适用于投影方法的正交集。

  • 00:20:00 在本节中,演讲者讨论了根据 Ax = b 最小化 ‖x‖ 的改进 Gram-Schmidt 方法。他们解释了从向量中减去 Q1 和 Q2 的分量并检查生成的向量是否正交的过程。他们还解决了在消除过程中按顺序排列的危险,并建议使用修改后的 Gram-Schmidt 方法来避免计算错误。

  • 00:25:00 在讲座的这一部分中,演讲者讨论了更专业的 gram-schmidt 算法中的列交换或列旋转的想法。与消除法类似,在 gram-schmidt 中,如果列的新部分太小,则可能会产生无法消除的舍入误差。因此,算法必须检查数据透视表的大小并在必要时交换行。色谱柱交换背后的主要思想是将色谱柱的新部分与所有其他潜在可能性进行比较,以在决定下一步之前找到最大的组分。此过程对于避免可能影响结果准确性的舍入误差至关重要。

  • 00:30:00 在本节中,演讲者解释了标准 Gram-Schmidt 过程的改进,用于对矩阵 A 的列进行正交归一化。改进涉及考虑 A 中的所有剩余列,而不是仅考虑 A 中的下一列,当正交化每个新列。演讲者争辩说,这并不比标准方法做更多的工作,因为无论如何都可以更快地计算出所有需要的减法。改进依赖于选择最大的剩余列,类似于选择高斯消元中的最大枢轴。

  • 00:35:00 这节讲师介绍了克雷洛夫空间的思想来解决大矩阵问题,Ax=b。 Krylov 空间是跨越一个空间的向量的组合,讲师使用这些向量的组合来找到该空间中的最小二乘解 XJ。 Krylov 空间由 A 乘以 J 向量确定,直到 A^k-1B。讲师在这个空间中寻找最优解来解决问题Ax=b。但是,此方法仍有一个问题。

  • 00:40:00 在本节中,演讲者讨论了在 Ax = b 的情况下最小化 ‖x‖ 的良好基础的重要性。基础应该正交以使计算更容易,这就是我们的 nolde 和 Lan 节目的贡献所在。正交基础非常适合投影,演讲者解释了使计算容易的方程式。当 Q 正交时,通过计算给定向量 X 与每个 Q 的点积,然后应用 Q 转置,可以轻松找到系数 C。这允许有效地解决问题。

  • 00:45:00 在讲座的这一部分,演讲者讨论了基的概念以及如何使用 Gram-Schmidt 或 Krylov 向量找到一个好的基。演讲者指出,在这种情况下使用 Gram-Schmidt 方法更可取,还提到了数值线性代数书的第 2.1 节,该节总结了 Krylov、Arnoldi 和 Lanczos 等领域的常用技术。他推荐 Golub 和 van Loan 合着的“数值线性代数”作为一本优秀的教科书,适合那些想深入了解该主题的人。

  • 00:50:00 在视频的这一部分,演讲者提到他们已经完成了根据 Ax=b 最小化 x 的问题,并且正在继续解决处理超大矩阵的问题。
 

第 12 讲。计算特征值和奇异值



12.计算特征值和奇异值

在本视频中,介绍了用于计算特征值和奇异值的 QR 方法。该过程涉及从所需矩阵开始并将其分解为 QR,创建一个上三角矩阵 R,该矩阵将非正交基与正交基连接起来。迭代该过程,直到对角线项变小,此时它们可用于近似特征值。演讲者还讨论了一种用于计算特征向量以加速该过程的移位方法。还强调了使用 MATLAB 处理对称矩阵的好处。该视频还涉及用于解决大型矩阵的特征值问题的 Krylov 向量的概念。

  • 00:00:00 在本节中,教授介绍了用于计算矩阵的特征值和奇异值的QR方法。 QR 方法涉及从一个矩阵开始,其特征值是期望的,并将其分解为 QR。通过将矩阵的列正交化并创建连接非正交基与正交基(上三角矩阵)的矩阵 R,将矩阵的列转换为正交基。接下来,该方法涉及颠倒顺序并再次执行相同的操作以生成下一个矩阵。教授声称变换前后特征值相同,矩阵相似,这对计算矩阵的奇异值很有用。

  • 00:05:00 在本节中,教授解释了使用 QR 分解计算特征值的过程。该过程涉及多次迭代 QR 因式分解,直到所得矩阵的对角线项变得非常小。此时,对角线元素接近于原始矩阵的实际特征值,可以用来逼近它们。这位教授还强调了该方法的快速收敛性,非对角线项会立方并迅速趋近于零,从而使该方法极其准确。

  • 00:10:00 在本节中,视频讨论了计算特征向量算法的改进,其中涉及引入偏移。他们不采用矩阵 A,而是采用矩阵 A - siI,其中 si 是单位矩阵的某个倍数。这会将矩阵 A 的所有特征值移动 si。然后他们使用这个移位矩阵,执行 Gram-Schmidt 过程,并反转顺序以获得尽可能接近 A 的矩阵。最后,他们撤消移位以获得新矩阵 A1。希望 A1 仍然与 A 相似,但计算时间更快。

  • 00:15:00 在本节中,教授讨论了用于计算矩阵特征值的 QR 方法。他演示了一个不完整的示例,其中他使用 QR 方法显示矩阵的下三角部分开始消失,并且特征值开始在对角线上弹出。然后教授讨论了如何利用原始矩阵中的任何零点来提高 QR 方法的效率。如果存在带零的额外对角线,则可以通过跳过 QR 因式分解过程中的某些步骤来加快该方法。

  • 00:20:00 在本节中,演讲者讨论如何计算特征值和奇异值。不可能获得所有特征值,因为不可能使整个下三角部分等于零,这会给我们特征值。这是因为特征值求解一个n次方程,几个世纪以前,已经证明不可能通过简单的步骤求解一个瞬时方程。此外,没有简单的公式可以找到 lambda 或奇异值。然而,通过继续使用 QR 方法并将矩阵简化为具有一个三角形加一个对角线但有很多零的 Hessenberg 形式,我们可以尽可能地接近。 MATLAB 和其他矩阵系统使用 la pack 和 Linpack 来计算这些值。
     
  • 00:25:00 在视频的这一部分,演讲者讨论了使用 MATLAB 的好处,并对对称矩阵的特征进行了深入分析。他解释说,如果一个矩阵是对称的,那么可以安全地预测它在主对角线上方只有一个对角线,使其成为三对角矩阵。这显着减少了进行 QR 计算的时间,因为它只需要处理 2n 个数字而不是 N^2。演讲者还简要介绍了奇异值,指出它们是转置矩阵的特征值,但警告不要使用行列式计算它们,因为它速度慢、病态并导致信息丢失。

  • 00:30:00 在本节中,演讲者讨论了使用正交矩阵简化对称矩阵的概念,使它们成为三对角矩阵,以便轻松找到它们的特征值。然后,演讲者提出了一个问题,即可以对一般矩阵做些什么来简化它,使其奇异值保持不变。演讲者将这道题与SVD联系起来,讨论了奇异值在某些运算下的不变性,比如乘以正交矩阵。哪些其他操作使奇异值不变的问题留给观众考虑。

  • 00:35:00 在本节中,讲师讨论了将正交矩阵 Q 乘以具有奇异值的对角矩阵的效果。结果表明,将 Q 乘以对角矩阵不会改变奇异值,并且这可以使用不同的正交矩阵在等式两边完成。这种增加的灵活性允许矩阵从三对角线减少到双对角线,这使得算法在每个步骤中进展得更快。讲师还讨论了双对角矩阵在简化矩阵乘法方面的用处。

  • 00:40:00 在本节中,演讲者讨论计算特征值和奇异值,特别是阶数高达 1000 的矩阵。 SVD 涉及查看矩阵的转置,这将是三对角矩阵。要找到奇异值,可以进行矩阵的转置,但要找到它的特征值需要它是对称的和三对角的。此方法对达到一定大小的矩阵有效,超过该大小的 Krylov 方法可用于稀疏矩阵。 Krylov 的方法将矩阵限制在一定大小,通常是一百乘一百,然后找到该空间中的特征向量。

  • 00:45:00 在本节中,演讲者解释了一种称为 Krylov 向量的方法,该方法可用于解决大型矩阵的特征值问题。通过将矩阵运算应用于维数小于原始矩阵的 Krylov 向量,可以创建并求解更小的特征值问题。虽然不提供精确的特征值,但 Krylov 向量可以为某些问题提供很好的近似值。演讲者还介绍了对大型矩阵进行随机采样的想法,并提到这将在下一课中进行探讨。
 

第 13 讲:随机矩阵乘法



第 13 讲:随机矩阵乘法

本视频讲座讨论了随机矩阵乘法的概念,它涉及对矩阵 A 的列和矩阵 B 的相应行进行采样,概率加起来为 1。可以计算随机样本的均值以获得正确答案,但仍然会存在方差。讲座继续讨论均值和方差的概念,以及如何选择最小化方差的最佳概率。该过程涉及引入一个名为 Lambda 的未知变量,并对其求导以找到最佳 PJ。然后焦点转移到在查看矩阵中的哪些列更大或更小时如何加权概率的问题。讲师提出了两种可能性:根据范数平方加权概率或混合矩阵的列并使用相等的概率。总的来说,视频详细解释了随机矩阵乘法和优化概率以获得最小方差的过程。

  • 00:00:00 在视频的这一部分,演讲者解释了随机矩阵乘法的概念,这是一个属于随机线性代数的概念。该方法通过对矩阵 A 的列和矩阵 B 的相应行进行采样来用于大型矩阵,但不是全部。相反,不同的片段被随机抽样,概率加起来为 1。通过计算随机样本的均值,可以得到正确答案,但仍然会存在方差。然后的目标是选择最小化方差的最佳概率。讲座继续讨论均值和方差的概念,并通过示例进行练习。

  • 00:05:00 在本节中,演讲者描述了矩阵乘法的随机采样过程。该过程涉及将两列的概率各取一半,将它们相加,然后除以它们的采样次数。然后使用计算两个样本平均值的公式计算随机化矩阵的平均值。使用这两种方法中的任何一种计算方差,其中一种涉及将不同输出值的概率平方相加,而另一种涉及从均值中取平均距离的平方。

  • 00:10:00 在视频的这一部分,演讲者讨论了统计中的均值和方差的概念,以及它们如何与当前计算随机矩阵乘法方差的示例相关联。他解释说,方差是对均值两侧各点之间的平方和的度量,在他的示例中,他将输出与均值之差的平方和相加。然后,他继续计算他的具体示例的方差,其中涉及两种可能的结果和每种结果的概率。

  • 00:15:00 在本节中,演讲者讨论了方差的计算,并介绍了一个新的方差公式,该公式使用概率和与均方的距离。演讲者还提出了线性代数中随机抽样的概念,以及当 B 远大于 A 时调整概率如何有助于降低方差。最佳概率来自 B 除以 A 的大小的平方,演讲者计划将来进一步讨论这个问题。最后,演讲者提到了第二个方差公式,它涉及概率和与输出平方的距离。

  • 00:20:00 在本节中,演讲者讨论了概率中的均值和方差,并演示了减去均值时计算均方的两种方法。然后焦点转移到在查看矩阵中的哪些列更大或更小时如何加权概率的问题。演讲者提出了两种可能性:根据范数平方加权概率或混合矩阵的列并使用相等的概率。演讲者赞成第一种方法,并解释了如何使用与范数平方成比例的概率。

  • 00:25:00 在本节中,讲师解释了如何重新调整概率以使它们加起来为 1。然后他讨论了他的计划,即以特定概率选择行列和列行 J,以及他将如何将它们相乘。他的近似值,即近似 aB,将是 S 个样本上所有这些样本的总和。讲师还提到计划是选择 PJ 以最小化总方差并且均值是正确的。

  • 00:30:00 在本节中,讲师解释了如何在随机矩阵乘法中计算样本的方差。所有样本之和的均值是通过一个样本的均值乘以样本数来计算的,这就引出了计算方差的难点。方差计算将取决于选择的 P1 到 PR 的概率取决于大小。每个样本肯定是错的,因为它是rank one,所以在计算方差的时候,我们肯定不会得到零。样本的方差是 AJ AJ 转置概率平方的总和。从该计算中减去均方以获得完整的方差。

  • 00:35:00 在本节中,演讲者插入 PJ 的值并将分母简化为 JP j bj 范数的 JPG 之和。通过将第一个幂相加得到 C,说话者得到方差的表达式。取s个样本合并后,方差是一个固定的数,就是他们希望变小的C。说话者想通过根据 a 的长度乘以 B 的长度来选择概率权重来表明这是最佳选择。

  • 00:40:00 在本节中,演讲者讨论了优化矩阵 A 的行或列和矩阵 B 的行的概率 P1 到 PR 的最后一步,受制于它们总和为 1 的约束。目标是通过选择最优的 PJs 来最小化方差表达式。演讲者引入了拉格朗日思想,通过引入一个未知数(通常称为 lambda)来将约束构建到函数中,以找到最佳 PJ。本节总结了随机抽样的讨论并引出了最后一个子问题。

  • 00:45:00 在这一节中,讲师讨论了拉格朗日在概率相加条件下优化概率的概念。该过程涉及将方程式构建到函数中,并对未知变量 lambda 求导。将导数设置为零并求解后,您将得到最终的推荐答案,可以通过对 P 求导来验证该答案。讲师还解释说拉格朗日乘数是使方程等于 1 的正确数字。

  • 00:50:00 在本节中,教授解释了在随机系统中选择概率以获得最小方差的过程。他提到当列越大时理想概率越高,因此找到列的长度是随机抽样之前的先决条件。虽然计算方差可能有点困难,但他鼓励学生慢慢浏览笔记并重新审视公式以更好地理解,因为他们将来会更认真地使用概率。
 

第 14 讲 A 及其逆的低秩变化



14. A 及其逆的低秩变化

该视频讨论了低阶矩阵的概念及其在函数矩阵中的重要性,特别是矩阵求逆公式,该公式根据更简单的 1 乘 1 矩阵求出 N 乘 n 矩阵的逆。该公式可用于查找具有低秩扰动的矩阵的逆,并且可以简化查找逆的过程。演讲者通过展示第二个矩阵的公式来展示该公式的工作原理,并展示如何应用相同的逻辑得出答案。该视频还讨论了该公式的实际应用,特别是在最小二乘问题和卡尔曼滤波器中的应用。

  • 00:00:00 在本节中,教授讨论了低阶矩阵的概念及其在函数矩阵中的重要性。重点话题是一个著名的公式,称为矩阵求逆公式,也称为 A 及其逆的低秩变化。该公式根据更简单的 1 乘 1 矩阵使用 UV 转置并将其除以 1 减去 V 乘以 U 的转置来求 N 乘 n 矩阵的逆。该公式可用于求具有低矩阵的逆矩阵秩扰动,可用于简化求逆的过程。教授解释了该公式的工作原理及其实际应用。

  • 00:05:00 在本节中,演讲者讨论了按 1 阶更改矩阵将如何导致按第 1 阶更改其逆矩阵。他提供的公式根据 1 乘 1 的逆运算计算 N 乘 n 的逆运算,这非常有用。然后演讲者演示了如何通过将要求的逆乘以原始矩阵并希望得到单位矩阵来检查公式。演讲者通过展示第二个矩阵的公式来展示该公式的工作原理,并展示如何应用相同的逻辑得出答案。

  • 00:10:00 矩阵 A 及其逆矩阵中低秩变化的公式。该公式涉及取 N×n 矩阵的逆,但可以切换为 K×K 矩阵,这是单位矩阵的较小扰动。通过检查证明该公式是正确的,并且可用于扰乱矩阵 A。还列出了发现该公式的个人的姓名。

  • 00:15:00 在本节中,演讲者正在讨论在取低秩矩阵 A 的逆时发生的变化。他们使用代数运算来表明在取 A 的逆时,某些项可以消除,导致简化的表达。演讲者指出,虽然他们能够通过检查公式是否产生单位矩阵来证明公式,但重要的是首先要考虑公式是如何推导出来的。他们建议使用该公式通过最小二乘法中的新测量或观察来求解线性系统。

  • 00:20:00 在本节中,演讲者解释了在解决最小二乘问题时如何处理新的测量值。对于矩形矩阵 A,向解中再添加一个测量值或数据点会产生一个新矩阵和要求解的右侧。但是,演讲者没有重新计算矩阵乘法 A^TA,而是描述了如何使用新测量扩展矩阵、转置它并使用它来计算更新的解。通过使用已计算的内容,可以更高效地解决最小二乘问题。

  • 00:25:00 在本节中,演讲者讨论了用新数据扰动 A 及其逆,这提供了 A 转置 A 中的秩 1 变化。这个概念适用于最小二乘问题,卡尔曼滤波器是一个例子使用这种方法的递归最小二乘法。卡尔曼滤波器通过跟踪新数据和更新解决方案来引导导弹和卫星,这是该概念在实践中的重要应用。

  • 00:30:00 在视频的这一部分,演讲者解释了如何应用 Sherman-Morrison-Woodbury 公式来计算 A 及其逆的低秩变化。他们提到用于动态最小二乘法的卡尔曼滤波器有两个额外的因素需要考虑——协方差矩阵和状态方程。协方差矩阵处理误差如何相关,状态方程说明卫星(在示例中)应该移动多少。卡尔曼滤波器是递归平方的改进版本,它处理不断变化的测量值,同时保持大部分不变。

  • 00:35:00 在本节中,演讲者讨论了在求解线性系统时使用低秩更新公式。该公式涉及对已解决问题的矩阵进行一阶扰动,并使用原始矩阵的逆来快速解决新问题。这种方法可以显着减少解决新问题所需的时间,尤其适用于传统消元法耗时的大型矩阵。

  • 00:40:00 在本节中,演讲者解释了如何通过结合不同问题的解决方案来求逆矩阵。通过将矩阵 A 分解为 Lu,所有艰苦的工作都在左侧完成,找到不同右侧的解决方案只需要回代即可。通过使用 Sherman-Morrison-Woodbury 公式,可以通过组合解决方案 W 和 Z 来获得答案 X。该公式通过来自 Sherman-Morrison Woodbury 的项更改解决方案 W,分子中的项是以下项的倍数Z乘以X。

  • 00:45:00 在本节中,演讲者讨论了矩阵 A 中的低秩变化如何影响其逆矩阵,并提供了通过切换和反转 K × K 矩阵来反转 N × N 矩阵的公式。该公式涉及减去逆的副本并添加一些其他部分,最终导致原始逆的秩 K 变化。讲者指出此公式有实际应用,并鼓励观众将其记录下来以供日后参考。

  • 00:50:00 在本节中,演讲者讨论了 K 乘 K 矩阵的逆矩阵,并承认在前一小时 50 分钟内涵盖了丰富的公式。本节最后指出,这些说明涵盖了一些应用程序,并将继续解决低等级的其他方面。