机器学习和神经网络 - 页 27

 

第 15 讲 矩阵 A(t) 取决于 t,导数 = dA/dt



15. 矩阵 A(t) 取决于 t,导数 = dA/dt

该视频涵盖了与矩阵相关的各种主题,包括矩阵及其逆矩阵的变化,以及特征值和奇异值随时间的变化。演讲者解释了计算这些变化的关键公式,并强调了理解线性代数中微积分的重要性。此外,讲座还讨论了归一化的重要性,并探讨了对称矩阵和秩 1 矩阵中特征值的交错定理。最后,视频最后回顾了所涵盖的主题,并承诺在未来的讲座中对其进行扩展。

  • 00:00:00 在本节中,演讲者讨论了矩阵变化时矩阵、特征值和奇异值的变化。重点是理解逆矩阵的变化公式、逆矩阵的导数以及矩阵变化时特征值和奇异值的变化。演讲者解释说,虽然特征值和奇异值变化的精确公式可能不是
    可能的话,他们仍然可以推导出不等式来了解变化有多大。本讲座还介绍了矩阵 A 的设置,它取决于时间 (T) 和逆 A 的逆。

  • 00:05:00 在本节中,演讲者讨论微积分中的恒等式,以补充上一节关于矩阵逆的讨论。该公式表示逆矩阵的导数等于负一乘以矩阵的逆乘以矩阵的导数和矩阵的逆。演讲者解释了如何求逆矩阵的导数,称其为“逆变化”,并将公式两边除以delta T。最后,演讲者应用微积分让Delta T归零,从而得出一个直观的结论公式的理解。演讲者还表达了他们对微积分在大学数学中的重视程度的看法,称微积分掩盖了线性代数。

  • 00:10:00 在本节中,演讲者解释了矩阵 A 相对于时间 t 的导数公式 dA/dt,因为 delta T 变为零。 Delta a 除以 Delta T 比率有意义,并且当 Delta T 接近零时,等式变为倒数。 1 对 X 的导数在 1 对 1 的情况下只是 1 对 X 的平方,这与 Delta a 为全尺寸但低阶时的公式平行。然后,讲座的重点转移到 lambda 的特征值以及它们在矩阵变化时如何变化,有两种可能性,一种是小变化,另一种是全尺寸变化。讲座以围绕特征值和特征向量的事实结束。

  • 00:15:00 在本节中,解释了依赖于参数的矩阵的特征向量和特征值的概念。对矩阵 A 进行了详细探讨,左侧的特征向量 X 具有与 AX 相同的特征值。相反,对称矩阵 A 的特征向量 Y 以与 A 或 AT 的转置相同的方式使用。强调了归一化的重要性,特别是 Y 转置乘以 X 等于 1。然后,作者继续对公式求导,并讨论如何扭曲方程以适应这种新情况。

  • 00:20:00 在本节中,演讲者解释了如何使用矩阵的导数来求其特征值和特征向量随时间变化的导数。他们使用乘积法则推导出三项随时间的乘积的导数公式。通过重新排列项并应用对角化公式,他们得出了一个简单的特征值导数公式。演讲者指出,虽然这是一种经典技术,但它可能并不总是广为人知或在课程中教授。

  • 00:25:00 在本节中,演讲者讨论了使用矩阵变化率和左右特征向量求特征值导数的公式。他们简化了公式以表明两项相互抵消,剩下的一项是导数的正确答案。他们用 1 的导数为零这一事实来证明这种抵消。演讲者还提到这个公式不涉及特征向量的导数,也可以用来求更高阶的导数。

  • 00:30:00 在本节中,演讲者讨论了对对称矩阵进行秩一更改后特征值的变化。他指出,变化是一个真向量而不是微分,因此没有新特征值的精确公式。不过,他分享了一些已知的事实,比如特征值是降序排列的,秩一变化是半正定的。他还要求听众考虑 uu 转置矩阵的特征向量,并解释说它是一个完整的 n × n 矩阵列乘以一行。他最后说,这个计算得出的数字大于零。

  • 00:35:00 在本节中,演讲者讨论了对称矩阵以及将一阶矩阵添加到其中时会发生什么。他们得出结论,这会导致半正定矩阵,并且新的特征值 (lambda) 大于原始特征值 (gammas)。然而,大小上的差异并不显着,并且有一个称为“交错”的定理可确保特征值不会相互传递。具体来说,lambda 1 大于 gamma 1,但 lambda 2 小于 gamma 1。这是一个很有用的定理,可以保证将正秩矩阵添加到对称矩阵时特征值的顺序。

  • 00:40:00 在本节中,教授讨论了由对称矩阵和秩 1 变化产生的秩 2 矩阵的特征值。他解释说,变化矩阵的秩为 2,表示两个非零特征值,其半正定性质意味着通过将其添加到原始矩阵,特征值会增加。然而,他揭示了一个定理,该定理指出在添加半正定矩阵时特征值不能高于原始特征值。他将此应用于 alpha 值并将它们与 lambda 进行比较,最终得出结论,alpha 2 值无法通过 lambda 1,而 alpha 3 值仍然未知。

  • 00:45:00 在本节中,讲师通过对称矩阵的示例解释特征值的交错。该矩阵的简化版本也有特征值,并且它们与原始矩阵的特征值交错。但是,讲师提出了一个问题,即当秩发生变化时特征值会交错。如果新的特征向量乘以一个大数,那么它可能会将特征值向上移动,这似乎与交错定理相矛盾。讲师将此留作下一讲的问题来回答。

  • 00:50:00 在本节中,讲师讨论了特征值和特征向量,以及为什么特征值 lambda 为 2 加 20 的特定特征向量不会使之前的陈述无效。讲座以对所涵盖主题的回顾和在下一节课中继续讨论的注释结束。
 

第 16 讲。反数值和奇异值的导数



16.反奇异值导数

该视频涵盖了各种主题,包括矩阵的逆值和奇异值的导数、交错和矩阵的核范数。演讲者使用 SVD 给出了奇异值导数的公式,以了解矩阵如何随时间变化,同时为对称矩阵中的特征值变化建立界限。引入 Vial 不等式作为估计矩阵 lambda 值的方法,并在矩阵补全问题中使用基追踪。演讲者还讨论了矩阵的核范数来自一个不完全是范数的范数的想法,并介绍了 Lasso 和压缩感知的概念,将在下一讲中讨论。

  • 00:00:00 在本节中,讲师讨论了各种主题,包括求矩阵逆的导数、特征值的导数和奇异值的导数。导师分享了一个他最近发现的奇异值求导的公式,并提到求逆求导的公式不是简单的对原矩阵求导。他还谈到了实验室作业,就项目征求意见,并提到了 Townsend 教授即将进行的关于应用线性代数的讲座。讲师继续解释如何系统地求方阵的导数,以及为什么通常假设的公式不正确。

  • 00:05:00 在本节中,演讲者讨论奇异值的导数,它类似于特征值的导数。奇异值的导数公式由 da/dt 乘以 a 的奇异向量的转置给出。这个公式依赖于 SVD,它表示 a 乘以 V 等于 Sigma U。通过使用这些事实并操纵方程,可以推导出奇异值导数的公式。该公式有助于理解矩阵如何随时间变化,并可应用于物理和工程等各个领域。

  • 00:10:00 在本节中,演讲者讨论了反数值和奇异值的导数。他们首先根据矩阵的 SVD 解释奇异值的公式,然后求方程的导数。演讲者使用乘积规则并简化生成的方程式以找到能够为他们提供所需答案的项。然后他们证明其他两项将为零,这证明他们选择的项是正确的。最后,他们用点积和一个数来证明 U 对 U 转置的导数等于零。

  • 00:15:00 在本节中,演讲者讨论了对称矩阵的奇异值和特征值的导数。虽然无法计算奇异值或特征值变化的精确公式,但可以通过认识到特征值的正变化不会导致它们减少来建立界限。新旧值的交错表现为第二个特征值不会超过第一个旧特征值,第一个新特征值不会小于第一个旧特征值,这使得这些概念有助于理解 SVD。

  • 00:20:00 在视频的这一部分中,演讲者提出了一个关于炒作第二个特征向量对矩阵特征值的影响的难题。他指出,如果第二个特征值增加一定量(记为 Theta),它最终会超过第一个特征值,这会带来潜在的问题。然而,他随后解释了他的思考过程并表明这实际上不是问题,因为第一个特征值保持不变,而第二个特征值被推高但最终收敛到 lambda 1 和 Theta 的总和。

  • 00:25:00 在本节中,演讲者讨论隔行扫描和 Vial 不等式。 Vial 不等式是一种估计矩阵 lambda 值的方法,它是从大到小排列的特征值。该不等式对任何对称矩阵都适用,并且表明两个对称矩阵之和的最大特征值小于或等于每个矩阵的最大特征值之和。这种交错性质不仅适用于第一阶扰动,也适用于其他阶的扰动。演讲者使用将正矩阵 T 添加到 S 的示例,并解释了这与 Vial 不等式的关系。

  • 00:30:00 在本节中,演讲者讨论了 Vile 的不等式及其与隔行扫描的关系。 Vile 不等式给出了特征值可以增加多少的界限,这一事实对于理解交错现象至关重要。演讲者提到有两种方法可以证明隔行扫描,包括 Vile 不等式和另一种涉及图的方法。该部分还介绍了压缩感知,这将在视频的下一部分进行讨论。

  • 00:35:00 本节引入矩阵核范数的概念,即矩阵的奇异值之和。这可以被认为是向量的 L1 范数。它有一个特殊的属性,类似于 L1 范数,其中最小化带有约束的核范数会导致稀疏解。此属性在矩阵补全问题中很有用,矩阵中缺失的数据需要被填充。最小化核范数的数字是填充缺失数据的好选择。向量的零范数,表示非零的个数,不是范数,但可以移到最近的范数,即L1范数。该范数是向量分量的绝对值之和。在某些条件下最小化此范数称为基础追踪,用于矩阵补全问题。

  • 00:40:00 在本节中,演讲者讨论了矩阵的核范数来自不完全是范数的范数的想法。他解释说,矩阵的秩等同于此范数,但不能成为范数,因为如果矩阵的大小加倍,它就不可扩展。演讲者接着描述了梯度下降的深度学习算法在核范数中找到最小化问题解的猜想,并介绍了下一讲将进一步讨论的Lasso和压缩感知的概念。
 

第 17 讲:快速减小的奇异值



第 17 讲:快速减小的奇异值

本讲座的重点是矩阵及其秩,以及计算数学中奇异值下降的速度有多快。讲师检查了低秩矩阵并演示了它们如何在奇异值序列中有很多零,从而使以低秩形式将矩阵发送给朋友比以满秩形式更有效。他们还引入了矩阵的数值等级,这是通过允许一些摆动空间来定义矩阵奇异值的容差来定义的。通过对可以用多项式很好地近似的平滑函数进行采样,数值秩可以很低,从而导致矩阵 X 的低秩近似。讲座还包括高斯和范德蒙矩阵的示例,以解释它们如何导致低阶矩阵,并讨论了 Zolotarev 数在边界奇异值中的有用性。

  • 00:00:00 在本节中,一位教授解释了为什么低阶矩阵在计算数学领域如此普遍。他讨论了奇异值的重要性,奇异值告诉我们矩阵的秩以及低秩矩阵对其的逼近程度。他接着解释说,如果矩阵 X 具有 K 个非零奇异值,则它可以分解为 K 个一阶矩阵之和。另外,X的列空间和行空间的维数都是K。奇异值序列是矩阵所特有的,重点是识别X的那些使低秩矩阵出现在各种数学问题中的性质。

  • 00:05:00 在本节中,讲师讨论了低秩矩阵以及它们的奇异值序列中如何有很多零。低秩矩阵是一种以低秩形式将矩阵发送给朋友比以满秩形式更有效的矩阵。该讲座使用不同的标志来演示低秩矩阵的概念,极低的秩与行和列的坐标高度对齐。随着秩的增加,对齐变得模糊,并且变得更难看出矩阵是否是低秩的。高阶矩阵以低阶形式发送是低效的。

  • 00:10:00 在本节中,讲师检查三角标志矩阵以了解为什么对角线模式不适合低秩压缩。全1的矩阵在取其逆时有一个类似于吉尔最喜欢的矩阵的性质。通过检查该矩阵的奇异值,讲师表明三角形模式不适用于低秩压缩。然而,圆形大小写和日本国旗图案便于低阶压缩。

  • 00:15:00 在本节中,讲师讨论圆圈的等级,尤其是日本国旗。将旗帜分解为圆形、中间的一阶棋子和正方形,可以通过将每个棋子的等级相加来确定等级。讲师展示了秩一棋子以一为界,然后用对称性来确定方棋子的秩,这取决于圆的半径。通过使用三角函数进行一些计算,讲师得出等级约为 1/2 的结论,从而可以有效地以低等级形式表示日本国旗。然而,计算数学中的大多数矩阵不是有限秩的,而是数值秩的,它类似于秩但允许一些近似。

  • 00:20:00 在本节中,我们将了解矩阵的数值秩,这是通过允许一些摆动空间来定义矩阵奇异值的容差来定义的。如果 K 是 epsilon 以上的第一个奇异值,则数值等级为 K,表示公差,并且等级与 epsilon 以上的最后一个奇异值相同,并且是 epsilon 以下的第一个奇异值。数值低秩矩阵不仅是低秩矩阵,而且是奇异值迅速减小的满秩矩阵。这使我们能够使用低阶近似来压缩矩阵,同时在实践中允许合理的容差水平。希尔伯特矩阵是具有低数值秩的满秩矩阵的示例。

  • 00:25:00 在本节中,讲师讨论矩阵如何具有低数值秩但通常不一定低秩。范德蒙矩阵就是一个典型的例子。该矩阵出现在实数点的多项式插值中,并且通常在数值上排名较低,因此难以求逆。然而,数值低秩并不总是可取的,尤其是在试图求逆时。讲师解释说,之所以有这么多低阶矩阵,是因为世界是光滑的,这意味着矩阵在数值上是低阶的。给出了一个示例,其中对两个变量中的多项式进行了采样,结果表明生成的矩阵在数学上是低秩的,epsilon 等于零。

  • 00:30:00 在本节中,演讲者讨论了如何通过对函数进行采样并用多项式逼近该函数来获得矩阵 X 的低阶近似值。如果可以写出一个包含两个变量的多项式,x 和 y 的次数均为 M,然后对其进行采样,则所得的 x 将具有低阶且 epsilon 等于 0,最多具有 M 平方阶。通过对可以用多项式很好地近似的平滑函数进行采样,数值秩可以很低,从而导致矩阵 X 的低秩近似。但是,这种方法背后的推理不适用于希尔伯特矩阵,它是满秩的。

  • 00:35:00 在本节中,讲师将讨论如何找到限制矩阵秩的适当理由。许多人都试图想出一个可以准确预测矩阵秩的多项式,但这些方法并不令人满意。讲师介绍了西尔维斯特矩阵的概念,即满足称为西尔维斯特方程的特定方程的矩阵。通过找到满足方程的 A、B 和 C,矩阵可以显示为数值低秩。讲师提供了一个使用希尔伯特矩阵的例子,以及左右乘以一半的具体方式来满足西尔维斯特方程。

  • 00:40:00 在本节中,讲座提供了高斯矩阵和范德蒙矩阵的示例,以解释排列和乘法如何导致低阶矩阵。讲座解释说,如果 X 满足学期方程,则可以在满足类似于高斯和范德蒙矩阵的表达式(称为 Frobenius 范数)的任何矩阵的奇异值上找到边界。富勒边界用于证明矩阵中的这种数值低秩,并给出示例来证明满足某些方程与这些低秩矩阵在实践中的出现之间的联系。

  • 00:45:00 在本节中,讲师讨论了奇异值受 Zolotarev 数限制的抽象问题有何用处,因为许多人之前已经研究过这些数。这是有用的关键原因是集合 E 和 F 是分开的,这就是 Zolotarev 数随 k 极快变小的原因。讲师以希尔伯特矩阵为例,说明佐罗塔列夫数如何给数值秩上界,说明为什么计算数学中有这么多低秩矩阵。讲师还提到了围绕着解决 Zolotarev 问题的两个关键人物的非官方诅咒;两人都在 31 岁时去世,这就是为什么 Pencil 的名字旁边有一个问号。
 

第 18 讲:计算 SVD、LU、QR、鞍点中的参数



第 18 讲:计算 SVD、LU、QR、鞍点中的参数

在本讲座中,演讲者回顾了各种矩阵分解,例如 L&U、Q&R 和特征向量矩阵,并计算了每个矩阵中自由参数的数量。他们还讨论了 Qs 与 SVD 的计算,并计算了秩 R 矩阵的 SVD 中的参数数量。讲师还解释了矩阵中鞍点的概念以及如何使用优化技术和拉格朗日乘数找到它们。最后,讲师讨论了对称矩阵特征值的符号以及瑞利商如何帮助确定矩阵的最大值和对应的特征向量。

  • 00:00:00 在本节中,演讲者回顾了矩阵的大分解,例如 L&U、Q&R 和特征向量矩阵,并计算了每个矩阵中自由参数的数量。演讲者指出,L&U或Q&R中的自由参数个数应与原始矩阵中的参数个数一致,特征值和特征向量矩阵的自由参数加起来为N的平方。演讲者指出,此练习在教科书中并不常见,但却是理解线性代数的重要复习。

  • 00:05:00 在本节中,演讲者讨论了不同矩阵分解中自由参数的数量,包括 SVD、LU、QR 和极坐标分解。演讲者指出,由于归一化和正交条件,N×n 正交矩阵 Q 中的自由参数数量对于第一列为 N-1,对于后续列为 N-2。他们还讨论了对称矩阵 S 中自由参数的数量,即 1/2 N 乘以 N 减 1 加上对角线元素的数量。然后,他们继续展示这些计数如何针对不同的因式分解相加,包括 L 乘以 U、Q 乘以 R 和 Q 乘以 S。最后,他们提到极坐标分解是另一种因式分解,它产生正交乘以对称矩阵。

  • 00:10:00 在本节中,讲师讨论了 Qs 与 SVD 的计算,然后统计了 SVD 中的参数。矩形矩阵可以具有的最大秩为 M,这将为 SVD 生成 M×N 矩阵。讲师希望它加起来等于原始矩阵的总和,该矩阵具有 MN 个参数。 S 的计数等于 M,V 的计数等于 N。如果 U 是 M×M 正交矩阵,则 U 的计数等于 1/2 (M^2 + M)。

  • 00:15:00 在本节中,演讲者解释了如何计算秩 R 矩阵的矩阵奇异值分解 (SVD) 中的重要参数。对应于非零奇异值的 V 的 M 列是矩阵的唯一重要部分。为了计算参数的数量,说话者使用一个公式来计算 V 的每个正交列中必要参数的不同数量,直到第 M 列。该公式涉及将每列的 1 加到 NM 上,然后从 M 的平方加 M 加 1 的一半中减去该数字。公式的结果是秩 R 矩阵的 SVD 中参数的最终计数。

  • 00:20:00 在本节中,演讲者讨论秩为 R 的矩阵及其参数的数量。秩为 R 的矩阵不是子空间,因为不同的矩阵可以具有相同的秩,使其更像一个表面,具有不同的部分。演讲者认为秩为 R 的矩阵有 R 个参数。然后他们继续寻找秩 R 矩阵中的参数数量。 Sigma 的参数数量为 R,V 为 (R + 1) / 2,U 为 (M - 1) + (M - 2) + ... + (M - R)。

  • 00:25:00 在这节课中,讲师讨论了矩阵中鞍点的概念,它不同于最大值和最小值。当使用拉格朗日乘数优化受线性约束约束的二次成本函数时,会出现鞍点。讲师介绍了 lambda,并展示了如何在 Lagrangian 中使用它来形成同时依赖于 X 和 lambda 的函数。然后可以优化此函数以找到可能出现的任何鞍点。讲师还提到了鞍点的另一个来源,它出现在非正定或负定矩阵中。

  • 00:30:00 在本节中,演讲者讨论了如何找到函数的鞍点,并展示了它们如何出现在由块矩阵表示的一类重要问题中。该函数有鞍点,而不是最大值。 Lagron 对这个问题的贡献是对 X 和 lambda 求导,分别生成 n 和 m 方程。最终,分块矩阵表示的矩阵表明它不是正定的,这个信息可以用来确定鞍点。

  • 00:35:00 在本节中,讲师讨论矩阵的行列式如何帮助确定其特征值的符号。他用一个简单的例子表明,如果行列式为负,则必须有两个符号的特征值。然后,他将此与优化中使用的 KKT 矩阵联系起来,并认为它们通常是不确定的,但它们有一个与之相关的正定块。他证明,当在这个正定块上使用块消除时,所有 n 个主元都将为正,从而得出 KKT 矩阵具有正特征值和负特征值的结论。

  • 00:40:00 在本节中,讲师讨论鞍点及其与约束的关系。他解释了如何根据主元符号确定对称矩阵特征值的符号。讲师还定义了瑞利商,并回顾了它如何帮助我们确定对称矩阵的最大值和相应的特征向量。本讲座最后解释了我们插入瑞利商的任何值将如何小于最大值。

  • 00:45:00 在本节中,演讲者讨论了瑞利商中鞍点的概念。很难处理最小值和最大值之间的中间 lambda。但是,在最大值和最小值处,商值很容易测量。如果在任何维度上选择任何向量,我们可以计算 X 的 R,它介于最大值和最小值之间。演讲者说,关于鞍点的细节将留到下一讲,但在此之前,将给出第三个实验室,讲授过度拟合、深度学习,并在休息后进行。
 

第 19 讲。鞍点续,最大最小原则



19.鞍点续,最大最小原则

在此视频中,演讲者继续讨论鞍点以及如何在二维空间中使用瑞利商找到最小值和最大值。解释了交错定理,其中涉及将鞍点写为最小值的最大值以快速找到最大值和最小值。演讲者还警告在使用高次多项式拟合数据时不要过度拟合,并讨论了该课程的两个开放式实验,涉及鞍点和一个简单的神经网络。解释了统计中的均值和方差以及样本方差和协方差的概念,演讲者指出完全相关输出的协方差矩阵是不可逆的,对于多人住在一所房子里的投票场景,一些协方差是预期的,但不完全独立。

  • 00:00:00 在本节中,演讲者讨论了理解鞍点对于在深度学习中寻找成本总函数的最小值的重要性。他们提供了瑞利商和简单矩阵 S 的示例来说明鞍点的主要事实、函数的最大值和最小值以及鞍点的存在。演讲者还提到了他们计划讨论实验三、项目和基本统计数据,尤其是协方差矩阵。

  • 00:05:00 在本节中,演讲者讨论了鞍点以及如何通过将所有内容加载到一个变量并计算导数以找到它们等于零的位置来找到最小值和最大值。他们演示了如何找到最小值,并展示了矩阵的特征向量和特征值有助于找到鞍点的位置和值。演讲者还谈到了如何计算二阶导数和对称矩阵。他们强调计算鞍点值的重要性,并建议使用代码并注意过程。

  • 00:10:00 在本节中,演讲者讨论了鞍点的概念以及如何将它们写成最小值的最大值以便快速回到最大值和最小值。他解释说,这导致了交错定理,并给出了一个例子,即在二维子空间上取最小值来找到瑞利商的最小值。通过在所有子空间中取该最小值的最大值,他能够获得 lambda,即鞍点值。

  • 00:15:00 在本节中,演讲者解释了如何使用瑞利商在二维空间中找到最大值和最小值。他通过在所有可能的 2D 空间中取最大值并证明 V 的这个特定选择给出了三的答案来证明最大值是三。演讲者然后解释了对于任何其他子空间的最小值如何低于三,这意味着最小值的最大值也是三。还讨论了鞍点的概念,演讲者指出这些点通常出现在某些区域的最高点,它们可以是最小值的最大值或最大值的最小值。视频最后讨论了项目,并邀请观众提出有关项目的问题。

  • 00:20:00 在本节中,演讲者解释了一个过拟合模型,其中使用 5 次多项式来拟合 6 个点。演讲者指出,5 次多项式可以精确拟合数据点,但它也可能是一个有缺陷的模型,因为它既不平滑也不美观。此示例用作防止过度拟合的警告,过度拟合发生在模型过于复杂且与训练数据过于吻合时。

  • 00:25:00 在本节中,演讲者讨论了用高次多项式拟合数据的问题。虽然拟合直线可能会导致欠拟合,但拟合高次多项式会导致过度拟合,因为它会为所有给定数据点创建完美拟合,而不考虑数据中的噪声。完美拟合的想法与 Vandermonde 矩阵有关,由于完美拟合产生的巨大系数向量,该矩阵具有大的逆。该矩阵具有范围广泛的奇异值,微小的值与普通大小的值一起出现。因此,找到适合数据的正确多项式次数以在欠拟合和过度拟合之间取得平衡可能具有挑战性。

  • 00:30:00 在本节中,演讲者为他的班级描述了两个开放式实验示例,一个涉及鞍点,另一个涉及简单的神经网络。对于鞍点示例,演讲者建议将数据图表提交到等级范围,并得出关于增加 K 的安全性和风险的结论。关于神经网络示例,演讲者概述了一个基本的分类问题并鼓励学生修改他们认为合适的模型,同时仍然使用线性代数。演讲者还提到了即将召开的关于麻省理工学院计算思维课程计划的教师会议,这门课程就是一个例子。最后,演讲者邀请学生将粗略的项目想法和小组偏好通过电子邮件发送给他。

  • 00:35:00 在这一部分中,教授讨论了课堂项目的想法并阐明了其范围。他提到这个项目不会太大,可能相当于三个家庭作业,但也不是微不足道的。他询问学生们对项目的问题和意见,建议包括卷积神经网络等主题的可能性。这位教授还提到,一些学生在媒体实验室发起了一次会议,会议取得了成功。他问春假过后人们是否还会对这样的会议感兴趣。

  • 00:40:00 在本节中,演讲者介绍了统计学中均值和方差的概念,它们与实际产出和预期产出的关系,以及样本均值和预期均值之间的差异。样本均值是根据实验的实际输出计算得出的,而预期均值是根据这些结果的概率计算得出的。还讨论了方差,区分了样本方差和预期方差。演讲者解释说,随着样本数量或可能性的增加,均值和方差的期望值将接近实际值。

  • 00:45:00 在本节中,将讨论样本方差的概念,它衡量与一组 n 个样本的均值的平均平方距离。在统计学中,n减一的除法是指这个距离是根据样本均值计算的,而不是零,当n很大时,n与n减一的差值并不显着。另一方面,协方差是一个更深层次的概念,涉及在执行多个实验时进行矩阵操作,并计算两个独立事件的联合概率。
     
  • 00:50:00 在本节中,演讲者讨论了协方差输出的两个极端:独立输出和完全相关输出。虽然独立输出的协方差为 0,但完全相关的输出具有最大协方差,其中一个输出完全由另一个输出决定。演讲者以翻转粘在一起的硬币为例来解释这个概念。相关输出的协方差矩阵不可逆且对称正定,或者对于粘合在一起的情况是半定的。演讲者提到,在多个人住在一所房子里的投票场景中,预计会有一些协方差,但它不会完全独立。
 

第 20 讲 定义和不等式



20.定义和不等式

在视频的这一部分,演讲者讨论了概率论中的各种概念,包括期望值、方差和协方差矩阵。马尔可夫不等式和切比雪夫不等式也被引入作为估计概率的基本工具。然后演讲者继续解释马尔可夫不等式和切比雪夫不等式之间的关系,说明它们如何导致相同的结果。还介绍了协方差和协方差矩阵的概念,这是概率论中的一个基本工具。该视频还探讨了联合概率和张量的概念,解释了将硬币粘合在一起如何增加依赖性并改变概率。最后,演讲者讨论了协方差矩阵的性质,强调它始终是半正定矩阵,并且是秩为 1 的半正定矩阵的组合。

  • 00:00:00 在本节中,讲师讨论了期望值、方差和协方差矩阵。期望值,用符号“e”表示,被定义为所有可能结果基于其概率的加权平均值。另一方面,方差是均值与每个数据点之间距离平方的期望值。协方差矩阵也可以用类似的方式表示。然后讲师通过写出正方形并以不同方式组合它们来探索方差的第二个表达式,从而产生更有效的方差计算方法。

  • 00:05:00 在本节中,演讲者讨论了简化方程以求出 x 平方的期望值的代数过程。他表明 x 平方的期望值减去 x 的期望值减去 M 平方等于 x 平方的概率之和。演讲者接着介绍了马尔可夫不等式,这是一个涉及概率和期望的统计不等式。他指出马尔可夫是一位伟大的俄罗斯数学家,他们将在本书后面看到马尔可夫链和过程。

  • 00:10:00 在本节中,演讲者解释了马尔可夫不等式,它可以帮助估计 X 大于或等于某个数的概率。该不等式表明 X 大于或等于 a 的概率小于或等于 X 除以 a 的平均值。演讲者举了一个例子,均值为1,a的值为3,说明X大于等于3的概率小于等于1/3。但是,演讲者指出,这种不等式仅适用于非负事件,不能用于输出范围从负无穷大到正无穷大的事件。

  • 00:15:00 在这一段视频中,演讲者谈到用一个特例来论证大于或等于3的概率。他们用均值的定义写出一个具体的方程,然后做出假设关于 X1 到 X5 的值以满足马尔可夫不等式。他们陈述了一个事实,即概率加起来为 1 并且都大于或等于 0。然后说话者继续操纵方程式以表明大于或等于 3 的概率小于或等于 1/ 3 通过从等式中减去某些值。他们的结论是表明方程满足马尔可夫不等式。

  • 00:20:00 在本节中,演讲者讨论了概率中的马尔可夫不等式和切比雪夫不等式。马尔可夫不等式涉及估计变量大于或等于某个值的概率,它仅适用于变量都大于或等于零的情况。另一方面,切比雪夫不等式处理变量偏离均值一定距离的概率,它不对输入做出任何假设。这两个不等式是概率论中估计概率的基本工具。

  • 00:25:00 在本节中,演讲者解释了马尔可夫不等式与切比雪夫不等式之间的关系。他引入了一个新变量 Y,即 X 减去 M 的平方,并解释了如何计算其均值。然后演讲者将马尔可夫不等式应用于 Y 并将切比雪夫不等式应用于 X,展示它们如何导致相同的结果。最后,他介绍了协方差和协方差矩阵的概念。

  • 00:30:00 在本节中,演讲者介绍了协方差和协方差矩阵的概念,协方差矩阵是一个 M 乘 M 矩阵,其中 M 是同时进行的实验数。为了说明这一概念,演讲者使用了掷两枚硬币且每枚硬币有一个输出 (X) 的示例。如果两个硬币独立翻转,则输出之间没有相关性,但如果它们粘在一起,则输出相关,联合概率放入 2x2 矩阵。

  • 00:35:00 在本节中,演讲者讨论了涉及独立硬币的实验设置的联合概率和矩阵的概念。他们探索了三向结构或张量的想法,以防三个独立公平硬币的实验或硬币粘合在一起。张量中的结果条目将是联合概率,可用于计算不同结果的概率。演讲者指出,虽然在一个简单的非胶合实验案例中,条目是八分之一,但将硬币粘在一起会增加依赖性并改变概率。

  • 00:40:00 在视频的这一部分,演讲者讨论了抛三枚硬币的联合概率,以及如何在三向矩阵中表示它。他提到了张量和协方差矩阵的概念,将后者定义为两个实验 X 和 Y 的联合结果的方差,表示为所有可能结果的总和。演讲者还解释了符号 P IJ 以及它与以不同配置将硬币粘合和拆开的关系。

  • 00:45:00 在视频的这一部分,演讲者讨论了两个事件(X 和 Y)的联合概率,以及如何计算不同值对的概率。演讲者提供了如何使用联合概率的示例,包括计算特定年龄和身高的概率。演讲者还定义了边际概率,即每个事件的个体概率,并解释了如何将矩阵中各行或各列的概率相加。然后演讲者继续定义协方差矩阵并解释如何计算其条目。

  • 00:50:00 在本节中,演讲者讨论了协方差矩阵及其性质。他解释说,X 实验的方差来自所有 P IJ 的总和,而 Y 实验的方差由 Sigma Y 平方值给出。 X 和 Y 之间的协方差是 P IJ 乘以 X 与其均值的距离以及 Y 与其均值的距离的总和。在独立硬币的情况下,协方差将为零,而在粘合硬币的情况下,它与 Sigma X 平方 Sigma Y 平方相同。在胶合硬币情况下矩阵的行列式为零,这表明平方协方差与 Sigma X 平方 Sigma Y 平方相同。协方差矩阵始终是半正定的,并且是秩为 1 的半正定的组合,因此它是半正定或正定的。
 

第 21 讲:逐步最小化一个函数



第 21 讲:逐步最小化一个函数

本视频讲座讨论了用于最小化函数及其收敛速度的基本算法,尤其是牛顿法和最速下降法。它还强调了凸性的重要性,凸性保证了函数有一个极小值,并引入了凸集和凸函数的概念。讲师解释了如何测试函数的凸性,这决定了它是否有鞍点或局部最小值,而不是全局最小值。视频最后讨论了 Levenberg Marquardt,它是牛顿方法的廉价版本,不完全是二阶的。

  • 00:00:00 在本节中,讲师讨论了优化的基础知识,这是进入深度学习的基本算法。本讲座首先解释泰勒级数,然后展示当函数包含多个变量时如何扩展泰勒级数。讲师接着介绍了F的梯度,即F对每个X变量的偏导数。最后,对二次项进行了解释,讲座以讨论二阶导数以及它们如何随着更多变量的变化而结束。

  • 00:05:00 这节课介绍了Hessian矩阵的概念,就是一个函数的二阶导数的矩阵。 Hessian 矩阵是对称的,它的计算对于小到中等大的 n 值是可行的。向量函数有一个平行图,即雅可比矩阵,其中的条目是函数相对于不同变量的导数。这些是多变量微积分的事实,用于求解优化问题中的方程。

  • 00:10:00 在本节中,讲师讨论了牛顿求解 n 个未知数方程组的方法,该方法涉及最小化给定函数。牛顿法是求解n个未知数的n个方程的最好方法,可以表示为F等于0,其中F的1等于0,总共有n个方程。讲师展示了如何使用牛顿法求解方程x的平方减9等于0,可以写成一个函数,并一步步演示如何应用该方法。

  • 00:15:00 在本节中,讲师讨论了如何使用牛顿法来最小化函数以及如何确定函数收敛的速度。他们首先简化确定 X sub K + 1 的公式,并证明如果 X sub K 恰好为 3,则 X sub K + 1 也将为 3。然后他们关注误差接近零的速度有多快,并从两者中减去 3边在 X 子 K 上分解出 1。简化方程表明,在步骤 K + 1 的误差在每一步都是平方的,这证明了为什么如果执行得足够近,牛顿的方法是非常棒的。

  • 00:20:00 在本节中,讲师讨论使用牛顿法进行优化,以及它如何适用于具有数千甚至数十万个变量的非常复杂的损失函数。本讲座涵盖两种方法——最速下降法和牛顿法——其中最速下降法涉及沿 F 的梯度方向移动,但可以自由决定步长。另一方面,牛顿法考虑了 F 的二阶导数并允许更快收敛,但也可能收敛到不需要的解或在某些起点处爆炸。这导致了吸引力区域的概念,其中某些起点导致所需的解决方案,而其他起点导致不希望的解决方案或无穷大。

  • 00:25:00 在本节中,讲师讨论了两种逐步最小化函数的方法:最速下降法和牛顿法。两者都涉及在 n 维空间中迭代选择一个方向并沿该方向移动一定距离,但最速下降使用函数的梯度来选择方向,而牛顿法使用 Hessian 或二阶导数。该讲座还解释了精确线搜索的概念以及在这些方法中选择合适的学习率的重要性。

  • 00:30:00 在本节中,讲师讨论了用于最小化函数的基本算法及其收敛速度。讲师解释说,牛顿法具有二次收敛率,如果开始足够接近,它会非常快。相比之下,最速下降算法的收敛速度是线性的,效率较低。讲师强调解决这些问题的出发点应该是凸性,凸性保证函数有一个极小值。讲师定义了凸集和函数,并解释了它们在最小化凸集中点的函数方面的意义。讲座以对 Levenberg Marquardt 的讨论结束,Levenberg Marquardt 是牛顿方法的一种廉价版本,不是完全二阶的。
     
  • 00:35:00 在视频的这一部分,演讲者讨论了如何最小化函数。该函数的约束由凸集定义,这意味着在集内两点之间绘制的任何线都必须位于集内。演讲者给出了两个重叠的三角形的例子,它们组合时不形成凸集。

  • 00:40:00 本节介绍凸集和凸函数的概念。注意两个凸集的交集总是凸的,空集被认为是凸集。视频中的注释强调了在最小化函数时理解这些概念的重要性,因为原型问题涉及寻找具有凸图的函数。该视频还将凸函数的定义与凸集的定义联系起来,指出凸函数的图形类似于碗,而该表面上的点不是凸集。然而,图上的点集是一个凸集。

  • 00:45:00 在讲座的这一部分,演讲者讨论了凸函数的检验。他解释说,可以使用两个凸函数来创建最小值函数和最大值函数,其中一个是凸函数,而另一个不是。最小函数将有一个扭结,因此不会是凸函数,而最大函数将是凸函数。演讲者还提到这个测试最多可以扩展到1500个函数,如果1500个函数都是凸函数,那么它们的最大值也将是凸函数。

  • 00:50:00 在本节中,演讲者解释了如何测试函数的凸性。对于微积分中只有一个变量的函数,可以通过检查二阶导数是正数还是零来证明凸函数。在处理具有多个变量的向量函数时,会在函数中添加一个对称矩阵 F。此处的凸性检验对于 Hessian 矩阵是半正定的,因为二阶导数会产生矩阵。凸问题没有鞍点或局部最小值,只有全局最小值,这使它们成为可取的。
 

第 22 讲 梯度下降:下坡到最小值



22. 梯度下降:下坡到最小值

在视频“梯度下降:下坡到最小值”中,演讲者讨论了梯度下降在优化和深度学习中的重要性,其目标是最小化函数。演讲者介绍了梯度和 Hessian,并说明了使用二次函数进行最速下降的步骤。演讲者还讨论了如何解释梯度和 Hessian,以及它们在测量凸性方面的作用。演讲者深入探讨了选择合适的学习率,强调了条件数在控制收敛速度方面的重要性。该视频还提供了实际示例和公式,以帮助理解梯度下降的概念,包括重球法。

  • 00:00:00 在本节中,演讲者讨论了作为神经网络、深度学习、机器学习和一般优化的核心算法的梯度下降。目标是最小化函数,如果变量太多而无法求二阶导数,则重点放在函数的一阶导数上。演讲者介绍了梯度和 Hessian 的概念,以及凸性的作用,然后深入探讨了具有两个未知数的纯二次函数的关键示例。通过这个例子,演讲者演示了最速下降的步骤,以及它们收敛到答案的速度有多快,即最小点。演讲者还解释了条件数在收敛速度中的重要性,以及如何解释和计算函数的梯度。

  • 00:05:00 在本节中,演讲者解释了如何解释曲面的梯度和 Hessian 矩阵。使用梯度恒定且 Hessian 仅包含零的二阶导数的曲面示例,演讲者说明了如何可视化曲面并根据最陡上升或下降和水平集解释梯度和 Hessian。演讲者强调,二阶导数的 Hessian 矩阵告诉我们表面的形状以及它在不同方向上的变化速度。

  • 00:10:00 在本节中,将介绍 Hessian 的概念,作为衡量函数凸性的工具。函数的 Hessian 告诉我们曲面是否凸,半正定或正定 Hessian 表示凸性。线性函数是凸的但不是严格凸的,而严格凸函数会向上弯曲。给出了一个严格凸函数的例子,即1/2 x转置x,它在梯度为sx平方的一半时具有最小值。

  • 00:15:00 在本节中,演讲者讨论了使用梯度下降法寻找二次函数最小值的概念。在梯度为零的点达到最小值,该点表示为 argh men。演讲者强调,这与函数的实际最小值不同,重点通常在于找到达到最小值的点,而不是最小值本身。在此特定示例中,由于缺少线性项,最小值为零。

  • 00:20:00 在本节中,演讲者讨论了寻找二次函数最小值的基本最小化问题。该函数通过零并在某一点触底,通过插入该点,我们可以确定其最低水平。演讲者提到了一个非凡的凸函数,并指出凸函数才是真正使事情起作用的因素。该函数是矩阵的函数,包含 N 个平方变量。

  • 00:25:00 在本节中,演讲者讨论了通过取矩阵的行列式,然后取其带负号的对数得到的凸函数。结果函数是凸函数,对于给定的矩阵,偏导数作为该矩阵的逆矩阵的项。然后,演讲者深入研究了矩阵行列式对其项的导数,强调了在梯度下降算法中计算这些导数的重要性。

  • 00:30:00 在本节中,演讲者解释了行列式及其基本属性,即行列式在第 1 行中是线性的。他还介绍了行列式的辅助因子展开公式,并将其与梯度为X 逆的条目。演讲者接着介绍了梯度下降并提供了它的公式,其中涉及到步长和s在X处的梯度。唯一留给决策的输入是步长。

  • 00:35:00 在本节中,讲师讨论了在梯度下降中选择合适的学习率的重要性。学习率过大,函数会出现震荡,难以优化。另一方面,如果学习率太小,算法收敛将花费太多时间。选择最佳学习率的一种方法是通过精确的线搜索,但这对于大型问题来说可能很耗时。相反,人们通常会估计一个合适的学习率,并通过回溯线搜索根据需要进行调整。讲师强调了条件数在控制收敛速度方面的重要性,并提出了精确线搜索会使函数减少多少的问题。

  • 00:40:00 在本节中,演讲者讨论了一个示例,以更好地理解梯度下降。在知道确切答案的地方引入了一个特定的函数,允许进行比较。从这个函数表面上的一个点开始,说话者应用梯度下降公式并计算这个特定函数的迭代。演讲者随后展示了一个漂亮的公式,将作为帮助理解梯度下降的最佳示例。

  • 00:45:00 在本节中,演讲者讨论比率 (1-B)/(1+B) 对于确定梯度下降过程中的收敛速度至关重要。如果 B 接近于零,则比率接近于 1,这将导致收敛缓慢;如果 B 接近于 1,则比率将接近于 0,从而导致快速收敛。演讲者使用水平集和椭圆的例子来解释窄谷如何在接近最小值时导致收敛缓慢。演讲者强调了良好条件数对于优化的重要性。

  • 00:50:00 在本节中,演讲者讨论梯度下降如何逼近具有锯齿形轨迹的曲线,最终到达特定点。他强调乘数 1 - B/ (1 + B) 起着关键作用,对于凸函数,这个量对于确定最速下降法的收敛性至关重要。下一课将讨论动量或重球,这涉及到添加一个额外的项,允许运动加速,而不是仅仅在每个点都以最陡峭的下降来引导它。这个想法是让重球的动量接管并滚下,类似于现实生活中的情况。
 

第 23 讲。加速梯度下降(使用动量)



23.加速梯度下降(使用动量)

该视频讨论了加速梯度下降的动量概念。演示者解释了基本的梯度下降公式,并展示了增加动量如何导致比普通方法更快的下降,最终产生显着的改进。他们还讨论了最速下降的连续模型,并解释了如何将其作为具有动量项的二阶微分方程进行分析。演示者强调了在使用动量最小化最大特征值时最小化两个特征值的重要性,方法是选择 s 和 beta 的值以使矩阵的特征值尽可能小。他们还讨论了 Nesterov 的方法,并建议通过倒退两步或三步或更多步来获得进一步的改进。

  • 00:00:00 在本节中,演讲者讨论了基本的梯度下降公式,其中新点是旧点减去步长乘以 XK 处的负梯度,即下降的方向。添加动量以避免梯度下降中的之字形导致比普通方法更快的下降。还有一种加速下降的动量替代方法,由一位名叫内斯托罗夫的俄罗斯数学家开发。对于具有数十万个变量的机器学习问题,使用随机梯度下降,其中随机或系统地选择一小批训练数据,每一步做一批训练样本。

  • 00:05:00 在本节中,演讲者讨论了模型问题的最陡方向下降和水平集,其中 X 和 Y 的平方函数等于常数,形成椭圆。他们解释说,最佳停止点是您与水平集椭圆中最远的点相切并再次开始上升的位置。演讲者引入动量项来改进最速下降公式,并以之字形模式跟踪其下降,显示出特征向量值的改进。演讲者总结说,动量表达式是一个奇迹,并产生了显着的改进。

  • 00:10:00 在视频的这一部分,演讲者讨论了动量在加速梯度下降中的应用。动量中的衰减项告诉你衰减有多快,而有了动量,1减B超过1加B这一项变成1减B的平方根超过1加B的平方根。演讲者以B 是 100 的 1,新的 X 是旧的 X 减去带有额外项的梯度,这给了我们一点记忆。该术语涉及采用具有步长的新量 Z,而不是仅将 Z 作为梯度(这将是最陡下降),说话者添加了前一个 Z 的倍数 beta,这是搜索方向。

  • 00:15:00 在本节中,演讲者讨论了加速梯度下降中的动量概念。演讲者建议不要使用一个点来表示函数,而是使用一个可以更快地沿着成本函数的谷底移动的重球。这是通过在计算中涉及前一步来实现的,从而产生三级方法而不是两级方法。然后,演讲者将其与最速下降的连续模型相关联,并解释了如何将其作为具有动量项的二阶微分方程进行分析。然后,他们展示了如何将其写成两个一阶方程组,这可用于创建更高效、更快速的梯度下降算法。

  • 00:20:00 在本节中,演讲者讨论了如何分析加速梯度下降算法中 k 向前传播时发生的情况。他们解释说,在每一步,都存在一个常数系数问题,因为 XZ 变量会乘以一个矩阵。演讲者还提到,为了跟踪 s 的每个特征向量,他们跟踪每个特征值,这允许他们根据标量而不是向量重写公式。

  • 00:25:00 在本节中,演讲者讨论了如何跟踪一个特征向量并使用它来使整个问题成为标量。通过选择步长和动量系数,他们可以创建一个矩阵,该矩阵可以在每一步乘以特征向量的系数来更新它。通过使 s 和 beta 尽可能小,他们可以确保算法在整个可能的 lambda 范围内最小化损失函数。目标是选择这些值以使过程尽可能高效。

  • 00:30:00 在本节中,演讲者解释了条件数的概念,即对称正定矩阵的最大特征值与最小特征值之比。条件数越高意味着问题越难,条件数越低意味着问题越容易。演讲者解释了如何使用动量加速梯度下降并通过选择 s 和 beta 的值使矩阵的特征值尽可能小来最小化最大特征值。演讲者强调,必须最小化两个特征值,因为一个小的特征值和一个大的特征值可能会致命。

  • 00:35:00 在视频的这一部分,演讲者讨论了根据依赖于 lambda、m 和 capya 的特征值为二乘二矩阵找到最佳参数 s 和 beta 的问题。目标是选择能产生尽可能小的较大特征值的参数,这将导致更快的收敛。演讲者给出了最佳 s 和 beta 的公式,这取决于小 m 和大 M 之间的比率,并解释了如何根据这个公式计算得到的最小特征值。最终,演讲者得出结论,这种 s 和 beta 的最佳选择会导致特征值小于某个数值,从而加快收敛速度。

  • 00:40:00 在本节中,演讲者谈到了使用动量来提高机器学习的收敛速度。他们提到了 Nesterov 的方法,该方法使用了一个稍微不同的想法,涉及先前的时间值并评估不同点的梯度。演讲者指出,现在有一些非常流行的机器学习方法,涉及一个简单的公式来添加以前的值,例如 ADA grad。他们还建议,可以通过返回两步或三步或更多步来获得进一步的改进,就像在 MATLAB 软件和行星计算中使用的向后差分公式中所做的那样。

  • 00:45:00 在本节中,演示者讨论动量项和 Nesterov,其中涉及在 XK 和 XK 负 1 之间的点评估梯度。F 梯度的评估点位于某个非整数点,这是出乎意料和奇怪的,因为它不是网格点。这涉及 XK 加 1、XK 和 XK 减 1,因此它是二阶方法。为了对其进行分析,遵循将其编写为两个一阶步骤的过程以优化 Nesterov 中的系数。这个过程涉及将它写成一个耦合系统,这是一个具有矩阵的一步,找到矩阵,找到矩阵的特征值,并使这些特征值尽可能小。
 

第 24 讲。线性规划和两人博弈



24. 线性规划和两人博弈

这段 YouTube 视频涵盖了线性规划和两人博弈的主题。线性规划是在一组线性约束下优化线性成本函数的过程,用于经济学和工程学等领域。该视频解释了线性规划中使用的算法,包括单纯形法和内点法,以及对偶性的概念,其中原始问题及其对偶问题密切相关,可以使用单纯形法求解。该视频还介绍了如何将线性规划应用于两人游戏,包括寻找网络中最大流量上限的过程以及使用矩阵求解游戏。最后,视频简要讨论了将这些技术应用于三人或多人游戏的局限性,并提到下一课将介绍随机梯度下降。

  • 00:00:00 在本节中,讲师介绍了线性规划作为优化的一部分的主题,并解释了它是什么以及它是如何工作的。他将线性规划定义为在一组线性约束条件下优化线性成本函数的过程。他指出成本向量和约束方程都是线性的。然而,当涉及约束时,问题实际上并不是线性的,因为约束方程会使问题变得更加复杂。尽管如此,线性规划是优化的重要组成部分,经常用于经济学和工程学等领域。

  • 00:05:00 在本节中,演讲者讨论线性规划和双人博弈。他们解释了可行集 X 的概念,这是线性代数语言中的约束集,并绘制了一个可视化来展示这个概念。他们使用最小化具有直接约束和不等式的函数的示例来解释三角形的三个角之一如何成为赢家,这是通过在平面与八分圆相交的点处找到最小值来解决的。成本是线性的,解决方案是三个角之一,或者当这些角出现相等的值时。在给出的示例中,三个零零是获胜角。

  • 00:10:00 在本节中,视频解释了线性规划中使用的两种算法:单纯形法和内点法。单纯形法沿着可行集的边行进到最优角点,而内点法则进入可行集内部求导并最小化。内部法是较新的思想,虽然 Karmarkar 提出的精确算法没有流传下来,但这一思想至今仍在使用和研究。这两种算法仍然处于相互竞争的状态。

  • 00:15:00 在本节中,演讲者讨论了线性规划及其各种类型,例如非线性规划、二次规划、半定规划和内点法。演讲者介绍了对偶性的概念,其中创建了线性规划问题的对偶问题,并将原始问题转化为具有线性成本和线性不等式约束的最大化问题。演讲者随后解释说,原始问题及其对偶问题密切相关,可以使用单纯形法求解。此外,演讲者介绍了对偶性的关键思想,即最大值始终小于或等于任何可行的允许值。最后,演讲者给出了不等式 B 转置 Y 小于或等于 C 转置 X 的单行证明。

  • 00:20:00 在本节中,演讲者讨论 X 大于或等于零在线性规划中的重要性及其在实现弱对偶性方面的作用。 X 大于或等于零这一事实确保了所需的不等式得到满足,并且从系统获得的结果是正确的。演讲者提到了对偶性的概念及其与线性规划和双人博弈的关系,强调了在这两种情况下关注算法的重要性。演讲者还提供了一个最大流等于最小割的示例来演示所讨论的概念。

  • 00:25:00 在本节中,演讲者讨论了在边缘容量受限的情况下最大化流经网络的线性规划和两人博弈问题。他们解释说,目标是最大化汇点的流量,同时确保流量变量不超过边缘容量允许的流量。该问题可以使用整数规划来解决,但可以安全地放宽以允许非整数变量。演讲者提供了如何解决此问题的示例,并讨论了选择合适的边缘容量的重要性。

  • 00:30:00 在本节中,讲师讨论线性规划和双人博弈。具体来说,他探索寻找网络中最大流量的上限,重点关注网络中将与源相关的边与与目标相关的边分开的切割。此示例的最大流为 14,与最小割相匹配。还引入了对偶性的概念以在优化问题时找到上限。

  • 00:35:00 在本节中,演讲者讨论线性规划和双人博弈。大型网络中的最大割问题可以通过线性规划快速解决,尽管最大割可能在数千条边上不可见。几乎总是有平均情况的单纯形法是求解时间的多项式。演讲者还谈到了线性规划中的对偶性,其中任何流都不能超过切割的容量。最后,演讲者谈到了双人博弈和用于根据收益最小化和最大化参与者做出决策的收益矩阵。该游戏是一个零和游戏,意味着 X 支付的所有费用都归 Y。

  • 00:40:00 在本节中,视频讨论了线性规划和双人博弈,其中 X 想做小数,Y 想做大数。这导致了一个带有鞍点的简单游戏,其中 Y 每次都选择第二列,而 X 每次都选择第一行。然而,当示例发生变化并且 Y 瞄准第二列时,X 必须选择混合策略,因为鞍点不存在。 Y 也采用了混合策略,X 最终找出了这种策略,从而引发了在 0 和 1 之间寻找最佳选择的竞争。

  • 00:45:00 在本节中,演讲者讨论了使用线性规划解决两人游戏的过程,并提供了使用矩阵解决游戏的示例。 Y 的最佳策略在第一列为 2/3,在第二列为 1/3。给定此最佳 Y 策略,确定 X 的最佳 q4。演讲者解释说,X 可能还有其他列或行没有进入最佳混合状态。

  • 00:50:00 在本节中,演讲者讨论了线性规划与双人博弈之间的联系。他指出了对偶定理的重要性及其与解决优化问题的关系,以及将这些技术应用于三人或多人游戏的局限性。他还简要叙述了约翰纳什的故事和他对该领域的贡献,包括他的进步和随后的悲惨死亡。最后,演讲者提到下一讲将介绍随机梯度下降。