机器学习和神经网络 - 页 46

 

CS480/680 第二讲:K近邻


CS480/680 第二讲:K近邻

该视频涵盖了监督学习的基础知识,包括分类和回归之间的区别。它还简要介绍了机器学习并解释了最近邻算法的工作原理。最后,它讨论了如何使用交叉验证评估算法以及欠拟合如何影响机器学习。本讲座讨论如何使用 k 最近邻算法进行回归和分类,以及如何根据距离对邻居进行加权。交叉验证用于优化超参数,整个数据集用于训练模型。

  • 00:00:00 本讲座涵盖监督学习的基础知识,包括归纳和演绎,以及分类和回归之间的主要区别。

  • 00:05:00 在本讲座中,作者讨论了分类和回归之间的区别,并提供了两者的示例。他还简要介绍了机器学习,强调了区分这两种学习类型的重要性。

  • 00:10:00 前两个例子是分类问题,后两个是回归问题。

  • 00:15:00 讲座讨论了不同类型的语音识别,并继续讨论了数字识别。请注意,这通常是一个分类问题,因为没有好的方法来对表示数字单词的离散值进行排序。

  • 00:20:00 在本讲座中,讨论了可以使用 K 最近邻解决的四个问题示例。第一个例子是分类问题,输入是位图图像,输出是数字分类。第二个示例是回归问题,其中输入是一组与房屋相关的特征,输出是美元价值。第三个例子是天气
    预测问题,其中输入是传感器数据和卫星图像,输出是对是否会下雨的预测。第四个例子是这样一个问题,输入是关于一个人的睡眠习惯的问题,输出是一个人是否会睡得很好的预测。

  • 00:25:00 在本次讲座中,教授解释了机器学习的工作原理以及它与纯优化的区别。他接着讨论了如何使用机器学习来解决分类和回归等问题。

  • 00:30:00 该视频讨论了讲座的目标,即找到一个可以很好概括的假设。给出的例子是试图找到一个不属于有限度多项式空间的函数。

  • 00:35:00 演讲者讨论了在数据嘈杂时试图找到一个能准确预测数据的函数的困难。大多数数据都是复杂且无表情的,这一事实使这一困难更加复杂。他建议,在实践中,通常需要在假设空间的表现力和复杂性之间进行折衷。

  • 00:40:00 最近邻分类器根据距离度量将数据空间划分为区域,并返回每个区域中最近点的标签。这使我们能够更清楚地了解最近邻分类器发生了什么。然而,它是不稳定的,并且可能被数据中的噪声所迷惑。

  • 00:45:00 本讲讲师讨论的是K近邻算法,它是近邻算法的简单推广。然后,他展示了该算法如何根据最频繁的类别将数据集划分为多个区域。最后,他演示了增加最近邻居的数量如何影响分区。

  • 00:50:00 该视频讨论了如何使用称为“交叉验证”的标准程序评估机器学习中的算法。该过程将数据集分为训练和测试两部分,并在训练集上进行训练,在测试集上进行测试。该算法的准确度是在测试集上测量的,如果准确度随着邻居数量的增加而降低,则该算法被称为“有偏差”。

  • 00:55:00 该视频讨论了欠拟合现象及其对机器学习的影响。它解释了当算法发现一个假设低于另一个假设的未来准确度时,就会发生欠拟合。这可能是分类器的表现力不够造成的,也就是假设空间的表现力不够。

  • 01:00:00 在此视频中,作者解释了如何从数学上确定过拟合和欠拟合。当算法在数据中找到最高功率 Eh 值时会发生过拟合,而当训练精度与未来精度之间的差异小于最大可能值时会发生欠拟合。对训练集的测试可能会产生误导,因为它不能准确反映过度拟合的程度。

  • 01:05:00 在本次讲座中,教授讨论了如何为机器学习算法选择密钥,并指出遵守最小特权原则很重要。他还指出,通过针对测试集优化超参数可能会违反这一原则,这样测试集就不再可信了。为了防止这种情况,他建议将数据分成三组,并依次对每组进行训练。

  • 01:10:00 在本次讲座中,讲师讨论了“k-最近邻”的概念以及如何为给定问题选择最佳 K。他还讨论了交叉验证的使用,以确保用于训练和验证的数据尽可能具有代表性。

  • 01:15:00 在此视频中,讲师演示了使用四重交叉验证来验证和训练模型。

  • 01:20:00 本讲座讨论使用 K 最近邻 (KNN) 和交叉验证优化超参数所涉及的步骤。使用数据的子集评估超参数,如果最佳 KNN 达到所需的精度,则返回假设。最后,整个数据集用于训练超参数。

  • 01:25:00 本讲讲师讲解如何使用K近邻进行回归和分类。他还讨论了如何根据距离对最近的邻居进行加权。
 

CS480/680 第三讲:线性回归



CS480/680 第三讲:线性回归

关于线性回归的讲座首先介绍了寻找尽可能接近给定点集的最佳直线的问题。讲师解释说,线性函数可以用加权输入的组合来表示。线性回归可以通过优化来解决,目标是通过改变权重向量来最小化欧几里德损失,这可以使用凸优化问题有效地完成。求解线性回归方程的过程涉及找到 W 变量或权重,它将给出目标函数的全局最小值,这可以使用矩阵求逆或迭代方法等技术来完成。还讨论了正则化在防止过度拟合方面的重要性,在目标函数中添加了惩罚项以限制权重的大小并迫使它们尽可能小。讲座最后讨论了解决线性回归中过度拟合问题的重要性。

  • 00:00:00 在本节中,讲师介绍了线性回归,这是一种用于回归的标准机器学习技术,并直观地解释了问题。问题是找到尽可能接近给定点集的最佳线。数据由输入特征 X 和目标输出 T 组成。目标是找到将 X 映射到 T 的假设 H,假设 H 是线性的。线性函数总是可以用输入的加权组合的方式表示,其中权重乘以输入,然后加在一起。

  • 00:05:00 在本节中,演讲者讨论了线性函数的空间以及找到最佳线性函数以最小化损失函数的目标。使用欧几里德损失函数,其中平方距离是通过从目标中减去预测得到的。演讲者解释说,Y 是预测器的输出,它是一个线性函数,T1 是房子的售价,它是 ground truth。房屋估价时会考虑多个特征,例如浴室和卧室的数量,从而产生大小为 25-30 的向量。演讲者还讨论了幻灯片中使用的符号,并提到理论上不一定需要除以二。

  • 00:10:00 在讲座的这一部分,教授讨论了他在整个课程中提到线性回归时将使用的符号。他引入变量 H 表示假设,X 表示数据点,Y 表示所有数据点的输出向量,W 表示权重向量。他还提到使用 X bar 来表示与标量数据点连接的数据点。教授接着解释说,线性回归可以通过优化来解决,目标是通过改变 W 来最小化欧几里得损失。他指出,这个优化问题很容易,因为它是凸的,这意味着有一个最小值,可以可靠地找到全局最优值。

  • 00:15:00 在线性回归讲座的这一部分,演讲者解释了如何使用梯度下降有效地解决凸优化问题,这涉及跟随函数的曲率直到到达最小值。但是,演讲者还指出,非凸目标可能有多个最小值,因此很难可靠地找到全局最优值。线性回归的目标是凸的,因此更有效的解决方案是计算梯度,将其设置为零,并求解满足该方程的单点,这对于确保最小值既必要又充分。

  • 00:20:00 在讲座的这一部分,教授解释了求解线性回归方程以找到 W 变量或权重的过程,它将给出目标函数的全局最小值。通过孤立W,可以将线性方程组重写为W等于B的形式,然后可以将表示输入数据的矩阵A求逆来求解W。但是,还有其他技术,例如高斯消去法,共轭梯度和迭代方法可以更快,更有效。教授还画了一张图来演示找到一条线的概念,该线将通过缩小数据点和线之间的垂直距离来最小化相对于输出或 Y 轴的欧几里德距离。

  • 00:25:00 在本节中,讲师解释了在线性回归中最小化垂直距离以获得单一解决方案背后的直觉。目标函数是凸的,球形函数有一个最小值。然而,通过最小化最小二乘目标得到的解是不稳定的,这会导致过拟合。讲师用两个例子说明了这一点,其中一个用 epsilon 扰动了输入。本讲座还讨论了由于奇点或接近奇点而无法反转矩阵 A 的重要问题。

  • 00:30:00 在讲座的这一部分,讲师给出了线性回归的两个数值示例,它们具有相同的矩阵 A,但目标值不同,B。第一个示例的第一个数据点的目标值恰好为 1,而对于同一数据点,第二个示例的目标值为 1 加 epsilon。尽管 epsilon 是一个非常小的值,但目标值的差异会导致输出发生显着变化。讲师用图形表示来说明问题,强调输入值变化的重要性以及为什么它对线性回归提出挑战。

  • 00:35:00 在本节中,讲师借助两个数据点解释了线性回归。 X 有两个条目,但第二个维度是变化的,第一个条目被忽略。讲师绘制两个数据点,一个 X 为 0,目标为 1 + Epsilon,另一个 X 为 Epsilon,目标为 1。通过这些点绘制的线的斜率从 0 变为 -1,当目标第一个数据点的 f 从 1 增加到 1 + Epsilon,显示由于数据不足和噪声导致的过度拟合。解决方案是不稳定的,即使有更多的数据或更高的维度。

  • 00:40:00 本节介绍线性回归中正则化的概念。正则化添加了一个惩罚项来限制权重的大小,迫使它们尽可能小。这个惩罚项被添加到最小化输出和目标之间的欧几里得距离的原始目标中。正则化的使用从数值和统计的角度来看都是有意义的,这将在下一讲中解释。根据问题的不同,决定惩罚项重要性的超参数 lambda 需要通过交叉验证进行调整。线性回归中的正则化将线性方程组更改为 lambda I + A 乘以 W 等于 B。通过正则化,线性系统的特征值被迫至少为 lambda,这使它们远离 0,从而防止数值不稳定和错误。

  • 00:45:00 本节讲师讨论正则化在线性回归中的应用,防止过拟合。正则化思想包括在目标函数中加入一个惩罚项,并引入一个参数 lambda 来控制分配给惩罚项的权重。讲师从线性代数的角度解释了这种正则化技术是如何工作的。此外,还提供了一个示例来说明正则化如何稳定线性回归中获得的解并防止过度拟合。该示例表明,通过最小化权重并添加惩罚项,可以获得彼此更接近的解。

  • 00:50:00 在本节中,讲师讨论了正则化对于减轻线性回归中的过度拟合问题的重要性。过度拟合是一个常见问题,其中模型在训练数据上表现良好但在测试数据上表现不佳。正则化是解决这个问题的一种方法,本课程还将涵盖其他方法。在下一节课中,将从统计的角度探讨该主题。
 

CS480/680 第 4 讲:统计学习



CS480/680 第 4 讲:统计学习

在这个关于统计学习的讲座中,教授解释了边缘化规则、条件概率、联合概率、贝叶斯规则和贝叶斯学习等各种概念。这些概念涉及使用概率分布并更新它们以减少学习时的不确定性。本讲座强调理解这些概念对于证明和解释各种算法的重要性。该讲座还强调了这些概念的局限性,尤其是在处理大型假设空间时。尽管有这个限制,只要先验是正确的,贝叶斯学习就被认为是最优的,为用户提供有意义的信息。

在本讲座中,讲师解释了近似贝叶斯学习的概念,作为贝叶斯学习易处理性问题的解决方案。最大似然和最大后验概率是统计学习中常用的近似值,但它们有自己的一系列弱点,例如过度拟合和不如贝叶斯学习精确的预测。该讲座还涵盖了由最大化似然法引起的优化问题、不同问题所需的数据量以及接下来几张幻灯片对课程作业的重要性。讲师最后强调该算法将收敛于给定空间内的最佳假设,即使某些比率无法实现。

  • 00:00:00 在这节课中,教授介绍了统计学习的主题,即利用统计学和概率论来捕捉和减少学习时的不确定性。这个想法是使用概率分布来量化不确定性并随着学习的进展更新它们。本讲座还回顾了概率分布和多个随机变量的联合概率分布的概念。最终,统计学习有助于从统计角度解释和证明算法,包括正则化。

  • 00:05:00 在本节中,讲师解释了如何使用边缘化规则从联合分布中提取特定分布。他提供了一个示例,其中给出了天气状况、头痛状况和每一天的概率这三个变量的联合分布。他演示了使用边际分布计算概率,展示了如何找到联合概率或特定天气或头痛情景的概率。通过使用这种方法,他得出了第 28 点的 headache 或 sunny 派对,从而展示了如何从联合分布中提取特定分布。

  • 00:10:00 本节讨论条件概率的概念,用一个变量给定另一个变量的概率来表示。竖线代表分数的参考,分子代表两个变量都为真的世界。使用图形表示来解释这个概念,其中考虑了具有两个变量的人数比例。这个概念用于确定罕见事件的发生,例如因流感而头痛的可能性。

  • 00:15:00 在本节中,演讲者解释了如何使用计数和可视化方法计算条件概率。条件概率的一般方程是两个区域的分数,代表具有特定变量的世界的数量。引入了联合概率和边际概率的概念,并解释了链式法则方程,这使我们能够将联合分布分解为条件概率和边际概率。演讲者还警告了一个常见的错误,即假设头痛时患流感的概率与流感时头痛的概率相同,并解释了为什么这是不正确的。

  • 00:20:00 在本节中,演讲者探讨了基于症状诊断疾病的条件概率。条件概率中参数的顺序很重要,因为左侧是正在估计的内容,右侧是上下文。演讲者以计算在头痛的情况下患流感的概率为例说明了这一点。使用链式法则计算得流感和头痛的联合概率,然后用联合概率除以得头痛的边际概率得到条件概率。另一个例子是头痛、晴天和感冒这三个随机变量。计算晴天时头痛和感冒的条件概率以及晴时头痛和感冒时的逆条件概率。

  • 00:25:00 在讲座的这一部分,讲师解释了在特定情况下多个事件的联合概率的计算,并讨论了为什么在某些情况下概率加起来可能不为一。给出的例子涉及在给定天气是否晴朗的情况下头痛和感冒的概率。然后,教师强调考虑竖条左侧所有结果的重要性,以确定概率总和是否应为 1,并告诫人们不要犯假设改变事件背景会导致结果的常见错误总和为一的概率。

  • 00:30:00 在本节中,讲师解释用于机器学习和推理的贝叶斯规则。贝叶斯规则允许通过交换参数来计算两个条件概率之间的关系。它与捕获初始不确定性的先验分布一起使用,然后是用于修改先验分布以获得后验分布的证据或数据集。该规则还可用于衡量获得某些数据集的可能性,并且可以通过修改量化不确定性的分布来成为学习的有效工具。贝叶斯规则的方程式涉及将先验乘以似然和常数,而不是将其除以证据。

  • 00:35:00 在讲座的这一部分,演讲者从学习的角度解释了证据的性质是归一化常数。它的目的是对分子进行归一化,使结果数字介于 0 和 1 之间。贝叶斯学习的过程给出了后验分布,但在实践中,需要的是用于进行预测的假设。为此,使用假设的加权组合根据相应的后验概率对假设进行加权来进行预测。

  • 00:40:00 在本节中,讨论了使用后验分布为机器学习的不同假设定义权重的概念。举了一个用贝叶斯学习估计一袋糖果的口味比例的例子,先验分布是一开始的猜测,证据对应的是吃掉糖果得到的数据。后验分布用于减少不确定性并了解口味的比例。最初的信念是主观的,可以基于有根据的猜测。

  • 00:45:00 在讲座的这一部分,演讲者讨论了贝叶斯学习来估计一袋糖果中口味的比例。似然分布是基于糖果同分布且独立分布的假设来计算的。使用贝叶斯定理并将先验与似然相乘,得到后验分布,给出每个假设的后验概率。演讲者以图形方式显示了后验分布,并解释了当到目前为止吃掉的所有糖果都是酸橙时,所有酸橙的假设的概率如何占主导地位。

  • 00:50:00 在这部分有关统计学习的视频中,主持人讨论了糖果袋实验的结果,其中从袋子中随机抽取糖果并记录它们的味道。根据观察结果更新关于袋子风味比的假设,并计算概率。据观察,当观察到酸橙时,假设袋子中仅包含樱桃的概率下降到零,而假设 75% 酸橙和 25% 樱桃的概率随着酸橙的增加而增加,但在四颗糖果后下降。演示者还解释说,为每个假设选择的初始概率代表先验信念,选择是主观的,取决于专家的信念。最后,演示者强调了使用后验分布进行预测以便为用户提供有意义的信息的重要性。

  • 00:55:00 在讲座的这一部分,演讲者讨论了贝叶斯学习及其属性。只要先验是正确的并且提供了一种有原则的预测方法,贝叶斯学习就被认为是最优的。此外,它通常不受过度拟合的影响,这是机器学习中的一个重要问题。然而,贝叶斯学习的主要缺点是它通常难以处理,尤其是在处理大型假设空间时。这使得计算后验分布和预测成为问题。

  • 01:00:00 在本节中,引入近似贝叶斯学习的概念作为贝叶斯学习易处理性问题的解决方案。最大后验概率是一种常见的近似,涉及选择后验概率最高的假设并据此进行预测。这种方法可以控制但不能消除过度拟合,并且不如贝叶斯预测准确,因为它依赖于单一假设。最大似然是另一种近似,它涉及选择最适合数据的假设并且不使用先验概率,使其比贝叶斯学习更简单但精度更低。这两种近似都解决了难处理问题,但用优化问题代替了它。

  • 01:05:00 在这部分视频中,讲师解释了最大似然的概念,即最符合数据的假设。然而,这可能包括拟合一切,包括可能导致过度拟合的噪音。虽然最大化似然可以简化计算,但它导致预测不如贝叶斯和 MAP 预测准确。最大化似然产生的优化问题可能仍然很棘手,但是课程中的许多算法从统计角度来看都是最大化似然。最后,导师讨论了不同问题需要多少数据的问题,这个问题属于学习理论领域,对假设空间的大小是主观的。

  • 01:10:00 在本节中,演讲者总结了讲座,但提到他将在下一课中介绍更多幻灯片,这对作业很重要。他还提到,即使某些比率无法实现,算法仍会收敛到最擅长在给定空间内做出预测的假设。
 

CS480/680 第五讲:统计线性回归



CS480/680 第五讲:统计线性回归

在这个关于统计线性回归的讲座中,教授涵盖了许多主题,从最大似然的概念和噪声、损坏数据的高斯似然分布开始。他们解释了如何使用最大似然技术来找到为数据集中所有数据点提供最大概率的权重。然后,本讲座深入探讨了最大后验概率 (MAP)、球面高斯和协方差矩阵的概念。演讲者还讨论了先验信息和正则化的使用。然后将线性回归中的预期误差分解为两项:一项考虑噪声,另一项取决于权重向量 W,后者可进一步分解为偏差和方差。本讲座以关于使用贝叶斯学习计算后验分布的讨论结束。总的来说,讲座涵盖了与统计线性回归相关的广泛主题,并提供了有关优化模型以减少预测误差的宝贵见解。

本讲座的重点是贝叶斯回归,它估计随着观察到更多数据点而收敛于真实权重集的后验分布。先验分布显示为 W 零和 W1 对的分布,并且是线分布。观察数据点后,使用先验分布和似然分布计算后验分布,从而更新对直线位置的置信度。为了进行预测,根据后验分布对假设的预测进行加权组合,从而产生具有由特定公式给出的均值和方差的高斯预测。获得实际点预测的技巧是采用高斯预测的平均值。

  • 00:00:00 在本节中,介绍了线性回归背景下的最大似然和最大对手设想学习的概念。假定数据来自嘈杂和损坏的测量。观察到的输出是基础函数输出的损坏版本,其中添加了一些噪声。假定高斯分布表示噪声。表达似然分布以确定测量数据集中每个输入的特定输出的可能性。这种理解有助于为正则化做出更好的选择。

  • 00:05:00 在讲座的这一部分,教授讨论了线性回归背景下的高斯分布。他们解释说,当假设基础函数是线性和确定性的时,得到的分布是高斯分布,均值等于 W 转置 X,方差等于 Sigma 平方。然后他们画了一张高斯分布图来说明测量值在均值附近的概率更高,曲线的宽度由 Sigma 平方决定。教授指出,这是似然函数,我们可以使用最大似然技术来找到为数据集中所有数据点提供最大概率的 W。

  • 00:10:00 在本节中,讲师解释了如何为统计线性回归选择最佳模型,首先是在给定特定输入 X 和具有方差 Sigma 的噪声水平下优化观察到 Y 的概率。然后,讲师展示了如何通过采用自然对数并删除不相关因素来简化此表达式并将其重新调整为凸目标的推导。结果是原始的最小二乘问题,展示了在线性回归中最小化点与线之间距离的直观方法。

  • 00:15:00 在本节中,演讲者讨论了统计观点以及如何通过假设具有高斯噪声的模型来找到最有可能观察到测量结果的 W。优化问题在数学上是等价的,使这种方法具有更高的可信度。从求和中的每一项中移除 Sigma 在数学上等同于将其从求和中移除,并且它允许假设在选择 W 时每个单独的测量都存在相同的噪声。演讲者还提到,重要的是要有一个噪声模型来找到最佳解决方案,并根据重复实验估计 Sigma 以保持其固定。通过计算后验概率作为先验概率和归一化常数的乘积,找到后验概率最高的 W 来计算后验分布。

  • 00:20:00 在讲座的这一部分,讲师讨论了最大后验概率 (MAP) 的概念及其与最大似然法的区别。 MAP 涉及在计算中包括先验分布以细化假设的分布,从而减少不确定性。讲师解释了如何为权重向量 (W) 定义高斯先验分布以及如何计算多元高斯分布的 PDF。讲师还提供了绘制等高线的示例来说明高斯分布的形状。

  • 00:25:00 在讲座的这一部分,讲师解释了球面高斯的概念及其与协方差矩阵的关系。协方差矩阵的对角线项表示每个权重的方差,而非对角线项表示权重之间的协方差。然后,教师展示如何使用推导找到后验的最大值,假设协方差矩阵的逆矩阵等于 lambda 乘以单位矩阵。这样,表达式就等价于正则化最小二乘问题,惩罚项是 lambda 乘以 W 的平方范数。正则化项现在可以用新的方式解释,明确它来自先验分布并且最小化 W 的范数相当于使权重更接近分布的均值。

  • 00:30:00 在本节中,演讲者讨论了在统计线性回归中使用先验信息来选择协方差矩阵。如果有信息表明解应该接近于零,则将零均值先验与协方差矩阵一起使用,该协方差矩阵由具有一定分布的钟形分布定义。使用此先验时,最大化似然等同于使用惩罚项最小化正则化目标。在高斯分布不是球形而是更一般的形状的情况下,每个维度的半径都不同,这意味着对角线条目中有不同的值。假设协方差矩阵具有对角线形式是合理的,在每个方向上具有相同的宽度,这在实践中往往很有效。

  • 00:35:00 在本节中,演讲者讨论了使用组织项最小化平方损失和最大化后验假设的方法如何导致潜在的不同损失结果。本节分析损失函数并将预期损失分解为两个不同的术语。 lambda 的选择会影响解决方案,从而影响预期损失。然后,演讲者展示了给定 W 如何导致预期损失以及如何将这种损失分解为两个不同项的数学推导。该分析基于样本数据集和底层分布,结果可用于了解给定 W 的预期损失和不同 lambda 的影响。

  • 00:40:00 在讲座的这一部分,演讲者解释了线性回归模型中预期误差的推导。预期误差被分解为两项:一项考虑噪声,另一项取决于权重向量 W。第二项可以进一步扩展以表明它可以分解为偏差平方和方差.偏差衡量模型输出与被近似的真实基础函数之间的平均差异,而方差衡量模型输出围绕其均值的可变性。通过了解偏差和方差对预期误差的影响,数据科学家可以更好地优化他们的模型以减少预测误差。

  • 00:45:00 在讲座的这一部分,教授解释了将预期损失分解为三个项:噪声、方差和偏差平方。这导致了一个图表,其中 x 轴是 lambda,即分配中正则化项的权重。随着 lambda 的增加,误差最初减小然后再次增加。预期损失由噪声加上方差加上偏差的平方组成。该图显示方差加偏差平方曲线是方差和偏差平方的各个曲线的总和。交叉验证用于找到最佳的 lambda 值,它可以控制实现的误差,而预期损失和实际损失之间的差异是在所有情况下都存在的噪声。

  • 00:50:00 在这一节中,讲师给出了一个非线性回归的例子来说明在不同数据集上应用最大后验学习得到的不同曲线如何与偏差和方差相关。讲师解释说,随着 lambda 的减小,偏差减小,方差增大。目标是找到一个 lambda,它可以在偏差和方差之间进行最佳权衡,如曲线所示。讲师还提到误差是根据平方距离来衡量的,而 lambda 是正则化中使用的参数。

  • 00:55:00 在本节中,讲师讨论了最小化平方距离和添加惩罚项的想法,其中 lambda 是惩罚项的权重。不同的 lambda 会影响偏差和方差,从而导致不同的最佳 W 值,并且预期损失可以被认为是 lambda 的函数。贝叶斯学习需要从先验开始并通过机器学习减少不确定性来计算后验分布。后验分布是通过将高斯先验与高斯似然相乘来计算的,得到高斯后验。

  • 01:00:00 在本节中,借助 w 空间中的高斯先验分布来解释贝叶斯回归的概念,它可以表示一条线。先验分布显示为 w 零和 w1 对的分布,并且是线分布。然后,在观察单个数据点之后,通过将先验分布和似然分布相乘来计算后验分布。由此产生的后验分布沿着脊线拉长并且有点圆,因此成为对直线位置的更新信念。

  • 01:05:00 本节,讲师解释了贝叶斯学习如何估计随着观察到更多数据点而收敛到真实权重集的后验分布。红线表示来自相应后验分布的样本,该后验分布是关于定义数据空间中相应线的权重的分布。但是,仍然存在一个问题,即如何根据最终的后验分布进行预测。

  • 01:10:00 在本节中,演讲者解释了如何使用贝叶斯学习进行预测,这涉及对每个假设所做的预测进行加权组合。对新输入进行预测,权重由后验分布确定。说话者使用高斯后验和似然来得出高斯预测,均值和方差由特定公式给出。最后,获得实际点预测的一个常用技巧是采用高斯预测的均值。
 

CS480/680 第 6 讲:调查工具(Paulo Pacheco)



CS480/680 第 6 讲:调查工具(Paulo Pacheco)

在本视频中,Paulo Pacheco 介绍了两种用于调查的学术工具:Google Scholar 和 RefWorks。他解释了如何使用 Google 学术搜索搜索学术论文并按引用对它们进行排序,并建议过滤掉较旧的论文以获取较新的论文。 Pacheco 强调导出和管理引文的重要性,并引入 RefWorks 作为完成此任务的工具。他还提供了访问学术出版物的技巧,包括使用创意关键字搜索和可能需要大学网络访问或 VPN。

  • 00:00:00 在本节中,Paulo Pacheco 介绍了两种用于进行调查的工具:Google Scholar 和图书馆的 RefWorks。他解释了如何使用 Google 学术搜索来搜索学术论文并按引用对它们进行大致排序。他还建议如何过滤掉较旧的论文并关注较新的论文。 Pacheco 强调了导出和管理学术作品引文的重要性,并提到 RefWorks 作为可以协助该过程的工具。

  • 00:05:00 在本节中,演讲者讨论了访问学术出版物的各种工具和技巧,特别是通过谷歌学术搜索和滑铁卢大学图书馆。他解释了如何使用 Google Scholar 查找相关论文并按年份或引用次数对它们进行排序,还指出访问全文可能需要访问大学网络或使用 VPN。此外,他建议使用创造性的关键字搜索,例如“用于 NLP 的超棒数据集”或“用于计算机视觉的超棒链接”,以寻找灵感和优质资源。
 

CS480/680 Lecture 6: Kaggle datasets and competitions



CS480/680 Lecture 6: Kaggle datasets and competitions

The lecture discusses Kaggle, a community for data science practitioners to compete in sponsored competitions using provided datasets for a cash prize, offering kernels for machine learning model training and data feature extraction, and a vast selection of almost 17,000 datasets for use in designing algorithms. The lecturer also notes that company GitHub repositories can provide valuable datasets, codes, and published papers for competitions.

  • 00:00:00 In this section, the lecturer talks about Kaggle, a data science community where data science practitioners can compete in sponsored competitions by private companies where they provide a dataset and a cash prize. Participants can download the data, train machine learning algorithms and submit predictions to the competition to win if their predictions are the best for the data set. Kaggle also provides kernels, snippets of code submitted by different users that are helpful for feature extraction or training a particular type of model on some data. In addition to competitions and kernels, Kaggle provides almost 17,000 datasets that cover any discipline that you can think of. Users can shop around a bit to find a dataset that may meet the assumptions they need for designing an algorithm.

  • 00:05:00 In this section, the speaker discusses some sources from where one can find datasets for various competitions. He mentions Kaggle as a great source of datasets. He also suggests looking into company GitHub repositories where paid codes and published papers are available along with data that can be used to run the code on. This can be a valuable resource for obtaining high-quality datasets.
 

CS480/680 第 6 讲:标准化流程(Priyank Jaini)



CS480/680 第 6 讲:标准化流程(Priyank Jaini)

该视频介绍了深度生成模型中的归一化流,这是一种学习将一种分布转换为另一种分布的函数的技术,目的是将已知分布转换为感兴趣的未知分布。该视频还讨论了与规范化流相关的可能研究项目,包括对与规范化流相关的不同论文和进展进行调查,以及分析将单个高斯分布转换为混合高斯分布。讲师鼓励探索规范化流的许多不同应用。

  • 00:00:00 在本节中,演讲者介绍了深度生成模型中的规范化流程。学习分布是机器学习的一个关键方面,演讲者解释说,规范化流是一种学习将一种分布转换为另一种分布的函数的技术。目标是将已知分布(例如高斯分布)转换为感兴趣的未知分布。在实践中,神经网络用于这种转换,研究重点一直是设计神经网络以获得所需的分布。

  • 00:05:00 在本节中,讲师讨论了与归一化流相关的可能研究项目,这是近年来备受关注的机器学习中的热门话题。一个项目想法是对与规范化流程相关的不同论文和进展进行调查,这可能是可发表的。另一个想法是分析使用某些函数将单个高斯分布转换为混合高斯分布,以及如何将其扩展到其他分布,例如指数分布和学生 T 分布。讲师还强调了捕捉金融资本市场重尾行为的理论开放性问题。总的来说,讲师鼓励探索归一化流的许多不同应用,并欢迎感兴趣的学生联系他们以获取更多关于 t 的知识
 

CS480/680 第六讲:无监督词翻译(Kira Selby)



CS480/680 第六讲:无监督词翻译(Kira Selby)

该视频讨论了无监督的单词翻译,其中涉及训练机器学习模型在没有任何跨语言信息或词典匹配的情况下进行语言互译。 Muse 模型是作为一种方法引入的,它可以在数百种语言上实现最先进的准确性,而无需任何跨语言信息,并且在性能上接近监督模型。无监督的单词翻译过程使用一个矩阵来翻译不同语言单词的嵌入空间,使用 GAN 或生成对抗网络。通过相互训练这两个模型,可以创建一种将两个分布映射到一个空间的方法,从而提供更好的翻译结果。这些模型在单词到单词的翻译中可以达到 82.3% 的准确率。

  • 00:00:00 在本节中,讲师讨论了无监督单词翻译的主题,其中涉及训练机器学习模型在没有任何跨语言信息或词典匹配的情况下进行语言互译。讲师解释了词嵌入的概念,其中词被转化为可以成为模型一部分的向量。讲师介绍了 Muse 模型,它使用一个简单的假设,即线性变换可以连接不同语言的向量空间。 Muse 可以在数百种语言上实现最先进的准确性,而无需任何跨语言信息,并且在性能上接近监督模型。

  • 00:05:00 在本节中,Kira Selby 解释了使用矩阵翻译不同语言单词的嵌入空间的无监督单词翻译过程。该矩阵可以比较从一个语言空间转换到另一个语言空间的一大堆向量。目标是实现重合的语言空间以实现翻译。这个过程使用 GAN 或生成对抗网络,其中生成器是矩阵 u,它接收源空间向量并提供目标空间向量。同时,鉴别器学习判断一组向量是来自真实的法语数据还是模型生成的近似法语数据。通过相互训练这两个模型,可以创建一种将两个分布映射到一个空间的方法,从而提供更好的翻译结果。这些模型在单词到单词的翻译中可以达到 82.3% 的准确率,尽管它尚未收敛于多种语言,例如英语到波斯语、印地语、日语和越南语。
 

CS480/680 第 6 讲:事实检查和强化学习(Vik Goel)



CS480/680 第 6 讲:事实检查和强化学习(Vik Goel)

计算机科学家 Vik Goel 讨论了强化学习在事实核查在线新闻中的应用,并建议使用推荐系统实时插入支持证据。他建议使用大量学术论文作为数据源来训练分类器来预测需要引用的地方。此外,Goel 解释了研究人员如何开始将人类先验编码到强化学习模型中以加速该过程并识别视频游戏中的不同对象。这提出了一个有前途的研究领域,额外的先验可以改善学习过程。

  • 00:00:00 在讲座的这一部分,Vik Goel 讨论了使用强化学习对在线新闻进行事实核查的想法。他解释说,谷歌已经编制了一个事实核查网站的数据集,可用于训练分类模型以确定新闻文章的真实性。然而,由于大多数新闻文章缺乏文本引用,Goel 建议开发一个推荐系统以实时插入支持证据。他建议使用大量学术论文作为数据源,并训练分类器来预测每篇文章中需要引用的地方。推荐系统的应用可以建议应该引用哪些来源,有助于防止错误信息在网上传播。

  • 00:05:00 在本节中,计算机科学家 Vik Goel 解释了强化学习的概念,在强化学习中,代理试图通过最大化环境中的奖励来实现目标。当前的模型需要与环境进行数百万次交互,这使得学习玩视频游戏变得具有挑战性。为了加速这一过程,研究人员已经开始探索将人类先验编码到模型中,让代理人能够理解和识别游戏中的不同对象。这种方法呈现了一个广阔的研究领域,科学家可以在其中添加更多先验以显着改善学习过程。
 

CS480/680 第 6 讲:和积网络 (Pranav Subramani)



CS480/680 第 6 讲:和积网络 (Pranav Subramani)

本讲座讨论了和积网络 (SPN) 的概念,它是由和和积组成的网络,用于产生非指数运行时间的易处理概率建模,并具有许多应用,例如可解释性和简单的边际密度计算。该视频还提到了 SPN 在卷积神经网络方面的出色表现,它在与 GAN 和变水编码器等模型结合时构建更好的生成模型的潜力,以及 SPN 尚未开发的潜在研究领域,包括对抗鲁棒性、强化学习场景和建模预期效用在游戏中。还强调了解释模型的理论保证和学术界在机器学习领域做出重大贡献的机会。

  • 00:00:00 在本节中,演讲者讨论了使用一些乘积网络的易于处理的概率建模,这些网络是由和和乘积组成的网络——因此是“和积”——并且是一种易于处理的概率函数建模方式,其产生方式非指数运行时间。尽管其规模庞大,但和积网络模型在表现力、可解释性、简单的边际密度计算、MAP 查询计算和似然计算方面非常有用,同时在与卷积神经网络的结合中也表现出出色的性能。这些模型已被证明能够比现有技术高出约 10%,并且可以与其他模型(如 Gans 和变水编码器)相结合,以创建更好的生成模型。

  • 00:05:00 在本节中,演讲者讨论了某些产品网络 (SPN) 的潜在研究领域。演讲者首先介绍了一些伦理属性,这些属性允许解释模型和数据集,例如“大赦数据集”。与神经网络不同,该模型提供了一种理论保证,允许人们在某种程度上解释模型在做什么。 SPN 的一些潜在研究领域包括在 SPN 的主要库之上构建功能、对抗鲁棒性、使用某些产品最大网络的强化学习场景,以及对游戏中的预期效用建模。这些研究领域大多尚未开发,为学术界提供了在机器学习领域做出重大贡献的机会。