机器学习和神经网络 - 页 36

 

ChatGPT 是如何训练的



ChatGPT 是如何训练的

ChatGPT 是一种旨在模仿人类对话的机器学习系统。它首先使用依赖于大量非结构化文本数据的生成式预训练方法进行训练,然后使用强化学习进行微调以更好地适应用户的偏好。

  • 00:00:00 ChatGPT 是一种机器学习系统,旨在模仿人类对话。它使用依赖于大量非结构化文本数据的生成式预训练方法进行训练。

  • 00:05:00 ChatGPT 是一个聊天机器人,经过训练可以以类似人类的方式响应用户请求。它通过首先将模型置于一个说明所需行为的手动构建的示例上进行调节,然后使用强化学习将模型调整为用户的偏好。

  • 00:10:00 ChatGPT 是一个聊天机器人,它使用对给定输入的 K 个输出的排名进行训练。奖励模型将为一对中的每个成员分配一个标量分数,表示对数或非标准化对数概率。分数越高,模型被放置在该响应上的可能性就越大。标准交叉熵用于将奖励模型视为二元分类器的损失。一旦经过训练,标量分数就可以用作奖励。与纯监督设置相比,这将启用更多的交互式培训。在强化学习阶段,我们的聊天机器人策略模型将从最终的监督模型中进行微调。当在对话环境中响应人类时,它会发出其标记序列的动作。给定一个特定的状态,即对话历史和相应的动作,奖励模型返回数字奖励。开发人员在这里选择使用近端策略优化或 PPO 作为强化学习算法。我们不会在本视频中详细介绍 PPO,但这一直是不同领域的流行选择。现在,我们在这里优化的学习奖励模型非常接近我们关心的真实目标。但是,它仍然只是代理目标的近似值。
How ChatGPT is Trained
How ChatGPT is Trained
  • 2023.01.24
  • www.youtube.com
This short tutorial explains the training objectives used to develop ChatGPT, the new chatbot language model from OpenAI.Timestamps:0:00 - Non-intro0:24 - Tr...
 

生成人工智能的真正潜力



生成人工智能的真正潜力

通过帮助开发人员进行原型设计、评估和定制,生成式 AI 有可能彻底改变产品的创建方式。然而,该技术仍处于早期阶段,需要进行更多研究以确保其使用合乎道德且安全。

  • 00:00:00 该视频讨论了使用大型语言模型的潜在好处和挑战,并继续解释了 Human Loop 如何帮助您在这些模型之上构建差异化的应用程序。

  • 00:05:00 该视频讨论了生成式 AI 如何帮助开发人员对其应用程序进行原型设计、评估和定制。它指出,开发人员的工作在未来可能会发生变化,因为人工智能技术有助于增强他们的工作流程。

  • 00:10:00 该视频讨论了生成式人工智能的潜力,并讨论了其广泛采用的一些障碍。它指出,尽管该技术具有巨大潜力,但仍处于早期阶段,需要进行更多研究以确保其使用合乎道德且安全。

  • 00:15:00 生成式人工智能的潜力巨大,在不久的将来有许多潜在用途。初创公司应该为新应用程序的寒武纪爆发做好准备,其中一些可能难以预测。

  • 00:20:00 该视频讨论了生成式人工智能的潜力,以及如何使用它来创造新的创新产品。
The REAL potential of generative AI
The REAL potential of generative AI
  • 2023.02.28
  • www.youtube.com
What is a large language model? How can it be used to enhance your business? In this conversation, Ali Rowghani, Managing Director of YC Continuity, talks wi...
 

Vrije Universiteit Amsterdam Machine Learning 2019 - 1 机器学习简介 (MLVU2019)



Vrije Universiteit Amsterdam Machine Learning 2019 - 1 机器学习简介 (MLVU2019)

该视频介绍了机器学习并涵盖了与之相关的各种主题。讲师解释了如何为课程做准备,并解决了人们对机器学习令人生畏的普遍担忧。他介绍了不同类型的机器学习,并将其与传统的基于规则的编程区分开来。该视频还涵盖了监督学习的基础知识,并提供了机器学习如何用于分类和回归问题的示例。还解释了特征空间、损失函数和残差的概念。

视频的第二部分介绍了机器学习,并解释了其寻找模式和创建准确模型以预测数据集结果的主要目标。演讲者讨论了使用特定算法和数据拆分以避免过度拟合和实现泛化的重要性。他还介绍了密度估计的概念及其对复杂数据的困难。演讲者阐明了机器学习与其他领域的区别,并提到了一种分解大数据集以做出准确预测的策略。该视频还提到随着深度学习的发展,从事机器学习工作的人有所增加,并为初学者提供了该领域的入门技巧。

  • 00:00:00 在本节中,演讲者谈论如何准备机器学习课程。他们建议学生应该仔细阅读主要课程材料,并专注于必要的内容。此外,还有一个测验可供学生测试他们的理解并记住教师告诉他们的内容。学生将获得家庭作业,并允许使用带有公式的打印纸在剩余区域用笔写笔记。

  • 00:05:00 在本节中,演讲者解决了人们对机器学习令人恐惧和恐吓的担忧,尤其是对于那些没有计算机科学背景的人。他解释说,该项目的目的是通过提供数据集和资源来探索和试验,帮助个人熟悉机器学习。演讲者强调协作的重要性,并鼓励使用提供的工作表和计算工具来促进学习。

  • 00:10:00 在本节中,演讲者讨论了团队动力和沟通技巧在机器学习领域的重要性。他强调,能够在团队中有效地工作和沟通与技术写作技能同样重要。演讲者还鼓励参与者注册小组会议并与计划中的其他人联系以形成有效的工作关系。他建议参与者使用在线论坛等可用资源与计划中的其他成员联系,并建立富有成效的协作关系。

  • 00:15:00 在本节中,演讲者介绍了不同类型的机器学习,从监督机器学习开始。他们解释说他们将讨论两种类型的监督机器学习——分类和回归——休息后讨论回归。演讲者还提到,他们将简要讨论无监督机器学习,并解释为什么机器学习与常规机器不同。

  • 00:20:00 在本节中,演讲者区分了传统的基于规则的编程(本质上遵循一组预先确定的指令)和机器学习(使用大量数据构建可用于预测模型的过程)根据新数据做出决策。机器学习在决策需要快速、可靠和廉洁的情况下很有用。然而,重要的是要记住机器学习模型并不完美并且可能会意外失败,因此仍然需要人工输入来做出最终决定。临床决策支持是机器学习如何用于为医生提供额外信息以帮助他们做出决策的一个例子。

  • 00:25:00 在本节中,演讲者解释了机器学习中在线或增量学习的概念。他们表示,在线学习在数据源源不断的情况下是有效的,并且模型需要不断更新和预测新信息,这是一项艰巨的任务。因此,他们建议将重点放在应用在线学习上,通过分离和重新制定基础数据,使模型更容易做出预测。此外,演讲者还讨论了 1950 年代和 60 年代的科学家如何使用称为感知器的简单人工大脑来探索大脑的学习方式,例如训练感知器来识别男性和女性之间的差异。

  • 00:30:00 在视频的这一部分,演讲者讨论了机器学习的基础知识并介绍了监督学习的概念,即训练机器根据输入特征将数据分类为特定类别。给出了一个示例,通过测量某些单词的频率等特征将电子邮件分类为垃圾邮件或非垃圾邮件。目标是将这些数据提供给创建模型的学习算法,然后该模型可以准确预测新的、未见过的示例的类别。有许多不同的分类算法可用于此类问题。

  • 00:35:00 在本节中,演讲者给出了两个示例,说明机器学习如何用于分类问题。第一个示例涉及使用图像分类识别亚利桑那州合同中的多位数字。他们使用数字的 28x28 像素图像作为特征,目标是预测图像中的数字。第二个例子涉及使用机器学习来教汽车如何驾驶,他们通过方向盘中的传感器收集数据并将其分解为帧,并使用 960 特征对汽车的方向进行分类。

  • 00:40:00 在本节中,演讲者讨论如何构建算法来解决回归问题。给出的示例是根据乘客数量预测乘坐公共汽车的持续时间。演讲者还提到有一个包含课程完整时间表的页面,这很重要,因为小组之间的时间变化以及偶尔的视觉效果可能会发生变化。最后,演讲者谈到了使用两个特征来预测一个人的身高,这是一个监督学习问题的例子。

  • 00:45:00 在本节中,演讲者介绍了使用轴在特征空间中表示数据的概念,这允许元素及其界面的可视化表示。通过在此空间中画一条线,可以创建一个分类器,将空间划分为两个区域,其中一个区域代表线上方的所有内容,另一个区域代表线下方的所有内容。逻辑奶嘴是使用线条时的最佳选择,每条线条都可以用三个数字来描述,这三个数字在 3D 空间的平面上定义了一个属性。损失函数是一种可交换函数,它允许计算模型出错的示例数量,值越低意味着模型拟合越好。

  • 00:50:00 在本节中,演讲者提供了空间示例以及如何使用它们创建模型。他解释了决策树的概念以及它们如何在大空间中变得复杂。他还演示了如何使用规范和多样化的一些变体使分类过程变得简单而强大。最后,演讲者谈到了多类和多标签分类,以及它们如何在对象不相互排斥的情况下发挥作用。

  • 00:55:00 在本节中,演讲者解释了如何通过基于重要数据创建特征来确定合适的类概率分数和输出空间。为了评估线 theta 和肌肉损失函数,采用残差方法来测量模型预测值与实际输出值之间的距离。通过使用回归绘制残差并计算残差平方和,可以提高预测准确性,因为它根据适当的平方距离将线拉向数据。

  • 01:00:00 在本节中,演讲者讨论了使用特定算法(例如多元线性回归)分析数据和创建模型的重要性。他解释说,由于过度拟合,这些模型并不总是准确的,这就是为什么应该将数据分成不同的块并进行相应分析的原因。演讲者还强调,在创建机器学习算法以确保模型能够使用新数据准确预测结果时,泛化是最重要的方面。

  • 01:05:00 在本节中,视频讨论了机器学习以及它如何涉及从大量数据中学习。机器学习模型是通过将数据放入一组特征和标签来构建的,目的是找到模式并创建一个可以根据这些特征准确预测标签的模型。 k-均值聚类等技术可用于对具有相似特征的数据点进行分组,这有助于构建更准确的模型。此外,重要的是要了解找到最佳模型需要大量试验和错误,并且没有直接的方法可以事先知道什么最有效。

  • 01:10:00 在本节中,演讲者介绍了密度估计的概念以及它如何帮助识别数据的概率分布。密度估计是通过假设一个感兴趣的分布并根据样本数据捕获它来完成的。该模型预测特征中每个点的概率密度,并分配一个数字来表示不同比率的可能性。然而,对于人的图片等复杂数据,由于高维特征,密度估计变得困难,需要另一种方法来提供另一个类似的样本。

  • 01:15:00 在本节中,演讲者提到除了机器学习之外,还有其他领域可能会让人误以为它们涉及机器,例如城市规划或浴室规划。然而,这些领域并不一定需要很多花费或时间。演讲者还提到了一项将在下周进行更深入讨论的策略,该策略涉及将大数据集分解成更小的组,以便做出准确的预测。这种策略常用于语音识别或字符识别等领域。

  • 01:20:00 在本节中,演讲者讨论了机器学习的不同思考方式以及可用于机器学习的现有技术和模型。他还谈到了深度学习如何促进了从事机器学习的人员数量的增加。此外,他还为想要开始机器学习的初学者提供了一些技巧,并提到了可帮助他们完成学习之旅的资源。
1 Introduction to Machine Learning (MLVU2019)
1 Introduction to Machine Learning (MLVU2019)
  • 2019.02.06
  • www.youtube.com
slides: https://mlvu.github.io/lectures/11.Introduction.annotated.pdfcourse materials: https://mlvu.github.ioThe first lecture in the 2019 Machine learning c...
 

2 线性模型1:超平面、随机搜索、梯度下降(MLVU2019)



2 线性模型1:超平面、随机搜索、梯度下降(MLVU2019)

该视频涵盖了线性模型、搜索方法和优化算法的基础知识。对线性模型进行了二维和多维的解释,讨论了通过随机搜索、梯度下降等方法寻找好的模型的过程。解释了机器学习中凸性的重要性,并解决了非凸景观中随机搜索的缺点。该视频还介绍了进化方法和分支搜索作为搜索方法。最后,解释了使用微积分和梯度下降来优化损失函数,包括寻找超平面最速下降方向的过程。

第二部分讨论梯度下降及其在线性模型中的应用,其中算法通过在损失函数的负梯度方向上采取步骤来更新参数。学习率对于确定算法收敛到最小值的速度至关重要,而线性函数使人们无需搜索即可计算出最佳模型。然而,更复杂的模型需要使用梯度下降。该视频还介绍了分类和决策边界,其目标是通过找到一条最佳分离线来将蓝点与红点分开。线性模型的局限性包括它们无法对非线性可分数据集进行分类,但它们的计算成本低廉并且在高维特征空间中运行良好。讲师还预览了将要讨论的未来主题,例如机器学习方法。

  • 00:00:00 在本节中,演讲者解释了机器学习的基本方法,包括抽象问题、选择实例和特征、选择模型类以及搜索好的模型。然后他们引入线性模型作为选定的模型类,并讨论如何用数学语言编写它们。他们谈论搜索方法,包括梯度下降,并强调这些方法并不特定于线性模型,并且会在其他情况下出现。还引入了描述数据集的符号,使用上标来匹配实例和对应的值。最后,整个讲座中使用一个简单的回归数据集作为运行示例。

  • 00:05:00 在本节中,演讲者讨论了线性模型以及如何使用它们将一个空间映射到另一个空间。线性模型使用描述直线的函数来实现这一点。线函数有两个参数W和B,分别代表斜率和偏差。演讲者解释说,数据集中的特征数量可以是任意的,模型必须使用任意数量的特征。对于多个特征,每个实例都使用粗体字母表示法表示为一个向量,并且这些向量中的每一个都映射到一个值。

  • 00:10:00 在本节中,演讲者解释了如何通过为每个特征分配权重并保持单个 B 值,将线性模型从平面扩展到超平面。这个函数可以表示为W和X加上B的点积,是两个等长向量的简单运算。点积也可以表示为两个向量在空间中的长度乘以它们之间夹角的余弦值。演讲者还提到了一个有趣的原则,即通过为模型添加简单的特征,它可以变得更强大。最后,为了找到一个好的模型,使用了一个损失函数,以及一种在所有模型的空间中搜索最小化该损失函数的值的方法。

  • 00:15:00 在本节中,演讲者讨论了线性回归中使用的均方误差损失函数。该函数测量模型预测值与实际值之间的距离,对距离求平方,并对所有残差求和以确定损失。值越低,模型越好。演讲者解释了为什么函数对值进行平方而不是使用绝对值以避免正值和负值抵消。正方形还对离群值进行了额外的惩罚,使它们在损失函数中的权重更大。本节还简要讨论了模型和特征空间,以及在损失景观中搜索低损失值如何导致模型与数据的拟合。

  • 00:20:00 简单模型,随机搜索可用于找到最佳参数值,方法是从一个随机点开始,然后使用循环选择另一个非常接近它的点,计算两个点的损失,如果新点的损失更好,切换到新点。该过程一直持续到达到最佳参数值为止。这类似于徒步旅行者在暴风雪中导航,通过在每个方向上采取小步来确定山坡上升最多的地方,然后朝那个方向迈步直到到达山谷。然而,在机器学习环境中,空间是多维的,不可能一下子看到整个画面,所以这个过程类似于暴风雪中的徒步旅行者,所采取的小步在固定的距离内一个随机的方向,直到达到最优值。

  • 00:25:00 在本节中,视频讨论了机器学习中凸性的概念及其对使用随机搜索作为模型搜索方法的影响。一个凸损失面,或者在数学上绘制成碗状的损失面,只有一个最小值,这使得找到全局最小值成为可能。但是,当损失曲面不是凸面且具有多个局部最小值时,随机搜索可能会卡住并收敛于局部最小值。为了解决这个问题,引入了模拟退火作为一种搜索方法,它允许有一个上坡的概率,允许有可能逃离局部最小值并找到全局最小值。

  • 00:30:00 在本节中,视频讨论了使用黑盒优化方法,例如随机搜索和模拟退火,通过将损失函数视为黑盒来优化连续或离散模型空间,这不需要任何了解模型的内部工作原理。值得注意的是,这些方法也可以并行化以同时运行多个搜索,以增加找到全局最优值的机会。此外,视频还提到这些优化方法通常受到自然现象的启发,例如进化算法、粒子和菌落。

  • 00:35:00 在本节中,演讲者介绍了一种从进化中汲取灵感的进化搜索方法的基本算法。这种方法从模型种群开始,计算它们的损失,对它们进行排序,杀死一半种群,并繁殖另一半以形成新种群。新模型是根据旧模型的属性选择的,并使用变异将一些变化添加到种群中。演讲者还解释了一种分支搜索方法,它是随机搜索的一种变体,其中不是选择一个随机方向,而是选择 K 个随机方向,并选择损失最低的方向。演讲者最后指出了进化方法的灵活性和强大功能,但提醒了他们昂贵的计算成本和参数调整要求。

  • 00:40:00 在本节中,演示者讨论了为给定问题寻找最佳模型的不同搜索方法。随着模型数量的增加,他们会花更多的时间探索局部曲率,从而更直接地走向最优。他们可以花更多时间了解当地社区并在移动前找出最佳方向,而不是采取随机步骤。然后作者介绍了梯度下降,它涉及查看损失函数并通过微积分计算函数下降最快的方向。该方法要求函数可微、平滑连续,不再是黑盒模型。

  • 00:45:00 在本节中,演讲者讨论了与损失函数相关的斜率和切线。损失面不是一个线性函数,但是切线的斜率,代表损失函数的导数,可以给出函数下降的方向和速度的指示。在更高的维度上,切线相当于切线超平面,它也可以告诉我们损失面减小最快的方向。本讲座还涉及将向量解释为空间中的一个点或一个方向,这在处理超平面等线性函数时很有用。

  • 00:50:00 在本节中,演讲者讨论如何将导数推广到多个维度,以及如何找到超平面的最速下降方向。在多个维度上取导数相当于计算梯度,它是一个向量,由关于 X、Y 和 Z 的偏微分导数组成。这三个值一起定义了一个平面的三个参数,三个值一起定义了一个平面超平面。最速下降的方向W可以通过最大化W乘以a的余弦的范数来找到,当X和W之间的距离等于X和W之间的角度或者当X和W相同时,其最大化。因此,最速下降的方向是 W。

  • 00:55:00 在本节中,演讲者解释了一种用于寻找损失函数最小值的简单算法,称为梯度下降。该算法从模型空间中的一个随机点开始,计算该点损失的梯度,将其与一个称为 anta 的小值相乘,然后从模型中减去该值。没有随机性,只有纯粹确定性的步骤。梯度给出了方向和步长。然后演讲者继续使用微积分计算损失景观的梯度,解释求和法则和链式法则,最后得到损失函数关于 W 和 B 的导数的二维向量。

  • 01:00:00 在本节中,演讲者讨论了 Python 中梯度下降的实现,以及它如何允许在向量方向上迈出一步,遵循曲面的曲率,找到最小值并保持在那里。为了证明这一点,他们推出了一个名为 playground.tensorflow.org 的网站,该网站允许用户使用梯度下降来试验简单的线性模型。然而,演讲者还指出梯度下降有一些局限性,例如需要选择学习率和陷入局部最小值的可能性。

  • 01:05:00 在本节中,视频更详细地讨论了梯度下降及其在线性模型中的应用。使用梯度下降,算法通过在损失函数的负梯度方向上采取步骤来更新参数,并且重复这个过程直到达到最小值。学习率决定了每一步的大小,找到一个不太大或不太小的学习率至关重要,因为它会影响算法收敛到最小值的速度。线性函数使人们无需搜索即可计算出最佳模型。然而,更复杂的模型需要使用梯度下降。梯度下降速度快、内存低且准确,但不会逃避局部最小值,并且仅适用于具有平滑损失函数的连续模型空间。最后,该视频介绍了分类和决策边界,其目标是通过找到一条在特征空间中以最佳方式分离蓝点和红点的线。

  • 01:10:00 在本节中,演讲者讨论了为包含六个实例的简单分类数据集寻找分类器的过程。为此,他们搜索可用于评估数据集中潜在线性模型或平面的损失函数,目的是最大限度地减少错误分类的点数以获得良好的评估。然而,他们最初使用的损失函数不适合寻找最优模型,因为它具有扁平结构,使得随机搜索和梯度上升无效。然后演讲者指出,有时损失函数应该不同于评估函数,并提出一个损失函数,该损失函数在所需点附近具有最小值,但处处平滑。

  • 01:15:00 在本节中,讲师通过分配点值并将问题视为回归问题来演示如何将回归中使用的最小二乘原理应用于分类。这种方法在对线性可分点进行聚类时效果很好,但不能保证它会分离出不可线性分的聚类。他们展示了梯度下降算法如何通过在特征空间中采取确定的步骤来最小化损失函数来工作。使用的示例是具有线性可分点的数据集,讲师还强调了线性模型在其表达能力方面的局限性,如具有复杂边界的核心数据集示例所示。

  • 01:20:00 在本节中,讲师讨论了线性模型的局限性以及它们如何无法对非线性可分离数据集(例如具有螺旋模式的数据集)进行分类。然而,线性模型可以在高维特征空间中很好地工作,而且计算成本也很低。讲师解释说,随机梯度下降是一种强大的优化工具,但需要使用平滑损失函数作为离散损失函数的代理。讲师通过预览将要讨论的未来主题来结束,例如机器学习方法。
2 Linear Models 1: Hyperplanes, Random Search, Gradient Descent (MLVU2019)
2 Linear Models 1: Hyperplanes, Random Search, Gradient Descent (MLVU2019)
  • 2019.02.07
  • www.youtube.com
slides: https://mlvu.github.io/lectures/12.LinearModels1.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture, we discuss the linear models: ...
 

3 方法 1:曲线下面积、偏差和方差,没有免费的午餐 (MLVU2019)



3 方法 1:曲线下面积、偏差和方差,没有免费的午餐 (MLVU2019)

该视频介绍了在评估机器学习模型时使用曲线下面积 (AUC) 指标,并介绍了偏差和方差的概念,以及“天下没有免费的午餐”定理。 AUC 指标通过计算 ROC 曲线下的面积来衡量分类模型的性能。此外,还讨论了偏差和方差,因为它们在模型拟合训练数据和推广到新数据方面起着至关重要的作用。此外,“没有免费的午餐”定理强调需要为每个特定问题选择合适的算法,因为没有适用于所有机器学习问题的普遍适用的算法。

该视频涵盖了三个重要的机器学习概念:AUC(曲线下面积)、偏差和方差以及“天下没有免费的午餐”定理。 AUC 是用于评估二元分类模型的指标,而偏差和方差是指模型预测值与数据集中真实值之间的差异。 “没有免费的午餐”定理强调了为给定问题选择合适算法的重要性,因为没有一种算法可以在所有可能的问题和数据集上都表现最佳。

  • 00:20:00 在本节中,演讲者讨论了评估机器学习模型的第一种方法,即曲线下面积 (AUC) 指标。 AUC 通过计算接受者操作特征 (ROC) 曲线下的面积来衡量分类模型的性能。演讲者还介绍了偏差和方差的概念,它们分别衡量模型对训练数据的拟合程度以及它对新数据的泛化程度。最后,演讲者解释了“没有免费的午餐”定理,该定理指出没有适用于所有机器学习问题的通用算法,并强调了为每个特定问题选择合适算法的重要性。

  • 01:10:00 在本节中,演讲者介绍了机器学习方法中的三个关键概念:曲线下面积 (AUC)、偏差和方差以及“天下没有免费的午餐”定理。 AUC 是用于评估二元分类模型性能的指标,表示模型将随机选择的正例排名高于随机选择的负例的概率。偏差是指模型预测的期望值与数据集中真实值之间的差异,而方差是指在不同数据集上训练时模型预测的方差。 “没有免费的午餐”定理指出,没有一种算法可以在所有可能的问题和数据集上表现最佳,强调了为给定问题选择合适算法的重要性。
3 Methodology 1: Area-under-the-curve, bias and variance, no free lunch (MLVU2019)
3 Methodology 1: Area-under-the-curve, bias and variance, no free lunch (MLVU2019)
  • 2019.02.12
  • www.youtube.com
slides: https://mlvu.github.io/lectures/21.Methodology1.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture, we discuss the practicalities t...
 

4 方法 2:数据清理、主成分分析、特征脸 (MLVU2019)



4 方法 2:数据清理、主成分分析、特征脸 (MLVU2019)

视频的第一部分涵盖了应用机器学习算法之前数据预处理和清理的各个重要方面,首先是理解数据偏差和偏斜的重要性。演讲者随后讨论了处理缺失数据、离群值、类不平衡、特征选择和规范化的方法。视频接着讨论了基和 MVN 分布的概念,解释了如何使用白化将数据转换为正态分布以进行归一化,最后使用主成分分析 (PCA) 进行降维。从操纵训练集到使用插补方法,PCA 将数据向下投影到较低维空间,同时保留原始数据中的信息。

视频的第二部分讨论了主成分分析 (PCA) 在机器学习的数据清理和降维中的应用。该方法涉及对数据进行均值居中,计算样本协方差,并使用特征分解对其进行分解以获得与捕获最大方差的轴对齐的特征向量。使用前 K 个主成分可以提供良好的数据重建,从而获得更好的机器学习性能。还引入了 Eigenfaces 的概念,PCA 被证明可以有效地将数据压缩到 30 维,同时保留机器学习所需的大部分信息。讨论了 PCA 的各种应用,包括它在人类学和复杂数据集(如 DNA 和面部)研究中的应用。

  • 00:00:00 在视频的这一部分,演示者讨论了应用机器学习算法之前数据清理和预处理的基础知识。讨论幸存者偏差强调了不按表面价值获取数据的重要性,在这种情况下,只关注幸存的人口可能会导致结果偏斜。然后,演示者讨论了处理缺失数据、离群值、类不平衡、特征选择和规范化等技术。最后,视频的后半部分重点讨论了使用主成分分析算法进行降维。

  • 00:05:00 在本节中,视频介绍了数据清理和处理数据集中缺失数据的实用技巧,包括移除缺失的特征或不重要的实例,并确保移除不会改变数据分布。与其删除缺失值,不如保留它们作为训练数据并测试模型的响应更有用。为了最大化训练数据量,可以使用填充猜测的插补方法来填充缺失数据,例如使用众数或平均值。处理缺失数据的指导原则是考虑真实世界的用例或生产环境,以准备模型以最相关和实用的方式处理预期的缺失数据。

  • 00:10:00 在本节中,演讲者讨论了数据中的两种异常值:机械异常值和自然异常值。机械异常值是由于数据缺失或数据录入错误等错误而产生的,应作为缺失数据进行清理。另一方面,由于某些变量的非正态分布而出现自然异常值,应将其保留在数据集中以确保更好的拟合。演讲者提供了两种异常值的示例,包括人脸数据集中不寻常的人脸特征和收入分布数据集中的极高收入。

  • 00:15:00 在本节中,讨论了检查数据中正态性假设的重要性。例如,线性回归基于这些假设,因此检查正态性并注意假设可能隐藏在模型中而不为人知是很重要的。在建模和验证数据时还应考虑异常值,使用代表生产情况的训练集测试模型非常重要,以确保模型能够适当地处理异常值。此外,还讨论了将数据转换为机器学习算法的分类或数字特征的重要性以及此类转换中涉及的潜在信息丢失。

  • 00:20:00 在本节中,演讲者讨论了为机器学习算法选择正确特征的重要性以及如何从数据中提取有意义的信息。他们解释说,简单地将电话号码等数字解释为数值是没有用的,而是建议寻找分类特征,例如区号或移动与固定电话状态。在机器学习算法只接受数字特征的情况下,演讲者建议使用一种热编码而不是整数编码,以避免对数据强加任意顺序。目标是在不丢失任何基本细节的情况下提取必要的信息,并选择能够准确有效地传达手头任务所需信息的特征。

  • 00:25:00 在本节中,演讲者讨论了扩展特征以使模型更强大的价值。以垃圾邮件分类数据集为例,演讲者解释了两个相互关联的特征如何在不知道另一个特征值的情况下进行解释,这使得线性分类器无法在类别之间划定界限。为了解决这个限制,演讲者讨论了添加一个叉积特征,该特征将现有特征的值相乘,允许在更高的特征空间中绘制分类边界,即使它在原始空间中不是线性可分的。演讲者随后给出了一类具有圆形决策边界的点的示例,以进一步说明扩展特征的重要性。

  • 00:30:00 在本节中,演讲者解释了添加额外功能如何帮助线性分类器解决分类问题。通过将 x 和 y 坐标的平方作为特征添加到决策边界问题中,可以使用线性分类器来区分两类点。演讲者展示了如何使用 TensorFlow Playground 训练分类器,从而生成人眼看来呈圆形的决策边界。还显示了特征的权重,并证明了解决此分类问题只需要一个特征。

  • 00:35:00 在视频的这一部分,演讲者讨论了扩展特征空间如何导致更强大的模型,即使对于回归也是如此。他们通过展示将平方变量添加到线性回归模型如何产生更适合数据的抛物线来说明这一点。演讲者还建议处理类不平衡,建议通过过采样或数据增强等技术来操纵训练集。最后,他们介绍了归一化主题,并提供了一个激励示例,说明单位差异如何影响 K 最近邻分类模型的性能。

  • 00:40:00 在视频的这一部分,演讲者讨论了规范化数据对机器学习算法的重要性。他们解释了标准化数据的三种方法:标准化、标准化和白化。归一化涉及将数据范围压缩到零和一之间,而标准化涉及确保数据的均值为零且方差为一。第三种方法,白化,是一种稍微好一点的归一化,它考虑了数据中的所有相关性并将其简化为特征空间中的球体。演讲者解释说,白化对于降维很有用。

  • 00:45:00 在本节中,演讲者解释了白化数据的概念,它涉及将数据转换为不相关的特征集。演讲者使用线性代数来演示如何通过为新的轴系统选择另外两个向量来为数据选择不同的基础。在标准坐标系中最初表示为 (3,2) 的蓝色点,根据新的基准系统重新计算,并具有新坐标 (2.5, 0.5)。这导致将基向量作为列粘贴到矩阵中的广义表示法。

  • 00:50:00 在本节中,演讲者讨论了基的概念以及如何借助矩阵转置在不同的基之间进行转换。矩阵求逆运算代价高昂且在数值上不精确,因此在基向量长度为 1 且彼此正交的情况下,首选标准正交基。然后,演讲者解释了多元正态分布如何将正态分布推广到多个维度,并有助于解释数据。分布的均值是一个向量,方差成为多元正态分布中的协方差矩阵。演讲者还简要解释了计算样本协方差的公式,以将多元正态分布拟合到数据中。

  • 00:55:00 在本节中,介绍了多元正态 (MVN) 分布的概念,其均值为零,各个方向的方差均为 1,没有相关性,并且可以转换为任何其他 MVN 分布。进一步解释白化数据的过程,其中将MVN分布的变换反转以将数据变换为正态分布以进行归一化。本节还重点介绍了通过主成分分析 (PCA) 来降低高维数据的维数,这是一种同时执行白化和降维的方法。通过寻找从保留尽可能多的相关信息的原始特征派生的新特征,PCA 将数据向下投影到较低维空间,同时保留原始数据的基本信息。

  • 01:00:00 在视频的这一部分,演示者讨论了主成分分析 (PCA) 以及它如何根据捕获的方差对维度进行排序,从而实现有用的数据重建和降维。演示者解释了特征向量以及它们如何成为在变换下方向不变的特殊向量,以及如何使用它们来查找原始数据中的最大方差。演示者还解释了如何找到对角矩阵的特征向量,以及如何旋转矩阵以沿轴对齐特征向量。

  • 01:05:00 在本节中,我们将学习如何使用主成分分析 (PCA) 为机器学习算法预处理数据。我们首先意味着将数据居中以去除平移,然后计算样本协方差并使用特征分解对其进行分解。然后我们将数据转换回标准的多元正态 (MVN) 空间并丢弃除前 K 个特征之外的所有特征。从分解中获得的特征向量与轴对齐,使我们能够保持方差最大的方向。这导致维数显着减少,从而获得更好的机器学习性能。

  • 01:10:00 在本节中,演示者使用主成分分析 (PCA) 解释降维的概念。降维的目标是保持不变性,同时保留尽可能多的数据。最大化投影中的方差与最小化重建误差相同,这是一种用于衡量原始数据和投影数据之间差异的损失函数。第一个主成分是捕获最大方差的线,随后的成分捕获剩余的方差。使用前 K 个主成分提供了良好的数据重建。

  • 01:15:00 在本节中,演讲者讨论了在研究应用中使用主成分分析 (PCA)。其中一个应用是在人类学领域,它可以用来量化和展示化石骨骼的特征。通过对骨骼的不同方面进行测量并创建用于比较的高维特征空间,然后可以使用 PCA 将数据的维度减少到两个主要成分,从而允许进行视觉聚类和异常值识别。此外,PCA 已应用于欧洲人群 DNA 的研究,其中将 DNA 转化为高维特征向量,PCA 可用于揭示数据中的模式和聚类。

  • 01:20:00 在本节中,演讲者讨论了如何将主成分分析 (PCA) 应用于 DNA 特征数据集,以及如何使用它来确定欧洲的大致形状。通过查看按原籍国着色的 DNA 数据集的两个主要组成部分,可以确定一个人或他们的祖先居住在北或西/东多远。 PCA 通常被视为一种神奇的方法,因为它能够提供对复杂数据集的洞察力,例如应用于特征脸的人脸数据集的特征向量。通过计算人脸数据集的平均值并查看该数据集协方差的特征向量,PCA 可以在人脸图像的高维空间中提供方向。

  • 01:25:00 在本节中,演讲者讨论了特征脸的概念以及主成分分析 (PCA) 如何帮助数据清理。通过将少量的第一特征向量添加到均值面孔,演讲者演示了这与面部特征中的年龄的对应关系。第二个和第四个特征向量分别对应于光照和性别。第五个特征向量表示嘴巴张开或闭合的程度。特征向量充当新空间的基础,将数据压缩到 30 维可以很好地表示原始人脸。拐点出现在 30 个特征向量附近,其余细节可以丢弃,保留机器学习所需的大部分信息。
4 Methodology 2: Data cleaning, Principal Component Analysis, Eigenfaces (MLVU2019)
4 Methodology 2: Data cleaning, Principal Component Analysis, Eigenfaces (MLVU2019)
  • 2019.02.14
  • www.youtube.com
slides: https://mlvu.github.io/lectures/22.Methodology2.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture we discuss how to prepare your d...
 

第 5 讲概率 1:熵、(朴素)贝叶斯、交叉熵损失(MLVU2019)



5 概率 1:熵,(朴素)贝叶斯,交叉熵损失(MLVU2019)

该视频涵盖了概率论的各个方面及其在机器学习中的应用。演讲者介绍了熵,它衡量系统中的不确定性,并解释了它与朴素贝叶斯和交叉熵损失的关系。还讨论了样本空间、事件空间、随机变量和条件概率的概念。贝叶斯定理被解释并被认为是机器学习中的一个基本概念。该视频还涵盖了最大似然估计原理和贝叶斯概率,以及使用无前缀代码来模拟概率分布。最后,演讲者讨论了二元分类的判别分类器与生成分类器,包括朴素贝叶斯分类器。

第二部分解释了使用多元正态分布模型计算属于特定类的新点的概率的概念。它讨论了特征的条件独立性以有效地拟合分类器的概率分布,以及平滑或调整伪观察以处理零实例的需要。演讲者还介绍了熵损失作为线性分类器比准确度更有效的损失函数,并讨论了交叉熵损失函数衡量预测数据和实际数据之间差异的能力,而 sigmoid 函数通过折叠函数的对称性来简化它。最后,视频提示下节课将把 SVM 损失作为最终的损失函数。

  • 00:00:00 在这部分关于概率的视频中,演讲者首先建议学生如果还没有参加小组项目,不要太担心找到一个完美的小组,而是要充分利用他们得到了什么。演讲者随后介绍了概率论和熵,它们在机器学习中密切相关且很有用。他解释说,在这种情况下,熵意味着衡量系统中不确定性或随机性的数量。熵的概念在机器学习中很重要,用于解释朴素贝叶斯和交叉熵损失,这将在本讲座后面讨论。本讲座还将涵盖分类和线性分类器的基础知识。

  • 00:05:00 这节演讲者讨论了损失函数,并介绍了交叉熵损失,它被认为是一个非常好的损失函数。他们提供了一个涉及青少年在线赌博的示例,并解释了概率在这种情况下的工作原理。演讲者还谈到了频率和概率的概念,以及它在现实生活中的应用。

  • 00:10:00 在本节中,演讲者讨论了主观概率和客观概率之间的差异。他们解释说,主观概率是基于个人的信念和经验,而客观概率是基于频率论概率,它是从实验和观察中得出的。演讲者指出,在机器学习中,重点是根据训练集最小化测试集上的损失,并且概率论被用作描述概率的数学框架。演讲者还介绍了随机变量和样本空间的概念。

  • 00:15:00 在本节中,视频解释了概率论中样本空间和事件空间的概念。样本空间包含所有可能的结果,其中没有两个结果在它们之间有另一个结果。事件空间包括样本空间的一组子集,从而可以识别各种事件的概率,例如在掷骰子时获得奇数或偶数。概率可以分配给离散和连续样本空间。此外,该视频还提到使用随机变量和特征对概率数据集进行建模,这有助于解释事件结果的可能性。

  • 00:20:00 在本节中,演讲者介绍了概率的基本概念,包括随机变量及其作为函数的表示。演讲者解释说,随机变量可以用单个数字表示并实例化为变量。他们还讨论了等号表示法的使用,以及函数或特定值如何引用随机变量。然后演讲者给出了一个由两个随机变量 X 和 Y 定义的事件空间的例子,并介绍了条件概率的概念。

  • 00:25:00 在本节中,演讲者讨论了概率以及如何重写和预测它们以确定不同事件的概率。他们解释说,如果两个变量是独立的,知道一个变量的值不会改变另一个变量的概率。演讲者然后用两个人住在城市不同地方的例子来说明一个人准时上班的概率如何不影响另一个人准时上班的概率。然而,他们指出,有一种罕见的可能性,可以将两个人的概率联系起来。

  • 00:30:00 在本节中,演讲者讨论概率和贝叶斯定理,这是机器学习中的一个基本概念。演讲者使用交通堵塞的例子来解释条件独立性,以及知道爱丽丝上班迟到会稍微增加鲍勃也迟到的信念。贝叶斯定理被认为是该领域最重要的公式,它解释了如何扭转条件概率。最后,演讲者解释了机器学习如何将概率分布拟合到数据,以及频率论方法如何在给定可用信息的情况下确定最佳参数。

  • 00:35:00 本节讲者讨论最大似然估计原理和贝叶斯概率。最大似然估计原理是基于这样的假设,即观察到的数据点是独立的,并且这些点的概率使似然率最大化。另一方面,贝叶斯概率涉及根据先验知识和观察到的数据更新一个人的信念。贝叶斯概率使用常客派和贝叶斯派两方之间的折衷来表达信念分布,这在机器学习中很有效。

  • 00:40:00 在本节中,演讲者讨论了概率分布的概念以及如何在没有具有单一结果的树的情况下模拟它们。使用无前缀代码或前缀树作为生成广泛概率分布的一种方法。演讲者解释说,这种方法可用于交流和寻找各种场景中某些结果的概率。还提供了使用硬币模拟 3 面骰子并实现均匀分布的示例。

  • 00:45:00 在本节中,演讲者讨论了可以使用无前缀代码算法描述的概率分布族。这种被称为朴素贝叶斯的算法对数据很有效,并且在描述方法和概率分布之间提供了良好的联系。该算法的主要用途是解释熵,它是随机变量不确定性的度量。演讲者解释了如何使用该算法对来自特定概率分布的数据进行编码,并获得适合给定数据的概率分布。

  • 00:50:00 在本节中,演讲者讨论了熵和交叉熵损失作为数据均匀性的度量。熵可以用来表示数据在不同元素之间的均匀性,熵越小表示数据越均匀。交叉熵用于表示使用不同代码时的预期代码长度,并且始终等于或大于熵,最小值为零。这些度量有助于理解两个概率分布之间的距离,并为将数据集分析为随机变量序列提供理论基础。

  • 00:55:00 在本节中,演讲者解释了二元分类的判别式和生成式分类器的概念。判别分类只是区分实例,而生成分类对给定类别的数据概率建模。生成分类器的范围从贝叶斯最优分类器到朴素贝叶斯分类器,它做出了条件独立性假设并被认为不正确但仍然工作得很好并且很便宜。

  • 01:00:00 在本节中,演讲者解释了如何使用多元正态分布模型计算新点属于特定类别的概率。他们解释说,通过估计概率分布并填充它们,我们可以根据最高可能性为每个类别分配概率。但是,在处理高维时,可能没有足够的数据来准确拟合模型,在这种情况下,可以使用分类分布代替伯努利分布对特征进行建模。

  • 01:05:00 在本节中,解释了特征的条件独立性的概念,它允许有效地拟合分类器的概率分布。然而,单个零概率值会极大地影响分类器的准确性,这可以通过平滑或调整伪观察来解决,以确保每个特征至少有一个观察。这确保了概率永远不会变为零,并且分类器的准确性不会受到负面影响。

  • 01:10:00 在本节中,演讲者讨论了通过确保至少有一个实例对每个可能的类别和特征都有一个值来避免机器学习模型中出现偏差结果的方法。他们将生成分类器总结为具有独立性假设,可以很好地处理大型和高维数据集,但需要拉普拉斯平滑来处理零实例。演讲者介绍了熵损失的概念,作为线性分类器与准确性相比更有效的损失函数。

  • 01:15:00 在本节中,演讲者解释了如何使用 logistic sigmoid 函数分配概率而不是为分类器模型分配值。仍然使用线性模型,但它被压缩到 0 和 1 之间的范围内。这种方法可以更准确地解释正例和负例。

  • 01:20:00 在本节中,演示者解释了交叉熵损失函数,该函数用于衡量机器学习模型预测的内容与数据所说的内容之间的差异。损失函数旨在最大化预测和数据之间的线的大小,目标是向上推蓝线并最小化所有线的负对数以最终最大化这些线的大小。

  • 01:25:00 在本节中,演讲者讨论了交叉熵损失函数如何通过惩罚较大的残差而不是较小的残差来发挥作用。 P 对 M 的函数也表明,小条对损失的贡献很大,相当于之前模型中的平方。演讲者随后讨论了对数的导数以及常数乘数如何包含在等式中。为了简化数学运算,可以忽略常数乘数,或者用自然对数定义二进制对数。

  • 01:30:00 在本节中,演讲者讨论了交叉熵损失以及 sigmoid 函数在简化它方面的作用。 sigmoid 函数的对称性允许损失函数崩溃,最终使其更简单。逻辑 sigmoid 应用于逻辑回归时,可以毫无问题地处理远离决策边界的点。逻辑回归可以在不确定区域产生多个好的解决方案。

  • 01:35:00 在本节中,讲师解释了概率的概念,并根据概率值将点分类为蓝色或红色。他进一步暗示,下一讲将把 SVM 损失作为最终的损失函数。
5 Probability 1: Entropy, (Naive) Bayes, Cross-entropy loss (MLVU2019)
5 Probability 1: Entropy, (Naive) Bayes, Cross-entropy loss (MLVU2019)
  • 2019.02.19
  • www.youtube.com
slides: https://mlvu.github.io/lectures/31.ProbabilisticModels1.annotated.pdfcourse materials: https://mlvu.github.ioApologies for the bad audio (and missing...
 

第 6 讲线性模型 2:神经网络、反向传播、SVM 和核方法 (MLVU2019)



6 线性模型 2:神经网络、反向传播、SVM 和核方法 (MLVU2019)

线性模型视频的第一部分侧重于将非线性引入线性模型,并探讨了两种依赖于扩展特征空间的模型:神经网络和支持向量机 (SVM)。对于神经网络,演讲者解释了如何使用 sigmoid 或 softmax 等激活函数为回归和分类问题建立网络。然后讲座深入探讨了反向传播,这是一种用于计算神经网络中使用的梯度的方法。对于 SVM,演讲者介绍了最大化每个类的最近点的边距的概念,并演示了如何将其表示为约束优化问题。该视频清楚地介绍了神经网络和 SVM 的原理,建议学生将重点放在讲座的前半部分,作为课程其余部分的起点。

视频的第二部分涵盖了支持向量机 (SVM)、软间隔 SVM、内核技巧以及 SVM 和神经网络之间的区别等主题。引入 soft margin SVM 作为处理非线性可分数据的一种方式,允许将惩罚值添加到不符合分类约束的点。内核技巧允许在更高维空间中计算点积,扩展特征空间以显着提高模型的能力。解释了 SVM 和神经网络之间的差异,并讨论了由于神经网络能够执行更高级类型的分类(即使未完全理解)而转向神经网络。

  • 00:00:00 在本节中,演讲者讨论了如何使用线性模型学习非线性函数,方法是添加额外的特征,这些特征是从正在使用的特征派生的函数,这在上周已经解释过了。演讲者接着重点介绍了两种模型,即神经网络和支持向量机,这两种模型都依赖于扩展特征空间。神经网络需要一个可学习的特征提取器,而支持向量机使用内核技巧来扩大到更大的特征空间。该讲座解释了反向传播,一种用于计算神经网络中使用的梯度的特定方法,以及支持向量机中使用的铰链损失函数。演讲者建议将重点放在讲座的前半部分,以便更好地理解线性模型,因为它是课程其余部分的起点。

  • 00:05:00 在本节中,演讲者讨论了神经网络的历史,可以追溯到 50 年代末和 60 年代初,当时研究人员开始从人脑中汲取灵感来开发人工智能系统。他们创建了一个称为感知器的神经元的简化版本,它用作线性模型并用于分类。然而,关于大脑的有趣之处在于一大群神经元协同工作的方式,因此研究人员开始将这些感知器链接在一起以构建网络。

  • 00:10:00 在线性模型讲座的这一部分,演讲者解释了如何将非线性引入感知器网络,以便能够学习通常的非线性函数和更有趣的模型。一种方法是使用 sigmoid 函数,它采用一系列数字并将它们压缩到 0 到 1 的范围内。通过将具有非线性激活函数的感知器链接在一起形成前馈网络或多层感知器,一个可以将其转化为回归或分类模型,每条线代表需要调整的网络参数。调整这些数字来解决学习问题的过程称为反向传播,这将在本课后面讨论。

  • 00:15:00 在标题为“6 线性模型 2:神经网络、反向传播、SVM 和核方法 (MLVU2019)”的视频的这一部分中,演讲者解释了如何为回归和分类问题设置神经网络。对于回归,建立一个具有一个隐藏层且输出层没有激活的网络,然后应用回归损失函数。对于二元分类,在输出层加入一个sigmoid激活,得到的概率可以解释为输入为正的概率。对于多类分类,添加了一个 softmax 激活,它为每个类创建一个输出节点并对概率进行归一化,以便它们相加为 1。损失函数用于训练网络的权重,直到交叉熵损失最小化。

  • 00:20:00 在本节中,演讲者讨论了神经网络的基本原理,即使用梯度下降。然而,由于计算整个数据集的损失可能很昂贵,因此使用随机梯度下降,其中仅使用数据集中的一个示例来计算损失,从而针对该单个示例优化模型。随机梯度下降增加了随机性并产生了一点随机性,有助于逃避局部最小值。然后说话者在注意力花操场中添加一个隐藏层用于分类,其中显示概率分类。但是,该模型似乎在这个特定问题上表现不佳。

  • 00:25:00 在视频的这一部分,演讲者讨论了线性模型的激活函数,比较了 sigmoid 和 ReLU 激活函数。 ReLU 函数更快地拟合数据,其决策边界是分段线性的,而 sigmoid 函数则创建弯曲的决策边界。演讲者建议尝试使用额外的层以使模型更强大,尽管增加的复杂性使其更难训练。然后,该视频深入探讨了反向传播,它允许计算机使用符号微分有效地计算梯度,而无需指数成本。演讲者解释说,基本思想是将功能描述为模块的组合,并重复应用链式法则。

  • 00:30:00 在本节中,反向传播算法被解释为一种采用任何给定模型并将其分解为一系列模块的方法,以便通过乘以每个子模块的梯度来计算特定输入的全局梯度一起。这个过程首先使用笔和纸象征性地计算出每个模块相对于其输入的导数,然后进行数值计算。给出了一个简单的例子来说明将函数组合为一系列模块的想法,使用局部导数并重复应用链式法则来导出全局导数。产生的因子分别称为全局和局部导数。

  • 00:35:00 在本节中,视频通过将系统分解为模块并将其应用于具有 sigmoid 激活的双层神经网络来讨论反向传播。重点是找到损失函数相对于权重的导数,而不是输入。第一个模块是损失函数,然后是 Y,它是一个线性激活函数。每个隐藏值都有一个模块,该模块具有自己的激活函数,在本例中为 sigmoid 函数,应用于它。 H2 素数是激活函数的线性输入。最后,该视频指出,重要的是要识别模型关于其输入的导数和损失函数关于权重的导数之间的差异。

  • 00:40:00 在本节中,演讲者讨论了每个模块的局部梯度,特别是损失相对于 V2 和 Y 在 V2 上的导数。使用链式法则简化了 L 在 Y 上的导数,得到 2 乘以 Y 减去 T,这恰好是范数平方误差。 Y over V2 是一个线性函数,导数就是 H2。当对参数 z2 应用梯度下降时,它通过减去误差乘以 H2 的激活来更新。演讲者将神经网络类比为一个政府,最高层是总理,第二层是部长,第一层是公务员。大臣们听公务员的话,对某些决定喊得更大声,解释为积极信任,而保持沉默则意味着消极信任。总理根据错误调整他们的信任级别,并将其反向传播到网络进行更新。

  • 00:45:00 在本节中,演讲者通过为模型输出中的错误分配所有权重来解释反向传播的工作原理。他使用人为的类比来证明全局错误是通过计算并乘以对导致问题的部长的信任程度的。然后,演讲者展示了在更新信任级别时需要如何考虑激活函数。反向传播本质上是将误差传播回网络以更新模型的权重。演讲者总结说,神经网络是线性和非线性函数的组合,最简单的版本是前馈网络。

  • 00:50:00 在本节中,视频讨论了神经网络的历史和挑战,以及由于训练困难和调整参数所涉及的不确定性,人们对神经网络的兴趣如何下降。支持向量机具有凸损失面,可以立即反馈模型是否有效,由于训练它们时缺乏不确定性,因此变得更加普及。该视频随后介绍了支持向量机,作为解决多个模型对相似数据表现不同的问题的解决方案,使用最大化最近点的边距并将它们称为支持向量的概念。

  • 00:55:00 在本节中,将介绍支持向量机 (SVM) 的概念,作为一种为二元分类问题寻找决策边界的方法。 SVM 算法旨在找到一条线,使边距最大化,或决策边界与每个类的最近点之间的距离。 SVM 的目标可以表示为约束优化问题,其中目标是在满足约束条件的同时最大化边距,以确保模型的输出对于正支持向量为 +1,对于负支持向量为 -1。 SVM 可以通过引入一个标签参数来进一步简化,该标签参数对一个点是正的还是负的进行编码,从而允许将两个目标简化为可以完全根据超平面参数编写的单个目标。

  • 01:00:00 在本节中,演讲者讨论了在支持向量机 (SVM) 中最大化决策边界之间的边距的概念。边距的大小取决于向量的长度,这可以由模型的参数确定。目标是在满足某些约束条件的同时最大化此余量。但是,如果数据不是线性可分的,则需要通过添加松弛参数来松弛模型,这允许模型违反某些约束以找到更好的拟合。每个数据点都有自己的松弛参数,可以设置为零或正值。

  • 01:05:00 在本节中,讲师讨论了 soft margin SVM 的概念,它允许通过对不符合分类约束的点添加惩罚值来处理非线性可分的数据集。这种惩罚通过可以使用梯度下降法最小化的损失函数来表示。讲师还介绍了根据支持向量重写损失函数的选项,作为内核技巧的替代方法,可以解决约束优化问题。铰链损失函数被提出作为实现该惩罚系统的一种方式。

  • 01:10:00 在本节中,讲师讨论了机器学习中的不同损失函数,例如准确性、最小二乘法、交叉熵损失和软间隔 SVM 损失。 soft margin SVM 通过最大化决策边界和带惩罚的最近点之间的间隔来工作。但是由于这个优化函数有约束和鞍点,所以不能用梯度下降法有效求解。讲师介绍了 LaGrange 乘子的方法,这有助于在不摆脱约束的情况下将约束优化问题重写为更简单的形式。通过使用这种方法,讲师展示了如何重写软间隔 SVM 优化函数,从而允许应用内核技巧。

  • 01:15:00 在本节中,演讲者讨论了支持向量机 (SVM) 和内核技巧,这是一种将数据集中点对的点积替换为其他点积的方法。 SVM 的工作原理是惩罚 alpha 的大小,指示哪些点是支持向量,并对数据集中的所有点对求和。内核技巧允许在更高维空间中计算点积,从而产生更强大的模型,其成本与计算线性模型相似。给出了一个示例,其中通过添加所有叉积来扩展特征,这极大地增加了特征空间并允许更强大的模型。

  • 01:20:00 本节讨论使用核函数实现高维特征空间进行分类的概念。通过使用点积并将其扩展到更高的幂,特征空间可以扩展到包括叉积和无限维特征空间,同时保持低成本。然而,这种方法容易过度拟合并且实施起来可能很复杂。核函数的使用也可以扩展到非数值数据,例如文本或蛋白质序列,在这些数据中直接提取特征并不简单。虽然内核函数目前可能不流行,但在某些情况下它们仍然有用。

  • 01:25:00 在本节中,将讨论支持向量机 (SVM) 和神经网络之间的差异。 SVM 的局限性在于它们的训练时间是二次方的,而神经网络只需要对数据进行一定次数的传递。然而,支持向量机仍然可以用梯度下降法进行训练,但这种方法忽略了内核技巧。 2005 年左右,由于涉及的数据量大,训练 SVM 变得越来越困难,导致神经网络重新兴起。此外,机器学习中的文化转变为接受神经网络的工作,即使它们成功背后的原因尚未完全理解。最终,这种转变允许使用神经网络模型来执行更高级类型的分类,这将在下一节中讨论。
6 Linear Models 2: Neural Networks, Backpropagation, SVMs and Kernel methods (MLVU2019)
6 Linear Models 2: Neural Networks, Backpropagation, SVMs and Kernel methods (MLVU2019)
  • 2019.02.27
  • www.youtube.com
NB: There is a mistake in slide 59. It should be max(0, 1 - y^i(w^T\x + b) ) (one minus the error instead of the other way around).slides: https://mlvu.githu...
 

深度学习 1:张量的反向传播,卷积神经网络 (MLVU2019)



7 深度学习 1:张量的反向传播,卷积神经网络 (MLVU2019)

关于深度学习和反向传播的视频的第一部分涵盖了几个主题,包括深度学习框架的基础知识、张量、反向传播算法和梯度消失问题。演讲者解释了如何使用一系列线性代数运算来实现神经网络,以及如何使用反向传播算法将模型定义为函数的组合。该视频还介绍了如何使用矩阵运算计算导数,并探讨了梯度消失问题的解决方案,例如权重初始化和使用 ReLU 作为激活函数。最后,该视频介绍了小批量梯度下降和可用于复杂神经网络的各种优化器。

第二部分涵盖了与深度学习相关的一系列主题,包括优化算法和正则化技术。 Adam 优化被解释为深度学习的流行算法,而 L1 和 L2 正则化被探索为防止过度拟合的方法。还讨论了神经网络在图像处理中的潜力,重点介绍了卷积神经网络作为图像识别任务的强大工具。该视频还深入探讨了这些网络的工作原理以及它们如何构建识别复杂图像的特征,以及端到端学习的概念作为克服将多个模块链接在一起的局限性的一种方式。

  • 00:00:00 在这部分关于深度学习的视频中,演讲者首先回顾了上一节中讨论的概念,例如神经网络及其分层组织方式。然后他们讨论神经网络本质上只是一系列线性代数步骤,偶尔会有非线性函数,如 sigmoid 函数。这很重要,因为它简化了实施神经网络的过程并允许更有效的训练。演讲者还指出,神经网络曾一度失宠,因为它们难以训练,但在下一节中,他们将研究反向传播如何帮助克服这一挑战。

  • 00:05:00 在本节中,视频概述了深度学习系统或框架的基础知识,这需要了解张量矩阵微积分并重新审视反向传播算法。演讲者强调,尽管深度学习存在神经网络包袱,但它并没有那么特别,因为它只是一系列线性代数运算。开发神经网络通用框架的第一步是有效且简单地定义操作,以便轻松有效地训练它们。此外,通过使用图形处理单元或视频卡,由于它们在矩阵乘法方面的有效性,事情变得快了大约 20 倍。最后,该视频概述了本系列讲座将涵盖的其余主题,其中包括卷积层、自动编码器以及对深度学习哲学方面的讨论。

  • 00:10:00 在本节中,演讲者讨论了张量,这是一种用于存储一堆可用于深度学习的数字的数据结构。张量用于存储数据集,所有元素必须具有相同的数据类型,通常包含浮点数。演讲者解释了如何在三张量中存储图像,三张量是三个灰度图像的堆栈,每个颜色通道一个,以及如何通过添加另一个迭代图像的索引在四张量中存储图像数据集数据集。最后,演讲者解释说,深度学习中的函数或操作就像编程语言一样,但以张量作为输入和输出,计算局部梯度的后向计算也与前向计算一起实现。

  • 00:15:00 在本节中,视频讨论了反向传播算法以及如何使用它来将神经网络模型定义为函数的组合。整个网络的梯度计算为每个函数的所有局部梯度的乘积,反向传播用于在整个计算图中传播损失。该视频解释了定义计算图的两种方法 - 延迟执行和急切执行 - 虽然延迟执行很简单,但对于调试或研究来说并不理想。 Eager Execution 目前是 PyTorch 和 TensorFlow 等框架的默认设置,因为它允许用户通过执行计算来定义计算图,从而更容易在训练期间调试和更改模型。

  • 00:20:00 在本节中,演讲者讨论了计算图以及如何使用标量变量构建它。然后,他提供了一个示例,说明如何使用计算图在框架内实现神经网络。损失值是在神经网络上计算的,反向传播过程是从损失值开始的,以获得网络参数的梯度。一旦获得了梯度,就可以通过从值中减去一点梯度来执行梯度下降的一步。

  • 00:25:00 在本节中,演讲者讨论了深度学习系统反向传播的两个重要方面:处理多个计算路径和使用张量。演讲者介绍了多变量链式法则,用于处理计算图中的菱形,其中多条路径导致相同的值。此外,演讲者解释了在反向传播中使用张量的重要性,其中所有中间值都是张量而不是标量值。目标是根据矩阵运算计算出导数,从而加快计算速度。演讲者使用一个简单的函数示例演示了如何求向量相对于矩阵的导数,该函数输出输入为向量的标量,通过查看点积使函数尽可能简单。

  • 00:30:00 在本节中,演讲者解释了如何使用向量和矩阵的示例来计算张量的导数。第一个例子表明标量对向量的导数只是一个数字向量,也就是梯度。然后,第二个例子证明了向量对矩阵的导数只是一个矩阵。演讲者强调,获取所有可能的值并将它们排列成一个矩阵会得到原始矩阵 P。

  • 00:35:00 在本节中,演讲者解释了对函数求导如何为我们提供向量输入和输出的可能标量导数矩阵,以及高阶输入/输出的导数张量。然而,计算这些中间值可能既困难又复杂,尤其是在处理向量/矩阵组合时。为了简化这个过程,我们可以通过从左到右依次计算每个导数来累加乘积,而不是处理这些中间值。演讲者解释了函数的反向实现如何将损失关于其输出的导数作为输入。

  • 00:40:00 在本节中,演讲者解释了如何通过删除中间产品来计算矩阵计算中的值。他们必须针对所有输入计算所有输入的导数,并使用多元链式法则告诉计算路径经过并对结果求和。即使 K 是张量或高级张量,他们也需要导出每个元素并将总数加起来,这样计算效率可能很低,因此他们将矩阵乘法的元素提取为第 i 行的点积W-times-X 与 W 的第 I 行与 X 的点积。最终,在每次前向和反向传递结束时,他们优化每个跟踪序列以通过最小化损失函数的结果来匹配给定的目标变量.

  • 00:45:00 在这部分关于深度学习和反向传播的视频中,演讲者讨论了如何使用多元链式法则和矩阵运算来计算导数。可以计算权重矩阵 W 的每个元素的导数,并使用两个向量的外积导出 W 的局部梯度。其他输入可以遵循相同的过程。线性层的前向计算使用 WX + B 计算,后向计算可以通过使用矩阵乘法计算损失相对于 W、X 和 B 的梯度来实现。不过,演讲者指出,大多数深度学习系统已经实现了反向功能,因此用户无需自己计算。

  • 00:50:00 在本节中,演讲者解释说梯度消失问题是 90 年代深度学习的最大挫折。他们检查了权重初始化的问题,因为权重不应该太大或太小,否则激活函数将无法有效工作,导致输出始终为零。解决方案是使用随机正交值或来自两个正值之间均匀分布的样本来初始化网络的权重,确保特征值是一个。这保证了输出的均值和方差保持不变,因此网络可以有效地学习。

  • 00:55:00 在本节中,视频讨论了深度学习网络使用 sigmoid 函数时出现的问题,例如梯度消失问题,其中梯度变得越来越小,网络不学习。相反,该视频建议使用 ReLU 作为更简单的激活函数,它在大于零的输入上具有 1 的恒等函数,否则为零导数,因此梯度不会衰减。该视频还介绍了小批量梯度下降作为常规和随机梯度下降的中间版本,它计算小批量的损失,允许随机性和并行处理。然而,该视频警告说,在较大的批次大小(利用 GPU 内存并运行得更快)和较小的批次(更有效地产生最佳结果)之间存在权衡。最后,该视频介绍了各种利用梯度下降概念的优化器,但会略微调整以解决复杂神经网络中可能出现的不同梯度。

  • 01:00:00 在本节中,讲师介绍了三种处理非常小的局部最小值和平滑粗糙损失表面的方法:动量、Nesterov 动量和 Adam。动量背后的基本直觉是将梯度视为一种力——类似于重力——并通过将模型视为从山上滚下的巨石来导航损失面。使用 Nesterov 动量,添加了一个小的洞察力,这样可以首先应用动量步骤,然后可以计算梯度。 Adam 将这个想法与模型中的每个参数都有自己的损失表面以及它应该在某个方向上移动的积极程度的偏好结合在一起,因此模型空间中的每个维度都会估计平均梯度,并相应地缩放更新。对梯度和方差都采用指数移动平均,这允许来自先前梯度的某种影响增加到均值。

  • 01:05:00 在本节中,视频讨论了深度学习中的优化器和正则化器。 Adam 被解释为一种优化算法,它稍微适应了在深度学习中运行良好的梯度下降。它有多个超参数,默认设置效果很好。然后将正则化器作为一种技术进行讨论,以防止在具有大量数据存储空间的大型模型中过度拟合。 L2 正则化涉及将超参数乘以权重张量向量的长度乘以损失,这会鼓励系统更喜欢权重较小的模型。 L1 正则化也遵循这个想法,但使用张量向量的 L1 范数计算距离,给出损失表面角。 L1 正则化器更喜欢稀疏解决方案,系统可以删除对输出影响为零的连接。

  • 01:10:00 在本节中,演讲者解释了深度学习中正则化的概念,这是用于防止模型过度拟合的技术。正则化有助于确保模型很好地泛化到看不见的数据。 L1 和 L2 是深度学习中使用的两种流行的正则化类型。 L2 正则化将模型拉向原点并防止权重变得太大,而 L1 正则化沿着边缘产生凹槽。还讨论了 Dropout,它涉及在训练期间随机禁用隐藏节点并强制每个节点考虑多个信息源。最后,演讲者强调了深度学习的成就,包括使用图像和生成文本的单一神经网络。

  • 01:15:00 在本节中,视频讨论了使用神经网络的各种图像处理技术。一种有趣的技术是风格迁移,其中神经网络可以使用给定绘画的风格来转换照片。图像到图像的转换是另一种技术,在这种技术中,网络根据对去饱和或边缘检测图像的训练来学习生成图像的缺失部分。卷积层通过共享权重和减少参数空间来帮助提高网络效率,这对于处理图像尤为重要。总的来说,该视频强调了神经网络在图像处理方面的巨大潜力,同时强调了根据领域知识精心设计架构以获得最佳结果的重要性。

  • 01:20:00 在本节中,演讲者解释了卷积神经网络的工作原理,这是一种前馈人工神经网络,常用于图像识别和分类任务。这些网络背后的关键思想是通过使用共享权重来限制参数的数量,并通过使用最大池化层来降低图像的分辨率。它们由一系列全连接层和一个或多个卷积层组成,卷积层使用称为内核的滑动窗口来过滤输入图像并生成具有修改通道的输出图像。通过将这些卷积层和最大池化层链接在一起并添加一些全连接层,可以创建一个基本的图像分类网络来产生高度准确的结果。

  • 01:25:00 在本节中,演讲者讨论了可视化卷积神经网络实际在做什么,方法是查看网络中较高的节点,以查看哪种输入会触发高响应。网络的第一层主要响应边缘检测,而下一层将各个边缘组合成特征。这个过程继续进行,逐渐建立表征并以完整的面孔结束。为了进一步探索神经网络的工作原理,演讲者描述了优化输入以激活特定神经元,从而产生类似抽象艺术的图像。通过检查这些图像,说话者能够确定神经元正在响应哪些特征,例如鸟类特征或狗。最后,演讲者解释说,传统机器学习和深度学习的一个主要区别在于端到端学习的理念,其中不需要管道,网络可以分析报纸,例如,无需人工处理即可执行自然语言处理。多阶段过程。

  • 01:30:00 在本节中,演讲者解释了在执行机器学习任务时将多个高精度模块链接在一起的局限性。来自每个模块的累积误差会为后续模块产生噪声输入,从而显着降低整个系统的准确性。然后引入端到端学习作为解决此问题的解决方案。不是隔离每个模块的训练,而是将整个管道作为一个整体进行训练,以使用梯度下降法端到端地从原始数据中学习。这使得该方法更加灵活,并允许深度学习系统解决更广泛的问题。
7 Deep learning 1: Backpropagation for tensors, Convolutional Neural Networks (MLVU2019)
7 Deep learning 1: Backpropagation for tensors, Convolutional Neural Networks (MLVU2019)
  • 2019.02.27
  • www.youtube.com
slides: https://mlvu.github.io/lectures/41.DeepLearning1.annotated.pdfcourse materials: https://mlvu.github.ioThis lecture builds on the explanation of backp...
 

8 概率 2:最大似然、高斯混合模型和期望最大化(MLVU2019)



8 概率 2:最大似然、高斯混合模型和期望最大化(MLVU2019)

视频的这一部分主要介绍使用最大似然估计、正态分布、高斯混合模型和期望最大化算法进行密度估计的概率模型。讲者解释了最大似然原理,并展示了它在选择最佳概率模型方面的应用。他们探索了正态分布,解释了概率函数和概率密度函数之间的区别,并介绍了高斯混合模型。演讲者还讨论了从单变量和多变量正态分布中抽样的方法,以及高斯混合模型如何帮助识别总体中的不同集群。此外,还引入了期望最大化算法以将高斯混合模型拟合到数据集。演讲者还解释了如何使用 Q 函数逼近来形式化期望最大化方法,并证明它收敛到局部最优值。

该视频涵盖了最大似然、高斯混合模型和期望最大化 (EM) 等主题。演讲者解释了 EM 算法、其证明及其收敛的原因。他们还讨论了 M 步,他们通过选择 theta 来最大化 L,同时保持 Q 不变。将高斯混合模型拟合到数据需要使用 EM 算法,演讲者解释了它的应用,例如聚类和探索性分析,以及如何通过将高斯混合模型拟合到每个类来将其用于分类。该视频还提到了即将进行的关于将概率模型拟合到复杂神经网络的讲座。

  • 00:00:00 在视频的这一部分,演讲者介绍了通过将概率分布拟合到数据来使用概率模型进行密度估计的概念。他们特别关注最大似然估计,并将其应用于基于正态分布或高斯分布的四种不同模型。该视频还提供了一个示例,该示例使用最大似然原理来确定在随机的 12 枚硬币翻转序列中使用了哪枚硬币,其中一枚硬币是弯曲的,另一枚是直的。然后他们介绍了混合高斯模型,这是一个强大但难以使用最大似然拟合的模型,并深入研究了期望最大化算法作为拟合高斯混合模型的一种方式。

  • 00:05:00 在本节中,解释了最大似然原理,该原理用于机器学习的模型选择。它涉及将模型拟合到观察到的数据,以便选择最有可能提供该数据的模型。为简单起见通常取似然的对数,它是一个单调函数,在函数达到最高点的地方不会发生变化。还介绍了正态分布,以均值和方差或标准差作为参数,它们用于各种模型,包括回归和多元正态分布。高斯混合模型也作为多个正态分布的组合进行讨论。

  • 00:10:00 在本节中,演讲者讨论了不同类型的分布以及正态分布提供的具有明确尺度的重要性。演讲者还谈到了概率函数和概率密度函数之间的区别,强调单个事件具有概率密度,而概率是通过对该密度进行积分获得的。演讲者随后介绍了正态分布公式,并展示了它如何通过指数衰减来达到具有一定尺度的基本要求。该公式通过添加进一步加速衰减的平方项得到进一步改进。

  • 00:15:00 在视频的这一部分,演示者解释了如何通过重新缩放和围绕基本函数移动来创建正态分布的概率密度函数。他展示了如何使用拐点将概率质量放在最需要的位置,如何控制比例的大小,以及如何移动函数以调整均值。最后,他讨论了用于从数据创建正态分布的参数的最大似然估计。

  • 00:20:00 在本节中,演讲者讨论了最大似然估计及其在寻找概率空间中的最高点方面的应用。他们提出了一个目标,即最大化一维高斯分布参数的概率对数之和。然后他们对均值求导数并求解最大值。他们发现正态分布均值的最大似然估计量就是数据的均值,并且可以应用相同的方法来寻找所有这些函数的标准差。演讲者还提到存在用于寻找最优解的解析解。

  • 00:25:00 在本节中,视频讨论了最小二乘回归中的正态性假设。该模型假设数据是通过在一条线上加入一点点噪声而产生的,数据的概率分布可以认为是正态分布。为了最大化线性模型参数的似然,他们必须最大化给定 X、W 和 B 的 Y 的概率。通过填充此方程并计算对数,归一化部分消失,剩余函数类似于最小值平方目标函数。还讨论了多元分布,原点的均值和概率密度随着距离的增加呈指数衰减。

  • 00:30:00 在本节中,演讲者讨论了使用线性变换在空间中移动单位圆来拟合数据,单位圆包含归一化钟形曲线的大部分概率质量。线性变换定义了一个矩阵和一个向量 T,将其应用于首先归一化的单位圆,以便计算曲线下的总体积并除以它。应用此变换会在某个方向上拉伸圆圈并增大概率密度。为了纠正这一点,矩阵的行列式除以放大体积以获得变换后的高斯分布下特定点的概率密度。

  • 00:35:00 在本节中,演讲者讨论了从具有给定均值和西格玛的非标准单变量正态分布中抽样的方法。为此,可以从标准正态分布中对 x 进行采样,将其乘以方差,然后加上均值以获得所需分布的样本。同样,从具有给定均值和 sigma 的多元正态分布中抽样涉及分解 sigma、从标准分布中抽样以及应用线性变换。演讲者还介绍了高斯混合模型的概念,这将是休息后的讨论重点。演讲者使用等级分布的示例来说明样本中不同人群的概念。

  • 00:40:00 在本节中,演讲者讨论了高斯混合模型及其如何帮助识别总体中的不同集群。通过创建三个具有不同权重和比例的独立正态分布,生成的概率密度函数将具有三个峰值或模式。为了使该模型适合数据,最大似然目标用于确定最佳高斯混合模型参数。虽然梯度在某些情况下很有用,但由于对数中的总和,因此使用起来并不容易。取而代之的是,使用类似于 k 均值聚类算法的期望最大化算法来找到数据的最优聚类。

  • 00:45:00 在本节中,视频讨论了高斯混合模型的使用,它本质上是一个隐藏变量模型,涉及对随机值集进行采样,并使用它从具有各自权重的不同组件中采样值 X。然而,问题在于只观察到 X 值而隐藏了 Z 值。解决方案是使用期望最大化 (EML) 算法,该算法迭代对组件进行随机猜测的过程,为每个点分配软责任,将分布拟合到数据子集,并在给定的情况下推断设定值的分布X 值。通过这个迭代过程,算法可以估计模型参数并最大化数据的可能性。

  • 00:50:00 在本节中,视频讨论了期望最大化 (EM) 算法,该算法用于将高斯混合模型拟合到数据集,其中某些点比其他点更重要。该算法的工作原理是首先为每个点分配软责任,这意味着每个点都有来自每个组件的一部分责任。然后使用这些责任将高斯模型拟合到加权数据集,其中使用加权均值和方差计算均值和方差。该过程通过期望和最大化步骤迭代,直到实现良好的拟合。该视频展示了这个过程的可视化,展示了模型如何转向更重要的点,直到找到合适的点。

  • 00:55:00 在本节中,演讲者讨论了期望最大化的直观性质的形式化以及如何证明它收敛到局部最优。通过使用 Q 函数作为真实似然的近似值,可以将似然函数分解为两项:KL 散度和 L 函数,后者衡量近似值的好坏。通过取这些项的对数,演讲者表明可以通过从给定最优参数的似然函数集的对数中减去近似 Q 集的对数来计算 L 函数。这种分解有助于理解和证明期望最大化方法的收敛性。

  • 01:00:00 在本节中,演讲者讨论了 EM 算法的证明及其收敛的原因。结果表明,通过重新排列联合分布和条件分布,x 的对数给定 theta 的期望可以写成相对于 Q 的常数。然后,演讲者解释了如何根据 KL 散度重新定义 EM 算法并在给定一些数据和任意 theta 的情况下选择提示,使 KL 散度为 0,同时保持数据固定,这导致 L 覆盖整个空间并实现最大似然。

  • 01:05:00 在本节中,演讲者解释了 M 步,他们通过选择 theta 最大化 L,同时保持 Q 不变来最大化 L。他们解释了这一步如何导致可能性增加,以及为什么 E/M 迭代不断增加可能性。演讲者还解释了他们如何将 M 步转化为最大化目标,并为期望最大化算法导出最大似然估计量。他们讨论了这种技术的应用,例如聚类和探索性分析,以及如何通过将高斯混合模型拟合到每个类来将其用于分类。

  • 01:10:00 在本节中,演讲者讨论了高斯混合模型以及它们如何采用多种形状,从而使它们比正态分布更强大。将高斯混合模型拟合到数据需要使用期望最大化算法,因为没有针对最大似然拟合的解析封闭形式解。然而,一旦模型被拟合,它就可以以多种方式使用,例如使用基础分类器根据概率密度对新点进行分类。在下一讲中,演讲者计划讨论神经网络中的隐变量模型以及如何将概率模型拟合到复杂的神经网络。
8 Probability 2: Maximum Likelihood, Gaussian Mixture Models and Expectation Maximization (MLVU2019)
8 Probability 2: Maximum Likelihood, Gaussian Mixture Models and Expectation Maximization (MLVU2019)
  • 2019.03.01
  • www.youtube.com
slides: https://mlvu.github.io/lectures/42.ProbabilisticModels2.annotated.pdfcourse materials: https://mlvu.github.ioWe return to the subject of probability,...