This short tutorial explains the training objectives used to develop ChatGPT, the new chatbot language model from OpenAI.Timestamps:0:00 - Non-intro0:24 - Tr...
What is a large language model? How can it be used to enhance your business? In this conversation, Ali Rowghani, Managing Director of YC Continuity, talks wi...
00:45:00 在本节中,演讲者介绍了使用轴在特征空间中表示数据的概念,这允许元素及其界面的可视化表示。通过在此空间中画一条线,可以创建一个分类器,将空间划分为两个区域,其中一个区域代表线上方的所有内容,另一个区域代表线下方的所有内容。逻辑奶嘴是使用线条时的最佳选择,每条线条都可以用三个数字来描述,这三个数字在 3D 空间的平面上定义了一个属性。损失函数是一种可交换函数,它允许计算模型出错的示例数量,值越低意味着模型拟合越好。
slides: https://mlvu.github.io/lectures/11.Introduction.annotated.pdfcourse materials: https://mlvu.github.ioThe first lecture in the 2019 Machine learning c...
00:10:00 在本节中,演讲者解释了如何通过为每个特征分配权重并保持单个 B 值,将线性模型从平面扩展到超平面。这个函数可以表示为W和X加上B的点积,是两个等长向量的简单运算。点积也可以表示为两个向量在空间中的长度乘以它们之间夹角的余弦值。演讲者还提到了一个有趣的原则,即通过为模型添加简单的特征,它可以变得更强大。最后,为了找到一个好的模型,使用了一个损失函数,以及一种在所有模型的空间中搜索最小化该损失函数的值的方法。
00:35:00 在本节中,演讲者介绍了一种从进化中汲取灵感的进化搜索方法的基本算法。这种方法从模型种群开始,计算它们的损失,对它们进行排序,杀死一半种群,并繁殖另一半以形成新种群。新模型是根据旧模型的属性选择的,并使用变异将一些变化添加到种群中。演讲者还解释了一种分支搜索方法,它是随机搜索的一种变体,其中不是选择一个随机方向,而是选择 K 个随机方向,并选择损失最低的方向。演讲者最后指出了进化方法的灵活性和强大功能,但提醒了他们昂贵的计算成本和参数调整要求。
00:50:00 在本节中,演讲者讨论如何将导数推广到多个维度,以及如何找到超平面的最速下降方向。在多个维度上取导数相当于计算梯度,它是一个向量,由关于 X、Y 和 Z 的偏微分导数组成。这三个值一起定义了一个平面的三个参数,三个值一起定义了一个平面超平面。最速下降的方向W可以通过最大化W乘以a的余弦的范数来找到,当X和W之间的距离等于X和W之间的角度或者当X和W相同时,其最大化。因此,最速下降的方向是 W。
00:55:00 在本节中,演讲者解释了一种用于寻找损失函数最小值的简单算法,称为梯度下降。该算法从模型空间中的一个随机点开始,计算该点损失的梯度,将其与一个称为 anta 的小值相乘,然后从模型中减去该值。没有随机性,只有纯粹确定性的步骤。梯度给出了方向和步长。然后演讲者继续使用微积分计算损失景观的梯度,解释求和法则和链式法则,最后得到损失函数关于 W 和 B 的导数的二维向量。
slides: https://mlvu.github.io/lectures/12.LinearModels1.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture, we discuss the linear models: ...
slides: https://mlvu.github.io/lectures/21.Methodology1.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture, we discuss the practicalities t...
00:30:00 在本节中,演讲者解释了添加额外功能如何帮助线性分类器解决分类问题。通过将 x 和 y 坐标的平方作为特征添加到决策边界问题中,可以使用线性分类器来区分两类点。演讲者展示了如何使用 TensorFlow Playground 训练分类器,从而生成人眼看来呈圆形的决策边界。还显示了特征的权重,并证明了解决此分类问题只需要一个特征。
00:35:00 在视频的这一部分,演讲者讨论了扩展特征空间如何导致更强大的模型,即使对于回归也是如此。他们通过展示将平方变量添加到线性回归模型如何产生更适合数据的抛物线来说明这一点。演讲者还建议处理类不平衡,建议通过过采样或数据增强等技术来操纵训练集。最后,他们介绍了归一化主题,并提供了一个激励示例,说明单位差异如何影响 K 最近邻分类模型的性能。
slides: https://mlvu.github.io/lectures/22.Methodology2.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture we discuss how to prepare your d...
00:20:00 在本节中,演讲者介绍了概率的基本概念,包括随机变量及其作为函数的表示。演讲者解释说,随机变量可以用单个数字表示并实例化为变量。他们还讨论了等号表示法的使用,以及函数或特定值如何引用随机变量。然后演讲者给出了一个由两个随机变量 X 和 Y 定义的事件空间的例子,并介绍了条件概率的概念。
slides: https://mlvu.github.io/lectures/31.ProbabilisticModels1.annotated.pdfcourse materials: https://mlvu.github.ioApologies for the bad audio (and missing...
00:40:00 在本节中,演讲者讨论了每个模块的局部梯度,特别是损失相对于 V2 和 Y 在 V2 上的导数。使用链式法则简化了 L 在 Y 上的导数,得到 2 乘以 Y 减去 T,这恰好是范数平方误差。 Y over V2 是一个线性函数,导数就是 H2。当对参数 z2 应用梯度下降时,它通过减去误差乘以 H2 的激活来更新。演讲者将神经网络类比为一个政府,最高层是总理,第二层是部长,第一层是公务员。大臣们听公务员的话,对某些决定喊得更大声,解释为积极信任,而保持沉默则意味着消极信任。总理根据错误调整他们的信任级别,并将其反向传播到网络进行更新。
NB: There is a mistake in slide 59. It should be max(0, 1 - y^i(w^T\x + b) ) (one minus the error instead of the other way around).slides: https://mlvu.githu...
00:40:00 在本节中,演讲者解释了如何通过删除中间产品来计算矩阵计算中的值。他们必须针对所有输入计算所有输入的导数,并使用多元链式法则告诉计算路径经过并对结果求和。即使 K 是张量或高级张量,他们也需要导出每个元素并将总数加起来,这样计算效率可能很低,因此他们将矩阵乘法的元素提取为第 i 行的点积W-times-X 与 W 的第 I 行与 X 的点积。最终,在每次前向和反向传递结束时,他们优化每个跟踪序列以通过最小化损失函数的结果来匹配给定的目标变量.
00:45:00 在这部分关于深度学习和反向传播的视频中,演讲者讨论了如何使用多元链式法则和矩阵运算来计算导数。可以计算权重矩阵 W 的每个元素的导数,并使用两个向量的外积导出 W 的局部梯度。其他输入可以遵循相同的过程。线性层的前向计算使用 WX + B 计算,后向计算可以通过使用矩阵乘法计算损失相对于 W、X 和 B 的梯度来实现。不过,演讲者指出,大多数深度学习系统已经实现了反向功能,因此用户无需自己计算。
slides: https://mlvu.github.io/lectures/41.DeepLearning1.annotated.pdfcourse materials: https://mlvu.github.ioThis lecture builds on the explanation of backp...
该视频涵盖了最大似然、高斯混合模型和期望最大化 (EM) 等主题。演讲者解释了 EM 算法、其证明及其收敛的原因。他们还讨论了 M 步,他们通过选择 theta 来最大化 L,同时保持 Q 不变。将高斯混合模型拟合到数据需要使用 EM 算法,演讲者解释了它的应用,例如聚类和探索性分析,以及如何通过将高斯混合模型拟合到每个类来将其用于分类。该视频还提到了即将进行的关于将概率模型拟合到复杂神经网络的讲座。
00:25:00 在本节中,视频讨论了最小二乘回归中的正态性假设。该模型假设数据是通过在一条线上加入一点点噪声而产生的,数据的概率分布可以认为是正态分布。为了最大化线性模型参数的似然,他们必须最大化给定 X、W 和 B 的 Y 的概率。通过填充此方程并计算对数,归一化部分消失,剩余函数类似于最小值平方目标函数。还讨论了多元分布,原点的均值和概率密度随着距离的增加呈指数衰减。
00:35:00 在本节中,演讲者讨论了从具有给定均值和西格玛的非标准单变量正态分布中抽样的方法。为此,可以从标准正态分布中对 x 进行采样,将其乘以方差,然后加上均值以获得所需分布的样本。同样,从具有给定均值和 sigma 的多元正态分布中抽样涉及分解 sigma、从标准分布中抽样以及应用线性变换。演讲者还介绍了高斯混合模型的概念,这将是休息后的讨论重点。演讲者使用等级分布的示例来说明样本中不同人群的概念。
00:40:00 在本节中,演讲者讨论了高斯混合模型及其如何帮助识别总体中的不同集群。通过创建三个具有不同权重和比例的独立正态分布,生成的概率密度函数将具有三个峰值或模式。为了使该模型适合数据,最大似然目标用于确定最佳高斯混合模型参数。虽然梯度在某些情况下很有用,但由于对数中的总和,因此使用起来并不容易。取而代之的是,使用类似于 k 均值聚类算法的期望最大化算法来找到数据的最优聚类。
00:45:00 在本节中,视频讨论了高斯混合模型的使用,它本质上是一个隐藏变量模型,涉及对随机值集进行采样,并使用它从具有各自权重的不同组件中采样值 X。然而,问题在于只观察到 X 值而隐藏了 Z 值。解决方案是使用期望最大化 (EML) 算法,该算法迭代对组件进行随机猜测的过程,为每个点分配软责任,将分布拟合到数据子集,并在给定的情况下推断设定值的分布X 值。通过这个迭代过程,算法可以估计模型参数并最大化数据的可能性。
slides: https://mlvu.github.io/lectures/42.ProbabilisticModels2.annotated.pdfcourse materials: https://mlvu.github.ioWe return to the subject of probability,...
ChatGPT 是如何训练的
ChatGPT 是如何训练的
ChatGPT 是一种旨在模仿人类对话的机器学习系统。它首先使用依赖于大量非结构化文本数据的生成式预训练方法进行训练,然后使用强化学习进行微调以更好地适应用户的偏好。
生成人工智能的真正潜力
生成人工智能的真正潜力
通过帮助开发人员进行原型设计、评估和定制,生成式 AI 有可能彻底改变产品的创建方式。然而,该技术仍处于早期阶段,需要进行更多研究以确保其使用合乎道德且安全。
Vrije Universiteit Amsterdam Machine Learning 2019 - 1 机器学习简介 (MLVU2019)
Vrije Universiteit Amsterdam Machine Learning 2019 - 1 机器学习简介 (MLVU2019)
该视频介绍了机器学习并涵盖了与之相关的各种主题。讲师解释了如何为课程做准备,并解决了人们对机器学习令人生畏的普遍担忧。他介绍了不同类型的机器学习,并将其与传统的基于规则的编程区分开来。该视频还涵盖了监督学习的基础知识,并提供了机器学习如何用于分类和回归问题的示例。还解释了特征空间、损失函数和残差的概念。
视频的第二部分介绍了机器学习,并解释了其寻找模式和创建准确模型以预测数据集结果的主要目标。演讲者讨论了使用特定算法和数据拆分以避免过度拟合和实现泛化的重要性。他还介绍了密度估计的概念及其对复杂数据的困难。演讲者阐明了机器学习与其他领域的区别,并提到了一种分解大数据集以做出准确预测的策略。该视频还提到随着深度学习的发展,从事机器学习工作的人有所增加,并为初学者提供了该领域的入门技巧。
2 线性模型1:超平面、随机搜索、梯度下降(MLVU2019)
2 线性模型1:超平面、随机搜索、梯度下降(MLVU2019)
该视频涵盖了线性模型、搜索方法和优化算法的基础知识。对线性模型进行了二维和多维的解释,讨论了通过随机搜索、梯度下降等方法寻找好的模型的过程。解释了机器学习中凸性的重要性,并解决了非凸景观中随机搜索的缺点。该视频还介绍了进化方法和分支搜索作为搜索方法。最后,解释了使用微积分和梯度下降来优化损失函数,包括寻找超平面最速下降方向的过程。
第二部分讨论梯度下降及其在线性模型中的应用,其中算法通过在损失函数的负梯度方向上采取步骤来更新参数。学习率对于确定算法收敛到最小值的速度至关重要,而线性函数使人们无需搜索即可计算出最佳模型。然而,更复杂的模型需要使用梯度下降。该视频还介绍了分类和决策边界,其目标是通过找到一条最佳分离线来将蓝点与红点分开。线性模型的局限性包括它们无法对非线性可分数据集进行分类,但它们的计算成本低廉并且在高维特征空间中运行良好。讲师还预览了将要讨论的未来主题,例如机器学习方法。
3 方法 1:曲线下面积、偏差和方差,没有免费的午餐 (MLVU2019)
3 方法 1:曲线下面积、偏差和方差,没有免费的午餐 (MLVU2019)
该视频介绍了在评估机器学习模型时使用曲线下面积 (AUC) 指标,并介绍了偏差和方差的概念,以及“天下没有免费的午餐”定理。 AUC 指标通过计算 ROC 曲线下的面积来衡量分类模型的性能。此外,还讨论了偏差和方差,因为它们在模型拟合训练数据和推广到新数据方面起着至关重要的作用。此外,“没有免费的午餐”定理强调需要为每个特定问题选择合适的算法,因为没有适用于所有机器学习问题的普遍适用的算法。
该视频涵盖了三个重要的机器学习概念:AUC(曲线下面积)、偏差和方差以及“天下没有免费的午餐”定理。 AUC 是用于评估二元分类模型的指标,而偏差和方差是指模型预测值与数据集中真实值之间的差异。 “没有免费的午餐”定理强调了为给定问题选择合适算法的重要性,因为没有一种算法可以在所有可能的问题和数据集上都表现最佳。
4 方法 2:数据清理、主成分分析、特征脸 (MLVU2019)
4 方法 2:数据清理、主成分分析、特征脸 (MLVU2019)
视频的第一部分涵盖了应用机器学习算法之前数据预处理和清理的各个重要方面,首先是理解数据偏差和偏斜的重要性。演讲者随后讨论了处理缺失数据、离群值、类不平衡、特征选择和规范化的方法。视频接着讨论了基和 MVN 分布的概念,解释了如何使用白化将数据转换为正态分布以进行归一化,最后使用主成分分析 (PCA) 进行降维。从操纵训练集到使用插补方法,PCA 将数据向下投影到较低维空间,同时保留原始数据中的信息。
视频的第二部分讨论了主成分分析 (PCA) 在机器学习的数据清理和降维中的应用。该方法涉及对数据进行均值居中,计算样本协方差,并使用特征分解对其进行分解以获得与捕获最大方差的轴对齐的特征向量。使用前 K 个主成分可以提供良好的数据重建,从而获得更好的机器学习性能。还引入了 Eigenfaces 的概念,PCA 被证明可以有效地将数据压缩到 30 维,同时保留机器学习所需的大部分信息。讨论了 PCA 的各种应用,包括它在人类学和复杂数据集(如 DNA 和面部)研究中的应用。
第 5 讲概率 1:熵、(朴素)贝叶斯、交叉熵损失(MLVU2019)
5 概率 1:熵,(朴素)贝叶斯,交叉熵损失(MLVU2019)
该视频涵盖了概率论的各个方面及其在机器学习中的应用。演讲者介绍了熵,它衡量系统中的不确定性,并解释了它与朴素贝叶斯和交叉熵损失的关系。还讨论了样本空间、事件空间、随机变量和条件概率的概念。贝叶斯定理被解释并被认为是机器学习中的一个基本概念。该视频还涵盖了最大似然估计原理和贝叶斯概率,以及使用无前缀代码来模拟概率分布。最后,演讲者讨论了二元分类的判别分类器与生成分类器,包括朴素贝叶斯分类器。
第二部分解释了使用多元正态分布模型计算属于特定类的新点的概率的概念。它讨论了特征的条件独立性以有效地拟合分类器的概率分布,以及平滑或调整伪观察以处理零实例的需要。演讲者还介绍了熵损失作为线性分类器比准确度更有效的损失函数,并讨论了交叉熵损失函数衡量预测数据和实际数据之间差异的能力,而 sigmoid 函数通过折叠函数的对称性来简化它。最后,视频提示下节课将把 SVM 损失作为最终的损失函数。
第 6 讲线性模型 2:神经网络、反向传播、SVM 和核方法 (MLVU2019)
6 线性模型 2:神经网络、反向传播、SVM 和核方法 (MLVU2019)
线性模型视频的第一部分侧重于将非线性引入线性模型,并探讨了两种依赖于扩展特征空间的模型:神经网络和支持向量机 (SVM)。对于神经网络,演讲者解释了如何使用 sigmoid 或 softmax 等激活函数为回归和分类问题建立网络。然后讲座深入探讨了反向传播,这是一种用于计算神经网络中使用的梯度的方法。对于 SVM,演讲者介绍了最大化每个类的最近点的边距的概念,并演示了如何将其表示为约束优化问题。该视频清楚地介绍了神经网络和 SVM 的原理,建议学生将重点放在讲座的前半部分,作为课程其余部分的起点。
视频的第二部分涵盖了支持向量机 (SVM)、软间隔 SVM、内核技巧以及 SVM 和神经网络之间的区别等主题。引入 soft margin SVM 作为处理非线性可分数据的一种方式,允许将惩罚值添加到不符合分类约束的点。内核技巧允许在更高维空间中计算点积,扩展特征空间以显着提高模型的能力。解释了 SVM 和神经网络之间的差异,并讨论了由于神经网络能够执行更高级类型的分类(即使未完全理解)而转向神经网络。
深度学习 1:张量的反向传播,卷积神经网络 (MLVU2019)
7 深度学习 1:张量的反向传播,卷积神经网络 (MLVU2019)
关于深度学习和反向传播的视频的第一部分涵盖了几个主题,包括深度学习框架的基础知识、张量、反向传播算法和梯度消失问题。演讲者解释了如何使用一系列线性代数运算来实现神经网络,以及如何使用反向传播算法将模型定义为函数的组合。该视频还介绍了如何使用矩阵运算计算导数,并探讨了梯度消失问题的解决方案,例如权重初始化和使用 ReLU 作为激活函数。最后,该视频介绍了小批量梯度下降和可用于复杂神经网络的各种优化器。
第二部分涵盖了与深度学习相关的一系列主题,包括优化算法和正则化技术。 Adam 优化被解释为深度学习的流行算法,而 L1 和 L2 正则化被探索为防止过度拟合的方法。还讨论了神经网络在图像处理中的潜力,重点介绍了卷积神经网络作为图像识别任务的强大工具。该视频还深入探讨了这些网络的工作原理以及它们如何构建识别复杂图像的特征,以及端到端学习的概念作为克服将多个模块链接在一起的局限性的一种方式。
8 概率 2:最大似然、高斯混合模型和期望最大化(MLVU2019)
8 概率 2:最大似然、高斯混合模型和期望最大化(MLVU2019)
视频的这一部分主要介绍使用最大似然估计、正态分布、高斯混合模型和期望最大化算法进行密度估计的概率模型。讲者解释了最大似然原理,并展示了它在选择最佳概率模型方面的应用。他们探索了正态分布,解释了概率函数和概率密度函数之间的区别,并介绍了高斯混合模型。演讲者还讨论了从单变量和多变量正态分布中抽样的方法,以及高斯混合模型如何帮助识别总体中的不同集群。此外,还引入了期望最大化算法以将高斯混合模型拟合到数据集。演讲者还解释了如何使用 Q 函数逼近来形式化期望最大化方法,并证明它收敛到局部最优值。
该视频涵盖了最大似然、高斯混合模型和期望最大化 (EM) 等主题。演讲者解释了 EM 算法、其证明及其收敛的原因。他们还讨论了 M 步,他们通过选择 theta 来最大化 L,同时保持 Q 不变。将高斯混合模型拟合到数据需要使用 EM 算法,演讲者解释了它的应用,例如聚类和探索性分析,以及如何通过将高斯混合模型拟合到每个类来将其用于分类。该视频还提到了即将进行的关于将概率模型拟合到复杂神经网络的讲座。