机器学习和神经网络 - 页 58

 

12.3 受限玻尔兹曼机



第 12.3 讲 — 受限玻尔兹曼机 [机器学习的神经网络]

玻尔兹曼机具有简化的架构,隐藏单元之间没有连接,这使得在可见单元被钳制时很容易计算隐藏单元的平衡分布。玻尔兹曼机的学习算法速度很慢,但 1998 年发现了一条捷径,导致了受限玻尔兹曼机 (RBM) 的高效学习算法。 RBM 的连通性受限,只有一层隐藏单元,隐藏单元或可见单元之间没有连接。 RBM 架构是一个二分图,每个单元都有独立的计算。

快捷方式允许并行快速计算可见和隐藏单元之间连接的预期值。 2008 年推出的 RBM 学习算法涉及在可见单元上固定数据向量,计算连接的预期值,并在小批量数据向量上对它们进行平均。在负面阶段,幻想粒子(全局配置)用于更新每个粒子几次,并且连接的期望值在幻想粒子上平均。该算法为二进制向量建立了良好的密度模型。

另一种 RBM 学习算法速度更快,但在构建密度模型方面效率不高。它涉及在可见单元和隐藏单元之间运行交替更新链。学习规则根据链开头和结尾处连接的期望值之间的差异来更新权重。无需长时间运行链条即可达到热平衡;即使是短链也会产生有效的学习。

这条捷径之所以奏效,是因为马尔可夫链偏离了数据,走向了均衡分布。通过改变权重以降低重建的概率并提高一步后数据的概率,链不再偏离数据。当数据和重建具有相同的分布时,学习停止。修改全局配置空间中的能量面以在学习期间在数据点处创建能量最小值。

但是,对于远离数据的区域,快捷方式会失败。持久粒子可以记住它们的状态并进行额外的更新,可以帮助解决这个问题。速度和正确性之间的折衷是从小权重开始,随着权重的增加使用具有几个步骤(CD-1、CD-3、CD-5 等)的对比散度 (CD)。即使马尔可夫链的混合率降低,这种方法也能保持有效的学习。

使用这种方法,受限玻尔兹曼机 (RBM) 的学习算法在速度和准确性之间取得了平衡。它从小权重开始,随着权重逐渐增加,使用具有少量步数的对比散度 (CD),例如 CD-1。这种策略确保即使在马尔可夫链的混合速率减慢时,学习过程也能继续合理地工作。

重要的是要考虑模型偏爱但远离任何实际数据点的数据空间区域。这些区域被称为低能空穴,可能会导致归一化项出现问题。为了解决这个问题,可以采用一种称为持久粒子的技术。持久性粒子保留其状态并在每次权重更新后进行额外更新。通过这样做,他们可以探索并最终填补这些低能量空洞,从而提高模型的性能。

RBM 学习算法使用捷径和各种技术,例如具有不同步数的 CD 和使用持久粒子,允许有效学习和构建二进制向量集的有效密度模型。虽然捷径偏离了最大似然学习并且具有理论局限性,但它已被证明在实践中运作良好,导致人们对玻尔兹曼机器学习的兴趣重新燃起。

 

第 12.4 讲——RBM 学习的一个例子



第 12.4 讲——RBM 学习的一个例子 [机器学习的神经网络]

在本视频中,我们将演示一个简单的受限玻尔兹曼机 (RBM) 学习手写二进制模型的示例。训练模型后,我们将评估其重构二进制数的能力,并观察其在给定不同数字进行重构时的行为。此外,我们将检查通过在所有数字类上训练更大的 RBM 获得的权重,它学习了广泛的特征,这些特征可有效地重建和建模各种数字类。

此示例中使用的 RBM 具有 16x16 像素图像和 50 个用作特征检测器的二进制隐藏单元。当出现数据案例时,RBM 使用权重和从像素到特征检测器的连接激活特征检测器。每个二元神经元随机决定采用状态 1 或 0。然后 RBM 使用这些激活通过为每个像素做出二元决策来重建数据。通过在数据处理期间增加活动像素和活动特征检测器之间的权重,并在重建期间减少权重来更新权重。

最初,权重是随机的,重建的能量低于数据。通过对数百个数字示例的训练和权重调整,权重逐渐形成模式。许多特征检测器从全局检测器开始,随着训练的进行变得更加本地化。最终的权重表明每个神经元都变成了一个不同的特征检测器,大多数检测器本质上都是局部的。例如,特征检测器可以通过在出现二分之一的顶部时激活其白色像素并在不存在时激活其黑色像素来检测二分之一的顶部。

学习模型后,我们可以评估其重建能力。当给定两个测试示例时,重建通常是忠实的,尽管有点模糊。但是,如果我们提供来自不同数字类别(例如三)的测试示例,则 RBM 会重建一个类似于二而不是三的图像。出现此行为是因为 RBM 主要学习了特定于 twos 的特征检测器,并且缺少针对其他数字的某些特征的检测器。

此外,我们展示了在所有十个数字类别上训练的更大 RBM 的第一个隐藏层中学习的特征检测器。这些特征检测器展示了各种各样的模式。有些检测斜线等特定特征,而另一些则捕获数据标准化引入的远程或空间规律性。总的来说,RBM 展示了其学习复杂方式来表示和检测输入数据中特征的能力。

此外,我想指出本演示中使用的 RBM 由 500 个隐藏单元组成,使其能够对所有十个数字类别进行建模。该模型使用一种称为对比散度的技术进行了广泛的训练。结果,它获得了一组不同的特征检测器。

检查隐藏层中的特征检测器,我们观察到有趣的模式。例如,有一个由蓝色框表示的特征检测器,它似乎适合检测对角线的存在。另一方面,红色框中的特征检测器表现出独特的特征。它更喜欢激活非常靠近图像底部的像素,而不喜欢位于底部上方 21 个像素的特定行中的像素。此行为源于数据的规范化,其中数字不能超过 20 像素的高度。因此,在正权重区域中激活的像素不能同时在负权重区域中激活,从而导致学习这种长程规律性。

此外,绿色框中突出显示的另一个特征检测器展示了一个有趣的属性。它检测垂直笔划的底部位置,并且可以在多个位置检测它,同时忽略中间位置。此行为类似于二进制数中的最低有效位,随着数字的大小增加,它在活动和非活动之间交替。它展示了 RBM 开发空间关系和位置的复杂表示的能力。

这些示例说明了 RBM 从输入数据中学习和提取有意义特征的能力。通过在学习过程中调整权重,RBM 旨在使数据具有低能量,同时为重建保持较高的能量。这种学习机制使 RBM 能够有效地建模和重建数字图像,在其学习表示中捕获数字的全局和局部特征。

 

第 12.5 讲——用于协同过滤的 RBM



第 12.5 讲——用于协同过滤的 RBM [机器学习的神经网络]

在本视频中,我们将讨论受限玻尔兹曼机 (RBM) 在协同过滤中的应用,特别是在 Netflix 竞赛的背景下。协同过滤涉及根据用户对其他产品的偏好以及其他用户的偏好来预测用户对产品的喜爱程度。 Netflix 竞赛要求参与者根据用户对其他电影的评分来预测用户对一部电影的喜爱程度。

本次比赛的训练数据由一个大型数据集组成,该数据集包含 50 万用户对 18000 部电影的 1 亿级评分。为了解决大多数电影缺少评级的挑战,在使用 RBM 时采用了一个重要的技巧。通过利用这个技巧,可以有效地训练模型并在实践中证明是有用的,正如比赛中获胜的参赛作品所证明的那样。

使用 RBM 进行协同过滤的方法涉及将每个用户视为一个训练案例,其中每个用户都表示为电影评级的向量。对于每部电影,使用具有五个可选值的可见单元(五向 softmax)代替二进制单元。 RBM 架构由表示电影的可见单元和二进制隐藏单元组成。 RBM 在评价同一部电影的用户之间共享权重,允许共享权重并减少参数数量。 CD(对比发散)学习用于训练 RBM,最初使用 CD1,然后使用 CD3、CD5 和 CD9。

RBM 模型的性能与协同过滤中常用的矩阵分解方法相当。但是,它们会产生不同的错误。将 RBM 的预测与矩阵分解模型的预测相结合,可以带来显着的改进。 Netflix 竞赛的获胜组在其集成中使用了多个 RBM 模型和矩阵分解模型来实现更好的预测。

总之,受限玻尔兹曼机 (RBM) 在 Netflix 竞赛的协同过滤中的应用涉及将每个用户视为训练案例,使用具有代表电影的可见单元和二进制隐藏单元的 RBM。通过利用对同一部电影进行评分的用户之间的权重共享,RBM 可以有效地处理大型数据集。

RBM 使用 CD 学习进行训练,迭代 CD1、CD3、CD5 和 CD9,它们的性能类似于协同过滤中常用的矩阵分解模型。然而,RBM 和矩阵分解模型的结合导致了预测的显着改进。 Netflix 竞赛的获奖作品在其集成中采用了多个 RBM 模型和矩阵分解模型,展示了这种方法的有效性。

RBM 在协同过滤中的使用证明了它们处理大型和稀疏数据集的能力,例如具有数百万评级的 Netflix 数据集。通过对用户和电影之间的关系进行建模,RBM 为进行准确预测和改进推荐系统提供了强大的工具。

RBM 在协同过滤中的成功应用展示了它们在机器学习和推荐系统领域的实用性,并突出了利用集成方法进一步提高预测准确性的潜力。

 

第 13.1 讲——反向传播的起起落落



第 13.1 讲——反向传播的起起落落 [机器学习的神经网络]

该视频讨论了反向传播的历史,强调了它在 1970 年代和 80 年代的起源,以及它在 1990 年代失宠的原因。它挑战了反向传播由于无法处理多层非线性特征而失败的普遍看法。相反,它被放弃的主要原因是当时有限的计算能力和小数据集。

反向传播由不同的研究人员多次独立发明,包括 60 年代后期的 Bryson 和 Ho,1974 年的 Paul Wallace,1981 年的 Rama Hart 和 Williams,1985 年的 David Parker 和 Youngocar。最初,它在某些任务上效果不佳,导致研究人员放弃它。然而,在 1986 年,一篇论文展示了它学习多层非线性特征检测器的潜力。

到 20 世纪 90 年代后期,大多数机器学习研究人员已经放弃了反向传播,转而支持向量机 (SVM)。流行的解释是反向传播与多个隐藏层和循环网络作斗争。然而,从历史的角度来看,其失败的真正原因是有限的计算能力和小的标记数据集,这使得反向传播无法在视觉和语音等复杂任务中大放异彩。

不同类型的机器学习任务有不同的要求。在统计学中,带有噪声的低维数据需要将真实结构与噪声分开。贝叶斯神经网络可以很好地处理这个问题,而反向传播等非贝叶斯神经网络则效果不佳。支持向量机和高斯过程更适合此类任务。在人工智能中,具有复杂结构的高维数据需要找到合适的表示,反向传播可以利用多层和充足的计算能力来学习。

讨论了支持向量机的局限性,指出它们被视为具有内核技巧的感知器的扩展。它们依赖于非自适应特征和一层自适应权重。虽然它们工作得很好,但它们无法学习多层表示。该视频还简要提到了 1995 年的一份历史文件,Larry Jackel 和 Vladimir Vapnik 就反向传播训练的大型神经网络的理论理解和未来使用打赌。最终,赌注的双方都被证明是错误的,因为限制是实际的而不是理论上的。

反向传播在 1990 年代的失败可以归因于计算能力和小数据集的限制,而不是其固有的能力。它仍然具有执行复杂任务的潜力,并最终在更大的数据集和更强大的计算机可用时取得成功。该视频强调了在选择合适的算法时考虑不同机器学习任务及其具体要求的重要性。

 

13.2 信念网



第 13.2 讲 — 信念网 [机器学习的神经网络]

我在 1990 年代放弃了反向传播,因为它依赖于当时稀缺的大量标签。然而,我受到了几乎没有明确标签的学习成功的启发。为了在不需要大量标签的情况下保留梯度下降学习的好处,我探索了替代目标函数。旨在对输入数据建模而不是预测标签的生成模型非常符合这种追求。图模型是一种将离散图结构与实值计算相结合的概念,已成为统计学和人工智能中一种很有前途的方法。虽然玻尔兹曼机是无向图模型的早期示例,但在 1992 年,布拉德福德尼尔引入了称为 sigmoid 信念网的有向图模型,使用与玻尔兹曼机类似的单元。接下来的挑战变成了如何学习这些 sigmoid 信念网。

学习 sigmoid belief Nets 遇到了多个问题。具有多个隐藏层的深度网络学习缓慢。人们发现,糟糕的权重初始化导致了这个问题。反向传播也往往会陷入次优的局部最优,这虽然相当不错,但对于深度网络来说远非最优。虽然退回到允许凸优化的更简单模型是可能的,但它并没有解决现实世界数据的复杂性。为了克服这些限制,无监督学习成为一种解决方案。通过使用无监督学习,我们可以利用梯度方法和随机小批量下降的效率和简单性来进行权重调整。然而,重点转移到模拟感觉输入的结构而不是输入-输出关系。将调整权重以最大化生成模型产生观察到的感官输入的概率。

出现了两个主要问题:推理问题和学习问题。推理问题涉及推断未观察到的变量的状态,旨在推导这些变量的概率分布,前提是它们不是彼此独立的。学习问题涉及调整变量之间的相互作用,使网络更有可能生成训练数据。它需要确定哪些节点影响了其他节点以及它们的影响强度。

图模型和神经网络的结合具有独特的动力。早期的图模型依赖于专家定义的图结构和条件概率,旨在解决推理问题。另一方面,神经网络优先学习并避免手工接线知识。尽管神经网络缺乏易于推理的可解释性和稀疏连接性,但它们具有从训练数据中学习的优势。然而,开发了信念网的神经网络版本。在使用理想化神经元构建生成模型时,出现了两种类型:基于能量的模型和因果模型。基于能量的模型利用二进制随机神经元之间的对称连接,从而产生玻尔兹曼机。虽然学习玻尔兹曼机被证明具有挑战性,但限制连接性使受限玻尔兹曼机的学习变得更容易。然而,这种方法限制了具有多个隐藏层的神经网络的能力。采用具有二元随机神经元的有向无环图的因果模型产生了 S 型信念网。 1992 年,Neil 证明与玻尔兹曼机相比,S 型信念网更容易学习。在 sigmoid belief Net 中,所有变量都是二元随机神经元,数据生成涉及逐层做出随机决策,最终产生可见值的无偏样本。

通过采用因果模型或混合方法,我们可以克服反向传播的局限性,并利用无监督学习有效地模拟感官输入的结构。

在深入研究由神经元构成的因果信念网之前,有必要提供一些有关人工智能 (AI) 与概率之间关系的背景知识。在 1970 年代和 80 年代初期,AI 社区对概率存在强烈抵制。概率被认为是不利的,人工智能研究人员更喜欢不包含概率元素的离散符号处理。然而,一个值得注意的例外是约翰·冯·诺依曼,他认识到形式逻辑与热力学之间存在联系的可能性,尤其是玻尔兹曼的工作。不幸的是,冯·诺依曼的思想在他有生之年并没有得到重视。

最终,通过结合图论和概率论的图模型的发展,概率找到了进入人工智能的途径。在 20 世纪 80 年代,人工智能研究人员正在研究涉及不确定性的实际问题,例如医学诊断或矿物勘探。尽管有人厌恶概率,但很明显,使用概率比临时方法更有效。由 Perl Hackerman Lauritzen 等人引入的图形模型提供了一个框架,用于表示不确定性和基于图形结构进行概率计算。

图模型包含各种类型的模型,其中一个子集是信念网。信念网是由随机变量组成的有向无环图。这些图通常具有稀疏连接的节点,并允许使用有效的推理算法来计算未观察到的节点的概率。然而,当应用于密集连接的网络时,这些算法变得呈指数级复杂。

信念网用作生成模型,其推理问题涉及确定未观察到的变量的状态,从而导致这些变量的概率分布。学习问题侧重于调整变量之间的相互作用以增加生成观察到的训练数据的可能性。

在神经网络的背景下,图形模型和神经网络之间存在联系。早期的图模型依赖于专家定义的图结构和条件概率,主要解决推理问题。另一方面,神经网络强调从训练数据中学习,避免手工知识。虽然神经网络缺乏可解释性和稀疏连接性,但它们通过学习提供了适应性优势。

要构建具有理想化神经元的生成模型,可以考虑两种主要类型。基于能量的模型,例如玻尔兹曼机,对称地连接二元随机神经元。然而,学习玻尔兹曼机具有挑战性。另一种选择是因果模型,它利用由二元随机神经元组成的有向无环图。 1992 年,Neil 引入了 sigmoid belief Nets,它比 Boltzmann 机器更容易学习。 Sigmoid 信念网是所有变量都是二元随机神经元的因果模型。

为了从像 S 型信念网这样的因果模型生成数据,随机决策是逐层做出的,从顶层开始向下层叠到可见的效果。这个过程根据神经网络的信念产生一个无偏的可见值样本。

通过采用无监督学习并利用因果模型或混合方法,可以克服反向传播的局限性并利用无监督学习的力量有效地模拟感官输入的结构。这些进步为解决深度神经网络带来的挑战提供了一条有前途的途径,并为更复杂、更高效的学习算法铺平了道路。

总之,对信念网及其与神经网络的联系的探索为人工智能和概率建模开辟了新的可能性。人工智能最初对概率的抵制已经被克服,图形模型已经成为表示不确定性和进行概率计算的强大框架。

与玻尔兹曼机等基于能量的模型相比,信念网,特别是 sigmoid 信念网,提供了一种生成建模的替代方法。通过利用有向无环图和二元随机神经元,S 型信念网提供了一种更有效地生成数据和从训练集中学习的方法。

无监督学习与因果模型或混合方法的集成有可能解决深度神经网络中反向传播的局限性。通过对感官输入的结构进行建模并最大化观测数据的概率,这些方法提供了一种在捕获现实世界数据的复杂性的同时利用梯度方法的效率和简单性的方法。

AI 的发展和概率的接受重塑了该领域,使研究人员能够开发更强大和适应性更强的模型。随着旅程的继续,概率建模、神经网络和无监督学习的进一步发展可能会出现,从而导致更复杂和智能的人工智能系统。

通过结合图形模型和神经网络的优势,研究人员可以继续突破人工智能的界限,为复杂和不确定的环境中的理解、学习和决策开辟新的可能性。

 

第 13.3 讲——学习 sigmoid 信念网



第 13.3 讲——学习 sigmoid 信念网 [机器学习神经网络]

该视频讨论了学习 S 型信念网的挑战,并介绍了两种不同的方法来应对这些挑战。与玻尔兹曼机不同,S 形信念网不需要两个不同的学习阶段,从而使过程更简单。它们是局部归一化模型,无需处理配分函数及其导数。

如果我们可以从给定观测数据的隐藏单元的后验分布中获得无偏样本,则在 sigmoid 信念网络中学习会变得容易。然而,由于影响后验分布的称为“解释”的现象,很难获得无偏样本。这种现象是由于观察到的效果发生时隐藏原因之间的反相关引起的。

在具有多层隐藏变量的深度 sigmoid 信念网络中学习变得更具挑战性。第一层隐藏变量的后验分布由于解释不当而不是阶乘的,并且隐藏变量之间的相关性存在于先验和后验中。计算第一层的先验项需要整合更高层中所有可能的活动模式,这使得学习过程变得复杂。

讨论了两种学习深度信念网络的方法:蒙特卡洛方法和变分方法。蒙特卡洛方法涉及运行马尔可夫链来近似后验分布并获取样本。然而,对于大型深度信念网来说,它可能会很慢。另一方面,变分方法旨在从近似后验的不同分布中获得近似样本。尽管并非无偏,但这些样本仍可用于最大似然学习,并且通过提高对数概率的下限,可以改进数据建模。

在 S 型信念网络中学习会带来挑战,尤其是在深度网络中,但蒙特卡洛方法和变分方法提供了解决这些困难并使学习可行的方法。

 

13.4 唤醒睡眠算法



第 13.4 讲 — 唤醒睡眠算法 [机器学习的神经网络]

唤醒-睡眠算法是一种用于有向图模型(如 S 型信念网)的学习方法。它由两个阶段组成:清醒阶段和睡眠阶段。与用于无向图形模型的玻尔兹曼机不同,wake-sleep 算法是专门为 sigmoid 信念网设计的。

该算法是变分学习的一部分,变分学习是一种近似后验分布以学习复杂图形模型的机器学习方法。变分学习不是计算通常很困难的精确后验分布,而是用更便宜的近似值来近似它。然后,基于该近似应用最大似然学习。

令人惊讶的是,在两个因素的驱动下,学习过程仍然有效地工作:提高模型生成观察数据的能力以及将近似后验拟合到真实后验。这种效应使变分学习能够很好地用于 S 型信念网。

唤醒睡眠算法使用两组权重:生成权重和识别权重。在唤醒阶段,数据被馈送到可见层,并使用识别权重执行前向传递。对每个隐藏单元独立进行随机二元决策,生成随机二元状态。这些状态被视为真实后验分布的样本,并将最大似然学习应用于生成权重。

在睡眠阶段,过程相反。从顶部隐藏层中的随机向量开始,使用生成权重为每一层生成二进制状态。目标是从数据中恢复隐藏状态。训练识别权重来实现这一点。

wake-sleep 算法存在缺陷,例如识别权重没有遵循正确的梯度和由于独立近似导致的不正确的模式平均。尽管有这些限制,一些研究人员,如卡尔弗里斯顿,认为它类似于大脑的工作方式。然而,其他人认为将来会发现更好的算法。

唤醒-睡眠算法近似后验分布并在唤醒和睡眠阶段之间交替以学习生成模型。尽管存在局限性,但它在机器学习领域一直具有影响力。

 

第 14.1 讲——通过堆叠 RBM 学习特征层



第 14.1 讲——通过堆叠 RBM 学习特征层 [机器学习神经网络]

在此视频中,演讲者讨论了学习 S 型信念网的不同方法。他们解释说,在研究 s 型信念网时,他们将注意力转移到了玻尔兹曼机上,并发现可以有效地学习限制性玻尔兹曼机。他们意识到,通过将限制性玻尔兹曼机学习到的特征视为数据,他们可以应用另一个限制性玻尔兹曼机来模拟这些特征之间的相关性。这导致了堆叠多个玻尔兹曼机来学习多层非线性特征的想法,这引发了人们对深度神经网络的兴趣的复苏。

然后,演讲者探讨了将堆叠的玻尔兹曼机组合成一个模型的挑战。虽然人们会期待多层玻尔兹曼机,但一位名叫 Yitay 的学生发现结果更类似于 S 型信念网。这一意想不到的发现通过专注于学习玻尔兹曼机等无向模型解决了学习深度 sigmoid 信念网的问题。

演讲者描述了训练一层直接从像素接收输入的特征,并使用这些特征的激活模式来学习另一层特征的过程。可以重复此过程以学习多个层,每个层都对下面层中的相关活动进行建模。事实证明,添加另一层特征可以提高生成数据的对数概率的变分下界。

为了将玻尔兹曼机组合成一个模型,演讲者解释了单独学习每台机器然后将它们组合在一起的过程。由此产生的组合模型称为深度信念网,它由类似于限制性玻尔兹曼机的顶层和类似于 S 型信念网的底层组成。演讲者还讨论了堆叠玻尔兹曼机的好处,并解释了平均阶乘分布的概念。他们展示了如何平均两个阶乘分布不会导致阶乘分布。该视频进一步深入探讨了堆叠玻尔兹曼机的学习过程,并使用唤醒-睡眠算法的变体微调复合模型。这三个学习阶段涉及调整生成和识别权重、对隐藏和可见单元进行采样以及使用对比散度更新权重。

给出了一个示例,其中使用 500 个二进制隐藏单元来学习 28x28 像素图像中的所有十个数字类别。在训练 RBM 之后,学习到的特征用于识别和生成任务。

该视频重点介绍了使用堆叠玻尔兹曼机学习深度信念网的意外发现,并提供了对所涉及的学习和微调过程的见解。

 

第 14.2 讲——DBN 的判别式学习



第 14.2 讲 — DBN 的判别式学习 [机器学习的神经网络]

在本视频中,我们探索了学习深度信念网络的过程。我们首先堆叠限制性玻尔兹曼机以形成初始层,然后将其视为深度神经网络。我们使用判别方法而不是生成方法对该网络进行微调,旨在提高其区分类别的能力。这种方法对语音识别产生了重大影响,导致许多领导小组采用深度神经网络来降低该领域的错误率。

为了微调深度网络,我们遵循预训练阶段,在该阶段我们使用堆叠限制性玻尔兹曼机一次学习一层特征。这个预训练阶段为深度神经网络提供了一组很好的初始权重。然后,我们采用反向传播(一种本地搜索程序)来进一步完善和优化网络以进行区分。这种预训练和微调的结合克服了传统反向传播的局限性,使得学习深度神经网络更加容易,提高了泛化能力。

预训练在优化和泛化方面提供了好处。它适用于大型网络,尤其是当每一层都展示局部性时。学习过程变得更加并行化,因为相隔很远的位置之间的交互更少。此外,预训练允许我们使用明智的特征检测器开始反向传播,从而产生比随机权重更有意义的初始梯度。此外,预训练网络表现出较少的过度拟合,因为最终权重中的大部分信息来自对输入分布的建模,输入分布通常包含比标签本身更多的信息。

预训练的使用也解决了一个反对意见,即它可能导致学习与手头的判别任务无关的特征。虽然我们确实可以学习从未使用过的特征,但现代计算机的计算能力使我们能够承受这种低效率。在学习到的特征中,总会有一些非常有用,超越原始输入并补偿未使用的特征。此外,预训练减少了反向传播发现新特征的负担,减少了对大量标记数据的需求。未标记的数据对于在预训练阶段发现好的特征仍然很有价值。

为了说明预训练和微调的有效性,该视频讨论了 MNIST 数据集的建模。以完全无监督的方式学习三个隐藏层的特征,从不同类别生成逼真的数字。为了评估这些特征对区分的有用性,添加了最后的十向 softmax 层,并使用反向传播进行微调。结果显示,与纯判别式训练相比,性能有所提高,尤其是在标准反向传播难以实现低错误率的排列不变任务上。

各种实验证明了预训练的好处。当使用一堆玻尔兹曼机进行预训练和微调时,排列不变 MNIST 任务的错误率可以降低到 1.0%。通过直接在预训练的玻尔兹曼机之上添加一个 10-way softmax 层,通过一些调整可以将错误率进一步提高到 1.15%。 Micro Yerin 的工作以及 Yan LeCun 的小组表明,预训练在更多数据和更好的先验条件下特别有效。他们的实验涉及额外的失真数字图像和卷积神经网络,错误率低至 0.39%,创下了语音识别的新记录。

这种预训练和微调深度神经网络的进展对语音识别产生了重大影响,导致该领域的改进。包括 Microsoft Research 在内的许多研究人员和团体已经将深度神经网络用于语音识别任务,并引用了这种方法所取得的成功和进步。

预训练和微调深度神经网络的成功激发了人们对神经网络在语音识别之外的各种应用的新兴趣。研究人员已经开始探索深度神经网络在计算机视觉、自然语言处理和其他领域的潜力。预训练和微调的结合已被证明是学习层次表示和提高神经网络性能的强大技术。

预训练有效的原因之一是它有助于克服传统反向传播的局限性,尤其是在处理深度网络时。具有许多层的深层网络可能会遇到梯度消失问题,其中梯度随着层的传播而减小,这使得有效训练网络变得具有挑战性。通过逐层预训练网络并根据学习到的特征初始化权重,我们为反向传播提供了一个良好的起点,从而实现更有效的优化。

预训练的另一个优点是它有助于捕获输入数据的有意义和层次化的表示。随着我们深入网络,网络层学习越来越复杂和抽象的特征。这种分层表示允许网络提取对区分有用的高级特征。通过预训练网络对输入向量的分布进行建模,我们确保学习到的特征能够捕获数据中的重要模式和变化,这有助于提高网络的泛化性能。

生成式预训练和判别式微调的结合已成为深度学习中的流行范式。它利用无监督学习的优势来学习有用的初始特征,然后使用标记数据针对特定的判别任务微调这些特征。这种方法已被证明在各种应用中是成功的,并导致了性能上的突破。

随着深度学习领域的不断发展,研究人员不断探索新的技术和架构,以提高深度神经网络的训练和性能。预训练和微调的成功为其他领域的进步铺平了道路,例如迁移学习,预训练模型被用作新任务的起点,以及自监督学习,模型从中学习通过预测数据的某些方面来处理未标记的数据。

总之,预训练和微调的结合彻底改变了深度学习领域。通过利用无监督学习来学习初始特征,然后使用监督学习改进这些特征,深度神经网络可以获得更好的性能和泛化能力。这种方法对各种应用产生了重大影响,包括语音识别、计算机视觉和自然语言处理,并继续推动深度学习领域的进步。

 

第 14.3 讲——判别微调



第 14.3 讲——判别式微调 [机器学习神经网络]

在本视频中,我们将更深入地研究在使用一堆玻尔兹曼机预训练神经网络后的判别式微调过程。我们观察到,在微调期间,较低层的权重变化很小,但这些小的调整通过准确放置决策边界对网络的分类性能产生重大影响。

与较浅的网络相比,预训练还提高了较深网络的有效性。如果没有预训练,较浅的网络往往会胜过较深的网络。然而,预训练扭转了这种趋势,深度网络表现更好,而没有预训练的浅层网络表现更差。

此外,我们提供了一个令人信服的论据,支持在考虑判别训练之前先进行生成训练。通过比较网络在一组测试用例上的输出并使用 t-SNE 将它们可视化,我们观察到两个不同的类别:顶部没有预训练的网络和底部有预训练的网络。每个类别中的网络都表现出相似性,但两个类别之间没有重叠。

与从小的随机权重开始相比,预训练允许网络发现定性不同的解决方案。通过生成式预训练找到的解决方案导致功能空间中的不同区域,而没有预训练的网络表现出更大的可变性。

最后,我们讨论了为什么预训练是合理的。在生成图像标签对时,标签更可能依赖于真实世界的对象而不仅仅是图像中的像素。图像传达的信息超过了标签,因为标签包含的信息有限。在这种情况下,首先反转从世界到图像的高带宽路径以恢复根本原因然后确定相应的标签是有意义的。这证明了预训练阶段的合理性,在该阶段学习图像到原因的映射,然后是将原因映射到标签的判别阶段,并可能对图像到原因的映射进行微调。

为了说明预训练的好处,我们检查了 Yoshi Banjo 实验室进行的一个具体实验。实验侧重于生成预训练后的微调。在微调之前,特征检测器的第一个隐藏层中的感受野表现出最小的变化。然而,这些微妙的变化显着有助于改善歧视。

该实验涉及区分大量扭曲数字中的数字。结果表明,与没有预训练的网络相比,经过预训练的网络始终可以实现更低的测试错误,即使在使用具有单个隐藏层的网络时也是如此。当使用更深的网络时,预训练的优势变得更加明显。预训练的深度网络与浅层网络几乎没有重叠,进一步强调了预训练在提高网络性能方面的有效性。

此外,我们探讨了层数对分类错误的影响。在没有预训练的情况下,两层似乎是最佳选择,因为进一步增加层数会导致性能显着下降。相比之下,预训练缓解了这个问题,因为具有四层的网络优于具有两层的网络。减少了误差的变化,提高了整体性能。

为了直观地表示网络在训练期间的权重变化,使用了 t-SNE 可视化。预训练和非预训练网络的权重绘制在同一空间中。生成的图揭示了两个不同的类别:顶部没有预训练的网络和底部有预训练的网络。每个点代表函数空间中的一个模型,轨迹显示训练过程中相似性的进展。没有预训练的网络最终会出现在功能空间的不同区域,这表明解决方案的范围更广。另一方面,经过预训练的网络会收敛到特定区域,表明它们之间的相似性更高。

仅比较权重向量是不够的,因为具有不同权重配置的网络可能表现出相同的行为。相反,网络在测试用例上的输出被连接成向量,并应用 t-SNE 来可视化它们的相似性。 t-SNE 图中的颜色代表不同的训练阶段,进一步说明相似性的进展。

在判别训练之前使用生成训练来预训练神经网络有几个优点。它通过准确放置决策边界来提高分类性能,增强更深层网络的有效性,并在功能空间中提供不同的解决方案。通过考虑从世界到图像的高带宽路径和从世界到标签的低带宽路径,预训练允许在确定标签之前恢复潜在原因。这种两阶段方法证明了在神经网络训练中使用预训练是合理的。