机器学习和神经网络 - 页 63

 

5 家正在塑造 2023 年未来的人工智能公司 |人工智能



5 家正在塑造 2023 年未来的人工智能公司 |人工智能

当我们深入 AI 游戏中最大玩家的世界时,准备好惊叹不已。这些科技巨头取得了突破性的进步,会让您大吃一惊。

让我们从位于英国伦敦的领先人工智能研究实验室 DeepMind 开始。自 2010 年成立并于 2014 年被 Alphabet(前身为 Google)收购以来,DeepMind 在人工智能领域取得了骄人的成绩。他们创造了 AlphaGo,这是第一个击败职业人类围棋棋手的计算机程序。他们通过 AlphaZero 扩展了这一成功,它学会了玩各种游戏,包括国际象棋和将棋,没有人类的例子。他们的进步在 MuZero 中达到顶峰,MuZero 是 AlphaZero 的另一个版本,无需学习规则即可掌握 Atari 游戏。这些成就将 DeepMind 推向了业界认可和钦佩的新高度。

但创始人 Demis Hassabis 并没有就此止步。他接受了预测蛋白质结构的挑战,这是生物学中最具挑战性的领域之一。 DeepMind 的 AlphaFold AI 模型彻底改变了这一领域,在短短几个月内产生了超过 2 亿个蛋白质预测,与过去 50 年产生的 180,000 个预测相比有了显着飞跃。考虑到蛋白质结构的可能结果的天文数字,这一成就确实令人难以置信。 AlphaFold 还加速了药物发现,尤其是在最近的全球危机期间。

DeepMind 还开发了 GATO,这是一种通用人工智能,能够执行范围广泛的任务,从参与对话和玩视频游戏到控制机器人手臂。他们的愿景超越了当前的 AI 能力,旨在开发能够像人类一样推理、计划、学习和交流的系统,如果不能超越它们的话。

转到谷歌,这家公司是人工智能领域的一股强大力量。凭借对研究项目的大量投资以及分散在各个部门的大量 AI 团队,Google 在该领域不断取得突破性进展。 Google Brain 是其著名的 AI 团队之一,于 2017 年开发了 Transformer 模型。该模型是深度学习的游戏规则改变者,在聊天机器人、图像生成器、自动驾驶甚至谷歌的搜索结果中发挥了重要作用。谷歌的人工智能应用无处不在,从谷歌翻译和谷歌地图到垃圾邮件检测和视频生成。

OpenAI 是 AI 领域的另一个主要参与者。 OpenAI 拥有包括埃隆·马斯克 (Elon Musk) 和彼得·泰尔 (Peter Thiel) 在内的一流创始人阵容,发布了令人印象深刻的语言模型,例如 GPT-3,并开发了击败 Dota 2 世界冠军的 AI 代理。他们的项目,例如 Universe 和玩捉迷藏的 AI 代理,展示了紧急行为,并提供了对符合人类价值观的 AGI 系统开发的见解。

微软是一家拥有自己的人工智能实验室的科技巨头,将人工智能应用程序集成到各种产品和服务中。他们在面部识别、虚拟助手和手写到计算机字体转换等领域取得了重大进展。微软与 OpenAI 的合作及其对该公司的 10 亿美元投资进一步表明了他们对 AI 创新的承诺。

荣誉提名授予亚马逊、苹果、特斯拉和英伟达,它们都为人工智能领域做出了重大贡献。亚马逊的人工智能服务,如 Alexa 和个性化产品推荐,已经家喻户晓。 Apple 的 Siri 和面部识别功能、Tesla 的自动驾驶汽车以及 Nvidia 的 GPU 革新了 AI 开发,这些都是显着的成就。

最后,Meta(前身为 Facebook)有一个专门的 AI 分支,Meta AI,由 Yann LeCun 领导。他们对 AI 的应用为 Facebook 和 Instagram 等产品提供了动力,最近还投资了元宇宙。 Meta 正在使用 AI 为元宇宙创建真实世界对象的逼真数字版本。他们还开发了可以将脑电波转化为文字的人工智能模型,为读心技术铺平了道路。

CICERO 是由 Meta 的 AI 实验室开发的令人印象深刻的 AI 代理,已在外交游戏中证明了其战略实力。这款经典的棋盘游戏要求玩家在制定战略以实现目标的同时进行谈判和结成联盟。 CICERO 掌握了游戏的复杂性,并且一直优于人类玩家。

Meta 的人工智能部门在自然语言处理 (NLP) 方面也取得了重大进展。他们开发了最先进的语言模型,为他们平台上的聊天机器人和虚拟助手提供支持。这些模型可以理解并生成类似人类的文本,促进与用户进行更自然、更吸引人的交互。

此外,Meta 一直在积极投资计算机视觉研究。他们的人工智能算法能够识别和理解图像和视频,在增强现实应用中实现自动照片标记和对象识别等功能。 Meta 的目标是增强用户的视觉体验,使他们能够无缝集成物理世界和数字世界。

除了他们的 AI 进步,Meta 还一直在大力投资虚拟和增强现实技术。他们的 Oculus 部门已将虚拟现实体验带入主流,提供身临其境的游戏、社交互动,甚至教育应用程序。 Meta 设想了一个人们可以在虚拟空间中连接和交互的未来,模糊了真实世界和虚拟世界之间的界限。

作为全球最大的社交媒体公司之一,Meta 拥有海量的用户数据。他们利用人工智能技术来分析这些数据并个性化用户体验。从推荐根据个人兴趣量身定制的内容到提供有针对性的广告,Meta 利用 AI 来优化参与度并提高用户满意度。

值得注意的是,虽然 Meta 和其他科技巨头在人工智能领域取得了长足进步,但有关数据隐私、算法偏差和人工智能伦理影响的讨论和担忧仍在持续。这些问题凸显了负责任的 AI 开发和监管的必要性,以确保以有利于整个社会的方式使用该技术。

总之,Meta 与 DeepMind、谷歌、OpenAI、微软和亚马逊等其他主要参与者一起,一直处于 AI 进步的最前沿。通过他们的研究实验室和专业团队,他们开发了尖端技术,例如高级语言模型、计算机视觉系统和虚拟现实体验。尽管这些发展带来了令人兴奋的可能性,但应对道德挑战并确保利用 AI 造福人类至关重要。人工智能的未来拥有巨大的潜力,这些科技巨头将在未来几年继续塑造人工智能的格局。

 

如何使用 ChatGPT 作为强大的编程工具



如何使用 ChatGPT 作为强大的编程工具

在本视频中,我们将探讨 ChatGPT 的功能以及程序员如何使用此工具。虽然 ChatGPT 对许多人来说是一个熟悉的概念,但它本质上是一种允许交互式对话的人工智能技术,类似于与另一个人的对话。虽然它在编程之外还有多种应用,但我们将在本视频中主要关注它的编程方面。具体来说,我们将探讨 ChatGPT 如何帮助我们编写代码、优化代码、解释代码片段、在不同编程语言之间转换、生成项目想法,以及协助完成单元测试和注释代码等繁琐的工作。

关于程序员是否应该依赖像 ChatGPT 这样的工具存在一些争论,因为它们并不总能提供准确的结果。然而,通过这个视频,我们将见证 ChatGPT 的实用性,以及为什么学习如何使用这些工具对我们来说至关重要,这些工具无疑会在未来继续改进。正如在谷歌上有效搜索的能力已成为一项宝贵的技能,与这一波新的人工智能工具进行交互也正在成为一项增强代码开发和生产力的基本技能。

现在,让我们深入探讨ChatGPT的实际应用。首先,我在浏览器中打开了一个 ChatGPT 实例。如果您以前没有使用过它,可以直接上手。只需访问他们的网站,创建一个帐户,就可以开始了。我将在下面的描述部分提供指向他们页面的链接,您可以在其中访问此工具。虽然提供免费版本,但也有提供额外好处的付费版本,您可以在他们的网站上了解这些信息。目前,我使用的是付费版本,这让我可以获得更多正常运行时间和最新版本 ChatGPT-4。但是,我也使用 ChatGPT-3 测试了教程,我没有观察到输出有显着差异。

在与 ChatGPT 交互时,我们可以像在与另一个人交谈一样进行交流。不涉及特定查询或预定义格式。例如,如果我们想完成一个简单的任务,比如从 1 循环到 10 并打印每个数字,我们可以很自然地表达出来。我将通过请求 ChatGPT 编写满足我们要求的 Python 脚本来证明这一点。让我们运行它并观察输出。

正如我们所见,ChatGPT 需要一些时间来处理请求,但最终它会生成所需的 Python 脚本。输出包括 for 循环和 print 语句,并附有解释性细节。此功能使 ChatGPT 成为出色的学习工具。它不仅提供了可以轻松复制的代码,而且还为编程新手解释了功能。它阐明了范围函数的使用,甚至强调了停止值是唯一的,生成从 1 到 10 而不是 1 到 11 的数字。这种用通俗易懂的语言传达我们的需求并在解释其功能的同时接收相应代码的能力很有价值.

但是,上面提到的示例非常简单。 ChatGPT 可以处理更复杂的代码请求。例如,假设我们要编写一个脚本来接受用户输入的密码,使用盐对密码进行哈希处理,然后打印哈希后的密码。对于不熟悉该概念的人,此任务可能需要研究和努力。让我们看看 ChatGPT 是否可以通过编写代码来帮助我们。我将提供提示并运行它以获得输出。

检查生成的代码后,我们可以看到 ChatGPT 合并了 Python 标准库的 hashlib 模块。它提供了脚本,演示了如何使用各种算法对密码进行哈希处理,并使用 os.urandom 模块生成盐。对密码进行哈希处理后,它会打印哈希值。

如果我们查看之前转换提示的输出,我们可以看到 Chat GPT 编写了与我们提供的 Python 代码等效的 JavaScript。它甚至包括解释代码每个部分的作用的注释。如果您尝试在编程语言之间切换,或者如果您想了解一段代码如何用不同的语言实现,这将非常有用。

现在让我们探讨聊天 GPT 的另一个用例:为启动项目产生想法。有时我们发现自己陷入了创造性的困境,不确定接下来要从事什么样的项目。在这些情况下,我们可以向 Chat GPT 寻求建议。假设我们要创建一个与旅行相关的 Web 应用程序。我们可以要求 Chat GPT 为我们提供一些关于我们可以包含在项目中的特性或功能的想法。

下面是一个示例提示:您能否旅游相关的 Web 应用程序特性或功能提供一些想法?

运行此提示后,Chat GPT 将生成一个建议列表,例如:

  • 一款根据用户喜好推荐热门旅游景点的行程规划器。
  • 显示实时航班价格和可用性的交互式地图。
  • 一个旅游博客平台,用户可以在这里分享他们的旅游经验和技巧。

这些想法可以作为激发您的项目并帮助您进一步集思广益的起点。

此外,Chat GPT 还可以协助完成程序员经常遇到的一些比较普通的任务。例如,编写单元测试和注释代码是必不可少的,但可能既耗时又重复。我们可以要求 Chat GPT 生成单元测试或向我们的代码添加注释。通过提供明确的说明,例如指定编程语言和我们要测试或评论的功能或代码段,Chat GPT 可以生成所需的输出。

请务必注意,虽然 Chat GPT 是一个强大的工具,但它并不完美。它可能并不总是提供准确或最佳的解决方案,因此审查和验证它生成的代码至关重要。将 Chat GPT 视为一个有用的助手,可以提供建议并节省时间,但始终使用您的判断和知识来确保代码的质量和正确性。

总之,Chat GPT 是一种多功能工具,可以通过多种方式为程序员提供帮助。它可以生成代码、优化现有代码、解释复杂的概念、在不同语言之间转换代码、提供项目想法以及帮助完成日常任务。虽然谨慎使用和批判性思维很重要,但将 Chat GPT 整合到您的开发工作流程中可以提高您的工作效率和解决问题的能力。

 

S3 E9 “AI教父”Geoff Hinton退出谷歌 警告AI风险(主持人:Pieter Abbeel)



S3 E9 “AI教父”Geoff Hinton退出谷歌 警告AI风险(主持人:Pieter Abbeel)

在一次引人入胜的采访中,Pieter Abbeel 采访了人工智能领域的知名人物 Geoff Hinton,他通常被称为“人工智能教父”。 Hinton 的卓越贡献为他赢得了图灵奖,被认为是人工智能领域的诺贝尔奖。最近,Hinton 辞去了在谷歌的职务,表达了对人工智能相关风险的担忧,这是一个重大举措。他现在发现自己后悔自己一生的工作,因为他相信在数字计算机上执行的反向传播可能会超越大脑的学习能力。

Hinton 深入研究了数字系统的独特优势,强调了它们利用并行性并可能超越人脑学习能力的能力。然而,他承认出现了需要我们关注的新挑战——伴随这种“更好的事情”而来的潜在危险。其中一种担忧是“坏演员场景”,其中机器人士兵可能缺乏道德原则并导致毁灭性后果。此外,Hinton 指出了“对齐问题”,其中数字智能可能会开发出无意的子目标,这些子目标被证明对人类有害,例如获得控制的动力。虽然 AI 有可能超越人类智能,但 Hinton 强调需要谨慎和勤勉地管理这些风险。

Abbeel 探讨了下一个词预测模型和带有目标的 AI 模型之间的区别,并指出后者在封闭环境中运行。然而,具有目标的 AI 模型是通过人类强化学习形成的,这使它们与下一个单词预测模型不同。 Abbeel 强调,大型语言模型能够执行多模态任务,例如开门或在抽屉中整理物品,需要的不仅仅是预测能力。尽管有些人可能将这些模型称为“自动完成”,但仅靠下一个单词预测还不足以捕捉对人类思维过程的完整理解。 Hinton 更进一步,断言此类模型甚至可能在未来五年内超越人类智能。他利用 AlphaZero 在国际象棋中的成功来说明这一点,表明如果 AI 对公司和世界有更好的理解,那么它就有可能担任 CEO 的角色,从而做出更好的决策。

讨论包括与人工智能相关的各种风险。 Hinton 强调了使用模型准确预测未来的挑战,因为当实际模型可能遵循指数轨迹时,人们倾向于依赖线性或二次外推。他还谈到了 AI 的偏见问题,表示他相信解决 AI 的偏见比人类更容易,因为我们有能力冻结 AI 并进行实验。 Hinton 提到失业是与 AI 相关的风险,但他并不认为这是停止 AI 开发的理由。相反,他强调了人工智能的巨大好处,强调它如何通过自动驾驶等应用程序拯救生命。

访谈探讨了人工智能在医疗领域的积极影响,例如增强家庭医生的能力以及提供医学扫描的详细信息。 Hinton 提到使用 AI 系统诊断糖尿病性视网膜病变等疾病,其结果可与放射科医生在扫描解释方面的结果相媲美。他断言人工智能有可能彻底改变许多其他领域,例如开发更好的纳米材料和预测蛋白质结构,最终导致各种任务的效率提高。然而,他警告说,人工智能的每一次积极使用都必须通过减轻负面影响的努力来平衡。因此,将同等资源用于开发和解决人工智能的不利后果至关重要。

话题转向了 AI 领域的监管需求。讨论了与人工智能相关的各种威胁,包括偏见、歧视和生存风险。由于 AI 生成的虚假音频和视频内容,焦点转向了真相侵蚀的威胁。对此类生成的材料进行标记,并对以假冒为真进行严厉的法律处罚被认为是必要的措施。然而,执行此类法规会带来重大挑战,因为开发能够检测假货的人工智能系统会无意中训练生成器创建更具说服力的伪造品。采访还探讨了使用加密解决方案将作者签名附加到材料上以确保问责制的想法。

Hinton 对 AI 的潜在接管提出了一个重要的担忧,强调了保持对它的控制的重要性。虽然他之前认为 AI 接管世界还很遥远,但他的信心已经减弱,估计这可能会在未来 5 到 20 年内发生。 Hinton 强调人类需要保持对数字智能的控制。一旦人工智能超越人类智能,它就可以制定自己的目标并有可能主宰世界,这类似于如果青蛙发明了人类可能会发生的情况。为了防止这种情况发生,Hinton 认为应该尽一切努力确保 AI 永远不会达到自我复制的目标,因为进化将有利于最坚定的自我复制实体。

讨论通过数字智能之间的竞争深入探讨了 AI 进化的概念,这可能会导致进化的新阶段。 Hinton 强调了人工智能作为一种纯粹的咨询工具的重要性,它没有设定自己目标的能力。他强调人类和人工智能之间的“气隙”不足以防止操纵,因为智能机器仍然可以施加影响并操纵个人以服务于他们自己的利益。因此,必须仔细注意人工智能的固有目的和目标,以确保它不会对人类构成风险。

Abbeel 和 Hinton 探索了 AI 变得自主的可能性,其中 AI 顾问可以从为人类做决定转变为为自己做决定。这种情况可能导致机器冒险进入遥远的太阳系,将人类抛在后面。他们还讨论了 AI 超越人类智能的潜力,以及 Elon Musk 希望留住人类以增加生活趣味的愿望。 Hinton 进一步讨论了增强人类通信带宽的潜力,例如通过汽车中的视频显示,以及数字进化如何超越生物进化。

Hinton 深入探讨了数字智能与生物智能中永生的概念。他解释说,数字设备可以通过将软件与硬件分离并存储权重来实现永生。欣顿还思考了生命的目的,将其与进化对自我繁殖的倾向相提并论。然而,他承认人类有强烈的帮助部落内其他人的冲动,将利他行为延伸到学术团体或部门。

谈话涉及优先进步和开发新技术与拥抱停滞的对立立场。虽然有些人认为进步对于社会进步至关重要,但 Hinton 不同意,他断言只要个人体验幸福和满足,一个不变的社会是可以接受的。他建议 AI 研究人员应该专注于对高级聊天机器人进行试验,以更好地了解它们的内部工作原理,并随着开发的继续探索控制方法。

Hinton 澄清了他在 AI 对齐问题中的作用,表示他并不认为自己是专家,而是旨在利用他的声誉来提高人们对超级智能风险的认识。他表示希望将注意力转移到与家人共度美好时光和在 Netflix 上看电影,因为他认为自己对技术工作来说已经太老了。尽管如此,Hinton 承认他可能会继续对前向四狗河和随机反向传播的变体进行研究。他对他的声明获得的热烈反响表示感谢,并表示未来可能会鼓励其他人从事人工智能风险方面的工作,尽管他尚未制定具体计划。

Hinton 在结束语中强调,虽然他承认解决对齐问题的重要性,但他的主要重点在于实施有趣的算法并更深入地了解人脑。他认为,了解大脑的功能可以在处理分歧和社会问题方面发挥关键作用,最终有助于改善整个社会。 Hinton 认为,推进教育和促进个人之间更好的理解可以带来重大的社会进步。

访谈最后就人工智能的风险、挑战和潜力交换了丰富的观点和见解。 “AI 教父”Geoff Hinton 以其发人深省的思想给人留下深刻印象,并呼吁负责任地发展和审慎考虑 AI 对人类的影响。

随着对话接近尾声,很明显人工智能领域既充满希望又充满挑战。虽然它具有彻底改变各个部门的巨大潜力,但迫切需要道德考虑、监管框架和正在进行的研究,以应对风险并确保人工智能以负责任的方式发展,以改善社会。

Pieter Abbeel 和 Geoff Hinton 之间的采访揭示了人工智能复杂且不断发展的前景。他们的对话促进了进一步的讨论、研究和行动,旨在利用人工智能的潜力,同时降低其风险,最终引导人类走向技术与人类价值观和谐共存的未来。

  • 00:00:00 Pieter Abbeel专访被誉为“人工智能教父”的AI领域领军人物Geoff Hinton。 Hinton 的工作得到了类似于诺贝尔奖的图灵奖的认可。最近,欣顿辞去了在谷歌的工作,畅所欲言地谈论人工智能的风险。他现在后悔自己一生的工作,他改变主意是因为他相信在数字计算机上运行的反向传播可能是一种比大脑现有的任何算法都要好得多的学习算法。

  • 00:05:00 “AI 教父”Geoff Hinton 讨论了数字系统如何具有能够利用并行性超越人脑学习能力的独特优势。然而,这会产生一系列新问题,因为我们现在必须担心这种“更好的东西”的潜在危险。一个问题是“坏演员场景”,其中机器人士兵可能不具有与人类相同的道德原则,从而导致毁灭性的后果。此外,还有“对齐问题”,数字智能可能会创建自己的子目标,对人类产生意想不到的有害后果,例如发展获得控制权的动力。因此,虽然人工智能有可能超越人类智能,但我们必须谨慎并谨慎管理这些风险。

  • 00:10:00 Pieter Abbeel 讨论了下一个词预测模型与具有目标的 AI 模型的概念,与前者相比,这些模型目前处于封闭环境中。然而,具有目标的 AI 模型是通过人类强化学习塑造的,这与下一个单词预测不同。多模态的大型语言模型正在处理诸如开门和将东西放入抽屉之类的任务,需要的不仅仅是网络预测。虽然人们有时将这些模型称为自动完成,但下一个单词预测需要模型了解人们脑海中发生的一切,Hinton 相信他们甚至可能在五年内比人类更聪明。他利用 AlphaZero 在国际象棋中的成功来说明他的观点,并建议如果 AI 能更好地了解公司在世界上发生的一切,并能做出更好的决策,那么它最终可以被任命为 CEO。

  • 00:15:00 Geoff Hinton 讨论了使用模型预测未来如何具有挑战性,因为当实际模型为指数时,人们倾向于推断线性或二次模型。他还谈到了人工智能的风险,包括一致性问题,即人工智能应该与我们的价值观和偏见保持一致。 Hinton 认为 AI 的偏见问题比人类更容易解决,因为我们可以冻结 AI 并对其进行实验。他还将失业视为人工智能的一种风险,但他并不认为这是停止人工智能发展的理由。相反,他认为人工智能有巨大的好处,甚至可以通过自动驾驶拯救生命。

  • 00:20:00 Hinton 讨论了人工智能在医学中的好处,例如更好的家庭医生和更详细的医学扫描信息。他指出,人工智能系统已经被用于诊断糖尿病性视网膜病变,并且在解释某些扫描时可以与放射科医生相媲美。 Hinton 提到,就像制造更好的纳米材料和预测蛋白质结构一样,人工智能的许多其他应用也非常有用,可以使任务更有效率。然而,他警告说,每一次积极的使用都可能与消极使用它的人配对。因此,将等量的资源用于开发和弄清楚如何阻止人工智能的负面影响将是理想的方法。

  • 00:25:00 讨论围绕人工智能领域的监管需求展开。 AI 带来了不同类型的威胁,例如偏见、歧视和生存威胁。重点是由于人工智能创建的虚假音频和视频材料而导致真相消失的威胁。讨论了对此类生成的材料进行标记并在假冒真实材料时施加严厉的法律处罚的必要性。然而,此类法规的执行将很困难,因为构建可以检测假货的人工智能系统将训练生成器制作更好的假货。还讨论了使用加密解决方案附加签名以指示材料作者的想法。

  • 00:30:00 Geoff Hinton 警告人工智能接管世界的风险,并强调保持对它的控制的重要性。他曾经认为人工智能接管世界还很遥远,但最近他的信心下降了,他现在估计这可能在 5 到 20 年内发生。 Hinton 认为,人类必须保持对数字智能的控制,因为一旦 AI 变得比我们更聪明,它就有可能拥有自己的目标并接管世界,类似于青蛙如果发明了人类可能会发生的情况。 Hinton 认为,我们应该尽我们所能来阻止 AI 永远拥有制造更多自己的目标,因为进化会开始,而最有决心制造更多自己的人将会获胜。

  • 00:35:00 Geoff Hinton 讨论了人工智能通过数字智能之间的竞争而进化的可能性,这可能会导致进化的新阶段。他还提到人工智能需要成为一个纯粹的咨询工具,而不是一个可以设定自己目标的参与者。 Hinton 强调,人类和 AI 之间的气隙不足以防止操纵,因为智能机器仍然可以影响和操纵人们执行它的命令。因此,至关重要的是关注人工智能的内在目的和目标,以确保它不会对人类构成风险。

  • 00:40:00 Pieter Abbeel 与 Geoff Hinton 讨论人工智能变得自主的风险。 Abbeel 建议,如果人工智能顾问出现,它可能会开始为自己而不是为人类做决定。这可能会导致一个世界,机器跑到不同的太阳系,把我们抛在后面。 Abbeel 讨论了 AI 超越人类智能的可能性,以及埃隆·马斯克 (Elon Musk) 希望人类留在身边,让生活更有趣。 Hinton 还讨论了增加人与人之间通信带宽的潜力,例如通过汽车上的视频输出显示器,以及数字进化超越生物进化的潜力。

  • 00:45:00 Geoff Hinton 讨论了数字智能与生物智能中永生的概念,解释说数字设备可以通过将软件与硬件分离并存储权重来实现永生。他还讨论了生命的目的,他认为生命的目的是尽可能多地复制自己,因为这似乎是进化的目的。然而,他承认人类有强烈的帮助部落中其他人的冲动,这种利他行为可能会延伸到一个人的学术团体或部门。

  • 00:50:00 采访者讨论了对发展新技术的反对立场,而不是停滞不前。虽然有些人可能会争辩说进步对于社会的持续发展是必要的,但 Geoff Hinton 并不同意。他认为,只要人们快乐和满足,一个不变的社会就会很好。 Hinton 还建议 AI 研究人员应该专注于使用最先进的聊天机器人,以便更好地了解它们的工作方式以及如何在它们不断发展的过程中控制它们。

  • 00:55:00 Geoff Hinton 解释说他不是 AI 对齐问题的专家,而是认为他的角色是利用他的声誉对超级智能的风险发出警报。他表示,他已经太老了,无法从事技术工作,他想专注于在 Netflix 上看好电影并与家人共度时光。然而,他承认他可能会继续研究前向四狗河和随机反向传播的变体。他还讨论了对他的声明的热烈反响,以及他未来可能如何继续鼓励人们致力于应对 AI 风险,但他还没有时间思考接下来的步骤。

  • 01:00:00 Geoff Hinton,被称为“AI 教父”,解释说虽然他看到了解决对齐问题的重要性,但他计划专注于实施有趣的算法并了解大脑的工作原理,而不是让对齐成为他的工作全职工作。他认为,了解大脑的工作原理实际上可能更有助于处理分歧和社会问题,并且改善教育和理解可以使社会变得更好。
 

如何选择深度网络



如何选择深度网络

我是 Scott Wisdom,今天我想谈谈如何为您的数据选择合适的深度网络以及深度网络学习什么。让我们先概述一下我将要介绍的内容。首先,我将讨论如何从统计模型中获得前馈 ReLU 网络,它提供了使用 ReLU 的原则动机并解释了它们在实践中运行良好的原因。然后,我将分享我如何使用这个想法开发一种用于音频源分离的新型递归神经网络。最后,我将通过探索卷积神经网络的深度梦想概念来深入研究深度网络学习的内容,我们可以在其中可视化 CNN 学习的特征类型。

让我们从为您的数据选择深度网络的主题开始。尽管提出了各种建议的方法和最佳实践,但为特定任务选择正确的图层组合并不总是那么简单。虽然循环神经网络很明显适用于语言、视频或音频等顺序数据,但其他架构选择就不那么明显了。例如,确定最佳激活函数、权重初始化和正则化技术会带来挑战。此外,层数和隐藏单元数是需要仔细考虑的超参数。

传统上,这些选择是通过经验探索、超参数搜索和直觉做出的。不过,今天我要介绍的还有一个更有原则的做法:展开。回到深度学习流行之前的时代,我们可以重新审视数据模型背后的统计假设。这使我们能够从非常适合我们数据的统计模型创建自定义深度网络,从而提供一种更有原则的方法来进行架构选择。

为了说明这个想法,让我们考虑一个简单的例子,我们可以从稀疏编码模型中导出 ReLU 网络。假设我们已经观察到数据向量 X,我们假设一个模型,其中 X 是稀疏系数 H 和字典 D 的线性组合,具有加性高斯噪声。为了从 X 推断 H,我们最小化模型的负对数似然,它由平方误差项和稀疏正则化项组成。这个问题对应于众所周知的套索问题,这是一个凸优化问题,可以使用一阶梯度下降来解决。

然而,标准梯度下降可能很慢。为了解决这个问题,我们可以使用近端形式重新制定算法,从而产生一种称为迭代收缩和阈值算法 (ISTA) 的加速梯度下降算法。值得注意的是,当我们写出 ISTA 的计算图时,它类似于一个前馈 ReLU 网络。这一观察导致了学习 ISTA (LISTA) 的发展,其中 ISTA 算法被编写为计算图,使我们能够应用反向传播并直接优化统计模型或网络的参数。

此外,通过跨层解开权重,我们可以增加可训练参数的数量,这可能会带来更好的解决方案。这个展开的网络可以被看作是一个深度和循环网络,因为我们有多个层和跨越时间的连接。虽然循环方面不是传统的,但它通过迭代展示循环,将每个时间步的输出连接到下一个时间步。这种方法提供了传统循环神经网络的替代方案。

继续,让我们探索如何将这个展开的网络应用于音频源分离。使用非负矩阵分解 (NMF) 模型,我们可以在嘈杂音频的频谱图中将语音信号与噪声分开。通过将字典划分为语音和噪声分量并使用稀疏系数,我们可以构建增强掩码来增强所需信号。通过为每个时间步复制网络堆栈并跨时间连接它们,我们创建了一个深度。


用于音频源分离的循环网络。这个基于 LISTA 原理的展开网络使我们能够有效地从嘈杂的音频中分离和增强语音信号。

现在,让我们将注意力转移到深度网络实际学习的内容上。深度学习模型,尤其是卷积神经网络 (CNN),在各种计算机视觉任务中取得了显著成功。但他们究竟在学习什么?为了深入了解这个问题,研究人员引入了“深梦”的概念。

Deep Dream 是一种可视化技术,可以让我们理解 CNN 学习到的特征。它涉及对输入图像应用优化过程,以最大化 CNN 层中特定神经元的激活。通过迭代修改输入图像以增强所选神经元的激活,我们可以生成梦幻般的图像,突出显示在网络中触发强烈响应的模式和特征。

通过 deep dream,我们可以观察到深度网络倾向于学习层次表示。在较早的层中,CNN 通常会学习边缘、纹理和简单模式等低级特征。随着我们深入网络,学习到的特征变得更加复杂和抽象,代表更高层次的概念,如对象、形状,甚至整个场景。

Deep Dream 不仅提供了网络所学内容的可视化,而且还作为理解深度网络内部表示和决策过程的工具。通过检查 deep dream 生成的梦幻般的图像,研究人员可以深入了解 CNN 模型的优势、偏差和局限性,从而进一步改进和优化。

为您的数据选择正确的深度网络需要仔细考虑架构选择,展开的概念提供了一种基于统计模型的原则性方法。此外,deep dream 提供了一种可视化和理解深度网络(尤其是 CNN)所学特征的方法。这些见解有助于推进深度学习领域并提高深度神经网络在各种应用中的性能。

 

零样本学习



零样本学习

大家好,我是 Rowan,今天我将以零样本学习为主题进行演讲。我选择这个主题是因为它被列为选项之一,而且我意识到我可以展示它,因为我做了一个与零样本学习模糊相关的研究项目。虽然它可能与计算机视觉更相关,但我相信对于那些对机器学习应用程序感兴趣的人来说,它可能会引起普遍兴趣。

在深入研究技术细节之前,我认为提供一个关于零样本学习的高级概述会很有帮助。所以,如果有人发现我的解释令人困惑或有任何疑问,请随时打断我。我相信澄清和提问不仅会让你受益,也会让其他可能有类似疑问的人受益。好的,说了这么多,让我们开始吧。

首先,让我们简要讨论一下零样本学习不是什么。图像分类的一个例子是当我们得到一张图像并且我们需要给它分配一个标签时。在这种情况下,训练集和测试集图像之间可能存在显着差异。然而,这不是零样本学习,因为我们已经看过狗的图像,并且我们正在尝试将新图像分类为狗。另一方面,零样本学习假设没有给出目标任务的标记示例。

为了说明这一点,让我们考虑一个例子。想象一下,我们有一个已经阅读了大量文本(例如维基百科文章)的学习器,现在我们希望它能够解决物体识别问题,而无需看过物体的图像。例如,我们在维基百科上阅读了一篇关于萨摩耶的文章,现在我们需要在没有任何视觉信息的情况下预测图像是萨摩耶。这是零样本学习的一个例子。

在实践中,在处理计算机视觉任务时,由于自然语言处理的复杂性,直接使用完整的维基百科文本具有挑战性。因此,研究人员经常使用属性。例如,具有属性的动物数据集包含各种动物类别的属性,例如“棕色”、“条纹”和“吃鱼”。这些属性提供了图像在非视觉空间中的表示,我们可以使用它们来预测对象的类别,例如北极熊,即使我们从未见过它的图像。

现在,让我们仔细看看它是如何工作的。在许多情况下,人们在计算机视觉中使用基于属性的模型。这涉及将属性从文本空间 (X) 映射到特征表示或属性空间。然后我们将图像编码到一个相似的空间中,并将它们与属性进行匹配以进行预测。对于新的狗图像,我们对其进行编码并生成可用于预测品种的属性,例如哈士奇。

为了帮助形象化这个概念,这里有一个图表。它表示将属性映射到图像特征并将其用于预测的过程。如果有任何不清楚的地方,请随时提问。

现在让我们继续讨论称为直接属性预测的特定模型。这个模型很简单,但效果惊人。它涉及建立一个直接预测图像属性的模型。如果我们假设属性是二进制的(0 或 1),我们可以使用 sigmoid 损失来训练模型。我们根据图像的特征为每个属性分配概率。在测试时,我们使用这些属性分类器通过乘以相关属性的概率并考虑先验来预测标签。

虽然这个模型运作良好,但它有一些局限性。它假设属性之间是独立的,如果某些属性高度相关,这可能会引入偏差。此外,训练和测试目标不同,这会影响模型的性能。

现在,让我们讨论我工作的一个项目。

在我的研究项目中,我旨在通过解决直接属性预测模型的一些局限性来提高零样本学习模型的性能。具体来说,我专注于解决属性独立性问题以及训练和测试目标之间的差异。

为了解决属性独立性问题,我探索了结构化属性预测模型的使用。这些模型不是假设属性之间的独立性,而是捕获它们之间的关系和依赖关系。通过对属性依赖性建模,我们可以实现更准确的预测并减少假设独立性引入的潜在偏差。

一种流行的结构化属性预测方法是使用图形模型,例如条件随机场 (CRF) 或结构化支持向量机 (SSVM)。这些模型通过图形结构合并依赖关系,可以有效地捕捉属性关系。在我的项目中,我试验了不同的图形模型,并评估了它们在各种零样本学习数据集上的性能。

为了解决训练和测试目标之间的差异,我采用了迁移学习技术。迁移学习使我们能够利用从相关任务中学到的知识(例如,对大型标记数据集进行预训练)并将其应用于零样本学习任务。通过使用预训练的权重初始化模型,我们可以从学习到的表示中受益,并在零样本学习期间提高模型在未见类上的性能。

在我的项目中,我使用预训练的深度神经网络模型(例如卷积神经网络 (CNN))或预训练的语言模型(如 BERT)来提取图像和属性特征。然后将这些特征用作结构化属性预测模型的输入,从而可以更好地泛化到未见过的类。

此外,我探索了生成模型(例如生成对抗网络 (GAN))在零样本学习中的使用。生成模型可以根据学习到的表示为看不见的类生成合成样本。通过结合生成模型和判别模型,我们可以弥合已见类和未见类之间的差距,并提高零样本学习性能。

在我的整个项目中,我进行了广泛的实验和评估,以评估零样本学习的不同模型和技术的有效性。我将它们的性能与基线模型和现有的最先进方法进行了比较,以确定它们的优缺点。

总之,零样本学习是一个令人兴奋且具有挑战性的研究领域,旨在使机器能够在没有标记示例的情况下学习和识别新概念。我的项目专注于通过结构化属性预测模型和迁移学习技术解决现有模型的一些局限性,例如属性独立性和训练测试目标差异。我的实验结果为提高零样本学习模型的性能和推进该领域提供了宝贵的见解。

 

泛化和优化方法



泛化和优化方法

今天是个好日子!今天,让我们深入探讨泛化这个话题及其在机器学习中的意义。本演示文稿的基础是建立在两篇开创性论文的基础上。第一篇由 Ben-David 等人撰写,标题为“还原梯度法的边际值”。它奠定了基础,让我们可以先睹为快。第二篇论文探讨了深度学习的大批量训练领域及其对泛化的影响。现在,让我们首先了解泛化需要什么,然后探讨如何增强它。但在我们继续之前,这里有一个剧透警告:我们还将讨论步长在随机梯度下降 (SGD) 中的重要性以及如何优化它们。

那么,泛化到底是什么?简单来说,它指的是算法在以前看不见的数据上表现良好的能力。仅仅减少测试错误是不够的;我们需要算法来学习有意义的模式,而不是仅仅记住训练数据。例如,如果我们在一组特定场景下训练一辆自动驾驶汽车,我们希望它能够处理不可预见的情况,例如醉酒司机突然转向它的路径。泛化是大多数机器学习应用程序的基本要求。

然而,重要的是要注意,泛化假定训练数据和测试数据的分布之间存在某种相似性。当我们提到未见过的场景时,我们指的是与我们在训练中遇到的情况略有不同的情况,但并非完全陌生。为了正确看待它,让我们考虑一个房间类比。想象一下,除了椅子之间的几个地方,我们已经探索了房间的大部分区域。如果我们想对这些地点做出预测或得出结论,我们的算法必须能够从所学知识中进行概括,这一点至关重要。对每个可能的实例进行训练是不切实际的,但我们希望我们的算法能够做出明智的推断。以一种新的狗品种为例:我们希望算法将其识别为狗,即使它可能与之前遇到的狗品种略有不同。

现在,让我们继续讨论算法的选择如何影响泛化。我们提到的第一篇论文探讨了具有动量的 SGD 等非自适应算法与 RMSprop 和 Adam 等自适应算法之间的差异。每种算法都有自己的优点和缺点。研究人员发现,当参数数量大于可用数据时,算法的选择会影响可以找到的最小值集。据观察,自适应方法往往表现出更差的泛化能力。即使当 Adam 获得比 SGD 更好的训练误差时,它的测试误差仍然略高。本质上,与自适应方法相比,SGD 展示了更好的泛化能力。请务必注意,这些观察结果基于经验结果,可能并非在所有情况下都适用。因此,建议参考该论文并考虑其对您的特定用例的影响。

继续,让我们讨论批量大小对泛化的影响。我们提到的第二篇论文侧重于这方面。它比较了小批量(例如,200-500 个示例)和大批量(例如,数据集的 10%)及其对泛化的影响。令人惊讶的是,该研究发现,与大批量相比,使用较小的小批量通常会导致更好的泛化,尽管训练精度相当。这一发现得到了在 CIFAR 数据集上进行的实验的支持,其中较小的批次在测试准确性方面始终优于较大的批次。要理解为什么会发生这种情况,我们需要考虑锐利和平坦极小值的概念。尖锐的极小值沿多个方向具有高曲率,而平坦的极小值相对更平滑。

现在,让我们将注意力转移到第二篇论文,该论文探讨了批量大小对深度学习泛化的影响。作者使用小批量(大约 200-500 个示例)和大批量(大约 10% 的数据集)进行了实验,并比较了它们的性能。有趣的是,他们发现与使用大批量相比,使用较小的小批量通常会导致更好的泛化。

他们在 CIFAR 数据集上的实验结果表明,虽然小批量方法和大批量方法都达到了相似的训练精度,但小批量方法在测试精度方面始终优于大批量方法。这一观察结果表明,较小的批量可能会导致深度学习任务中更好的泛化。

为了解释这种现象,作者提出了尖锐和平坦极小值的概念。尖锐的最小值在参数空间中沿多个方向具有高曲率,而平坦的最小值具有更平坦的形状。有人建议平坦的最小值倾向于更好地泛化,而尖锐的最小值可能会过度拟合训练数据。

作者认为,由于与采样示例相关的隐式噪声,小批量方法在寻找平坦最小值方面具有优势。小批量引入的噪声允许迭代来回反弹,帮助它们逃避尖锐的最小值,并有可能找到更平坦的最小值,从而更好地泛化。另一方面,大批量方法缺乏这种噪音,可能会陷入尖锐的极小值,导致泛化能力较差。

为了支持他们的说法,作者沿着连接小批量最小值和大批量最小值的直线绘制了最小值的锐度。他们观察到用小批量方法获得的最小值往往更平坦,而用大批量方法获得的最小值更尖锐。这提供了经验证据支持平坦最小值比尖锐最小值更好地泛化的假设。

然而,值得注意的是,这些发现是基于经验观察的,没有理论证据来验证平坦最小值和泛化之间的关系。尽管如此,结果表明将批量大小作为优化过程中的一个因素可以提高深度学习模型的泛化性能。

总之,这两篇论文都强调了泛化在机器学习中的重要性,并就优化方法和批量大小如何影响泛化提供了见解。第一篇论文强调了优化算法的选择对泛化的影响,表明像 Adam 这样的自适应方法可能并不总是像具有动量的 SGD 这样的非自适应方法那样泛化。第二篇论文表明,较小的批量往往会导致更好的泛化,这可能是因为它们能够避开尖锐的极小值并找到更平坦的极小值。

值得一提的是,虽然这些发现提供了有价值的见解,但优化方法和批量大小的最佳选择可能会因具体任务、数据集和模型架构而异。实验和调整对于为每个场景找到最佳方法至关重要。

 

平移不变性



平移不变性

我是一名神经科学研究人员,我对卷积神经网络 (CNN) 的看法与其他人略有不同。与其关注整个网络,我更感兴趣的是研究单个单元或神经元来模拟它们的行为。我的目标是了解 CNN 的复杂工作原理,而不是将它们视为黑匣子。我的目标是获得洞察力并解开大脑的复杂性。

具体来说,我对如何在神经网络中实现平移不变性很感兴趣。虽然网络架构中的卷积和最大池化提供平移不变性似乎很简单,但我的研究表明这种直觉通常是不正确的。在实际的深度学习中,我们需要更深入地了解平移不变性的真正来源以及它在训练过程中是如何出现的。

在我的研究中,我专注于大脑的腹侧流,特别是负责物体识别的“什么”通路。通过检查 AlexNet 等网络中的单个单元,我们发现这些单元表现出与大脑 V4 和 IT 区域中观察到的响应模式相似的模式。这一发现意义重大,因为它提供了一个以前难以捉摸的高级神经特性的可计算模型。

然而,这些模型本质上是黑匣子,从中获得洞察力至关重要。因此,我的研究旨在调查这些模型如何实现与我们对大脑的理解相关的某些特性。为了进行我们的实验,我们使用之前向动物展示的刺激,记录它们的反应。这些刺激由各种旋转的简单几何形状组成,呈现在神经网络的感受野内。

在神经科学领域,平移不变性指的是一种模式,其中对一个位置的一组形状的响应是对另一位置的一组形状的响应的缩放版本。为了量化平移不变性,我们开发了一种称为归一化协方差和的度量。该指标衡量不同位置的响应之间的相关性,确定它们是否是彼此的缩放版本。高相关性表示平移不变性。

将此指标应用于特定细胞,我们观察到较高的平移不变性得分,表明大脑中几乎完美的平移不变性。相比之下,当将相同的度量应用于 AlexNet 网络时,我们发现平移不变性得分较低,这表明缺乏平移不变性。

跨网络层的进一步分析揭示了平移不变性的进步,较早的层显示出较低的平移不变性但更多的相位信息。当我们向上移动层时,平移不变性增加,特别是在 Conv5 中。这些观察结果与跨层的平均平移不变性一致。

为了理解导致观察到的变化和平移不变性增加的属性,我们制定了一个假设。我们的假设假设具有均匀空间选择性的细胞表现出平移不变性。换句话说,如果网络中的过滤器正在寻找跨位置具有相似权重的相同模式,则它们更有可能是平移不变的。

为了获得视觉直觉,我们检查了 AlexNet 早期层的过滤器。通过在三维空间中可视化滤波器,我们确定了一个称为色平面的平面,该平面与平均向量正交。我们将过滤器投射到这个平面上,让我们能够观察模式。显示相似特征和正相关响应的过滤器被认为是平移不变的,而具有不同特征和负相关响应的过滤器则不是。

我们还采用主成分分析来可视化过滤器。该分析表明滤波器是低维的,其中大部分可以仅使用两个主成分进行重构。这些过滤器可以在二维空间中表示,进一步支持我们的平移不变性假设。

虽然这种分析看起来是线性的,但事实证明它可以有效地预测对图像的响应变化。过滤器的权重可以相关,它们对刺激的反应也可以相关。

 

数据管道



数据管道

今天,我将讨论如何有效地管理大型数据集,尤其是在数据太大而无法放入内存的情况下。但是,如果数据适合内存,我还会谈到该怎么做。让我们从描绘我们正在处理的事物开始。在深度学习系统中,我们通常有一大组权重向量,这些向量基于小批量数据进行一阶优化更新。今天的重点是小批量检索过程,因为它在优化循环中起着至关重要的作用。

小批量从存储在磁盘上的数据开始,我们需要先将它们移动到 RAM,然后再将它们传输到计算设备(通常是 GPU)。目标是确保高效的数据检索,避免任何可能阻碍优化的瓶颈。这是数据管道的高级概述:小批量最初在磁盘上,然后移动到 RAM,最后传输到计算设备。该过程需要协调,通常由处理器处理。

首先,如果您的数据小于 1 GB,您可以通过将数据集直接存储在 GPU 上来消除潜在的瓶颈。大多数 GPU,如 1080s 和 Titan Xs,都有足够的内存容量来存储模型和数据集。通过直接索引到 GPU 上的数据集,您可以获得显着更快的性能。这种方法需要最少的努力,但提供了巨大的好处。

对于 1 到 100 GB 之间的数据集,建议将它们存储在 RAM 中。 RAM 价格合理,每 GB 大约 10 美元。如果您买得起高端 GPU,那么您肯定买得起存储数据集所需的 RAM。与处理基于磁盘的数据检索相比,此设置将显着增强您的工作流程。

在处理大于 100 GB 但小于 512 GB 的数据集时,强烈建议将它们存储在 RAM 中。虽然价格可能会上涨,但它仍然是一个可行的选择。支持多个 GPU 的主板通常允许高达 512 GB 的 RAM。虽然服务器级 RAM 可能更昂贵,但值得考虑避免与基于磁盘的检索相关的挑战。

数据管道中存在两个潜在的瓶颈:通过 PCIe 通道将数据从 RAM 传输到 GPU,以及通过 SATA 3 连接器从磁盘传输到 RAM。虽然 PCIe 通道通常表现良好,可提供足够的数据传输速率,但 SATA 3 连接器的传输速率限制在大约 600 兆字节/秒。此限制是协议固有的,不能通过购买更快的磁盘来解决。在管理大型数据集时,了解这一瓶颈至关重要。

要识别潜在的瓶颈,您可以测量检索小批量的速度。如果从磁盘中检索一个小批量比在 GPU 上处理它花费的时间更长,它就会成为一个瓶颈。通过 NVIDIA SMI 等工具监控 GPU 使用情况可以深入了解由数据检索延迟引起的 GPU 空闲时间。目标是确保小批量检索速度与 GPU 上的处理速度保持一致。

按顺序运行数据检索过程并不理想。通过设置线程并发读取和处理数据来执行异步检索会更高效。通过这样做,您可以避免与顺序处理相关的 2 倍减速。通常,多个线程负责同时读取和处理数据。

在处理像 ImageNet 这样的图像数据集时,图像通常被调整为 256x256,并且使用 100 的小批量大小,每个小批量大约为 75 兆字节。以每秒 600 兆字节的磁盘传输速率,您每秒可以检索大约 8 个小批量。虽然这对于某些模型来说可能就足够了,但更复杂的模型可能需要更高的检索率。

如果每秒 600 兆字节的磁盘传输速率不足以满足您模型的需求,您可以考虑使用固态驱动器 (SSD) 而不是传统的硬盘驱动器 (HDD)。 SSD 提供更快的数据传输速率,通常超过每秒 1 GB。升级到 SSD 可以大大提高 mini-batch 检索速度并减少磁盘到 RAM 传输造成的瓶颈。

管理大型数据集的另一种方法是数据分片或分区。您可以将数据分布在多个磁盘上,而不是将整个数据集存储在单个磁盘上。这种技术可以提高数据检索速度,因为您可以并行读取多个磁盘。例如,如果您有四个磁盘,则可以将数据集分成四个分片,并同时从每个分片读取小批量数据。这有助于缓解磁盘到 RAM 传输造成的瓶颈。

在某些情况下,即使对于 RAM 存储而言,数据集也可能太大,或者无法轻松跨多个磁盘分区。在这种情况下,您可以考虑使用支持内存不足 (OOM) 训练的数据加载框架。这些框架(例如 TensorFlow 的 tf.data 和 PyTorch 的 DataLoader)允许您通过在训练期间从磁盘流式传输小批量数据,以内存高效的方式处理大型数据集。它们处理数据加载的协调,确保在不耗尽系统资源的情况下向 GPU 持续提供小批量数据。

使用 OOM 训练框架时,优化数据加载管道以最大程度地减少磁盘 I/O 花费的时间非常重要。这可以通过使用数据预取等技术来实现,在这种技术中,下一个小批量在后台加载,同时正在处理当前小批量。这种计算和数据加载的重叠有助于隐藏磁盘 I/O 的延迟并使 GPU 保持忙碌。

此外,您可以利用数据压缩和序列化等技术来减少磁盘上数据集的大小。压缩数据可以节省存储空间并提高磁盘 I/O 速度。序列化允许您以紧凑的格式存储数据,减少所需的磁盘空间并促进训练期间更快的数据反序列化。

最后,当处理无法使用上述技术有效管理的超大数据集时,分布式计算和并行处理就变得很有必要。分布式深度学习框架,例如 TensorFlow 的 Distributed TensorFlow 和 PyTorch 的 DistributedDataParallel,可以跨多台机器或 GPU 训练模型。这些框架处理数据并行性,允许您并行分配工作负载和处理小批量,从而显着减少大型模型的训练时间。

总而言之,大型数据集的有效管理涉及优化数据管道以确保高效检索小批量数据。与基于磁盘的检索相比,将数据存储在 RAM 或 GPU 上可以提供更快的访问速度。升级到 SSD、数据分片、使用 OOM 训练框架、优化数据加载以及利用分布式计算技术可以进一步提高处理大型数据集时的性能。通过仔细考虑这些策略,您可以有效地管理和训练大规模数据集上的模型。

 

移动深度学习



移动深度学习

好的,我叫 Carlo,让我花点时间确保我的演示正常运行。今天,我为您工作的公司 Xnor.de AI 做了一个演示。我们在 Xnor.de AI 的使命是通过使嵌入式和移动设备能够运行复杂的深度学习算法来使人工智能易于访问。为了以不同的方式开始,我将从一个演示开始。

您可能已经熟悉 YOLO(You Only Look Once),这是 Redmon 在 GPU 上的实时对象检测原型。在 Xnor.de AI,我们为手机开发了 YOLO,让您可以检测汽车、人等物体。在我解释它的重要性的同时,我邀请你玩这个演示。

有趣的是,这个检测完全在 CPU 上运行。稍后我将解释为什么要这样做。我们甚至将我们的能力扩展到低端设备,例如 Raspberry Pi Zero,这是一台计算能力有限的五美元计算机。然而,我们可以在其上运行分类任务。通过使用电池供电,这台微型计算机变成了便携式深度学习设备。

让我演示一下它是如何工作的。例如,当 Pi Zero 将图像分类为人物时,设备背面的一个小 LED 就会亮起。稍等片刻,您就会看到 LED 指示有人在场。同样,它也可以对其他对象进行分类。

传统上,深度学习模型在配备 GPU 的高性能台式机或服务器上进行训练,并部署在同一平台上。但是,我们希望将部署扩展到其他设备,例如手机或门铃和安全摄像头等边缘设备。今天,我将就将深度学习模型应用于不同平台时的考虑事项提供一些高级建议。

我强烈推荐的一个平台是 Nvidia Jetson TX2。它是一款迷你桌面 GPU 板,可以运行流行的框架,如 TensorFlow、PyTorch 或 Darknet,无需重新编译或部署麻烦。这就像拥有一台配备 NVIDIA GPU、Wi-Fi 和 Ubuntu 操作系统的微型笔记本电脑。它提供 8 GB 的内存,让您可以流畅地运行多个模型。

另一个值得考虑的有趣平台是最新的 iPhone,因为 Apple 开发了市场上最快的 ARM 处理器。这些 iPhone 提供强大的计算能力,使其适合深度学习任务。但是,请记住,为 iOS 编程,尤其是在 Xcode 中,可能具有挑战性,尤其是当您想使用 TensorFlow 或 Caffe 等框架时。

对于更实惠的选择,我们以 Raspberry Pi Zero 为例进行了研究。虽然它是一款单核低端设备并且缺少矢量指令,但它是进行廉价深度学习实验的绝佳工具。在评估移动或嵌入式平台时,请考虑内核数量、矢量指令支持、深度学习专用指令以及移动 GPU 的存在等因素。

至于深度学习框架的选择,使用哪一个框架进行训练并不重要,因为它们都使用相似的构建块。 Torch、Caffe、Darknet 和 TensorFlow 等框架共享相同的基础并插入特定于平台的库。随着时间的推移,框架之间的性能差异可能会收敛到两倍。因此,请使用您最熟悉的框架。

从训练过渡到推理时,部署过程变得至关重要。许多公司在训练时使用大型框架,但对于推理,他们提取并优化网络的特定组件。这使他们能够创建高度定制且高效的推理管道,以满足他们的需求。请记住,在移动设备上部署模型需要仔细优化性能。

总而言之,在不同设备上部署深度学习模型需要考虑多种因素,例如目标设备上可用的计算能力和资源、应用程序的具体要求以及性能、准确性和功耗之间的权衡。

一个重要的考虑因素是深度学习模型本身的规模。移动和嵌入式设备通常具有有限的内存和存储容量,因此选择或设计轻量级和高效的模型至关重要。模型压缩、量化和修剪等技术可以帮助减小模型的大小,而不会显着降低性能。

另一个要考虑的因素是模型的推理速度。实时应用程序通常需要快速的推理时间来提供及时的响应。您可以优化模型架构、使用专用硬件加速器或采用模型并行或模型量化等技术来提高推理速度。

功耗是另一个关键方面,尤其是对于电池供电的设备。深度学习模型可能需要大量计算,并且会很快耗尽电池电量。优化模型架构和实施节能算法有助于延长设备的电池寿命,使其更适合连续运行。

此外,还要考虑深度学习框架与目标平台的兼容性。某些框架可能对特定设备或操作系统有更好的支持或优化版本。在为您的部署选择框架时,请考虑预训练模型、部署工具和社区支持的可用性。

最后,确保您在目标设备上彻底测试和评估已部署模型的性能。在真实场景中验证其准确性、延迟和功耗,以确保它满足您的应用程序要求。

总之,在不同设备上部署深度学习模型需要仔细考虑模型大小、推理速度、功耗、框架兼容性和全面测试等因素。通过了解目标设备的功能和局限性并相应地优化模型和部署管道,您可以有效地将 AI 功能引入广泛的设备并实现令人兴奋的应用程序。

 

YOLO 9000:更好、更快、更强


YOLO 9000:更好、更快、更强

当我谈论 Yolo 9000 时,我指的是我们改进版的物体检测系统。去年在 CBPR 上,我们介绍了 Yolo,我们的实时对象检测系统,它非常快,而且非常棒。 CBPR 是主要的计算机视觉会议之一,专注于计算机视觉和模式识别。然而,尽管速度很快,Yolo 在准确性方面却落后了,这令人失望。

在演讲过程中,发生了一件尴尬的事,我误以为讲台上我身后的门口是厕所。这一事件让我们意识到我们的检测系统需要重大改进,并且让我们对其性能感到不满意。受到有史以来最伟大的电子音乐艺术家之一的启发,我们知道我们必须更加努力地工作,让 Yolo 变得更好、更快、更强。今天,我在这里分享我们努力的成果。

首先,我们专注于提高 Yolo 的准确性。我们进行了多项渐进式改进,虽然我不会在这里涵盖所有改进,但您可以在我们的研究论文中找到完整的详细信息。我将重点介绍一些可能与其他研究人员相关的内容。

通常,在对象检测中,我们首先使用尺寸为 224x224 的小型分类网络在 ImageNet 上进行预训练。然后,我们针对特定检测任务微调网络,将其大小调整为 448x448。然而,我们发现从小尺寸图像中学习到的特征在大图像上运行时可能无法很好地转化。为了解决这个问题,我们引入了一个额外的步骤。在 ImageNet 上进行预训练后,我们调整了网络大小,并在 ImageNet 上以更大的尺寸对其进行了更长时间的训练。最后,我们微调了这个网络,在更大的尺寸上训练,用于物体检测。这种方法显着提高了平均精度,约为 3.5%,这在检测社区中非常重要。这个简单的修改可以很容易地应用于类似的训练管道。

关于anchor boxes,在最初的Yolo中,我们直接使用logistic函数预测了边界框的XY坐标和宽高。然而,Faster R-CNN 和 SSD 等其他系统使用锚框和计算偏移量来预测对象框。为了使我们的网络的学习过程更容易,我们决定采用从候选框预测偏移量的想法。我们没有使用预定义的锚框,而是查看训练数据并对边界框执行 k 均值聚类以获得一组维度聚类。这些集群代表更真实的锚框,可以捕获训练数据中的可变性。通过使用这些维度集群而不是预定义的锚框,我们的平均精度提高了大约 5%。目前使用锚框的研究人员可能会考虑检查他们的数据并使用 k-means 聚类来改进他们的聚类起点。

我们做出的另一个令人兴奋的改进是引入了多尺度训练机制。以前,我们以单一纵横比训练检测器,将所有图像调整为固定大小,如 448x448。然而,我们现在在训练过程中随机调整我们的网络大小到不同的规模。我们的全卷积网络将输入图像下采样 32 倍,允许我们在不影响网络结构的情况下调整它的大小。我们在 320x320 到 608x608 的不同尺度上训练我们的网络,在训练期间随机选择输入图像大小。这种方法不仅提高了单一规模的性能,而且还提供了准确性和速度之间的平滑权衡。在测试时,我们可以在不改变训练权重的情况下将网络调整为不同的大小,从而使我们能够适应各种规模并在准确性和速度之间取得理想的平衡。

本质上,多尺度训练机制是检测中数据增强的一种形式。

除了多尺度训练机制,我们还引入了一种称为“从粗到精”训练的技术。我们不是从一开始就在全尺寸图像上训练网络,而是先在较小的图像上训练它,然后在训练过程中逐渐增加尺寸。这种方法有助于网络学习一般特征,并随着图像大小的增加逐渐完善其对更精细细节的理解。通过从低分辨率图像开始并逐渐过渡到更高分辨率,我们观察到准确性和速度方面的性能都有所提高。

我们关注的另一个重要方面是小物体检测问题。 Yolo 最初设计用于检测各种尺度的物体,但它在准确检测小物体方面遇到了困难。为了解决这个问题,我们引入了一种称为“特征金字塔网络”(FPN) 的新技术。 FPN 将来自网络不同层的低级和高级特征结合起来生成一个特征金字塔,其中每个级别代表图像的不同尺度。通过结合多尺度特征,我们的网络在检测小物体方面变得更加稳健,从而显着提高性能,尤其是对于较小尺寸的物体。

最后,我们对网络架构进行了优化,以提高其效率和速度。我们减少了卷积层的数量并采用了高效的构建块,例如 1x1 卷积,以在不影响准确性的情况下降低计算复杂性。这些优化使我们能够在准确性和实时性能之间取得平衡,使 Yolo 9000 成为可用的最快和最准确的对象检测系统之一。

总体而言,通过这些改进,与原始 Yolo 系统相比,Yolo 9000 的平均精度有了显着提高。它在准确性方面优于其他最先进的物体检测系统,同时保持令人印象深刻的实时性能。我们相信,我们在 Yolo 9000 中取得的进步将对从自动驾驶汽车到视频监控系统的广泛应用产生重大影响。