机器学习和神经网络 - 页 24

 

MIT 6.S192 - 第 9 讲:Tom White 的“神经抽象”



MIT 6.S192 - 第 9 讲:Tom White 的“神经抽象”

在此视频中,艺术家兼讲师 Tom White 讨论了他将机器感知和神经网络结合到他的艺术实践中的方法。怀特分享了他在麻省理工学院学习数学和平面设计的背景,以及他目前在维多利亚大学教授创意编码的工作。他还讨论了他关于构建工具以帮助他人创造性地使用媒体的研究,以及他自己探索机器感知的艺术作品。怀特展示了他使用人工智能算法创作的素描和版画,并谈论了他与音乐团体的合作以及他最近的艺术展览。他还讨论了与神经网络合作的挑战,以及将 AI 生成的艺术置于野外的意外后果。

  • 00:00:00 在视频的这一部分,艺术家兼讲师汤姆怀特介绍了自己并谈论了他的背景,其中包括在麻省理工学院媒体实验室学习数学和平面设计。他讨论了他对将编程作为一门创造性学科进行探索的兴趣,以及他现在如何在惠灵顿维多利亚大学教授创造性编码。怀特还提到了他的研究,该研究侧重于构建实用工具以帮助他人创造性地使用媒体。此外,他还谈到了自己独立的艺术实践,他说他将在演讲中更多地讨论这一点,并希望激发有兴趣追求类似道路的学生。

  • 00:05:00 在本节中,演讲者概述了他关于神经抽象的演讲以及他探索机器感知的艺术作品。他解释说,机器有自己独特的看待世界的方式,他的艺术作品旨在将这一点展示给更广泛的观众。演讲者还谈到了 AI 表示和抽象的主题,以及他如何研究神经网络视觉系统的表示以在艺术环境中传达它们。他举例说明了这一点,展示了他的一些基于实际图像数据集(例如眼睛、面部和鸡)的艺术作品,以及他如何将诊断引入到理解系统内部世界的过程中。演讲以探索机器感知在艺术中的意义以及它如何帮助我们理解机器感知世界的不同方式作为结束。

  • 00:10:00 在本节中,Tom White 讨论了他在麻省理工学院期间的一些初始项目,包括他对用于创建实时视频过滤器的机器学习技术的探索,他为多点触控交互创建的自定义手部界面,以及他的艺术项目“意识流”,该项目结合了 WordNet 等人工智能技术来查找相关词。 White 还谈到了他参与创建核心软件库 Acu,该库后来成为 Processing 和 OpenFrameworks 等系统的基础,以及他目前的工作如何涉及为机器学习过程创建草图和绘图。

  • 00:15:00 在本节中,演讲者讨论了激发他们作品灵感的艺术优先级,首先是艺术家斯图尔特·戴维斯 (Stuart Davis),他使用普通物品并强迫自己一遍又一遍地绘画,直到他在其中发现新的东西。哈罗德·科恩 (Harold Cohen) 是另一位尝试生成绘图系统的艺术家,他通过人工智能以正式的方式整理了他关于标记制作的想法。在以后的生活中更多地作为这些系统的合作者工作,科恩的核心问题仍然是“什么是图像?”然后,演讲者谈到了安迪·沃霍尔 (Andy Warhol) 和罗伊·利希滕斯坦 (Roy Lichtenstein) 在丝网印刷方面的技术方面的工作,这是他们在执行艺术作品时共享的一种技术。

  • 00:20:00 在本节中,艺术家兼讲师 Tom White 讨论了他使用丝网印刷而不是刷子技术创作版画的艺术技巧,他使用计算机视觉系统创建了这种技术,该系统在感知上进行了优化,以创建看起来像电扇的图像或使用人工智能算法的双筒望远镜。怀特讨论了斯图尔特戴维斯如何通过每天盯着相同的物体,学会以新的方式感知和表现熟悉的物体。同样,White 试图使用计算机视觉系统来引入新的方式来感知和表示熟悉的对象。

  • 00:25:00 在视频的这一部分,演讲者讨论了他使用神经网络系统创建简单草图的演示,使用很少的笔触可以操纵创建不同的图像。他解释了他如何使用相同的笔画次数绘制锤头鲨和铁杆的草图,然后展示了通过翻转笔画的位置,他可以欺骗神经网络将铁杆视为鲨鱼,反之亦然。演讲者演示了神经网络如何创建不同对象的草图,并展示了系统如何不受左手或右手方向的影响,但会受到所提供训练数据集中颜色的影响。

  • 00:30:00 在本节中,Tom White 讨论了机器学习的不同示例及其工作原理。一个例子是计算机视觉系统,它使用以绿色为主的量杯样本,使系统认为绿色量杯比实际更常见。 White 还讨论了他用蜱虫制作的印刷品,该印刷品比所有验证示例都更强,他将其与艺术和设计进行比较,在艺术和设计中,通过简化进行放大以创建更好的概念抽象。最后,White 展示了他的合成抽象系列,其中包括模仿显式或不安全的工作图像的抽象印刷品,这些图像会触发搜索引擎中的过滤器。

  • 00:35:00 在本节中,演讲者分享了他的系统如何使用在线 API 的示例,包括鲸鱼、企鹅和眼睛的数据集。他还讨论了他与一个音乐团体的合作,在那里他创建了自定义数据集,以及他最近的艺术展览展示了计算机认为是结、蚂蚁或其他物体的图像组。演讲者继续谈论生成技术的不同方法以及他的艺术作品如何影响现实世界。他提到了他对性别网络的兴趣,以及他如何使用面孔的神经网络输出来创作艺术品。

  • 00:40:00 在本节中,Tom White 讲述了他对生成网络的探索以及他与研究生一起制作电子表格工具的工作,该工具通过电子表格的界面使用来自生成模型的样本作为创意工具。还提到了 Lena Sarin、Mario Klingemann、Robbie Barrett 和 Edmund Bellamy 等其他艺术家。怀特还讨论了与这些系统合作进行艺术创作的挑战,强调了艺术家和系统在共同创作过程中的作用。最后,他谈到了将 AI 生成的艺术放在野外的意外后果,以及我们如何通过可视化技术和询问系统它看到了什么来理解它。

  • 00:45:00 在本节中,演讲者讨论了类似于深梦的技术,在这种技术中,将图像输入系统以可视化它之间的关系。演讲者提到了他们的艺术作品如何与现实世界的系统相撞,例如 Tumblr 的成人内容过滤器、亚马逊 API 和斯隆凯特琳的学术办公室。他们还讨论了这些视觉系统如何在将艺术作品归类到与现实世界物体相同的标签下时崩溃的例子。演讲者解释说,他们艺术作品的核心思想是通过机器的眼睛来理解它,从而为机器创造艺术并通过机器创造艺术,让人们无论是否有机器学习背景都可以欣赏它。

  • 00:50:00 在本节中,Tom White 解释了为什么他选择丝网印刷作为他的物理艺术作品的首选媒介。他强调,体力劳动使人们能够以不同于带有屏幕和摄像头的交互式装置的方式与之建立联系。他还解释说,丝网印刷使他能够创作出更精确的作品,这在艺术界为波普艺术家开创了先例。汤姆进一步解释说,由于处理可能的照片具有挑战性,因此进行体力劳动更加困难,但这是对物理世界进行对抗性攻击的一种有趣方式。此外,他还谈到艺术如何帮助更好地理解算法偏差或人工智能和网络安全的其他方面。

  • 00:55:00 在本节中,Tom White 讨论了 Celeb-A 数据集中的偏见(女性比男性更容易被标记为微笑)如何导致旨在修改面部表情的生成网络中的偏见。他指出,他的工作并不专注于对抗性示例,而是专注于可视化和理解触发神经网络的刺激。 White 还谈到了尝试使用简单的表示形式(例如最小笔划)来简化视觉输出的生成。他指出,人们可以识别低分辨率格式的图像,从测试这种能力的心理学研究中汲取灵感。
     
  • 01:00:00 在本节中,Tom White 鼓励观众查看神经抽象领域的研究,并引导他们观看去年研讨会的视频以获取更多信息。他强调了这项研究的价值,并欢迎观众提出任何问题。
 

麻省理工学院 6.S192 - 第 10 讲:“洋红:通过机器学习赋予创意机构权力”,作者 Jesse Engel



麻省理工学院 6.S192 - 第 10 讲:“洋红:通过机器学习赋予创意机构权力”,作者 Jesse Engel

Google Brain 的首席研究科学家 Jesse Engel 讨论了 Magenta,这是一个研究 AI 和机器学习在创造力和音乐中的作用的研究小组。该小组主要关注生成媒体并通过开源代码和名为 magenta.js 的框架访问它们的机器学习模型,该框架允许在 Javascript 中创建交互式创意模型。 Engel 强调了将音乐视为文化认同和联系的社会和进化平台的重要性,而不是一种廉价生产和消费的商品。他们探索机器学习如何通过表现力、交互性和适应性赋予个人新形式的创造性力量。讲座涵盖各种主题,包括为音乐设计机器学习模型、使用扩张卷积进行预测输出、可微分数字信号处理,以及创建产生漂亮故障的机器学习系统。此外,他还谈到了与艺术家的合作挑战,以及摆脱学习模型的分布和组合性的巨大挑战。

  • 00:00:00 在本节中,Google Brain 的首席研究科学家 Jesse Engel 讨论了 Magenta,这是一个研究 AI 和机器学习在创造力和音乐中的作用的研究小组。该小组主要关注生成媒体并通过开源代码和名为 magenta.js 的框架访问它们的机器学习模型,该框架允许在 Javascript 中创建交互式创意模型。 Engel 强调了将音乐视为文化认同和联系的社会和进化平台的重要性,而不是一种廉价生产和消费的商品。他们探索机器学习如何通过表现力、交互性和适应性赋予个人新形式的创造性力量。

  • 00:05:00 在本节中,Jesse Engel 讨论了设计更易于破解且需要更少数据进行训练的机器学习模型,特别是在音乐背景下。他讨论了设计算法的不同方面之间的权衡,例如通过直观的因果控制使它们具有低延迟,同时仍然具有表现力和适应性。他比较了两种机器学习模型——openai Jukenbox 以需要大量数据为代价非常真实地模拟原始音频波形,以及将音乐建模为结构化数据但具有不真实声音的涂鸦。他最后讨论了小组正在采取的方法,即使用模型中的结构在可解释性和表达性之间进行折衷。

  • 00:10:00 在本节中,Jesse Engel 讨论了音频转录模型的先前技术水平,以及它们在以符合人类感知的方式准确预测音符方面的局限性。他展示了单个帧中的错误如何与音符实际开始的时间一样重要,以及如何创建新的神经网络架构以更好地将损失函数与我们关心的相匹配——当我们播放音乐时音乐听起来如何后退。新的最先进的模型能够实现准确的转录,即使音频是“在野外”,正如一位钢琴演奏者在他的手机上弹奏所证明的那样。

  • 00:15:00 在这部分视频中,来自 Google Brain 的 Jesse Engel 以国际电子钢琴比赛的大数据集为例,解释了数据集在神经网络中的重要性。他讨论了使用神经网络(例如递归神经网络 (RNN) 和变换器架构)来建模音乐序列以及标记化音符的挑战。为了应对这一挑战,他们创建了一个词汇表来识别各个音乐事件和时间戳。通过准确地表示数据中的微定时、速度和变化,模型能够产生听起来更自然的音乐。

  • 00:20:00 在讲座的这一部分,Jesse Engel 解释了 Magenta 团队如何从一个原始主题开始,并使用称为 LSTM 的自回归模型在给定先前标记的情况下预测下一个标记。然而,由于 LSTM 的长期一致性有限,他们实施了转换器来跟踪所有先前的数据以提高一致性。有了这个,他们可以转录原始音频以获得数千小时的符号音乐,从而使他们能够训练具有更长期连贯性的模型。为了给予更直观的控制,团队还提取了旋律并将其作为生成依赖的控制。然后他们可以将这个模型用作不同声音的神经合成器,并且可以将参数调整为特定的声音集。

  • 00:25:00 在视频的这一部分,Jesse Engel 解释了 Magenta 用于神经网络的扩张卷积过程的技术方面,以预测基于高级控制的输出。通过使用扩张卷积,系统能够在不进行下采样的情况下查看大范围的时间,并避免在表达时丢失信息。然而,这个过程是缓慢的,需要对长期结构进行更长期的调节。通过使用音符调节,系统能够生成具有可解释的中间表示的真实表演。

  • 00:30:00 在本节中,我们了解 DDSP,即可微分数字信号处理。 Jesse Engel 提议将振荡器、滤波器和合成器等传统信号处理方法与深度学习相结合,以创建更高效、更逼真和响应更快的系统。不是让神经网络直接创建音频,而是使用已知的信号处理元件,神经网络控制它们产生富有表现力的输出。 DDSP 模块具有可解释性和高效性,并且可以通过这些变频正弦振荡器对声音进行建模。 DDSP 使用谐波振荡和二阶微分方程来提高音频建模的灵活性。 DDSP 不仅是周期性成分,还包括噪声元素,可以用不同的滤波器随机整形。通过使用神经网络解码器控制这些合成元素,可以生成与原始音频相媲美的音频。

  • 00:35:00 在讲座的这一部分,演讲者解释了他们如何通过在模型中运行频谱图然后重新合成来训练解码器以更少的数据创建高质量的合成。这允许模型将音调和响度转换为长笛声音、小提琴声音,甚至可以从歌唱风格转移音色。他们还可以关闭不同的模型组件,例如混响和谐波,以检查各个属性。该模型可以压缩到1MB以下的模型,在浏览器上实现实时运行。 DDSP 模型可以适用于广泛的文化,使其能够保留微调变化和转变。

  • 00:40:00 在本节中,Jesse Engel 讨论了 Magenta 项目及其使用机器学习增强创意机构能力的目标。他解释说,他们收到了音乐家的积极回应,他们发现该工具对他们的创作过程很有帮助,而不是取代它。 Magenta 团队专注于创建更广泛的生态系统,包括用于训练模型的网络界面、部署到网络应用程序以及音乐软件的实时插件。恩格尔指出,该系统更具交互性、实时性和自适应性,但在表现力和多样化的交互模型方面仍有改进空间。该团队正在探索无监督模型,以从数据中学习结构和标签。他们的网站上提供了多种演示、软件和专业工具供任何人试用。

  • 00:45:00 在本节中,Jesse Engel 解释说,创建产生漂亮故障的机器学习系统是一种思考创建艺术家可以使用的系统的方法。例如,原始鼓机中设计的局限性被证明是它们的决定性特征,这导致嘻哈和电子音乐家以有趣和艺术的方式使用声音。此外,Engel 讨论了可解释性和交互性之间的关系,并建议机器学习模型使用的语言和假设可以成为创建 API 的解决方案,这些 API 充当软件和用户之间的中介以实现最大的可解释性。

  • 00:50:00 在视频的这一部分中,Jesse Engel 讨论了在设计适合目标受众的模型时为泛化执行结构的挑战。他解释了神经网络如何在一组特定图像中模拟牛顿力学,但在图像的一个方面发生变化时难以推断。他还谈到构建能够适应音乐强度或底鼓音量的模型如何成为一个迷人的想法。还提出了与艺术家合作的讨论,但杰西解释说,由于局限性和基于研究的推广系统,这具有挑战性。讨论涉及在学习模型中摆脱分布和组合性的巨大挑战。
 

MIT 6.S192 - 第 11 讲:“人工生物多样性”,Sofia Crespo 和 Feileacan McCormick



MIT 6.S192 - 第 11 讲:“人工生物多样性”,Sofia Crespo 和 Feileacan McCormick

在这个关于“人工生物多样性”的讲座中,Sofia Crespo 和 Feileacan McCormick 探索技术与自然的交叉点,以产生独特的艺术形式。两人讨论了他们对机器学习的兴趣和使用及其与美的联系,并强调了人类感知的局限性。他们还讨论了他们的合作项目,包括“纠缠他人”,他们主张代表单个物种及其复杂的纠缠,以更好地理解生态系统。演讲者强调了艺术实践中可持续性和协作的重要性以及工具与艺术之间的关系,并指出算法无法取代人类艺术家。

  • 00:00:00 在本节中,Sofia Crespo 和 Feileacan McCormick 讨论了人工生物多样性的概念,并探讨了在机器学习领域是什么让事物变得美丽的问题。两人考虑是否在用于训练神经网络的数据集中发现了美,训练模型的过程,或者大脑中虚拟神经元层之间的相互作用。他们还将训练神经网络的行为与冥想相提并论,因为两者都涉及数据集的管理和模式的探索。总体而言,讨论强调了技术与自然相交以产生独特艺术形式的方式。

  • 00:05:00 在本节中,Sofia Crespo 讨论了她对水母的迷恋以及人类感知颜色的局限性。她解释说,她对水母的兴趣促使她通过机器学习算法探索合成水母。她思考的问题是,人工神经网络可以教给我们哪些关于我们的认知过程和“自然”概念的知识,以及如何将其形象化。 Crespo 还讨论了 Aaron Hertzmann 关于 gan 艺术中视觉不确定性的论文,该论文探讨了有意义的视觉刺激如何在视觉上不确定并引发认知反应。

  • 00:10:00 在本节中,演讲者讨论了他们对机器学习的兴趣和使用及其与美的联系。他们解释说,在使用机器学习时,他们在一个非常人性化的领域内工作,利用人类创建的数据集,因此解决了人类对自然的视觉假设。演讲者认为,技术是自然的一部分,因为人类是自然的一部分,这种认为技术是独立于自然的实体的想法是有缺陷的。此外,演讲者还讨论了人工生命的定义,并强调它可以在软件、艺术甚至湿件、硬件和遗传学等各个学科中得到理解。他们利用 Karl Sim 对进化人造生物的研究来展示原始人体现生命品质的能力,并随着他们的行为出现竞争意识和目标导向的行动。

  • 00:15:00 在本节中,我们将了解人工神经网络如何创造奇幻生物和语言,就像 Luigi Serafini 的 Codex Seraphinianus 一样。这些创作是人类对植物学、动物学、语言和建筑学知识的重新组合。尽管它们是人为的,但它们在多样性中表现出显着的多样性。讲座还讨论了安娜·阿特金斯 (Anna Atkins),她是 19 世纪的摄影师和植物学家,她创造了蓝晒技术。演讲者将阿特金斯的技术与卷积神经网络相结合,生成了栩栩如生的生物,这些生物是使用氰版印刷技术打印出来的。这个项目被称为人工自然历史,这本书展示了在照相机出现之前人类是如何看待自然的。

  • 00:20:00 在本节中,Sofia Crespo 和 Feileacan McCormick 讨论了他们的合作项目“Entangled Others”,他们主张不仅代表单个物种,还代表他们复杂的纠缠,以更好地理解生态系统。他们解释了他们的第一个项目“人工遗迹”,他们在该项目中生成了昆虫的 3D 模型,并为人们创造了与数字生物互动的增强现实体验。这个项目的成功促成了他们最近的努力,其中涉及建立生态系统和探索存在于关系中的抽象概念。但是,由于 COVID-19,他们的展览计划发生了变化。

  • 00:25:00 在本节中,演讲者讨论了他们的“人工生物多样性”项目,以及他们如何将珊瑚礁作为生态系统相互关联的一个例子。然而,由于缺乏数据,他们不得不与艺术家合作创造人造珊瑚,以模仿珊瑚形态的多样性。他们承认这是一种主观表现,因为它不能准确反映珊瑚礁的复杂系统,但它仍然提醒我们它的品质。他们还谈到了通过自然模式的抽象表示将自然置于聚光灯下的迷人方面,并且使用生物材料是一项学习挑战。

  • 00:30:00 在本节中,演讲者讨论了他们如何通过与专门利用废弃橄榄核制造生物塑料的工作室合作,努力优先考虑可持续性。这种材料可以一次又一次地熔化和重新利用,使他们能够创建展品,然后将材料重新用于未来的项目。他们强调,对于与自然打交道的艺术家来说,可持续思考并考虑数字层的物理后果至关重要,尤其是在艺术实践中使用机器学习。他们还强调合作和跨学科互动对于加强联系和建立新联系的重要性,这促使他们公开呼吁其他人与他们联系以进行合作、对话等。讨论还涉及哲学,并参考了柏拉图、德勒兹和瓜塔里。

  • 00:35:00 在本节中,艺术家 Sofia Crespo 和 Feileacan McCormick 讨论了工具与艺术之间的关系。他们解释说,就像铅笔塑造我们的绘画方式一样,数字工具也具有塑造品质。他们还谈到了在创作生成艺术和数字艺术时不要忘记艺术视角的重要性,以及为什么不仅要质疑技术解决方案,还要质疑原因、方式和内容。他们表示,必须提醒自己艺术是供人类消费的,算法不能取代人类艺术家。
 

麻省理工学院 6.S192 - 第 12 讲:Jason Bailey 的“AI+创造力,艺术书呆子的视角”



麻省理工学院 6.S192 - 第 12 讲:Jason Bailey 的“AI+创造力,艺术书呆子的视角”

Jason Bailey 讨论了机器学习如何影响艺术领域,从伪造检测到价格预测。他敦促艺术家意识到数据驱动艺术中固有的偏见,并敦促需要包含所有观点的训练数据。

  • 00:00:00 Jason Bailey 是麻省理工学院的讲师,他将讨论人工智能和创造力。他拥有工程和市场营销背景,并将这种经历带到他关于艺术与技术交叉点的演讲中。 Bailey 将专注于三个关键领域:艺术史、艺术市场的价格预测以及 AI 和 ML 在创意艺术中的应用。

  • 00:05:00 Jason Bailey 描述了他如何对艺术伪造问题产生兴趣,以及他如何花了三年时间扫描大幅面书籍以创建艺术家全集的数据库。他谈到了这些目录简历是多么的稀有和难以找到,以及最近有人以大约 2,000 美元的价格重新发行了一个流行的版本。

  • 00:10:00 Jason Bailey 的博客“artnome.com”探索使用数据更好地理解和评论艺术的方法。 2017年,他的博客受到538的关注,发表了一篇关于他的项目“人工智能艺术奖学金:那看起来像什么?”的故事。在他的演讲中分享了他的项目和出版物的链接后,Bailey 提供了他演讲的 1 段摘要。

  • 00:15:00 Jason Bailey 讨论了机器学习在艺术史中的作用,尤其是在分析绘画和理解艺术史方面。他还谈到了他最近的项目,该项目涉及训练机器学习模型来识别同一艺术家在不同博物馆的标志性画作。

  • 00:20:00 Jason Bailey 的讲座探讨了绘画价格与构成绘画的单个像素之间的关系,以及艺术市场的趋势。他的机器学习平台能够以 0.58 的相关性预测西班牙画家巴勃罗毕加索的画作价格。

  • 00:25:00 Jason Bailey 讨论了机器学习的现状及其对艺术界的影响。他谈到了机器学习如何被用来创造更现实和超现实的艺术,以及这项创新最近如何重新激发人们对该领域的兴趣。

  • 00:30:00 杰森·贝利 (Jason Bailey) 发表了关于人工智能和创造力的演讲,描述了深度梦想和风格转移如何用于艺术创作。他谈到了他自己使用这些技术的经历,以及这些技术如何不像他第一次发现它们时那样令他兴奋。他通过讨论法国艺术家 Robbie Barrett 的作品来结束讲座。

  • 00:35:00 Jason Bailey 就人工智能和创造力发表演讲,讨论传统艺术培训如何不足以应对人工智能和生成艺术盛行的当今时代。他讨论了他的艺术背景如何让他与艺术家和生成艺术的推动者建立联系,以及他自己的作品如何受到这些艺术家的影响。

  • 00:40:00 Jason Bailey 讨论了技术和艺术在过去如何交叉,以及数据分析如何帮助艺术家衡量抽象。他还提到了他参与的一个项目,他们计算了画家职业生涯中的抽象度。

  • 00:45:00 Jason Bailey 解释了他的团队的算法如何根据艺术家的历史知名度、绘画的复杂性和绘画中使用的材料等多种因素来预测绘画的价格。他还指出,该算法仍处于早期阶段,需要进行更多研究以改进它。

  • 00:50:00 在本次讲座中,Jason Bailey 讨论了他如何使用拍卖数据来研究创造力,以及他如何将艺术和自然等其他领域纳入他的模型。

  • 00:55:00 Jason Bailey 讨论了人工智能对创造力的影响,强调需要包含所有观点的训练数据。他还讨论了有偏见的 AI 算法的潜在后果。最后,他敦促艺术家们意识到数据驱动艺术中固有的偏见。
 

MIT 6.S192 - 第 13 讲:“Surfaces, Objects, Procedures:Integrating Learning and Graphics for 3D Scene Understanding”,作者:Jiajun Wu



MIT 6.S192 - 第 13 讲:“Surfaces, Objects, Procedures:Integrating Learning and Graphics for 3D Scene Understanding”,作者:Jiajun Wu

斯坦福大学助理教授 Jiajun Wu 讨论了他通过整合深度学习和计算机图形学领域知识对机器场景理解的研究。 Wu 提出了一种两步法,通过深度图估计可见表面并根据其他类似形状的大型数据集的先验知识完成形状,从而从单个图像中恢复 3D 对象几何形状。 Wu 还建议使用球面图作为 3D 表面的替代表示,以更好地捕捉表面特征,使系统能够以更详细、更平滑的输出来完成形状。此外,Wu 还讨论了将形状重建为形状程序如何显着改进建模和重建,尤其是对于抽象和人造物体。最后,Wu 讨论了如何将来自计算机图形学的领域知识与机器学习相结合,以改进形状重建、纹理合成和场景理解。

  • 00:00:00 在视频的这一部分,斯坦福大学助理教授 Jiajun Wu 讨论了他通过整合深度学习和计算机图形学领域知识对机器场景理解的研究。通过复制人类的认知,他的目标是构建能够全面理解场景的机器,包括物体类别、3D 几何、物理特性和未来预测。吴的研究还旨在通过创建一种将计算机图形领域知识与深度学习相结合的混合模型,弥合机器学习与艺术之间的差距。这种方法允许在图像编辑和生成方面产生新的可能性,并在深度学习的应用中发挥创造力。

  • 00:05:00 在讲座的这一部分,吴家军讨论了从单个图像恢复 3D 对象几何的问题,这可以看作是计算机图形学中从 3D 形状生成 2D 图像的经典问题的逆向、纹理、照明、材料和视点。虽然可以训练神经网络来执行任务,但 Wu 建议整合来自计算机图形学的先验知识可以提高性能、效率和普遍性。他提出了解决问题的两步法:首先,通过深度图估计可见表面,其次,根据其他相似形状的大型数据集的先验知识完成形状。

  • 00:10:00 在本节中,Jiajun Wu 讨论了使用深度作为中间表示来捕捉物体表面和形状细节的重要性。通过在 ShapeNet 数据集上训练模型并从中随机抽取形状,Wu 证明这种方法大大提高了输出的准确性。但是,他承认将模型推广到以前从未见过的对象可能是一个挑战,会导致对数据的误解。为了解决这个问题,Wu 建议构建一个差分层,将 2D 表示反投影到 3D 表示中,允许系统确定确定性和完全可微分的过程来完成形状。

  • 00:15:00 在本节中,演讲者讨论了对 3D 对象使用部分表面的局限性,特别是 3D 空间的许多区域是空的,这使得补全网络难以捕获表面特征。为了解决这个问题,演讲者建议使用球面图作为 3D 表面的替代表示,其中每个像素对应于表面上的一个点,并且不会浪费任何表示。管道采用估计的深度并将其投影到部分球形地图中,然后可以使用球形地图空间中的完成网络完成。这种新方法可以产生更平滑、更详细的输出,并且可以推广到训练期间未见过的对象类别。

  • 00:20:00 在本节中,Jiajun Wu 讨论了中间表示和反投影如何帮助构建更通用的更好的形状重建系统。 Wu 以人和马的测试为例指出,该系统能够从单一视图以相对合理的方式重建物体,而无需事先看到可变形物体,表明该系统可用于构建更好的视觉系统。 Wu 还解释了表面和前向投影的中间表示如何有助于更好地渲染,从而允许合成新的对象形状和纹理,并更好地控制独立因素。

  • 00:25:00 在这一节中,吴家军讨论了结合以前的技术将它们扩展到场景的过程。首先,他使用反演系统来获取对象的几何形状、姿态和纹理的表示,包括非对象类背景片段(如树木或天空)的潜在表示。然后,他编辑这些表示以查看场景中的不同变化(例如将汽车移近或改变其纹理)如何影响整体图像。 Wu 强调理解物体具有 3D 几何形状的重要性,因为这允许该方法产生完整和准确的结果。最后,他讨论了重建人造物体(例如桌子)时形状抽象的挑战,以及如何结合抽象和类似程序的表示可以带来更好的结果。

  • 00:30:00 在本节中,Wu 讨论了将形状重建为形状程序如何显着改进建模和重建,尤其是对于家具等物体。此外,他还解释了如何利用复制和对称等程序结构来创建内容,例如通过可以指导建筑设计 3D 投影的算法。为了连接原始 2D 图像和 3D 空间,Wu 的团队受到随机搜索的启发,以检测视觉数据中的直线和三角形等图元,现在正尝试合成 3D 图元的形状以指导图像传感。

  • 00:35:00 在本节中,Jiajun Wu 讨论了如何使用内部学习从图像统计中的单个图像中学习所有内容,观察到在单个图像块中可以重复自身,并且这种重复可以跨尺度发生。通过使用神经元激活来识别单个图像中的重复对象,找到的图元可以是直线、矩形、球体或圆柱体,神经网络可以学习特征以在这些重复对象的质心之上识别和合成程序。这可以帮助解决许多问题,例如图像补全或外推,以及使场景更不规则的规则编辑。

  • 00:40:00 在本节中,演讲者讨论了如何将他们的程序应用于 3D 图像,这比单个平面更复杂。这里的问题是将图像划分为多个平面,同时考虑每个平面的方向和表面级别。演讲者建议使用视觉提示(例如消失点和线框)来解决这个问题。然而,线框特征可能有噪声,并且可能有多个可能的候选平面分区。通过使用他们程序的自上而下的知识,他们可以将候选平面校正为 2D 图像并执行程序合成以找到图像的正确分区。这样做可以帮助他们找到最佳的联合运算结果和图像合成,这是传统方法无法完成的。

  • 00:45:00 在本节中,Jiajun Wu 讨论了如何将计算机图形领域的知识与机器学习相结合,以改进形状重建、纹理合成和场景理解。吴强调,对场景的理解是基于视觉数据背后最小但普遍的因果结构:物体、表面、投影和遮挡。通过整合学习和机器学习,Wu 相信在创建超越传统 2D 图像的更强大的 3D 模型方面具有更大的潜力。虽然 Wu 和他的团队没有深入研究 3D 打印,但他们对 3D 形状建模以及在这些模型背后使用推断程序的可能性很感兴趣。
 

麻省理工学院 6.S192 - 第 14 讲:“创造无限创意的开放式创新引擎”,作者 Jeff Clune



麻省理工学院 6.S192 - 第 14 讲:“创造无限创意的开放式创新引擎”,作者 Jeff Clune

OpenAI 的研究员 Jeff Clune 在麻省理工学院的这次讲座中讨论了他在创造无限创意的开放式创新引擎方面的工作。他寻求创建能够执行自然进化和人类文化配方的算法,即从一组事物开始,生成新事物,评估以保持有趣的东西,并对其进行修改以保持有趣的新颖性。 Clune 探索使用神经网络识别新事物,谈论 Map Elites 算法,并介绍用于编码的 Compositional Pattern Producing Networks。他展示了如何结合使用这些工具来生成复杂多样的图像、解决难题以及创建开放式算法以不断创新其解决方案以应对挑战。

  • 00:00:00 在本节中,不列颠哥伦比亚大学计算机科学副教授兼 OpenAI 研究团队负责人 Jeff Clune 讨论了他关于创造无限创意的开放式创新引擎的研究。他回顾了自己的个人旅程,从哲学开始,然后转向构建计算系统以应对 AI 的重大挑战。 Clune 对创建开放式算法很感兴趣,这些算法不断创新,在自然界无穷无尽的创造中随处可见,例如美洲虎和鹰的复杂工程设计。

  • 00:05:00 在本节中,演讲者讨论了创新引擎的概念,他将其定义为自然进化和人类文化所遵循的配方,使他们能够发挥创造力。这个秘诀涉及从一组事物开始,生成新事物,评估它是否有趣,以及保留和修改有趣的结果。演讲者旨在创建一种算法,从长远来看,无需人工干预即可自动执行此过程。然而,最大的挑战是避免产生无趣的新颖性,而只产生有趣的新颖性。演讲者建议使用神经网络识别大量类别来识别新类型的事物并产生有趣的结果。

  • 00:10:00 在本节中,Jeff Clune 讨论了一种称为 Map Elites 的算法及其在算法搜索领域的地位。他解释说,许多难题需要探索和发现新事物,而不仅仅是针对某个目标进行优化,这应该反映在算法中。 Clune 和他的同事一直在研究一个名为“质量多样性算法”的新子领域,该子领域旨在寻找大量、多样化的解决方案,这些解决方案都尽可能适合该类型的解决方案。该算法寻求在另一项任务取得进展时在目标之间切换,认为这可能是解决真正困难问题的唯一方法。

  • 00:15:00 在本节中,从事生物学和人工智能交叉研究的研究员 Jeff Clune 介绍了 Map Elites 算法,该算法用于根据某些标准优化解决方案。 Clune 解释说,他和他的同事将 Map Elites 应用于机器人问题,使用遗传算法生成软体机器人形态,从而产生各种各样的生物。然而,该团队并不满意,因为他们意识到每个生物几乎是相同的,并且该算法只是通过开始新的搜索来产生设计的多样性。为了解决这个问题,Clune 将 Map Elites 算法应用于同一问题,这次选择体素的数量和特定材料的数量作为感兴趣的维度,而不是使用规范优化算法。他发现该算法探索了更广阔的可能性空间,并最终产生了更好的结果。此外,Clune 还描述了他们使用的编码,称为组合模式生成网络 (CPPN),这对于解决他们在后面的部分中处理的问题至关重要。

  • 00:20:00 在讲座的这一部分,Jeff Clune 讨论了深度学习和进化算法中的编码选择。在直接编码中,最终工件中的每一个特征都由参数向量上的一个数字表示,而在生成编码中,参数向量中的信息被重新用于生成最终产品,从而产生更多规则或图案化的产品。大自然通过使用几何图案来使用生成编码来确定细胞命运,这是根据细胞在体内的位置,每个细胞变成的细胞类型。这种方法被视为发育生物学中的通用语言,其中将预先存在的模式组合起来以在最终产品中创建新模式。

  • 00:25:00 在本节中,来自 OpenAI 的研究员 Jeff Clune 讨论了如何有效地利用发育生物学的力量来构建开放式人工智能系统。他建议使用组合模式生成网络 (CPPN),它在没有任何基础化学的情况下抽象出自然系统的许多力量,将几何位置编码为表型元素的函数。通过为人工制品提供坐标以优化表型元素,例如神经网络或机器人形态,CPPN 可以通过混合和匹配不对称和对称以及重复的主题来产生任意复杂性。 Clune 和他的团队将这个想法放在三个维度上,建立了一个名为 endlessforms.com 的网站,用户可以在该网站上挑选彼此进化的形状,以生成不断增长的垫脚石档案。

  • 00:30:00 在讲座的这一部分,Jeff Clune 讨论了使用 CPPN 实现自动化设计和 3D 打印任意复杂图像,展示了这些工具消除技术障碍并轻松生成创意设计的强大功能。然后,他将 CPPN 应用于创建开放式算法的任务,并对其进行优化以对 ImageNet 中的数千个 bin 中的每一个进行分类。 Clune 描述了如何测试性能更好的假设,结果生成的图像经常看起来像与它们相关联的类别或唤起对该概念的艺术解释。尽管生成了一些“愚弄图像”,但这一生成过程使团队能够探索一个全新的美学空间,同时展示导致对抗性图像的深层神经网络固有的缺陷。

  • 00:35:00 在本节中,Jeff Clune 讨论了他和他的团队开发的多样性算法的特性,该算法能够生成高质量的多样化图像。该算法生成一组不同的图像,其中一些在美学上很有趣,可用于商业徽标等实际目的。他还解释了算法的目标切换能力如何允许自适应辐射发生,类似于生物学和技术领域中发生的情况。他提供了对算法中发生的进化过程的洞察,展示了图表和系统发育树,展示了创新思想的诞生和演变。此外,他分享说该算法及其输出通过了艺术图灵测试,被误认为是人类而不是人工智能创造的艺术。

  • 00:40:00 在本节中,Jeff Clune 介绍了质量多样性 (QD) 算法的概念,该算法可以产生表现良好并具有切换目标能力的多样化解决方案。他讨论了它们在解决挑战方面的用途,例如可以适应损坏的机器人和探索蒙特祖玛的复仇和陷阱等艰巨的探索挑战。他指出,虽然 QD 算法具有创新的潜力,但它们还不是开放式的,并且受到环境的限制。 Jeff Clune 随后提出了创建开放式算法的想法,例如 Paired Open-Ended Trailblazer (POET) 算法,它可以无穷无尽地生成有趣、复杂和多样化的学习环境及其解决方案。 POET 算法旨在生成新的学习环境,这些环境对于当前的代理群体来说既不太容易也不太难,优化代理以更好地解决每个挑战并允许在它们之间切换目标。

  • 00:45:00 在本节中,Jeff Clune 讨论了“目标切换”的概念 - 系统在一个环境中竞争、进步然后转移到另一个环境的能力。他展示了一种遍历地形的 RL 算法,该算法会自动创建越来越难的环境。 Clune 解释说,这是一种衡量进展和克服局部最优的方法。他介绍了“诗人”算法,并展示了它如何成为解决难题的唯一方法。他证明诗歌对于克服局部最优至关重要,正如在一项任务中所见,新优化的机器人侵入旧环境,取代以前的化身。 Clune 指出,这种复杂的创新可以为更高级的模拟铺平道路。

  • 00:50:00 在讲座的这一部分,Jeff Clune 讨论了将身体优化与环境生成相结合的潜力,以创造针对特定环境优化的生物,就像洞穴蜘蛛一样。他还建议将 Dali 这样的创新引擎与发明挑战和解决方案的算法配对,然后检测生成的图像、视频、音乐或诗歌中有趣的新内容。 Clune 提到他的研究团队还探索了人工智能神经科学,这是一个研究深度神经网络对它们分类的图像的理解程度的领域。他们通过合成图像来最大限度地激活特定神经元,并能够在网络中探索五足海星的概念。

  • 00:55:00 在讲座的这一部分,Jeff Clune 讨论了深度学习图像生成的演变,从向自然图像生成添加约束到使用深度学习学习自然图像先验。通过对算法进行细微调整,每个生成器都会产生截然不同的艺术风格。神经网络确实了解每个对象在特定空间(例如自然图像的空间)中的含义,并且可以生成更高逼真质量的图像。然而,在这些自然图像空间中几乎没有产生多样性。为了克服这个问题,引入了即插即用的生成网络,它可以生成比以前在深度学习中看到的范围更广的多样化图像。

  • 01:00:00 在讲座的这一部分,Jeff Clune 讨论了 AI 神经科学的进展以及开放式创作过程的创建。他强调了人工智能如何识别和学习我们世界中的概念,例如火山或割草机,但很容易产生和识别对抗性图像。 Clune 推荐了 Chris Ola 的工作,并谈到了他的团队在探索不同模式(例如语音和视频)方面的工作。他还分享了对该领域取得的进展和未来潜力的兴奋之情,包括生成可激活真实猴脑神经元的合成图像。 Clune 认为科学经常会产生美学产物,以及现代机器学习工具如何促进艺术与科学的融合。最后,他建议有兴趣加入创造无限创意的开放式流程使命的学生阅读肯·斯坦利和乔尔·雷曼的作品。
     
  • 01:05:00 在本节中,Jeff Clune 解释说,开放式算法有可能支持通用人工智能的进步。他建议阅读他的 AI 生成算法论文,该论文探讨了这些算法如何成为生成通用 AI 的途径。 Jeff 还鼓励研究人员将这些想法应用于各个领域,并使用 GPT-3 或 Dolly 等工具来实现这一目标。他建议,在诗歌或建筑等不同领域探索唾手可得的成果,可能会带来令人兴奋的进步。 Jeff 还解决了 Joseph 关于在多代理设置中使用 Poet 算法的问题,并讨论了出现的挑战,例如在这种环境中测量代理性能的困难。
 

MIT 6.S192 - 第 15 讲:Joel Simon 的“创意网络”



MIT 6.S192 - 第 15 讲:Joel Simon 的“创意网络”

在本次讲座中,乔尔·西蒙探讨了他从自然生态系统中汲取创意网络的灵感和方法。他展示了计算能力在创作过程中的潜力,描述了拓扑优化、形态发生和进化算法等技术如何能够产生令人难以置信的形式和纹理。 Simon 还分享了他的 GANBreeder 项目的详细信息,这是一个使用 CPPN 和 GAN 发现和改变图像的在线工具,并讨论了交叉推荐系统在创作过程中的潜力。西蒙对科技和创造力的未来持乐观态度,相信人类可以通过协作优化建筑物的功能,创造出更伟大的东西。

  • 00:00:00 在本节中,Joel Simon 解释了他的背景和创作网络作品的灵感。他强调了布赖恩·伊诺 (Brian Eno) 对孤独天才概念的批评,并描述了如何将创造力量化为各种力量共同作用的新兴产物。西蒙还谈到了他的雕塑之旅,这使他学习和探索了创造的计算方法,强调了数字化和计算化之间的区别。

  • 00:05:00 在本节中,Joel Simon 描述了他在大学期间发现的计算设计和拓扑优化工作的灵感。 Simon 对拓扑优化产生传统意义上永远无法创造的新形式的能力着迷,他试图进一步探索其潜力。然而,他意识到他需要超越简单的优化技术,并结合真实自然的元素,例如适应性和环境,这可以使建筑物像树一样生长,这促使他对生成架构进行实验。他的工作不仅以建筑设计为基础,还使用图形模拟方法和进化的虚拟生物作为计算设计中增加复杂性和创新的灵感。

  • 00:10:00 在本节中,演讲者讨论了模式信息和形态因子在生长过程中的使用,特别是在反应扩散方面。他解释说,这些图案可以在艺术中用于产生纹理,并讨论了 Jeff 的 CPPN,它用于将一个简单的网络从位置映射到颜色并将其转换为图像。为了进一步推进这些生长理念,演讲者创建了“进化的外星珊瑚”项目,该项目使用跨越 3D 网格顶点的形态发生素来控制顶点移动和发射的方向。这允许产生令人难以置信的形式的复合效应。珊瑚的颜色是正在优化的形态发生素,而不仅仅是生成漂亮的图案。该项目还展示了能够通过力量或目标进行雕刻以驱动形式的想法,其中形式遵循适应性功能。演讲者还简要介绍了生态系统的概念和中间干扰假设,即在中间存在一定程度的干扰时达到最佳多样性。

  • 00:15:00 在本节中,乔尔·西蒙 (Joel Simon) 讨论了他对从自然生态系统中汲取灵感的创意网络的迷恋,并探讨了这些景观如何有助于雕刻和操纵图案。他提出了这样一个问题,即看到生态崩溃会是什么样子,或者入侵物种或不同岛屿合并等干扰将如何影响生态系统。西蒙受到楔形文字和书法作为多目标问题解决方案的启发。为了试验不同的方法,西蒙创建了一个定制的神经架构,通过嘈杂的媒介生成通信模式识别,每种形式都是可识别的并且相互区别,这导致了不同语言的出现。后来,他将这个系统修改为既合作又对抗,制作出独特的书法集,这些书法集彼此相似,但以不同的方式保持功能。

  • 00:20:00 在本节中,乔尔西蒙讨论了他的一些生成艺术项目,这些项目的灵感来自各种来源,例如马蒂斯的自画像和康威的生命游戏。他使用遗传算法创作肖像,并探索了人造生命的生成架构概念。 Simon 还谈到了他是如何受到挑选饲养员项目的启发的,该项目涉及使用神经网络生成生物图像,然后选择性地培育这些生物以创造出新颖有趣的设计。

  • 00:25:00 在本节中,演讲者讨论了他创建 GANBreeder 的灵感,GANBreeder 是一种使用 CPPN 和 GAN 发现和变异图像的在线工具。他受到伟大无法计划的想法的启发,并被人类与生俱来的兴趣所吸引,这可能有助于增强该工具中使用的算法。他深入研究了 GAN,并认识到 GAN 的潜在向量具有用于交叉的必要属性,这允许孩子的图像类似于父母双方。演讲者谈到了不同类型的创造力,并指出他的工具是一种组合工具,他将 BigGAN 与 Picbreeder 结合起来创建了 GANBreeder。他还讨论了 GANBreeder 允许用户创建图像的三种方式,即随机获取孩子、将两个图像混合在一起以及编辑图像的基因。

  • 00:30:00 在讲座的这一部分,乔尔·西蒙从探索阶段的角度讨论了创作过程,探索阶段的范围从开放式到有目的性,中间有梯度。提到了生物相似之处,例如无性繁殖、有性繁殖和 crispr,作为创建和制作图像的不同方式。西蒙随后提供了他制作的图像示例,以及构成图像的基因,强调互动、协作探索的重要性,因为人类无法在 128 个维度上思考。 Simon 总结说 ArtBreeder 可以用作寻找想法和灵感的工具,并提到了一个最近的功能,允许用户创建自己的基因,与那些对机器学习感兴趣的人相关。

  • 00:35:00 在本节中,Simon 介绍了他的项目 Ganbreeder 如何利用标记图像的众包生态系统。通过收集图像中微妙属性的样本,用户可以将其转化为工具或过滤器,从而创建更强大的基因。该项目最初是一个简单的图像网格,并提示哪个图像最有趣。然而,用户一直在以意想不到的方式使用 Ganbreeder,例如上传照片为历史人物着色、制作连衣裙,甚至在角色上作画。 Simon 强调,实验实际上是界面,而不是 gan,因为两者确实必须结合在一起才能使其发挥作用。

  • 00:40:00 在视频的这一部分中,Joel Simon 讨论了创建交叉推荐系统工具的潜在力量,该工具利用现有推荐引擎中目前未使用的潜在变异维度。他举了一个例子,在他工作时无法确定歌曲中是否有歌词,这表明如果推荐引擎可以帮助像他这样的用户创建一个考虑这些变化维度的工具,他们可以提出更有力的推荐. Simon 还探讨了创意工具中的所有权和协作的概念,描述了他策划的一场互动艺术展,没有人“拥有”这件艺术品,因为它是由许多人共同创作的。

  • 00:45:00 在本节中,乔尔·西蒙讨论了人类思维的局限性与创造性过程中计算能力的潜力。人类对我们的思维有一定的偏见,包括在清晰的层次结构中思考,有惯例,而不是在复杂的重叠中思考。 Simon 讨论了促进协作、探索、允许新媒体和隐喻如何导致新的创作过程。在这个过程中,创意总监和艺术家之间的对话是必不可少的,导演引导艺术家的创造力。 Simon 对计算和创造力的未来持乐观态度,并相信在使用该工具制作我们与他人分享的新艺术作品时将以人为驱动,而不是替代艺术家和创意者。

  • 00:50:00 在本节中,Joel Simon 讨论了创造力以及技术进步将取代艺术家的误解。他认为,这种进步只会让每个人都更容易表达创意,并指出创造力是人类与生俱来的需求,本身就是目的。 Simon 最后提出了一种适应自然繁殖过程的形态发生设计概念,并使用仿生学来创建协作过程,以进行超出人类认知能力的设计。他强调,人类是更大的创造性结缔组织的一部分,项目的灵感来自于这个更大的系统。

  • 00:55:00 在本节中,Joel Simon 谈到了他对技术未来的乐观看法,即构建一个由建筑组成的生态系统,这些建筑作为一个复杂的生态系统相互和谐。他相信,通过新的隐喻和技术,人们可以以无法理解的方式协作和优化这些建筑物的功能。虽然技术有利有弊,但西蒙对机器与人类之间对话的积极看法提供了对未来技术可以将人们聚集在一起创造更伟大事物的洞察力。
 

麻省理工学院 6.S192 - 第 16 讲:“作为计算的艺术的人类视觉感知”Aaron Hertzmann



麻省理工学院 6.S192 - Lec。 16:“作为计算的艺术的人类视觉感知”Aaron Hertzmann

该讲座探讨了艺术中的感知模糊性和不确定性,以及生成对抗网络 (GAN) 在创建模糊图像中的使用。它讨论了观看持续时间对感知的影响以及图像熵与人类偏好之间的关系。讲师提出了一种艺术进化论,其中艺术是由能够建立社会关系的代理人创造的。还讨论了人工智能在艺术中的应用,结论是虽然算法可以成为有用的工具,但它们不能取代人类艺术家。讲座以对价值等概念的一些评论结束。

  • 00:00:00 在本节中,演讲者讨论了感知模糊和不确定性,这是现代艺术中的重要主题。他解释说,具有不同解释的图像会导致观看持续时间发生变化,并且会在不同的感知之间来回切换,从而影响个人做出的选择。视觉不确定性是一个术语,用于描述似乎产生简单连贯解释但无法以连贯形状解决的图像,这个主题在现代时代变得流行,尤其是立体主义。心理学文献已经讨论和研究了知觉歧义以及描述这种歧义空间的方法,但是在近年来生成对抗出现之前,很难找到可比较的刺激和测量歧义。

  • 00:05:00 在本节中,演讲者讨论了 GAN 在艺术创作中的应用,以及这些类型的图像可能表现出的自然视觉模糊性。该团队在一项研究中使用了这些图像,参与者会在短时间内看到一幅图像并要求对其进行描述。结果表明,具有更高水平的感知不确定性和歧义的图像会导致参与者进行更大范围的描述。此外,观看时间的长短对用于描述图像的词语的数量和种类有影响,参与者会随着曝光时间的延长而趋向于更连贯的解释。

  • 00:10:00 在本节中,讲师讨论了图像熵与人类对模糊图像的偏好之间的关系。该团队发现有两类用户,一类偏好低熵图像,另一类偏好高熵图像。然而,将用户聚类到这些类别中只能成功地预测对某些类型图像的偏好,并且需要更多的自然语言处理来提取正确的信息。继续探讨艺术的定义以及计算机是否可以创造艺术。目前对艺术的定义被发现是不充分的,因为它没有概括考虑新的艺术形式,比如那些可能由外星人创造的艺术形式。取而代之的是,演讲者提出了一种艺术进化论,即艺术是由能够进行社会关系并因此进行社会活动的代理人创造的。这导致了计算机可以成为艺术家的结论,但这种对话是错误的,因为它可能会给非专家带来错误的理解。

  • 00:15:00 在本节中,演讲者讨论了使用计算思想来理解人类对艺术的感知以及艺术是如何制作的。他认为计算机只有具备人格或社会关系才能成为艺术家。但是,计算机是艺术创作的有力工具,为艺术创作提供了新的工具。演讲者还反驳了人工智能艺术将随着它变得更容易获得而失去其价值的观点,并指出最好的人工智能艺术家正在尝试编码并仔细选择结果。

  • 00:20:00 在本节中,Hertzmann 讨论了人工智能 (AI) 在艺术中的应用,并质疑可以根据人类喜好生成艺术的机器是否可以被视为艺术家。他认为,目前的人工智能算法只是简单地遵循指令,不具备人类艺术家的创造力。然而,他对算法模拟艺术过程和偏好的潜力感到兴奋,使它们成为创作和策划艺术的有用工具。最终,Hertzmann 不相信算法可以取代人类艺术家,因为艺术是文化和时间的产物。

  • 00:25:00 在本节中,在对价值等概念进行讨论后进行了一些总结性评论。没有提供关于这些概念或任何新讨论主题的重要信息。感谢演讲者的启发和鼓舞人心的演讲。
 

麻省理工学院 6.S192 - 第 17 讲:“在平面设计服务中使用 AI”,作者 Zoya Bylinskii



麻省理工学院 6.S192 - 第 17 讲:“在平面设计服务中使用 AI”,作者 Zoya Bylinskii

Adobe 的研究科学家 Zoya Bylinskii 在本次讲座中探讨了图形设计与人工智能 (AI) 的交叉点。 Bylinskii 强调,人工智能旨在通过自动执行繁琐的任务和生成设计变化来协助而不是取代设计师。 Bylinskii 给出了 AI 辅助工具的示例,包括交互式设计工具和 AI 生成的图标构思。 Bylinskii 还讨论了将 AI 应用于平面设计的挑战和潜力,包括创造性思维、策展以及与不同领域的专业人士合作的需求。她建议对平面设计的人工智能和机器学习感兴趣的候选人展示项目经验并寻求研究机会。

  • 00:00:00 在本节中,Adobe 的研究科学家 Zoya Bylinskii 解释了如何将 AI 用于图形设计服务。 Bylinskii 谈到了平面设计和 AI 的交集,以及如何将平面设计的不同风格形式解构为可以从中学习和自动化的计算模块。她强调,人工智能并不是要取代设计师,而是要让设计师能够自动完成繁琐的任务和快速探索,从而自动生成设计变体,同时让设计师在设计过程和策划中保持核心地位。 Bylinskii 给出了这些目标的两个例子:针对不同的形状因素和纵横比调整设计的大小和布局,以及在创建图标、徽标或类似的设计资产时循环通过许多可能的视觉表示。

  • 00:05:00 在本节中,Zoya Bylinskii 讨论了设计自动化如何通过最大限度地减少乏味和促进更高效的迭代过程来提高设计过程的速度。 Bylinskii 继续解释机器学习如何预测设计中的视觉重要性,通过了解不同设计中视觉冲击和注意力的内容,为平面设计师创造更有效的指导。通过使用注释工具,Bylinskii 和她的同事策划了一个包含一千个图像注释对的数据集,以根据这一重要性概念训练他们的模型,该模型使用分类模块来预测测试时设计中最显着的区域,指导设计人员在哪里放置其他设计元素。

  • 00:10:00 在本节中,Zoya Bylinskii 讨论了在图形设计中使用人工智能 (AI) 的两种应用。第一个应用程序涉及一个交互式设计工具,该工具使用一个小型神经网络来实时重新计算各种设计元素的预测重要性。该工具还具有直方图,并允许用户调整每个元素的重要性级别以操纵设计。第二个应用涉及图标生成构思,其中 AI 用于创建与常见视觉概念相对应的新图标。 Bylinskii 解释说,这两个应用程序都为在 AI 辅助图形设计工具中使用重要性模型提供了有前途的新方向。

  • 00:15:00 在本节中,演讲者解释了设计师在尝试为没有现有图标的概念(例如寿司外卖)创建新图标时所面临的挑战。这个过程需要手动工作,搜索相关概念以获得灵感,以及重新组合和编辑现有图标。为了简化这个过程,演讲者介绍了一个新的 AI 驱动的复合图标生成管道。该系统结合了空间、风格和语义来生成复合图标,这些图标在风格上兼容并且在语义上与查询的概念相关。 AI 驱动的管道涉及将查询分解为相关的词,找到风格兼容的图标,并将它们组合起来以传达所需的信息。

  • 00:20:00 在本节中,Bylinskii 讨论了一个名为 Iconate 的项目,该项目使用 AI 来建议兼容的图标组合和布局以创建新设计。该系统学习了一个嵌入空间来建议风格兼容的图标和一个基于模板的方法来定义组成图标的布局。 Iconate 使用 CompyCon1k 数据集进行训练,该数据集包含 1,000 个带有注释的单个组件的复合图标。 Bylinskii 解释说,该系统允许用户比使用独立的设计工具更快地创建复合图标,并且它可以用于为用户可以想到的任何概念快速生成图标。她还重点介绍了其他由人工智能驱动的设计工具,例如徽标合成和布局优化系统,这些工具旨在促进设计过程,而不是取代人类的创造力。

  • 00:25:00 在本节中,演讲者讨论了人工智能在创建信息图表中的应用,包括文本、统计数据和小型可视化。她还指出,这项工作分布在不同的社区和会议中,并提供了计算机视觉的示例,例如使用 GAN 生成 GUI 设计。她指出,有许多资源可用,包括用于计算图形设计和创意的数据集,并简要提到了 Behance 艺术媒体数据集和图像和视频广告数据集的自动理解。

  • 00:30:00 在本节中,演讲者讨论了设计工作流程中用于自动化组件的可用模型和工具,指出许多自动化工具不是很有创意,但未来在自动化但高度创造性的工作流程空间。她鼓励学生自己探索这个空间并产生跨学科的思想,这可以在计算和设计的界面上产生令人兴奋的应用。讨论还涉及图形设计中当前文本到视觉模型的局限性以及可以生成矢量图形的新模型的潜力。

  • 00:35:00 在本节中,演讲者讨论了一个项目,该项目的目标是根据给定的信息图生成标题,以便在网络上搜索信息图并为视障人士添加注释。但是,他们遇到了一个问题,因为他们无法使用现有的对象检测器从信息图中提取视觉效果和图标。这导致开发了一种使用合成数据训练图标检测器的方法,最终实现了图标检测。学生们后来探索了学习图标和附近文本之间的联合嵌入的可能性,这可以用来理解抽象概念在复杂的图形设计中是如何可视化的。演讲者强调,人工智能并不是要取代设计师,而是要帮助他们,策展仍将是这项工作的一个重要方面。

  • 00:40:00 在本节中,演讲者讨论了设计师在 AI 生成的图形设计领域中的作用。虽然可以训练模型生成设计,但很难训练它们创建全新的设计。因此,设计人员可以引入超出当前流形的新资产和组件,然后可用于自动操作和生成新设计。演讲者还强调了策展的必要性,因为设计人员可以帮助识别垃圾和非垃圾对以改进培训过程。此外,演讲者指出,由于缺乏足够的数据,使设计适应不同的文化仍然是一个挑战。最后,演讲者解释了研究科学家在像 Adobe 这样的公司中的作用,他们旨在提出可以纳入现有产品团队以进一步开发的重大研究理念。

  • 00:45:00 在本节中,Zoya Bylinskii 讨论了在图形设计中应用 AI 来创建实用产品的挑战。她强调需要以一种使问题可移植到不同技术产品的方式将问题概念化,向公司推销研究理念,并与来自不同领域的专业人士合作以获得专业知识。 Bylisnkii 建议学生和实习生开发强大的计算工具集,以提高他们获得工程、研究或产品实习生职位的机会。

  • 00:50:00 在本节中,演讲者重点介绍了他们希望候选人对平面设计的人工智能和机器学习感兴趣的技能。他们强调需要熟练掌握软件工具和机器学习。他们建议不仅以课程形式展示经验,而且以项目形式展示 Github 上的示例。他们建议候选人需要展示创造力和创新,超越现有模型和库来概念化新想法并以新方式应用它们。候选人应该在大学实验室追求研究经验或技术职位。他们建议与教授接触,并提出在特定时期内就某些问题进行工作。最后,他们强调其他研究人员推荐信的重要性,证明候选人的创造力、技术实力和研究适合性。
 

MIT 6.S192 - 第 19 讲:使用一致的神经场轻松创建 3D 内容,Ajay Jain



MIT 6.S192 - 第 19 讲:使用一致的神经场轻松创建 3D 内容,Ajay Jain

在本次讲座中,Ajay Jain 介绍了他在神经场景表示方面的工作,特别关注神经辐射场模型,该模型使用稀疏采样输入视图来构建场景 3D 几何和颜色的表示。 Jain 讨论了将神经辐射场拟合到单个场景的挑战,以及通过添加光度损失和语义一致性损失来提高训练过程的数据效率的方法。他还谈到使用 CLIP 去除 NeRF 中的伪像,并从 Dream Fields 项目中的字幕生成 3D 对象。其他主题包括在场景中创建一致的前景对象、获取带字幕的 3D 对象数据集、降低渲染成本以及优化系统性能。

  • 00:00:00 在视频的这一部分,Ajay Jain 谈到了他在生成模型和人工智能工具方面的旅程和研究兴趣。他还讨论了不同类型的场景表示,重点关注体积方法,与图形应用程序中常用的网格表示相比,这种方法更容易在学习环境中训练和使用。 Jain 还强调了最近对神经场景表示的兴趣。

  • 00:05:00 在本节中,演讲者讨论了神经场景表示的概念,特别关注称为神经辐射场的模型。该模型解决了视图合成问题,其中场景的稀疏采样输入视图用于构建场景 3D 几何和颜色的表示,允许从新视角进行渲染。神经辐射场是根据这些图像估计的,并允许对稀疏采样视图进行平滑插值。该模型还能够对依赖于视图的效果进行建模,例如光亮表面上的镜面反射。神经网络表示为从 3D 空间坐标和观察方向映射的函数,并预测每个坐标的颜色和密度。渲染是通过光线追踪和体积渲染完成的。

  • 00:10:00 在本节中,演讲者讨论了根据神经场景表示渲染颜色的过程,以优化神经网络的权重以获得所需的颜色。他们解释说,对场景进行编码的 MLP 允许对视点进行可微分渲染,从而更容易优化。这个过程称为逆向图形,涉及从 2D 空间到优化将重建这些视图的底层 3D 表示。演讲者还解释了如何使用将 5 维输入投影到更高维空间的正弦位置编码方法将输入坐标馈入神经网络。

  • 00:15:00 在本节中,视频讨论了将神经辐射场拟合到单个场景的挑战,因为它通常需要大量数据进行训练。该视频展示了一个合成场景,需要一百张图像才能适应现场,而一些户外场景需要更少的图像。然后,该视频讨论了一种通过在未观察到的位置向神经辐射场训练添加额外损失(称为光度损失)来提高训练过程的数据效率的方法。这允许甚至在场景收敛之前渲染新颖的视图。

  • 00:20:00 在本节中,演讲者讨论了语义一致性损失的概念,它允许在训练过程中从任何角度对场景进行正则化。使用视觉编码器,每个输入视图都在特征空间中表示,这允许对对象身份和跨视点一致的其他特征进行编码。特征选择至关重要,因为它应该编码对象的身份和属性,而不是像像素颜色这样的低级细节。演讲者建议使用 CLIP 网络,因为它已经学会了将图像与其相关联的说明进行匹配,这使得它可以对对象的类别、对象的姿势和整个场景的细节进行编码。演讲者表明,来自 CLIP 的图像编码器的嵌入的余弦相似性在来自不同相机姿势的特定场景中高度相似,但在像素空间中却非常不同。

  • 00:25:00 在视频的这一部分,演讲者讨论了他们使用 CLIP 通过最大化特征空间相似性来去除 NeRF 中的伪影的实验,然后讨论了在他们的第二个作品中使用 CLIP 仅从标题生成 3D 对象,梦想领域。他们优化共享场景表示,使其看起来类似于带有额外正则化器的 diet NeRF,然后为每个视角渲染出新视图。他们使用 CLIP 的文本编码器来最大化场景和标题之间特征空间的相似性,而不是优化图像特征空间中的特征相似性。他们指出,由于搜索和优化过程的困难,使用 CLIP 自动添加字幕具有挑战性。

  • 00:30:00 在本节中,Ajay Jain 讨论了使用 Dream Fields 在 3D 场景中创建一致前景对象的过程。通过随机采样场景中的姿势和渲染图像,他们试图确保语义特征与标题特征相匹配。然而,在没有正则化的情况下天真地应用这种方法会导致场景退化。因此,他们通过合成随机采样的背景和高度透明的前景对象来规范场景,以鼓励场景中的稀疏性。通过这种正则化,他们能够在场景中创建更一致的前景对象。此外,他们还尝试使用不同的字幕模板来衡量模型的成分概括性。

  • 00:35:00 在本节中,演讲者讨论了获取带字幕的 3D 对象数据集的挑战,以及他们如何使用 CLIP(一种预训练的 2D 图像和文本编码器)解决这个问题。 Dream Fields 项目通过几何的共享表示将此 2D 表示提升为 3D。演讲者还谈到了用于提高生成的 3D 对象质量的技术以及优化过程的成本。该项目的目标是使 3D 内容创建更容易,并生成对下游应用程序有用的资产,代码可供任何想试用的人使用。

  • 00:40:00 在本节中,Ajay Jain 解释说,对象的 3D 结构仅由于共享表示而出现,这从任何角度都满足 CLIP。从数据中学习的 3D 结构没有先验知识,因此缺少 3D 数据的某些一致性,这是未来工作的机会。 Jain 还提到,当底层几何图形不可见时,一致性就无法保留,从而导致重复结构。从坐标函数映射生成的神经网络必须进行后处理,这涉及将神经场的输出转换为 .fbx 文件或网格,一些算法允许这种转换。
     
  • 00:45:00 在本节中,演讲者讨论了降低神经辐射场体积表示中渲染成本的策略,包括以低分辨率渲染图像和使用单个低内存 GPU 来显着加快该过程。他们还解释了如何在这种类型的表示中处理透明物体,并提到了使这种方法对 3D 艺术家更实用的未来步骤,例如合成可变形物体和在训练期间结合人类反馈。最后,他们共享一个 Colab 笔记本来实现系统并针对不同的提示调整质量设置。
     
  • 00:50:00 在本节中,演讲者讨论了使用一致神经场创建 3D 内容所涉及的学习曲线和优化过程。他们解释了影响优化过程的不同因素,例如场景中像素的透明度和每次迭代的数据增强数量。他们还建议调整配置参数以减少内存使用,包括减少样本数量和使用 CLIP b32 而不是默认的 CLIP b16。最后,他们提到了跨多个 GPU 并行化以优化性能的选项。