在此视频中,艺术家兼讲师 Tom White 讨论了他将机器感知和神经网络结合到他的艺术实践中的方法。怀特分享了他在麻省理工学院学习数学和平面设计的背景,以及他目前在维多利亚大学教授创意编码的工作。他还讨论了他关于构建工具以帮助他人创造性地使用媒体的研究,以及他自己探索机器感知的艺术作品。怀特展示了他使用人工智能算法创作的素描和版画,并谈论了他与音乐团体的合作以及他最近的艺术展览。他还讨论了与神经网络合作的挑战,以及将 AI 生成的艺术置于野外的意外后果。
00:05:00 在本节中,演讲者概述了他关于神经抽象的演讲以及他探索机器感知的艺术作品。他解释说,机器有自己独特的看待世界的方式,他的艺术作品旨在将这一点展示给更广泛的观众。演讲者还谈到了 AI 表示和抽象的主题,以及他如何研究神经网络视觉系统的表示以在艺术环境中传达它们。他举例说明了这一点,展示了他的一些基于实际图像数据集(例如眼睛、面部和鸡)的艺术作品,以及他如何将诊断引入到理解系统内部世界的过程中。演讲以探索机器感知在艺术中的意义以及它如何帮助我们理解机器感知世界的不同方式作为结束。
00:10:00 在本节中,Tom White 讨论了他在麻省理工学院期间的一些初始项目,包括他对用于创建实时视频过滤器的机器学习技术的探索,他为多点触控交互创建的自定义手部界面,以及他的艺术项目“意识流”,该项目结合了 WordNet 等人工智能技术来查找相关词。 White 还谈到了他参与创建核心软件库 Acu,该库后来成为 Processing 和 OpenFrameworks 等系统的基础,以及他目前的工作如何涉及为机器学习过程创建草图和绘图。
00:20:00 在本节中,艺术家兼讲师 Tom White 讨论了他使用丝网印刷而不是刷子技术创作版画的艺术技巧,他使用计算机视觉系统创建了这种技术,该系统在感知上进行了优化,以创建看起来像电扇的图像或使用人工智能算法的双筒望远镜。怀特讨论了斯图尔特戴维斯如何通过每天盯着相同的物体,学会以新的方式感知和表现熟悉的物体。同样,White 试图使用计算机视觉系统来引入新的方式来感知和表示熟悉的对象。
00:30:00 在本节中,Tom White 讨论了机器学习的不同示例及其工作原理。一个例子是计算机视觉系统,它使用以绿色为主的量杯样本,使系统认为绿色量杯比实际更常见。 White 还讨论了他用蜱虫制作的印刷品,该印刷品比所有验证示例都更强,他将其与艺术和设计进行比较,在艺术和设计中,通过简化进行放大以创建更好的概念抽象。最后,White 展示了他的合成抽象系列,其中包括模仿显式或不安全的工作图像的抽象印刷品,这些图像会触发搜索引擎中的过滤器。
00:35:00 在本节中,演讲者分享了他的系统如何使用在线 API 的示例,包括鲸鱼、企鹅和眼睛的数据集。他还讨论了他与一个音乐团体的合作,在那里他创建了自定义数据集,以及他最近的艺术展览展示了计算机认为是结、蚂蚁或其他物体的图像组。演讲者继续谈论生成技术的不同方法以及他的艺术作品如何影响现实世界。他提到了他对性别网络的兴趣,以及他如何使用面孔的神经网络输出来创作艺术品。
00:40:00 在本节中,Tom White 讲述了他对生成网络的探索以及他与研究生一起制作电子表格工具的工作,该工具通过电子表格的界面使用来自生成模型的样本作为创意工具。还提到了 Lena Sarin、Mario Klingemann、Robbie Barrett 和 Edmund Bellamy 等其他艺术家。怀特还讨论了与这些系统合作进行艺术创作的挑战,强调了艺术家和系统在共同创作过程中的作用。最后,他谈到了将 AI 生成的艺术放在野外的意外后果,以及我们如何通过可视化技术和询问系统它看到了什么来理解它。
00:45:00 在本节中,演讲者讨论了类似于深梦的技术,在这种技术中,将图像输入系统以可视化它之间的关系。演讲者提到了他们的艺术作品如何与现实世界的系统相撞,例如 Tumblr 的成人内容过滤器、亚马逊 API 和斯隆凯特琳的学术办公室。他们还讨论了这些视觉系统如何在将艺术作品归类到与现实世界物体相同的标签下时崩溃的例子。演讲者解释说,他们艺术作品的核心思想是通过机器的眼睛来理解它,从而为机器创造艺术并通过机器创造艺术,让人们无论是否有机器学习背景都可以欣赏它。
00:50:00 在本节中,Tom White 解释了为什么他选择丝网印刷作为他的物理艺术作品的首选媒介。他强调,体力劳动使人们能够以不同于带有屏幕和摄像头的交互式装置的方式与之建立联系。他还解释说,丝网印刷使他能够创作出更精确的作品,这在艺术界为波普艺术家开创了先例。汤姆进一步解释说,由于处理可能的照片具有挑战性,因此进行体力劳动更加困难,但这是对物理世界进行对抗性攻击的一种有趣方式。此外,他还谈到艺术如何帮助更好地理解算法偏差或人工智能和网络安全的其他方面。
00:55:00 在本节中,Tom White 讨论了 Celeb-A 数据集中的偏见(女性比男性更容易被标记为微笑)如何导致旨在修改面部表情的生成网络中的偏见。他指出,他的工作并不专注于对抗性示例,而是专注于可视化和理解触发神经网络的刺激。 White 还谈到了尝试使用简单的表示形式(例如最小笔划)来简化视觉输出的生成。他指出,人们可以识别低分辨率格式的图像,从测试这种能力的心理学研究中汲取灵感。
01:00:00 在本节中,Tom White 鼓励观众查看神经抽象领域的研究,并引导他们观看去年研讨会的视频以获取更多信息。他强调了这项研究的价值,并欢迎观众提出任何问题。
Google Brain 的首席研究科学家 Jesse Engel 讨论了 Magenta,这是一个研究 AI 和机器学习在创造力和音乐中的作用的研究小组。该小组主要关注生成媒体并通过开源代码和名为 magenta.js 的框架访问它们的机器学习模型,该框架允许在 Javascript 中创建交互式创意模型。 Engel 强调了将音乐视为文化认同和联系的社会和进化平台的重要性,而不是一种廉价生产和消费的商品。他们探索机器学习如何通过表现力、交互性和适应性赋予个人新形式的创造性力量。讲座涵盖各种主题,包括为音乐设计机器学习模型、使用扩张卷积进行预测输出、可微分数字信号处理,以及创建产生漂亮故障的机器学习系统。此外,他还谈到了与艺术家的合作挑战,以及摆脱学习模型的分布和组合性的巨大挑战。
00:00:00 在本节中,Google Brain 的首席研究科学家 Jesse Engel 讨论了 Magenta,这是一个研究 AI 和机器学习在创造力和音乐中的作用的研究小组。该小组主要关注生成媒体并通过开源代码和名为 magenta.js 的框架访问它们的机器学习模型,该框架允许在 Javascript 中创建交互式创意模型。 Engel 强调了将音乐视为文化认同和联系的社会和进化平台的重要性,而不是一种廉价生产和消费的商品。他们探索机器学习如何通过表现力、交互性和适应性赋予个人新形式的创造性力量。
00:05:00 在本节中,Jesse Engel 讨论了设计更易于破解且需要更少数据进行训练的机器学习模型,特别是在音乐背景下。他讨论了设计算法的不同方面之间的权衡,例如通过直观的因果控制使它们具有低延迟,同时仍然具有表现力和适应性。他比较了两种机器学习模型——openai Jukenbox 以需要大量数据为代价非常真实地模拟原始音频波形,以及将音乐建模为结构化数据但具有不真实声音的涂鸦。他最后讨论了小组正在采取的方法,即使用模型中的结构在可解释性和表达性之间进行折衷。
00:10:00 在本节中,Jesse Engel 讨论了音频转录模型的先前技术水平,以及它们在以符合人类感知的方式准确预测音符方面的局限性。他展示了单个帧中的错误如何与音符实际开始的时间一样重要,以及如何创建新的神经网络架构以更好地将损失函数与我们关心的相匹配——当我们播放音乐时音乐听起来如何后退。新的最先进的模型能够实现准确的转录,即使音频是“在野外”,正如一位钢琴演奏者在他的手机上弹奏所证明的那样。
00:15:00 在这部分视频中,来自 Google Brain 的 Jesse Engel 以国际电子钢琴比赛的大数据集为例,解释了数据集在神经网络中的重要性。他讨论了使用神经网络(例如递归神经网络 (RNN) 和变换器架构)来建模音乐序列以及标记化音符的挑战。为了应对这一挑战,他们创建了一个词汇表来识别各个音乐事件和时间戳。通过准确地表示数据中的微定时、速度和变化,模型能够产生听起来更自然的音乐。
00:20:00 在讲座的这一部分,Jesse Engel 解释了 Magenta 团队如何从一个原始主题开始,并使用称为 LSTM 的自回归模型在给定先前标记的情况下预测下一个标记。然而,由于 LSTM 的长期一致性有限,他们实施了转换器来跟踪所有先前的数据以提高一致性。有了这个,他们可以转录原始音频以获得数千小时的符号音乐,从而使他们能够训练具有更长期连贯性的模型。为了给予更直观的控制,团队还提取了旋律并将其作为生成依赖的控制。然后他们可以将这个模型用作不同声音的神经合成器,并且可以将参数调整为特定的声音集。
00:25:00 在视频的这一部分,Jesse Engel 解释了 Magenta 用于神经网络的扩张卷积过程的技术方面,以预测基于高级控制的输出。通过使用扩张卷积,系统能够在不进行下采样的情况下查看大范围的时间,并避免在表达时丢失信息。然而,这个过程是缓慢的,需要对长期结构进行更长期的调节。通过使用音符调节,系统能够生成具有可解释的中间表示的真实表演。
00:40:00 在本节中,Jesse Engel 讨论了 Magenta 项目及其使用机器学习增强创意机构能力的目标。他解释说,他们收到了音乐家的积极回应,他们发现该工具对他们的创作过程很有帮助,而不是取代它。 Magenta 团队专注于创建更广泛的生态系统,包括用于训练模型的网络界面、部署到网络应用程序以及音乐软件的实时插件。恩格尔指出,该系统更具交互性、实时性和自适应性,但在表现力和多样化的交互模型方面仍有改进空间。该团队正在探索无监督模型,以从数据中学习结构和标签。他们的网站上提供了多种演示、软件和专业工具供任何人试用。
00:45:00 在本节中,Jesse Engel 解释说,创建产生漂亮故障的机器学习系统是一种思考创建艺术家可以使用的系统的方法。例如,原始鼓机中设计的局限性被证明是它们的决定性特征,这导致嘻哈和电子音乐家以有趣和艺术的方式使用声音。此外,Engel 讨论了可解释性和交互性之间的关系,并建议机器学习模型使用的语言和假设可以成为创建 API 的解决方案,这些 API 充当软件和用户之间的中介以实现最大的可解释性。
00:50:00 在视频的这一部分中,Jesse Engel 讨论了在设计适合目标受众的模型时为泛化执行结构的挑战。他解释了神经网络如何在一组特定图像中模拟牛顿力学,但在图像的一个方面发生变化时难以推断。他还谈到构建能够适应音乐强度或底鼓音量的模型如何成为一个迷人的想法。还提出了与艺术家合作的讨论,但杰西解释说,由于局限性和基于研究的推广系统,这具有挑战性。讨论涉及在学习模型中摆脱分布和组合性的巨大挑战。
00:10:00 在本节中,演讲者讨论了他们对机器学习的兴趣和使用及其与美的联系。他们解释说,在使用机器学习时,他们在一个非常人性化的领域内工作,利用人类创建的数据集,因此解决了人类对自然的视觉假设。演讲者认为,技术是自然的一部分,因为人类是自然的一部分,这种认为技术是独立于自然的实体的想法是有缺陷的。此外,演讲者还讨论了人工生命的定义,并强调它可以在软件、艺术甚至湿件、硬件和遗传学等各个学科中得到理解。他们利用 Karl Sim 对进化人造生物的研究来展示原始人体现生命品质的能力,并随着他们的行为出现竞争意识和目标导向的行动。
00:05:00 在讲座的这一部分,吴家军讨论了从单个图像恢复 3D 对象几何的问题,这可以看作是计算机图形学中从 3D 形状生成 2D 图像的经典问题的逆向、纹理、照明、材料和视点。虽然可以训练神经网络来执行任务,但 Wu 建议整合来自计算机图形学的先验知识可以提高性能、效率和普遍性。他提出了解决问题的两步法:首先,通过深度图估计可见表面,其次,根据其他相似形状的大型数据集的先验知识完成形状。
00:15:00 在本节中,演讲者讨论了对 3D 对象使用部分表面的局限性,特别是 3D 空间的许多区域是空的,这使得补全网络难以捕获表面特征。为了解决这个问题,演讲者建议使用球面图作为 3D 表面的替代表示,其中每个像素对应于表面上的一个点,并且不会浪费任何表示。管道采用估计的深度并将其投影到部分球形地图中,然后可以使用球形地图空间中的完成网络完成。这种新方法可以产生更平滑、更详细的输出,并且可以推广到训练期间未见过的对象类别。
00:25:00 在这一节中,吴家军讨论了结合以前的技术将它们扩展到场景的过程。首先,他使用反演系统来获取对象的几何形状、姿态和纹理的表示,包括非对象类背景片段(如树木或天空)的潜在表示。然后,他编辑这些表示以查看场景中的不同变化(例如将汽车移近或改变其纹理)如何影响整体图像。 Wu 强调理解物体具有 3D 几何形状的重要性,因为这允许该方法产生完整和准确的结果。最后,他讨论了重建人造物体(例如桌子)时形状抽象的挑战,以及如何结合抽象和类似程序的表示可以带来更好的结果。
00:30:00 在本节中,Wu 讨论了将形状重建为形状程序如何显着改进建模和重建,尤其是对于家具等物体。此外,他还解释了如何利用复制和对称等程序结构来创建内容,例如通过可以指导建筑设计 3D 投影的算法。为了连接原始 2D 图像和 3D 空间,Wu 的团队受到随机搜索的启发,以检测视觉数据中的直线和三角形等图元,现在正尝试合成 3D 图元的形状以指导图像传感。
00:40:00 在本节中,演讲者讨论了如何将他们的程序应用于 3D 图像,这比单个平面更复杂。这里的问题是将图像划分为多个平面,同时考虑每个平面的方向和表面级别。演讲者建议使用视觉提示(例如消失点和线框)来解决这个问题。然而,线框特征可能有噪声,并且可能有多个可能的候选平面分区。通过使用他们程序的自上而下的知识,他们可以将候选平面校正为 2D 图像并执行程序合成以找到图像的正确分区。这样做可以帮助他们找到最佳的联合运算结果和图像合成,这是传统方法无法完成的。
00:45:00 在本节中,Jiajun Wu 讨论了如何将计算机图形领域的知识与机器学习相结合,以改进形状重建、纹理合成和场景理解。吴强调,对场景的理解是基于视觉数据背后最小但普遍的因果结构:物体、表面、投影和遮挡。通过整合学习和机器学习,Wu 相信在创建超越传统 2D 图像的更强大的 3D 模型方面具有更大的潜力。虽然 Wu 和他的团队没有深入研究 3D 打印,但他们对 3D 形状建模以及在这些模型背后使用推断程序的可能性很感兴趣。
01:00:00 在讲座的这一部分,Jeff Clune 讨论了 AI 神经科学的进展以及开放式创作过程的创建。他强调了人工智能如何识别和学习我们世界中的概念,例如火山或割草机,但很容易产生和识别对抗性图像。 Clune 推荐了 Chris Ola 的工作,并谈到了他的团队在探索不同模式(例如语音和视频)方面的工作。他还分享了对该领域取得的进展和未来潜力的兴奋之情,包括生成可激活真实猴脑神经元的合成图像。 Clune 认为科学经常会产生美学产物,以及现代机器学习工具如何促进艺术与科学的融合。最后,他建议有兴趣加入创造无限创意的开放式流程使命的学生阅读肯·斯坦利和乔尔·雷曼的作品。
01:05:00 在本节中,Jeff Clune 解释说,开放式算法有可能支持通用人工智能的进步。他建议阅读他的 AI 生成算法论文,该论文探讨了这些算法如何成为生成通用 AI 的途径。 Jeff 还鼓励研究人员将这些想法应用于各个领域,并使用 GPT-3 或 Dolly 等工具来实现这一目标。他建议,在诗歌或建筑等不同领域探索唾手可得的成果,可能会带来令人兴奋的进步。 Jeff 还解决了 Joseph 关于在多代理设置中使用 Poet 算法的问题,并讨论了出现的挑战,例如在这种环境中测量代理性能的困难。
在本次讲座中,乔尔·西蒙探讨了他从自然生态系统中汲取创意网络的灵感和方法。他展示了计算能力在创作过程中的潜力,描述了拓扑优化、形态发生和进化算法等技术如何能够产生令人难以置信的形式和纹理。 Simon 还分享了他的 GANBreeder 项目的详细信息,这是一个使用 CPPN 和 GAN 发现和改变图像的在线工具,并讨论了交叉推荐系统在创作过程中的潜力。西蒙对科技和创造力的未来持乐观态度,相信人类可以通过协作优化建筑物的功能,创造出更伟大的东西。
00:00:00 在本节中,Joel Simon 解释了他的背景和创作网络作品的灵感。他强调了布赖恩·伊诺 (Brian Eno) 对孤独天才概念的批评,并描述了如何将创造力量化为各种力量共同作用的新兴产物。西蒙还谈到了他的雕塑之旅,这使他学习和探索了创造的计算方法,强调了数字化和计算化之间的区别。
00:05:00 在本节中,Joel Simon 描述了他在大学期间发现的计算设计和拓扑优化工作的灵感。 Simon 对拓扑优化产生传统意义上永远无法创造的新形式的能力着迷,他试图进一步探索其潜力。然而,他意识到他需要超越简单的优化技术,并结合真实自然的元素,例如适应性和环境,这可以使建筑物像树一样生长,这促使他对生成架构进行实验。他的工作不仅以建筑设计为基础,还使用图形模拟方法和进化的虚拟生物作为计算设计中增加复杂性和创新的灵感。
00:10:00 在本节中,演讲者讨论了模式信息和形态因子在生长过程中的使用,特别是在反应扩散方面。他解释说,这些图案可以在艺术中用于产生纹理,并讨论了 Jeff 的 CPPN,它用于将一个简单的网络从位置映射到颜色并将其转换为图像。为了进一步推进这些生长理念,演讲者创建了“进化的外星珊瑚”项目,该项目使用跨越 3D 网格顶点的形态发生素来控制顶点移动和发射的方向。这允许产生令人难以置信的形式的复合效应。珊瑚的颜色是正在优化的形态发生素,而不仅仅是生成漂亮的图案。该项目还展示了能够通过力量或目标进行雕刻以驱动形式的想法,其中形式遵循适应性功能。演讲者还简要介绍了生态系统的概念和中间干扰假设,即在中间存在一定程度的干扰时达到最佳多样性。
00:20:00 在本节中,乔尔西蒙讨论了他的一些生成艺术项目,这些项目的灵感来自各种来源,例如马蒂斯的自画像和康威的生命游戏。他使用遗传算法创作肖像,并探索了人造生命的生成架构概念。 Simon 还谈到了他是如何受到挑选饲养员项目的启发的,该项目涉及使用神经网络生成生物图像,然后选择性地培育这些生物以创造出新颖有趣的设计。
00:25:00 在本节中,演讲者讨论了他创建 GANBreeder 的灵感,GANBreeder 是一种使用 CPPN 和 GAN 发现和变异图像的在线工具。他受到伟大无法计划的想法的启发,并被人类与生俱来的兴趣所吸引,这可能有助于增强该工具中使用的算法。他深入研究了 GAN,并认识到 GAN 的潜在向量具有用于交叉的必要属性,这允许孩子的图像类似于父母双方。演讲者谈到了不同类型的创造力,并指出他的工具是一种组合工具,他将 BigGAN 与 Picbreeder 结合起来创建了 GANBreeder。他还讨论了 GANBreeder 允许用户创建图像的三种方式,即随机获取孩子、将两个图像混合在一起以及编辑图像的基因。
00:30:00 在讲座的这一部分,乔尔·西蒙从探索阶段的角度讨论了创作过程,探索阶段的范围从开放式到有目的性,中间有梯度。提到了生物相似之处,例如无性繁殖、有性繁殖和 crispr,作为创建和制作图像的不同方式。西蒙随后提供了他制作的图像示例,以及构成图像的基因,强调互动、协作探索的重要性,因为人类无法在 128 个维度上思考。 Simon 总结说 ArtBreeder 可以用作寻找想法和灵感的工具,并提到了一个最近的功能,允许用户创建自己的基因,与那些对机器学习感兴趣的人相关。
00:35:00 在本节中,Simon 介绍了他的项目 Ganbreeder 如何利用标记图像的众包生态系统。通过收集图像中微妙属性的样本,用户可以将其转化为工具或过滤器,从而创建更强大的基因。该项目最初是一个简单的图像网格,并提示哪个图像最有趣。然而,用户一直在以意想不到的方式使用 Ganbreeder,例如上传照片为历史人物着色、制作连衣裙,甚至在角色上作画。 Simon 强调,实验实际上是界面,而不是 gan,因为两者确实必须结合在一起才能使其发挥作用。
00:40:00 在视频的这一部分中,Joel Simon 讨论了创建交叉推荐系统工具的潜在力量,该工具利用现有推荐引擎中目前未使用的潜在变异维度。他举了一个例子,在他工作时无法确定歌曲中是否有歌词,这表明如果推荐引擎可以帮助像他这样的用户创建一个考虑这些变化维度的工具,他们可以提出更有力的推荐. Simon 还探讨了创意工具中的所有权和协作的概念,描述了他策划的一场互动艺术展,没有人“拥有”这件艺术品,因为它是由许多人共同创作的。
00:45:00 在本节中,乔尔·西蒙讨论了人类思维的局限性与创造性过程中计算能力的潜力。人类对我们的思维有一定的偏见,包括在清晰的层次结构中思考,有惯例,而不是在复杂的重叠中思考。 Simon 讨论了促进协作、探索、允许新媒体和隐喻如何导致新的创作过程。在这个过程中,创意总监和艺术家之间的对话是必不可少的,导演引导艺术家的创造力。 Simon 对计算和创造力的未来持乐观态度,并相信在使用该工具制作我们与他人分享的新艺术作品时将以人为驱动,而不是替代艺术家和创意者。
00:50:00 在本节中,Joel Simon 讨论了创造力以及技术进步将取代艺术家的误解。他认为,这种进步只会让每个人都更容易表达创意,并指出创造力是人类与生俱来的需求,本身就是目的。 Simon 最后提出了一种适应自然繁殖过程的形态发生设计概念,并使用仿生学来创建协作过程,以进行超出人类认知能力的设计。他强调,人类是更大的创造性结缔组织的一部分,项目的灵感来自于这个更大的系统。
00:55:00 在本节中,Joel Simon 谈到了他对技术未来的乐观看法,即构建一个由建筑组成的生态系统,这些建筑作为一个复杂的生态系统相互和谐。他相信,通过新的隐喻和技术,人们可以以无法理解的方式协作和优化这些建筑物的功能。虽然技术有利有弊,但西蒙对机器与人类之间对话的积极看法提供了对未来技术可以将人们聚集在一起创造更伟大事物的洞察力。
00:05:00 在本节中,演讲者讨论了 GAN 在艺术创作中的应用,以及这些类型的图像可能表现出的自然视觉模糊性。该团队在一项研究中使用了这些图像,参与者会在短时间内看到一幅图像并要求对其进行描述。结果表明,具有更高水平的感知不确定性和歧义的图像会导致参与者进行更大范围的描述。此外,观看时间的长短对用于描述图像的词语的数量和种类有影响,参与者会随着曝光时间的延长而趋向于更连贯的解释。
00:10:00 在本节中,Zoya Bylinskii 讨论了在图形设计中使用人工智能 (AI) 的两种应用。第一个应用程序涉及一个交互式设计工具,该工具使用一个小型神经网络来实时重新计算各种设计元素的预测重要性。该工具还具有直方图,并允许用户调整每个元素的重要性级别以操纵设计。第二个应用涉及图标生成构思,其中 AI 用于创建与常见视觉概念相对应的新图标。 Bylinskii 解释说,这两个应用程序都为在 AI 辅助图形设计工具中使用重要性模型提供了有前途的新方向。
00:15:00 在本节中,演讲者解释了设计师在尝试为没有现有图标的概念(例如寿司外卖)创建新图标时所面临的挑战。这个过程需要手动工作,搜索相关概念以获得灵感,以及重新组合和编辑现有图标。为了简化这个过程,演讲者介绍了一个新的 AI 驱动的复合图标生成管道。该系统结合了空间、风格和语义来生成复合图标,这些图标在风格上兼容并且在语义上与查询的概念相关。 AI 驱动的管道涉及将查询分解为相关的词,找到风格兼容的图标,并将它们组合起来以传达所需的信息。
00:05:00 在本节中,演讲者讨论了神经场景表示的概念,特别关注称为神经辐射场的模型。该模型解决了视图合成问题,其中场景的稀疏采样输入视图用于构建场景 3D 几何和颜色的表示,允许从新视角进行渲染。神经辐射场是根据这些图像估计的,并允许对稀疏采样视图进行平滑插值。该模型还能够对依赖于视图的效果进行建模,例如光亮表面上的镜面反射。神经网络表示为从 3D 空间坐标和观察方向映射的函数,并预测每个坐标的颜色和密度。渲染是通过光线追踪和体积渲染完成的。
00:10:00 在本节中,演讲者讨论了根据神经场景表示渲染颜色的过程,以优化神经网络的权重以获得所需的颜色。他们解释说,对场景进行编码的 MLP 允许对视点进行可微分渲染,从而更容易优化。这个过程称为逆向图形,涉及从 2D 空间到优化将重建这些视图的底层 3D 表示。演讲者还解释了如何使用将 5 维输入投影到更高维空间的正弦位置编码方法将输入坐标馈入神经网络。
00:30:00 在本节中,Ajay Jain 讨论了使用 Dream Fields 在 3D 场景中创建一致前景对象的过程。通过随机采样场景中的姿势和渲染图像,他们试图确保语义特征与标题特征相匹配。然而,在没有正则化的情况下天真地应用这种方法会导致场景退化。因此,他们通过合成随机采样的背景和高度透明的前景对象来规范场景,以鼓励场景中的稀疏性。通过这种正则化,他们能够在场景中创建更一致的前景对象。此外,他们还尝试使用不同的字幕模板来衡量模型的成分概括性。
00:35:00 在本节中,演讲者讨论了获取带字幕的 3D 对象数据集的挑战,以及他们如何使用 CLIP(一种预训练的 2D 图像和文本编码器)解决这个问题。 Dream Fields 项目通过几何的共享表示将此 2D 表示提升为 3D。演讲者还谈到了用于提高生成的 3D 对象质量的技术以及优化过程的成本。该项目的目标是使 3D 内容创建更容易,并生成对下游应用程序有用的资产,代码可供任何想试用的人使用。
00:40:00 在本节中,Ajay Jain 解释说,对象的 3D 结构仅由于共享表示而出现,这从任何角度都满足 CLIP。从数据中学习的 3D 结构没有先验知识,因此缺少 3D 数据的某些一致性,这是未来工作的机会。 Jain 还提到,当底层几何图形不可见时,一致性就无法保留,从而导致重复结构。从坐标函数映射生成的神经网络必须进行后处理,这涉及将神经场的输出转换为 .fbx 文件或网格,一些算法允许这种转换。
00:45:00 在本节中,演讲者讨论了降低神经辐射场体积表示中渲染成本的策略,包括以低分辨率渲染图像和使用单个低内存 GPU 来显着加快该过程。他们还解释了如何在这种类型的表示中处理透明物体,并提到了使这种方法对 3D 艺术家更实用的未来步骤,例如合成可变形物体和在训练期间结合人类反馈。最后,他们共享一个 Colab 笔记本来实现系统并针对不同的提示调整质量设置。
MIT 6.S192 - 第 9 讲:Tom White 的“神经抽象”
MIT 6.S192 - 第 9 讲:Tom White 的“神经抽象”
在此视频中,艺术家兼讲师 Tom White 讨论了他将机器感知和神经网络结合到他的艺术实践中的方法。怀特分享了他在麻省理工学院学习数学和平面设计的背景,以及他目前在维多利亚大学教授创意编码的工作。他还讨论了他关于构建工具以帮助他人创造性地使用媒体的研究,以及他自己探索机器感知的艺术作品。怀特展示了他使用人工智能算法创作的素描和版画,并谈论了他与音乐团体的合作以及他最近的艺术展览。他还讨论了与神经网络合作的挑战,以及将 AI 生成的艺术置于野外的意外后果。
麻省理工学院 6.S192 - 第 10 讲:“洋红:通过机器学习赋予创意机构权力”,作者 Jesse Engel
麻省理工学院 6.S192 - 第 10 讲:“洋红:通过机器学习赋予创意机构权力”,作者 Jesse Engel
Google Brain 的首席研究科学家 Jesse Engel 讨论了 Magenta,这是一个研究 AI 和机器学习在创造力和音乐中的作用的研究小组。该小组主要关注生成媒体并通过开源代码和名为 magenta.js 的框架访问它们的机器学习模型,该框架允许在 Javascript 中创建交互式创意模型。 Engel 强调了将音乐视为文化认同和联系的社会和进化平台的重要性,而不是一种廉价生产和消费的商品。他们探索机器学习如何通过表现力、交互性和适应性赋予个人新形式的创造性力量。讲座涵盖各种主题,包括为音乐设计机器学习模型、使用扩张卷积进行预测输出、可微分数字信号处理,以及创建产生漂亮故障的机器学习系统。此外,他还谈到了与艺术家的合作挑战,以及摆脱学习模型的分布和组合性的巨大挑战。
MIT 6.S192 - 第 11 讲:“人工生物多样性”,Sofia Crespo 和 Feileacan McCormick
MIT 6.S192 - 第 11 讲:“人工生物多样性”,Sofia Crespo 和 Feileacan McCormick
在这个关于“人工生物多样性”的讲座中,Sofia Crespo 和 Feileacan McCormick 探索技术与自然的交叉点,以产生独特的艺术形式。两人讨论了他们对机器学习的兴趣和使用及其与美的联系,并强调了人类感知的局限性。他们还讨论了他们的合作项目,包括“纠缠他人”,他们主张代表单个物种及其复杂的纠缠,以更好地理解生态系统。演讲者强调了艺术实践中可持续性和协作的重要性以及工具与艺术之间的关系,并指出算法无法取代人类艺术家。
麻省理工学院 6.S192 - 第 12 讲:Jason Bailey 的“AI+创造力,艺术书呆子的视角”
麻省理工学院 6.S192 - 第 12 讲:Jason Bailey 的“AI+创造力,艺术书呆子的视角”
Jason Bailey 讨论了机器学习如何影响艺术领域,从伪造检测到价格预测。他敦促艺术家意识到数据驱动艺术中固有的偏见,并敦促需要包含所有观点的训练数据。
MIT 6.S192 - 第 13 讲:“Surfaces, Objects, Procedures:Integrating Learning and Graphics for 3D Scene Understanding”,作者:Jiajun Wu
MIT 6.S192 - 第 13 讲:“Surfaces, Objects, Procedures:Integrating Learning and Graphics for 3D Scene Understanding”,作者:Jiajun Wu
斯坦福大学助理教授 Jiajun Wu 讨论了他通过整合深度学习和计算机图形学领域知识对机器场景理解的研究。 Wu 提出了一种两步法,通过深度图估计可见表面并根据其他类似形状的大型数据集的先验知识完成形状,从而从单个图像中恢复 3D 对象几何形状。 Wu 还建议使用球面图作为 3D 表面的替代表示,以更好地捕捉表面特征,使系统能够以更详细、更平滑的输出来完成形状。此外,Wu 还讨论了将形状重建为形状程序如何显着改进建模和重建,尤其是对于抽象和人造物体。最后,Wu 讨论了如何将来自计算机图形学的领域知识与机器学习相结合,以改进形状重建、纹理合成和场景理解。
麻省理工学院 6.S192 - 第 14 讲:“创造无限创意的开放式创新引擎”,作者 Jeff Clune
麻省理工学院 6.S192 - 第 14 讲:“创造无限创意的开放式创新引擎”,作者 Jeff Clune
OpenAI 的研究员 Jeff Clune 在麻省理工学院的这次讲座中讨论了他在创造无限创意的开放式创新引擎方面的工作。他寻求创建能够执行自然进化和人类文化配方的算法,即从一组事物开始,生成新事物,评估以保持有趣的东西,并对其进行修改以保持有趣的新颖性。 Clune 探索使用神经网络识别新事物,谈论 Map Elites 算法,并介绍用于编码的 Compositional Pattern Producing Networks。他展示了如何结合使用这些工具来生成复杂多样的图像、解决难题以及创建开放式算法以不断创新其解决方案以应对挑战。
MIT 6.S192 - 第 15 讲:Joel Simon 的“创意网络”
MIT 6.S192 - 第 15 讲:Joel Simon 的“创意网络”
在本次讲座中,乔尔·西蒙探讨了他从自然生态系统中汲取创意网络的灵感和方法。他展示了计算能力在创作过程中的潜力,描述了拓扑优化、形态发生和进化算法等技术如何能够产生令人难以置信的形式和纹理。 Simon 还分享了他的 GANBreeder 项目的详细信息,这是一个使用 CPPN 和 GAN 发现和改变图像的在线工具,并讨论了交叉推荐系统在创作过程中的潜力。西蒙对科技和创造力的未来持乐观态度,相信人类可以通过协作优化建筑物的功能,创造出更伟大的东西。
麻省理工学院 6.S192 - 第 16 讲:“作为计算的艺术的人类视觉感知”Aaron Hertzmann
麻省理工学院 6.S192 - Lec。 16:“作为计算的艺术的人类视觉感知”Aaron Hertzmann
该讲座探讨了艺术中的感知模糊性和不确定性,以及生成对抗网络 (GAN) 在创建模糊图像中的使用。它讨论了观看持续时间对感知的影响以及图像熵与人类偏好之间的关系。讲师提出了一种艺术进化论,其中艺术是由能够建立社会关系的代理人创造的。还讨论了人工智能在艺术中的应用,结论是虽然算法可以成为有用的工具,但它们不能取代人类艺术家。讲座以对价值等概念的一些评论结束。
麻省理工学院 6.S192 - 第 17 讲:“在平面设计服务中使用 AI”,作者 Zoya Bylinskii
麻省理工学院 6.S192 - 第 17 讲:“在平面设计服务中使用 AI”,作者 Zoya Bylinskii
Adobe 的研究科学家 Zoya Bylinskii 在本次讲座中探讨了图形设计与人工智能 (AI) 的交叉点。 Bylinskii 强调,人工智能旨在通过自动执行繁琐的任务和生成设计变化来协助而不是取代设计师。 Bylinskii 给出了 AI 辅助工具的示例,包括交互式设计工具和 AI 生成的图标构思。 Bylinskii 还讨论了将 AI 应用于平面设计的挑战和潜力,包括创造性思维、策展以及与不同领域的专业人士合作的需求。她建议对平面设计的人工智能和机器学习感兴趣的候选人展示项目经验并寻求研究机会。
MIT 6.S192 - 第 19 讲:使用一致的神经场轻松创建 3D 内容,Ajay Jain
MIT 6.S192 - 第 19 讲:使用一致的神经场轻松创建 3D 内容,Ajay Jain
在本次讲座中,Ajay Jain 介绍了他在神经场景表示方面的工作,特别关注神经辐射场模型,该模型使用稀疏采样输入视图来构建场景 3D 几何和颜色的表示。 Jain 讨论了将神经辐射场拟合到单个场景的挑战,以及通过添加光度损失和语义一致性损失来提高训练过程的数据效率的方法。他还谈到使用 CLIP 去除 NeRF 中的伪像,并从 Dream Fields 项目中的字幕生成 3D 对象。其他主题包括在场景中创建一致的前景对象、获取带字幕的 3D 对象数据集、降低渲染成本以及优化系统性能。