机器学习和神经网络 - 页 22

 

基因表达预测 - 第 9 讲 - 生命科学中的深度学习(2021 年春季)



基因表达预测 - 第 9 讲 - 生命科学中的深度学习(2021 年春季)

该视频讨论了深度学习在基因表达预测中的应用,以及分析生物数据集所涉及的挑战,包括高维度和噪声。讲座涵盖聚类分析、矩阵的低阶近似和压缩感知等方法。演讲者还谈到了将深度学习用于基因表达预测和染色质,以及弱监督学习用于预测增强子活性位点。本讲座讨论了几种主要使用深度学习方法开发的工具,包括 danq、djgx、factory mat 和 sc fin。演讲者还谈到了使用生成模型研究基因组数据集,并介绍了近似推理方法的概念,尤其是流行的变分推理方法。

在讲座的第二部分,演讲者讨论了深度学习在生命科学中的应用,特别是在基因表达预测和基因组解释方面。第一个主题侧重于变异自动编码器模型在哮喘数据集 RNA 表达分析中的应用。演讲者提出了一个使用条件生成模型去除实验伪影的框架。第二个主题讨论了 Illumina 在深度学习网络上的投资,以确定用于基因组解释的序列到功能模型,特别是剪接。该公司开发了 SpliceAI,这是一种深度卷积神经网络,可以预测核苷酸是剪接供体、受体还是两者都不是。第三个主题是演讲者关于预测某些突变是否具有隐性剪接功能,从而导致移码和疾病的研究。演讲者还邀请了研究职位、实习和博士后的问题和申请。

  • 00:00:00 在讲座的这一部分,演讲者介绍了基因表达分析以及用于测量RNA表达的两种方法:杂交和基因组测序。由于过去 20 年基因组测序成本的急剧下降,后者变得更加流行。结果是一个矩阵,显示哪个基因在数百种条件下以什么水平表达。可以垂直或水平地查看该矩阵,为感兴趣的实验条件下基因组中的每个基因或已分选的特定细胞类型提供 20,000 长的向量。

  • 00:05:00 在本节中,讲师讨论了如何将深度学习用于基因表达预测。基本输入矩阵涉及对每个细胞进行分析,以在多个维度上进行比较,例如给定基因在不同条件、组织、细胞类型、实验、年龄和性别之间的表达载体的相似性。聚类分析可用于查找彼此相似的条件或跨列或跨行彼此相似的基因。 guilty by association 方法也可以用于完成基于表达相似性的未注释基因的注释。此外,讲师建议使用深度学习方法,如自监督学习、使用非线性和高阶特征进行预测以及多任务学习来联合预测不同的兴趣类别,最后,讲师强调深度学习是不是唯一的方法,并且存在一组可用于提出生物学问题和学习这些系统的表示的工具。

  • 00:10:00 在本节中,讲师讨论了可用于分析基因表达模式的降维技术。其中一种技术是主成分分析 (PCA),它可用于识别遗传压力模式变异的主要维度。矩阵的低秩近似也可用于有效地获得数据的最佳低秩近似。也可以应用其他技术,如 t-SNE 和自动编码器。此外,讲师还提到使用压缩传感来构建复合测量,使用捕获基因表达线性组合的探针组合。最后,讲师讨论了使用染色质信息预测基因表达水平的潜力,这将在第一场客座讲座中讨论。

  • 00:15:00 在本节中,演讲者讨论了使用深度学习从各种特征预测基因表达和染色质,并使用注意力机制将它们系统地结合起来,类似于之前针对 transformer 模型和递归神经网络所讨论的内容。解释了报告结构和高通量测试的使用,以及使用机器学习或深度学习方法预测某些片段是否会驱动表达的能力。演讲者还介绍了使用神经网络直接从序列预测剪接的概念和序列中的特定特征,并强调了他的团队在使用深度学习通过每周监督框架预测人类基因组增强子方面所做的工作。

  • 00:20:00 在视频的这一部分,演讲者讨论了一种使用报告实验和一组染色质特征进行基因表达预测的方法。输入矩阵由基因组中数千个位置的不同标记组成,为每个基因构建,并根据 star-seek 结果测试附近的染色质特征以预测表达。输出层是二元分类器,模型的中间表示用于预测基因组序列中的特定位置。这种更高的分辨率允许更有效地使用数据分析,这是通过在连续信号中拟合特定曲线以获得更高级的表示来实现的。

  • 00:25:00 在本节中,演讲者解释了使用类似于对象检测的方法来预测增强子活动位点的弱监督学习的想法。通过将原始图像传递到卷积过滤器中,生成用于创建热图的激活图。该模型只需要对增强子的存在进行粗略注释,并使用与热图相同的方法预测精确位置。交叉细胞系和交叉染色体验证的结果表明,该模型可以准确预测 starseek 增强子。通过在进行预测时剔除不相关区域而获得的精炼集具有更高比例的转录起始位点,并且在一百个不同物种中更加保守。演讲者将该模型与之前最先进的模型进行了基准测试,并在神经祖细胞中进行了案例研究,发现了神经特异性增强剂。

  • 00:30:00 在 YouTube 视频“基因表达预测”的这一部分中,演讲者讨论了解释生物数据集的挑战以及开发将高维度和噪声等多种因素考虑在内的方法的重要性。演讲者在他的实验室中的研究重点是结合不同类型的基因组技术,包括单细胞基因组学,以开发研究基因组学的方法。演讲者还讨论了他对将深度学习应用于基因表达分析以及使用它从嘈杂的数据集中提取信号的兴趣。

  • 00:35:00 在本节中,演讲者讨论了一种方法的开发,该方法结合了多模态数据集以允许对基础生物学进行检查。他们重点介绍了机器学习领域最近提出的将视觉信号与自然语言处理相结合以更好地理解系统的提议。然后,演讲者继续列出他们的实验室主要使用深度学习方法开发的一些工具,包括用于量化 DNA 序列功能的 danq 和用于预测基因表达的 djgx。演讲者还简要讨论了另外两个预测转录因子结合的工具,factory mat 和 sc fin,sc fin 是用于单细胞预测的 factory mat 的扩展。

  • 00:40:00 在视频的这一部分,演示者讨论了与深度学习模型在生命科学中的使用相关的几种方法。具体来说,讨论涵盖了用于 RNA 结构二级结构预测的 UFO 方法、利用深度神经网络预测表达的 DGX 模型,以及利用深度生成模型研究单细胞共济失调数据集同时关注不变表示思想的 SAILOR 方法学习。讨论还包括使用 VAE 模型研究基因组学和 RNA 表达数据、深度生成模型用于出租车分析的扩展,以及多模态数据集与模型的结合以学习共享表示。主持人指出,所有开发的工具都是开源的,可以在 Github 上找到。

  • 00:45:00 在本节中,讲师讨论了一种使用基因子集进行基因表达预测的方法。通过使用 Luminex 技术平台对少量基因 (1,000) 进行分析,研究人员可以生成包含数百万个样本的分析文件,从而成为了解生物过程和药物发现的一种经济高效的方法。剩下的 20,000 个基因可以使用深度神经网络等计算技术进行推断。通过将 978 维向量输入多层感知前馈神经网络,研究人员可以以多任务方式联合预测 20,000 个目标,并通过反向传播训练模型,获得比线性回归更好的精度。包含具有整个基因集合的表达谱的地理数据集用于训练模型。

  • 00:50:00 在讲座的这一部分,讲师讨论了使用生成模型研究基因组数据集。由于大多数基因组学数据集都缺少标签,因此无监督学习通常更为相关。目标是将高维数据集映射到低维嵌入,这对识别底层模式更有帮助。用于此目的的传统方法是自动编码器,它可以通过将输入与输出进行匹配来进行训练,但存在易过拟合和无法生成样本等问题。作为解决方案,讲师提出了深度生成模型,该模型通过具有潜在变量的概率框架对数据进行建模。通过将先验分配给潜在变量的分布,模型可以边缘化它们以获得输入的边缘分布。

  • 00:55:00 在本节中,教授基于通用框架讨论了学习数据的问题,并介绍了近似推理方法的思想,特别是流行的变分推理,它提出了对给定 z 分布的辅助分布X。然后通过数据之间的平衡和分布之间的 ko 距离来最小化与辅助分布相关的对数似然的下界,从而确保后验分布足够接近先验分布,同时具有足够的能力对可观察数据集进行建模.这导致了变分自动编码器的发展,它可以通过神经网络对给定 z 的 p(theta)x 和辅助分布进行建模,方法是训练它们以最小化负对数似然的变化。然而,计算这些期望值存在一些问题,可以使用重新参数化技巧解决这些问题,尤其是在应用高斯积时。

  • 01:00:00 在本节中,演讲者讨论了变异自动编码器模型在 RNA 表达分析中的应用,特别是针对哮喘数据集。由于 RNA-seq 数据集的离散性和定量性,研究人员使用零膨胀负二项分布来模拟读取计数。这导致了使用自动编码器与该模型相结合来创建深度生成模型的想法。然而,学习到的潜在表征可能会反映出实验性的人工制品,例如批次效应和读取覆盖率。为了消除这些影响,演讲者提出了一个使用条件生成模型的框架,该模型最大限度地减少了学习表征与其潜在混杂因素之间的互信息。

  • 01:05:00 在本节中,Illumina 人工智能实验室的首席研究员谈到了公司的目标,即了解人类基因组中的每一种可能变异,并使基因组测序对每个人都有用。重点是解释非编码遗传变异,目前大多数临床测序都忽略了这一点。这就是为什么 Illumina 大力投资深度学习网络来识别用于基因组解释的序列到功能模型,特别是用于剪接。他们开发了 SpliceAI,这是一种深度卷积神经网络,可以纯粹根据序列预测核苷酸是剪接供体、受体还是两者都不是,并且可以从一系列序列中重建基因的内含子-外显子模式。

  • 01:10:00 在本节中,主持人讨论了预测外显子剪接点的困难,以及他们的深度学习网络如何能够以核苷酸级精度预测大型 CFTR 基因的所有 30 个外显子。他们发现远程序列决定因素是剪接调控的关键,网络能够从序列数据中自动推导出这些决定因素,包括核小体定位和外显子聚类。该网络使用了多种特征,包括分支点、多月体轨道、ag 和 gt,以及内含子和外显子剪接增强子,并补偿了具有远程上下文的局部基序的冗余。演示者还展示了网络的准确性如何随着上下文大小的增加而增加,并且它也适用于非蛋白质编码序列。

  • 01:15:00 在视频的这一部分,演讲者讨论了 splice AI 在罕见病患者中的应用,特别是因单核苷酸突变导致外显子延伸和蛋白质移码的早发性心力衰竭患者。该模型还在 GTEx 的 RNA-seq 上进行了验证,验证率取决于拼接 AI 分数。演讲者强调了解释低分剪接变体的复杂性,因为它们可能会保留正常的剪接,并且需要解决对人类变异的分级解释。还研究了自然选择对具有隐性剪接功能的变体的影响,发现自然选择表明,spicy i 预测的隐性剪接突变本质上等同于移码或无义蛋白编码突变。最后,将该模型应用于自闭症谱系障碍和智力障碍患者的大型临床数据集。

  • 01:20:00 在本节讲座中,演讲者谈到了他们在预测某些突变是否具有隐性剪接功能方面的研究。他们使用 RNA 测序来确认预测的异常剪接点,并举例说明这些变异如何导致剪接发生在错误的位置,从而导致移码和疾病。演讲者将他们的工具开源并邀请问题,以及研究职位、实习和博士后的申请。讲座结束时向演讲者表示感谢,并提醒大家继续关注最终项目。
 

单细胞基因组学 - 第 10 讲



单细胞基因组学 - 第 10 讲 - 生命科学中的深度学习(2021 年春季)

在这个关于单细胞基因组学的讲座中,演讲者讨论了用于分析单个细胞的各种方法和技术,包括细胞分选和微流体。重点是三种特定的单细胞测序技术——Smart-seq、drop-seq 和 pooled 方法。演讲者还介绍了分析单细胞转录组的过程,包括预处理、可视化、聚类和注释,以及自动编码器架构在社区聚类中的使用。深度学习方法用于域适应和以受刺激的方式重建细胞类型。该讲座还讨论了分析单细胞基因组学数据所涉及的挑战,并建议使用生成模型以可扩展且一致的方式解决这些问题。

视频的第二部分涵盖了与单细胞基因组学和深度学习相关的各种主题。讨论的主题包括变分推理、单细胞 RNA 测序数据的生成过程、用于混合细胞类型数据集的 SCVI 模型、用于传播标签的 CanVAE,以及在称为 CVI 工具的单个代码库上实施各种深度学习算法。演讲者还解决了使用后验概率计算基因表达量度的挑战,并提出了准确计算后验期望和控制完整发现率的方法。

  • 00:00:00 在“单细胞基因组学 - 第 10 讲 - 生命科学中的深度学习(2021 年春季)”的这段文字记录中,演讲者解释了为什么需要单细胞分析。体内的单个细胞彼此之间极为不同,并且会因环境刺激、相互作用、细胞周期阶段和转录爆发而发生变化。单细胞分析还可以捕获细胞类型、信号和基因型的个体差异,而这些通常无法通过批量数据捕获。演讲者概述了当前单细胞数据分析爆炸式增长之前的几种技术,但强调了扩增单个 RNA 以捕获转录多样性的基础技术。

  • 00:05:00 在本节中,演讲者讨论了用于分析单个细胞的不同技术和方法,包括细胞分选、微流体和移液。通过观察不同时间点的单个细胞和跨细胞的基因,研究人员可以了解单个基因如何开启和关闭,以及即使在特定时间点内也存在异质性。单细胞分析对区分技术零值和生物学零值提出了挑战,但通过这些技术获得的数据能够概括生物学中所见。演讲还包括 smartseek,它使用基于细胞的技术,dropseek 和 10x,它们都使用液滴,以及 split-seek,这是一种在不分离单个细胞的情况下对单个细胞进行条形码编码的方法。

  • 00:10:00 在本节中,演讲者讨论了单细胞基因组学中使用的不同方法,包括微流体和血液采集,并描述了该过程中使用的基本流程。重点是三种特定技术——Smart-seq、drop-seq 和 pooled 方法。 Smart-seq 使用细胞分选并在每个细胞中捕获多达 10,000 个基因,但需要对每个孔进行单独的测序反应,因此成本很高。 Drop-seq用液滴代替孔,在珠子中捕获带有条形码的单个细胞,更具成本效益。最后,合并方法涉及在标有相应细胞身份的单个管中捕获所有单个 RNA 分子。

  • 00:15:00 在本节中,演讲者解释了三种不同类型的单细胞 RNA 测序技术。第一个是孔测序,其中每个单个细胞被分类到孔或液滴中,每个孔都标有唯一的条形码以区分细胞。第二个是 10X Genomics,它涉及将来自不同细胞的所有标记 RNA 组合到一个测序反应中。第三种技术是 Split-Seq,其中细胞在不同的孔中洗牌,每次迭代时添加不同的条形码,从而为每个细胞的 RNA 生成独特的条形码组合。这允许每个 RNA 分子有一百万个唯一地址,表明它来自哪个细胞。

  • 00:20:00 在本节中,讲师讨论了单细胞测序技术,包括孔中的细胞、液滴和组合索引。可以使用各种类型的测定,例如单细胞 DNA 甲基化分析、单细胞基因组测序和单细胞 DNA 可及性。另一种广泛使用的检测是单细胞 ATAC-seq,它着眼于单个细胞中染色质的可及性。然而,来自单个细胞的数据可能是稀疏的,并且跨多个位置聚合数据对于讨论转录因子是必要的。讲师还提到越来越多的单细胞多组学方法出现,但提醒注意处理噪声和伪影的计算挑战。本节最后介绍了分别来自欧洲和西海岸的两位客座讲座,他们将讨论单细胞基因组学中的深度表征学习。

  • 00:25:00 在单细胞基因组学讲座的这一部分,演讲者讨论了分析单细胞转录组的过程,包括预处理、可视化、聚类和注释等各个步骤。该过程是无人监督的,因为信息仅适用于细胞群,而非单个细胞。演讲者的实验室贡献了工具和框架来帮助这个过程,包括在 python 中成功的 scanpy 单细胞分析,它提供了一个工具和模块库来执行这些步骤。可视化和下游分析涉及潜在空间学习,最常用的方法是 akn graph。演讲者的实验室还投资于研究单细胞转录组中的时间序列信息,以了解细胞分化过程。

  • 00:30:00 在本节中,演讲者讨论了自动编码器架构在使用深度神经网络的社区聚类中的使用。这种方法用于处理数据集大小的增加和基因时间单元矩阵中的噪声。发现自动编码器架构的瓶颈层很重要,可以了解生物过程。演讲者的团队利用这些信息开发了一种深度计数自动编码器,它通过用负二项分布代替均方误差来适应噪声函数。这种方法在 PBMC 数据集上的二维图表明,瓶颈层可以在没有任何先验知识的情况下识别细胞类型组,这有助于利用生物学知识。与 Kn 算法相比,这种神经网络方法的缩放行为也被认为是一个显着的优势。

  • 00:35:00 在本节中,演讲者讨论了基因组学和单细胞数据中深度学习在开发下一代卷积滤波器方面的潜力。他提到了一个专注于领域适应的项目,该项目旨在将某些设置转移到新设置,例如细胞中的扰动和药物刺激。他们称这个项目为“scgen”,它模拟细胞的扰动效应并试图预测新细胞类型的行为方式。通过对所有数据集进行编码,他们希望实现线性化的潜在空间,他们可以在其中进行算术运算和样本外预测。他们还一直在扩展该模型以进行更复杂的分解。

  • 00:40:00 在本节中,演讲者讨论了在单细胞基因组学中使用深度学习重建细胞类型的能力。目标是通过将它们排除在外,以刺激的方式重建细胞类型,例如 CD4 阳性 T 细胞,本质上是进行样本外预测。预测不仅基于均值,还基于方差的分布。这种重建不仅适用于 CD4 阳性 T 细胞,而且适用于所有不同的细胞类型,并且了解细胞特异性反应,使其成为基因组学的有力工具。演讲者还谈到了 SCGen,这是一种简单的生成模型,已通过潜在空间学习进行了扩展。它可以通过将大样本的所有信息打包到模型中来进行风格迁移。最后,演讲者讨论了迁移学习,这对于处理分布式数据和使这些地图易于访问至关重要。

  • 00:45:00 在本节中,演讲者讨论了贝叶斯建模和变分自动编码器 (VAE) 在单细胞数据中的应用,旨在了解组织中细胞的不同功能。该过程涉及将组织分离成单个细胞并运行单个 RNA 测序管道,从而生成一个矩阵,显示转录本与每个细胞的基因对齐的次数。演讲者强调了与研究生和硕士生及教授合作的重要性,并介绍了他们将在整个演讲中涵盖的几个主题,从将 VAE 应用于单细胞数据的重要性,到讨论 VAE 的扩展和故障模式.

  • 00:50:00 在本节中,演讲者讨论了单细胞基因组学中涉及的各种任务和挑战,包括细胞和基因水平查询的分析。其中一些任务涉及细胞分层、轨迹分析、数据集协调、注释传输、标准化和差异表达测试。由于可变测序深度和批次效应等技术噪声,以及数据的高维、非高斯性质,分析可能会很复杂。为了解决这些问题,演讲者建议使用潜在变量模型和可扩展的方法来分析所涉及的数百万个样本。

  • 00:55:00 在本节中,演讲者讨论了将算法应用于单细胞基因组数据的局限性以及对整个过程统一建模假设的必要性。他们提出了基于贝叶斯建模技术的生成模型的想法,该模型可用于以可扩展且一致的方式分析单细胞数据。演讲者解释了如何阅读图形模型以及如何使用不同的节点和边来编码概率属性,例如独立复制和条件性。目标是计算后验分布,这可以使用贝叶斯规则来实现,但边际似然通常很难处理,除非使用概率 PCA。

  • 01:00:00 在本节中,演讲者讨论了变分推理的概念,它在 scVI 中用于近似观测值的后验概率分布。该方法涉及放置一族分布并找到使后验 K 散度最小化的点 q,这本质上是一个优化问题。使用条件密度的定义,优化问题变得易于处理,变分推理成为一种有吸引力的方法。演讲者还介绍了概率 PCA 的扩展,其中神经网络可用于指定高斯分布的均值和方差。然而,在 VAE 中使用变分推理需要通过最大化证据来学习模型参数,这可以通过使用两个神经网络绑定变分后验的所有参数来实现。最后,演讲者讨论了 scVI,它将技术效果整合到图形模型中以生成给定细胞和基因的基因表达计数。

  • 01:05:00 在本节中,演讲者详细解释了使用条件变分自动编码器 (CVA) 生成单细胞 RNA 测序数据的过程,并进一步解释了该模型如何用于各种任务,如分层、协调、归一化、插补和差异表达。演讲者强调了这种方法如何处理批处理效应并提高可扩展性。演讲者还展示了该模型的实用性,表明它可以恢复嵌入中的层次聚类和发展梯度,并且可以在具有严重批次效应和许多批次的情况下处理批次效应。

  • 01:10:00 在本节中,演示者讨论了混合细胞类型数据集同时仍然能够区分细胞类型的挑战。他们展示了 SCVI 模型,该模型可以混合数据集而不会失去查看细胞类型的能力。演示者还谈到了 Rao 潜在变量在差异表达分析中令人兴奋的用途。该团队将基因排序与 SCVI 和其他微阵列技术方法进行了比较,发现 SCVI 的表现相似甚至略好。最后,演示者介绍了 SCVI++ 模型,它是用于注释目的的 SCVI 的扩展,允许将标签从一个数据集转移到另一个数据集。 SCVI++ 模型基于混合模型并更改 z 中的先验,并使用神经网络进行细胞类型分配。

  • 01:15:00 在本节中,演讲者讨论了在存在 T 细胞子集但无法根据一些低表达的标记基因识别其子细胞类型的用例中使用称为 CanVAE 的框架.通过使用 CanVAE 来传播标签,它成为一种半监督学习方法,它比仅仅聚类或分类效果更好,因为它利用了所有细胞的知识。此外,说话人提出了从潜在空间中分解出连续信息或协变量的问题,这很难用用于参数化变分分布的神经网络来处理。他们引入了 HC 约束 VAES,这是一种在聚合后验中强制执行独立声明的方法,从而导致更宽松的下限和更合适的属性。最后,他们讨论了差异表达以及如何将其视为贝叶斯模型选择问题,其中似然比可用作使用 CanVAE 框架确定差异表达的阈值。

  • 01:20:00 在本节中,演讲者讨论了与使用后验概率计算基因表达量度相关的挑战和局限性。如果后验不正确,该方法可能会有偏差,并且许多人更喜欢控制错误发现率的度量而不是基本因素。为了解决这个问题,演讲者提出了一种使用来自变分分布的样本来准确计算后验期望的方法。他们引入了不同的上界来高估方差,这对于重要的采样比低估它更有用。此外,演讲者还介绍了将多个提案组合在一起以使用 CVI 控制完整发现率的过程。与这项工作相关的论文还包括使用浓度界限量化重要采样误差的理论分析。

  • 01:25:00 在本节中,演讲者讨论了各种深度学习算法在称为 CVI 工具的单一代码库上的实现,其中包含用于分析单细胞组学数据的工具和概率编程语言的接口。代码库包含大约 10 到 13 个生成模型的实现,用户可以轻松地在一行代码中更改条件变分自动编码器或创建一个新的。演讲者还提到了一篇评论论文,该论文讨论了变分自动编码器和生成对抗网络在分子生物学中的影响。
 

降维 - 第 11 讲



降维 - 第 11 讲 - 生命科学中的深度学习(2021 年春季)

有关生命科学深度学习的视频讲座探讨了单细胞数据分析中用于聚类和分类的降维技术。这些讲座区分监督学习和非监督学习,并探索使用统计假设检验框架来评估基因的差异表达。本讲座介绍了使用主成分分析、特征分解和奇异值分解进行线性降维的流形学习的概念,并讨论了用于聚类数据保存的 t 分布随机邻域嵌入和分布式随机邻域嵌入的方法。演讲者还讨论了非负矩阵分解在基因组数据中的应用以及单细胞和多组学数据集的整合。这些技术的最终目标是以公正和定量的方式重新定义细胞类型和身份。

第二部分讨论了与降维相关的几个主题,特别是其在生命科学中的应用。整合非负矩阵分解 (iNMF) 用于链接转录组学和表观基因组学概况,以更好地了解各种背景下的细胞身份。本讲座还讨论了在深度学习中使用小批量方法的好处,特别是对于较大的数据集,以及如何利用在线算法改进分析大型数据集的降维方法。此外,引入该算法以整合不同类型的数据,例如 RNA-seq 和 ATAC-seq 数据。最后,演讲者表示愿意担任对该领域感兴趣的学生的导师。总的来说,讲座内容丰富,广受好评。

  • 00:00:00 在本节中,视频讲座继续讨论单细胞数据分析,并重点介绍用于聚类和分类的降维技术。在数千个实验中测量数千个基因的基因表达矩阵可用于聚类基因或细胞,或用于根据基因表达对细胞类型进行分类。这些讲座区分监督学习和非监督学习,并探索使用统计假设检验框架来评估基因差异表达的可能性。视频中还提到需要考虑数据的底层分布,并找到最适合数据集中观察到的分布。

  • 00:05:00 在本节中,讲师讨论了监督和非监督学习应用中降维的各种原因。这些包括数据可视化、数据缩减、数据分类和减少数据集中的噪声。讲师解释说,降维有助于理解驱动变化的因素、区分不同类别以及识别有趣的数据子集。此外,讲师还描述了降维如何涉及将高维数据映射到低维流形。

  • 00:10:00 在讲座的这一部分中,引入了流形学习的概念,作为理解高维数据真实维数的一种方式,它允许低维表示。流形学习涉及获取高维数据并了解数据的真实维度,数据集可能无法探索这些维度。使用主成分分析 (PCA) 的线性降维被讨论为学习这些流形的最常见方法之一。 PCA 涉及将数据投影到一组线性坐标中,这是对原始空间的变换。 PCA 中使用原始数据的特征向量来查找对变换不变的向量。

  • 00:15:00 在生命科学深度学习讲座的这一部分中,引入了特征分解的概念,作为一种将大型数据矩阵分解为其主要变异向量的方法。对于对称矩阵,特征向量是正交的,而对于实对称矩阵,特征向量既是正交的又是实数。特征分解捕获数据集最自然的线性降维,对角矩阵表示独立主成分的影响。对于非对称矩阵,奇异值分解用于找到基因和条件的特征向量及其组合,以最好地解释数据。

  • 00:20:00 在本节中,讲师讨论了奇异值分解 (SVD) 的概念以及如何将其用于线性降维。 SVD 是一种将矩阵分解为一系列操作的方法,包括两次旋转和一次缩放,以便找到数据中最重要的变化维度。生成的矩阵可用于计算原始数据的最佳低秩近似值,从而允许在较低维空间中表示数据。这对于线性降维很有用,线性降维的能力有限,但非线性降维可以消除其中的一些限制。主成分分析是一种线性降维方法,它捕获数据变化的主要线性维度。

  • 00:25:00 在本节中,t 分布随机邻域嵌入 (t-SNE) 方法被讨论为一种聚类数据降维技术,同时在不同尺度上保持距离。 t-SNE 不是依赖平等对待所有距离的 PCA,而是将高维空间映射到较低维度,同时保留新空间内相似数据点的接近度。通过应用特定带宽,可以使在高维空间中具有相似表达模式的单个细胞在低维空间中彼此接近,从而最小化两个空间之间的 KL 散度。可以使用渐进方法找到最小化两个空间之间 KL 散度的成本函数的嵌入。

  • 00:30:00 在本节中,演讲者讨论了分布式随机邻域嵌入 (d-SNE) 如何通过梯度搜索和优化低维空间的坐标来保留数据的局部相似性结构。该方法是一种非线性嵌入,它保留局部距离而不是全局距离,并在点散开但附近的点靠得更近时进行惩罚。这种方法通常用于围绕单细胞数据集的可视化,所考虑的邻居数量和原始簇的大小会影响嵌入的质量。

  • 00:35:00 在本节中,演讲者讨论了低维数据投影的概念,重点是学习用于单细胞数据分析的特定细胞类型簇。他们讨论了一种方法,该方法允许将多种类型的组学数据联合投影到低维数据集中,在这些数据集中它们可以相互匹配。演讲者介绍了他开发的几种方法,包括使用集成非负矩阵分解的 LIGER 方法,以及使用在线学习扩展 INMF 算法的方法。演讲最后讨论了正在进行的项目,这些项目整合了具有部分重叠特征的数据集,并结合了变分自动编码器和生成对抗网络来生成单细胞 RNA 图谱。

  • 00:40:00 在本节中,演讲者讨论了可在单细胞中执行的各种测量类型,包括基因表达、组蛋白修饰、转录因子结合、染色质可及性、DNA 甲基化和染色质构象。他们还强调了了解空间坐标和将分子信息映射回组织环境的重要性。演讲者提到了朝着细胞身份的定量定义迈进的挑战,其中具有单细胞分辨率的分子和其他类型的信息被用于以无偏见的方式重新定义细胞类型。为了应对这些挑战,演讲者开发了一种名为 liger 的工具,该工具基于综合非负矩阵分解来对不同测量的数据集执行综合单细胞分析。他们还讨论了非负矩阵分解的“基于部分的分解”方法的好处。

  • 00:45:00 在本节中,文字记录讨论了非负矩阵分解 (NMF) 在基因组数据中的应用,允许将 NMF 因子解释为共同表达或共同调节基因的元基因。这些因素可以代表生物途径或细胞类型特异性基因,以及捕获技术因素。通过将基因分组为元基因并使用这些元基因总结细胞表达,NMF 允许跨多个数据集对细胞身份进行定量定义以及细胞类型和状态的识别。元基因的可解释性还允许识别技术信号及其与数据集中生物信号的反卷积。

  • 00:50:00 在本节中,演讲者讨论了他们如何从数学上解决 item f 优化问题,并推导出一种基于块坐标下降的新算法,该算法具有一些显着优势并提供收敛保证。他们使用有效的算法来解决非负最小二乘问题,并执行下游步骤以提高分析的整体稳健性。演讲者随后举例说明了他们如何整合人类供体的单细胞 RNA-seq 数据,以按细胞类型而不是供体对细胞进行聚类,从而确定质质的主要细胞类型,并深入了解细胞之间的相似和不同之处人类捐助者。

  • 00:55:00 在本节中,演讲者讨论了单细胞数据集成的不同应用。一个例子是空间和单细胞数据集的整合,这可以帮助识别组织内细胞类型的空间位置,并提供对组织结构的洞察。演讲者举了一个例子,使用来自小鼠大脑的数据集来识别具有不同空间位置的星形胶质细胞的两种亚型,从而深入了解神经回路如何协同工作。另一个重要的应用是整合来自单个细胞的多组学数据集,这具有挑战性,因为数据集既不共享实例也不共享特征。演讲者解释了一种通过将表观基因组数据转化为基因水平特征并将它们与基因表达相关联来链接这些数据集的策略。

  • 01:00:00 在本节中,演讲者讨论了如何使用综合非负矩阵分解 (iNMF) 来链接转录组学和表观基因组学概况,以便更好地了解不同背景下的细胞身份。通过使用来自小鼠皮层和人类骨髓的数据,演讲者展示了将基因表达和甲基化数据联系起来如何可以更清楚地了解细胞类型,甚至可以识别标签不明确的细胞类型。此外,演讲者还解释了如何利用在线学习算法来解决越来越大的数据集中的 iNMF 问题,方法是在新数据以流式传输方式到达时逐步更新计算。

  • 01:05:00 在本节中,讲师讨论了在深度学习中使用小批量方法的好处,尤其是对于大型数据集。这种方法允许迭代更新权重,避免将整个数据集存储在内存中,从而加快收敛速度。讲师概述了 mini batch 特别有用的三个场景,其关键优势是能够在新数据集到达时合并它们,而无需重新分析任何以前的数据集。讲师还讨论了这种方法背后的计算机科学,利用在线字典学习论文中的现有理论来优化代理函数,该代理函数在参数方面渐近收敛到相同的解决方案。最终,这种方法在实践中效果很好,并且由于更大数据集中每个额外单元格的冗余,收敛得更快。

  • 01:10:00 在本节中,演讲者讨论了在分析大型数据集的降维方法中使用在线算法的优势。演讲者展示了他们的方法与其他广泛使用的方法的基准,表明它的内存使用率显着降低并且更省时。他们使用 Brain Initiative Cell Census Network 生成的数据展示了该方法的迭代优化能力,他们在该网络中使用在线算法将新数据集合并到因式分解中。他们还展示了如何将 inmf 算法扩展到特征部分重叠的情况,从而允许跨数据集利用共享和非共享特征,这是一种比以前使用的强制特征对齐的方法更令人满意的方法。

  • 01:15:00 在本节中,演讲者解释了如何使用算法来利用数据集中存在的所有特征,即使某些特征仅存在于一个数据源中。该算法可用于整合不同类型的数据,例如 RNA-seq 和 ATAC-seq 数据,以给出更完整的基因表达图,从而增强解析簇或细胞谱的能力。演讲者还介绍了一种名为 Michigan 的新方法,它结合了变分自动编码器 (VAE) 和生成对抗网络 (GAN) 的优势,可以从单细胞表达数据生成逼真的细胞概况。该算法使用 VAE 的解缠结性能和 GAN 的生成性能来创建一种强大的方法来操纵和预测细胞身份的变化。

  • 01:20:00 在这一部分,演讲者表达了愿意为对该领域感兴趣的学生担任导师的意愿,并感谢听众的聆听。主持人进行快速投票,以检查听众是否有所了解,听众反应积极。总的来说,讲座广受好评,内容丰富。
 

疾病电路解剖 GWAS - 第 12 讲


疾病电路解剖 GWAS - 第 12 讲 - 生命科学中的深度学习(2021 年春季)

这段关于疾病回路剖析 GWAS 的视频涵盖了人类遗传学的基础、解释的计算挑战以及全基因组关联研究 (GWAS) 中检查的各种类型的遗传变异。该视频还探讨了孟德尔作图、连锁分析和与疾病相关的单核苷酸多态性 (SNP) 识别等方法。此外,演讲者还讨论了使用卡方统计、曼哈顿图和 QQ 图来可视化与疾病表型显着相关的基因组区域。该视频还包括一个关于 FTO 基因的案例研究,以及如何全面剖析它对肥胖的机制影响。还讨论了理解与肥胖的遗传关联的挑战以及解决该问题的步骤。

该讲座讨论了研究基因组变异对人类健康影响的挑战,以及了解突变如何影响不同细胞类型的重要性。演讲者概述了他们预测基因组序列和变异影响的深度学习方法,特别是在预测转录因子结合和染色质组织方面。他们还描述了他们对这些预测的评估,使用深度测序的基因组数据集来预测 DNA 敏感性和组蛋白标记 QTL,以及他们使用深度学习来预测突变对基因表达和自闭症等人类疾病的影响。最后,他们讨论了对先前已知基因集的公正分析以及深度学习序列模型库的使用。

  • 00:00:00 在视频的这一部分,演讲者讨论了人类遗传学的基础和解释中的计算挑战。他们解释了如何通过全基因组关联研究 (GWAS) 识别遗传变异,以及如何发现导致疾病的个体遗传变异。该讲座还涵盖遗传基因搜寻以及使用连锁和 GWAS 来识别与疾病相关的位置。还讨论了用于变异解释(包括深变异和深海)的精细映射、案例研究和机器学习工具的挑战。简要介绍了人类遗传学和遗传模式的历史,从古希腊开始,一直持续到达尔文提出的衍变和自然选择概念的发展。

  • 00:05:00 在本节中,演讲者讨论了孟德尔离散遗传与观察到的表型性状连续变异之间的协调。孟德尔引入的微粒遗传概念表明存在离散的遗传单位,命名为显性或隐性基因。然而,在人类身上观察到的连续变异的生物特征无法用孟德尔遗传来解释。这随着 1900 年代初期统计学家的工作而改变,他们表明连续变化可以用多个孟德尔基因座来解释。这成为孟德尔特征映射的基础,最终导致人们理解染色体和 DNA 携带遗传物质。此外,演讲者还讨论了独立分类规则的偏差如何成为人类遗传学的主力,以及染色体中物理上接近的特征如何倾向于共同遗传。

  • 00:10:00 在本节中,演讲者讨论了称为孟德尔作图的传统遗传作图方法,该方法使用不同性状的连锁和分离频率来追踪人类基因组中编码不同性状的区域。然而,这种方法只对具有强烈影响的特征有效。演讲者随后谈到了 2000 年代的革命,这场革命带来了绘制弱效应变化图的能力,而这在以前是无法使用传统关联方法进行分析的。这是通过全基因组关联研究 (GWAS) 实现的,该研究着眼于基因组中的每个 SNP 以及它们如何随不同疾病发生变化。演讲者接着解释了 GWAS 中检查的变异类型,包括 SNP、插入缺失、SDR、结构变异和拷贝数变异,以及这些变异如何影响基因组的功能。

  • 00:15:00 在本节中,演讲者介绍了全基因组关联研究 (GWAS) 的主力,即单核苷酸多态性 (SNP),这是最常见的遗传变异类型。 SNP 有两个等位基因,每个变体都已聚类并构建到名为 dbSNP 的数据库中。演讲者还讨论了其他类型的变体,例如速记和重复、插入和删除等。此外,解释了常见和罕见变体之间的区别,因为罕见变体允许检查强烈的影响变化。鉴于人类有两个基因组副本,包括 23 条染色体、20,000 个基因、30 亿个 DNA 字母和数百万个多态位点,因此突出了寻找疾病基因的挑战。

  • 00:20:00 在本节中,讲师解释了遗传学中常见和罕见变异之间的区别,以及它们与全基因组关联研究和孟德尔分析的关系。罕见变异有很大影响,主要在孟德尔分析中发现,而常见变异影响很小,可以通过全基因组关联研究捕获。此外,连锁分析可以通过研究染色体上的标记并查看哪些标记与群体中的表型共同遗传,从而帮助查明导致疾病的基因的位置。

  • 00:25:00 在本节中,演讲者介绍了全基因组关联研究,该研究收集了数千人(大约 50% 的病例和 50% 的对照)来研究精神分裂症、肥胖症或糖尿病等疾病。这些研究通常会过度代表案例以获得影响力,并且由于与测序相比成本低廉,因此使用了基因分型技术。演讲者强调了样本和 SNP 质量控制的重要性,以确保结果的准确性。此外,演讲者还解释了人口证明的概念以及消除研究中个体之间相关性的必要性。

  • 00:30:00 在本节中,演讲者解释了如何使用卡方统计量和 p 值分布来检测全基因组关联研究 (GWAS) 中的实际疾病信号。使用显示有多少病例和对照携带每个 SNP 的等位基因的列联表,演讲者寻找病例和对照之间等位基因频率的偏差。卡方统计测量偏差的大小,p 值用于拒绝等位基因对表型没有影响的假设。然后,演讲者解释了如何在曼哈顿图中绘制 p 值,以可视化与疾病表型显着相关的基因组区域。

  • 00:35:00 在本节中,演讲者讨论了曼哈顿图的使用,它显示了 SNP 与疾病随机相关概率的负 log 10 p 值,以及 QQ 图,它比较了数以百万计的 SNP 已经过测试。接下来是功能分析,以其他方式检查 SNP 的作用。全基因组显着性水平设定为 5 乘以 10 的负 8 次方,这是根据 20 年前的粗略计算确定的。然而,由于人群中的遗传变异有限,没有足够的时间让所有 SNP 独立分离,精细定位可能具有挑战性。

  • 00:40:00 在本节中,讲师讨论了变异如何在区块中遗传而不是孤立,这意味着如果区块中的一个变异具有特定等位基因,那么该区块中的每个变异都具有相同的等位基因。在一个区域中找到关联后,下一步是确定哪个单核苷酸多态性 (SNP) 负责该关联。一项克罗恩病研究发现了一个区域,该区域被连锁分析和全基因组关联研究检测到,而另一个区域仅被后者发现。讲师解释了每个区域的风险等位基因的频率和效应大小。

  • 00:45:00 在本节中,演讲者讨论了保护性等位基因的罕见性以及通过病例对照和队列研究发现它们的困难。他们解释说,在大大丰富病例的研究中不太可能发现降低风险的稀有等位基因,而且此类研究所需的家族谱系不可行。演讲者还解释了 GWAS 捕获的常见变异与连锁分析捕获的罕见、强效等位基因之间的区别。本节最后简要概述了单倍型和重组热点,包括它们在人群中的变异以及 prdm9 在指导重组事件中的重要性。最后,演讲者介绍了一项关于 FTO 基因的研究,该基因是针对肥胖或体重指数的最强 GWAS 研究,并对其机制影响进行了全面剖析。

  • 00:50:00 在讲座的这一部分,演讲者讨论了理解肥胖与遗传关联的挑战,并概述了解决这个问题的步骤。第一步是识别相关组织和细胞类型,这是通过检查各种组织的表观基因组注释来完成的。第二步是寻找下游目标基因,由于远程连接和环化而变得复杂。演讲者解释说,测量纯合风险和非风险个体中不同基因的表达表明,FTO 基因本身的表达没有变化,但远离 FTO 的 IRX3 和 IRX5 基因可能是目标基因。

  • 00:55:00 在本节中,演讲者描述了他们如何能够识别与肥胖相关的非编码位点的目标基因,并使用调控基序分析和进化保守性来理解因果 SNP。通过破坏上游调节器和 SNP,他们能够显示两者之间的上位性以及它如何影响抑制和去抑制。演讲者解释说,破坏基序会减少抑制,增强子会过度激活,从而导致 rx3 和 rx5 在基因表达水平上过度激活,从而导致能量从耗散转变为储存。通过建立模型和基因组编辑,他们能够从一个他们一无所知的关联区域转变为了解生物过程和目标基因,并进行干预以改变电路。

  • 01:00:00 在讲座的这一部分,演讲者讨论了研究个体中存在的众多基因组变异的影响所面临的挑战,以及更好地了解基因组序列和突变如何影响不同细胞类型和人类健康。演讲者解释说,他们采用机器学习方法,利用基因组序列和大量功能基因组数据来构建可以预测基因组序列和变异影响的模型。具体来说,演讲者讨论了他们在基于基因组序列预测单个转录因子的结合和染色质组织方面的工作。他们的目标是开发一种系统的方法,使用深度学习技术一次预测 120,000 个基因组变异的影响。

  • 01:05:00 在本节中,演讲者讨论了他们决定使用深度卷积网络模型来构建满足他们三个要求的调节序列模型:使用大序列和长序列上下文的能力,对非线性进行建模的能力跨序列不同区域的交互,以及共享跨所有不同任务学习的序列特征的能力。演讲者解释说,该模型在较低级别学习不同级别的序列特征,并在较高级别学习高阶序列模式。他们还强调了在进行特定位置预测时保留空间信息的重要性。通过为模型提供两个仅相差一个变体的序列并比较每个等位基因的预测,该模型可用于预测任何基因组变体的影响。

  • 01:10:00 在本节中,演讲者描述了他们如何评估对影响染色质水平 DNA 敏感性的变异的预测准确性。他们分析了深度测序的基因组数据集,并寻找杂合变体,其中一个等位基因明显多于另一个,表明潜在的 DNA 敏感性差异。他们训练了一个模型来预测参考和替代等位基因的 DNA 敏感性,并将预测与实验结果进行比较。他们发现该模型在预测变异方面具有更高的准确性,参考和替代等位基因之间的差异更大,并且更有信心预测变异。该评估对误报具有鲁棒性,使他们能够过滤出真阳性。他们还将这种方法应用于组蛋白标记 QTL,发现他们可以预测与更高组蛋白标记相关的等位基因。

  • 01:15:00 在本节中,演讲者讨论了他们如何使用深度学习来预测变异对基因表达的分子水平影响。他们面临着挑战,例如需要考虑更大的监管序列和可用的训练样本更少。他们通过查看 40 KB 的广阔区域并应用预训练模型在不同位置进行预测来应对这些挑战。然后,他们使用正则化线性模型训练从每个基因表达谱预测到基因表达的平滑贡献模式。通过这种方法,他们可以预测不同突变的影响以及它们如何通过相似的机制导致相同的疾病。虽然预测基因表达的问题远未解决,但他们已经首次尝试解决这个问题。

  • 01:20:00 在本节中,演讲者讨论了使用深度学习来预测基因组变异对自闭症等人类疾病的影响。他们解释说,非编码突变很难检测到并归因于疾病。然而,通过使用模型来预测突变对染色质谱和蛋白质结合谱的影响,他们能够将自闭症患者的突变与其未受影响的兄弟姐妹进行比较。研究人员发现,与未受影响的兄弟姐妹相比,自闭症患者与自闭症相关的基因受到更强的影响,从而证实了非编码突变对该疾病的贡献。

  • 01:25:00 在本节中,演讲者讨论了使用先前已知的基因集来确定非编码突变的贡献的无偏分析。他们使用基于网络邻域的分析来寻找与基因网络中的兄弟突变相比对问题突变的更强影响。该分析显示了编码和非编码突变所指示的机制的融合,基因聚集到突触相关和染色质调节相关组中,这些组先前已在自闭症个体中发现的编码突变中指出。演讲者还简单提到了一个深度学习序列模型库,可以用来训练和评估序列模型。
 

GWAS 机制 - 第 13 讲



GWAS 机制 - 第 13 讲 - 生命科学中的深度学习(2021 年春季)

生命科学深度学习系列中关于 GWAS 机制的讲座着眼于了解复杂性状中涉及的非编码遗传变异的功能的各种方法。该讲座讨论了使用表观基因组注释和深度学习模型来识别特定疾病的遗传相关区域的全局属性。它还涵盖了跨不同组织和增强子的富集,并解释了如何将这些转化为经验先验以预测基因座内的因果 SNP。本讲座还讨论了使用中间分子表型(如基因表达和甲基化)来研究全基因组关联研究中的因果关系,以及如何结合基因型和表达个人成分来解释表达的表型变量。最后,讲座检查了因果推理方法的使用,以确定改变变量对结果变量的影响,以确定因果与反因果途径。

本视频中的讲师讨论了在基因组学研究中推断因果效应的各种技术。它们涵盖了 d-分离的概念,并使用遗传学中的自然随机化作为建立因果关系的一种方式。讲师还讨论了孟德尔随机化和鲁宾的准推理模型,以及因果推理的潜在结果方法。他们谈到了观察研究中归因和调整偏差的挑战。演讲者还强调了使用多个正交证据来开发稳健的因果算法的重要性。此外,他们解释了使用遗传学来扰乱基因表达和学习网络,并引入了不变性条件作为识别数据中因果结构的方法。本讲座全面概述了基因组学研究中用于因果推理的各种技术和工具。

  • 00:00:00 在本节中,与英国大学客座讲师 Yong Jin Park 教授的讲座重点是将上一节的讨论扩展到理解表观基因组富集、eQTL 等全局变量,以及中介和因果关系的研究哥伦比亚。本讲座计划简要回顾精细定位和基因座机制解剖,然后使用表观基因组学进行全局富集分析的不同方法,以推断作用调节剂的组织、细胞类型和靶基因。此外,该讲座将着眼于线性混合模型和多基因风险评分,用于全基因组关联研究以预测表型和遗传力,以过渡到周四讲座的其余主题。最终目标是同时了解数千个基因位点的曼哈顿图中每个峰背后的功能驱动因素和机制基础。

  • 00:05:00 在讲座的这一部分,讲师讨论了使用遗传学来理解复杂性状的疾病机制的挑战,这些性状主要由非编码变异控制。为了应对这一挑战,讲师建议使用细胞电路的表观基因组注释和深度学习模型来识别特定特征的所有遗传相关区域的全局属性。通过比较不同特征(例如身高和 1 型糖尿病)的富集差异,指导员建议他们可以学习跨越所有区域的特性,并使用它们来推断单个基因座的特性。这种方法可以提供对疾病的公正看法,并有助于预测靶基因、疗法和个性化医疗。

  • 00:10:00 在本节中,演讲者解释了使用超几何或二项式统计检验评估遗传变异和组织特异性增强子之间的重叠以寻找显着富集的过程。他们发现,与不同性状相关的遗传变异在这些组织中活跃的增强子之间表现出组织特异性富集。例如,与身高相关的遗传变异富含胚胎干细胞增强子,而与血压相关的遗传变异则富含作用于左心室的增强子。他们还发现,阿尔茨海默氏病并没有在全球范围内富含大脑中活跃的增强剂,而是富含大脑免疫细胞中活跃的增强剂,特别是 CD14+ 细胞。这导致他们假设与阿尔茨海默氏症相关的遗传变异主要在大脑的免疫细胞中起作用。他们现在可以在贝叶斯框架中使用这些信息来确定哪些与疾病相关的遗传变异更有可能发挥作用。

  • 00:15:00 在讲座的这一部分,演讲者讨论了如何将观察到的丰富内容转化为可在 GWAS 中使用的经验先验。以克罗恩氏病和阿尔茨海默氏症为例,演讲者解释说,与疾病相关的遗传变异在某些区域富集,可用作预测给定基因座内因果 SNP 的先验。然后他们解释了如何将这个先验与 GWAS 汇总统计的证据相结合,以便为每个变体建立后验概率。这种称为 RIVIERA 的方法的功效通过以下事实得到证明:它优先考虑的 SNP 更有可能在进化上得到保护,并且可以在 eQTL 和数字基因组足迹中找到。

  • 00:20:00 在讲座的这一部分,演讲者讨论了使用丰富的增强子在遗传变异和性状之间建立高度特异性的关联。通过将这些特征映射到与其重叠的增强子,演讲者讨论了将遗传位点划分到特定组织中以更好地了解与这些位点相关的生物学功能。演讲者强调了如何使用它来将复杂的性状划分为更简单的成分,并根据它们与特定组织中的增强子的接近程度来确定基因座的优先级。演讲者还提供了几个与冠状动脉疾病相关的位点示例,这些位点与不同组织和目标基因重叠。此外,演讲者还讨论了如何研究未达到全基因组意义的新位点并将其映射到特定组织。

  • 00:25:00 在本节中,讲师解释了他们如何使用机器学习方法来优先考虑亚阈值基因座,这些基因座的重要性不如全基因组显着性,并通过学习全基因组重要特征中的特征来发现新的基因座.他们发现了许多与心脏复极化相关的位点,并使用它们的特征作为预测因子来优先考虑亚阈值变异,并提供来自实验测试的额外证据。他们发现,使用这种方法优先考虑的基因在相关基因组关联研究中得到了丰富,并与有意义的目标基因相关联,与心脏传导和收缩表型密切相关。他们还讨论了他们如何使用表达数量性状基因座通过观察中间分子表型来弥合遗传变异与疾病之间的差距。

  • 00:30:00 在本节中,演讲者讨论了中间分子特征的使用,特别是基因的表达水平或特定位点的甲基化水平,作为研究全基因组关联研究中因果关系的一种方法。目标是关注特定组织、基因组机制、基因表达变化和内表型,以确定哪些特征是遗传学的结果,哪些是疾病的结果。甲基化数量性状基因座和表达数量性状基因座的基础是测量身高等数量性状,并将交替等位基因的数量与附近基因的甲基化水平或表达水平相关联。这种方法导致发现了数以万计的甲基化 qtls,并且估算这些中间分子表型可以帮助预测甲基化并将其与疾病相关联。

  • 00:35:00 在本节中,视频讨论了如何将推算甲基化用于更大的队列,以发现基因型驱动的甲基化与阿尔茨海默病等表型之间的相关性。估算的甲基化是甲基化的遗传成分,通过估算它,研究人员可以使用更少的个体并寻找基因型驱动的甲基化,增加功率并专门研究遗传成分。该视频还展示了一些示例,说明在某些情况下,当同时使用多个 SNP 时,许多在基因组学上不显着的 SNP 如何变得重要,这使研究人员可以结合它们的作用来预测甲基化。

  • 00:40:00 在生命科学深度学习讲座的这一部分,演讲者讨论了一种通过遗传学、甲基化、转录和混杂研究来识别疾病表型中介因素的方法。他们解释了使用线性回归模型预测这些不同因素与基因表达之间的关系、校正群体效应和批次效应等变量,并最终确定甲基化和表达等中间分子表型的遗传驱动因素的过程。该方法涉及 QQ 图来评估统计数据的校准,并使用诸如年龄、性别和基因型和表达的主要成分等协变量来解释结果。

  • 00:45:00 在讲座的这一部分,重点是结合基因型和表达个人成分,以确定包含额外协方差和基因型的模型是否比仅基线模型能够更好地解释表达的表型变量。这是表达数量性状基因座 (eQTL) 研究的基础,可以通过等位基因分析进行补充。等位基因分析涉及将杂合子个体的读数分成包含一个带有 A 的等位基因的那些和包含来自同一个人的同一细胞的另一个带有 C 的等位基因的那些。通过将 A 基因型与该等位基因的等位基因特异性表达相关联,该等位基因的表达似乎比 C 等位基因的表达更高,人们可以查看特定区域的等位基因特异性效应,该区域正在接受特定 SNP 的测试。本讲座还涵盖了响应 QTL 及其在确定响应特定环境条件的 QTL 中的作用。

  • 00:50:00 在本节中,讲师讨论了表达数量性状位点 (eQTL) 的概念,eQTL 是调节基因表达水平的基因组位点。讲师解释说,eQTL 可以一直存在,也可以仅在响应特定刺激时出现。然后,文字记录过渡到因果关系推断的主题,讲师解释说这是一种确定哪些位点在疾病中起因果作用,哪些位点仅与疾病表型相关的方法。讲师解释说,因果推理领域分为两类:因果效应和因果发现。本讲座将主要关注因果关系的影响。

  • 00:55:00 在本节中,演讲者讨论了因果推理方法在研究遗传分析中的应用。因果推理涉及实验干预,以确定改变变量 x 对结果变量 y 的影响。目标是确保条件概率几乎等于干预概率。演讲者还解释了可达性、调节、调整和 d 分离的概念。通过使用因果图形语言,研究人员可以提出因果问题并确定因果与反因果途径。后门路径的存在会影响条件概率的解释,并造成相关性等于因果关系的误解。

  • 01:00:00 在本节中,讲师讨论了阻断向量变量之间的后门路径以识别基因组学研究中因果效应的概念。他们引入了 d-separation 的概念,并通过对某些变量进行调节来创建对撞机模式。讲师解释说,如果变量足够简单,研究人员可以进行干预并随机分配变量,以打破混杂因素与感兴趣变量之间的依赖关系。讲师强调,基因是基因组学研究中的一个重要变量,它不受环境因素的影响,将其设定为一定的值就像是一个自然的随机对照试验。

  • 01:05:00 在本节中,讲师讨论了孟德尔随机化的概念以及如何使用它来理解基因型、中间表型和疾病表型之间的关系。基因型随机化,更容易估计真正的因果效应。尽管这种方法严重依赖假设,但它已成功应用于基因 eQTL 和基因-环境相互作用研究。此外,讲师解释说,另一种估计 beta 回归参数和中介效应的方法是结合 g 上的回归 y 和 g 上的另一个 x 回归。最终,孟德尔随机化提供了一个独特的机会来理解现实生活中难以操纵的变量之间的复杂关系。

  • 01:10:00 在本节中,讲师讨论了在基因组学研究中推断因果效应的两种方法:孟德尔随机化 (MR) 和鲁宾的拟推理模型。 MR 是一项随机对照试验,它利用基因型随机扰动中间变量,以针对疾病结果进行随机对照试验。但是,当涉及到未知混杂因素或存在替代路径时,MR 可能会很困难。鲁宾的准推理模型是一种反事实推理方法,当赋值是离散变量时,它可以衡量因果效应。这种方法会产生插补问题,因为如果未观察到某个单位的潜在结果,则该单位的潜在结果将丢失。

  • 01:15:00 在生命科学深度学习讲座的这一部分,演讲者讨论了遗传研究中因果推理的潜在结果方法。独立性、强可忽略性和重叠等假设是准确估计个体因果效应所必需的。演讲者还提供了一个涉及阿尔茨海默病药物的玩具示例,并讨论了拟合倾向函数和使用倾向得分如何帮助调整偏差并在治疗组和对照组之间进行公平比较。潜在结果方法允许研究人员提出有关不同治疗和干预措施效果的有趣问题。

  • 01:20:00 在本节中,演讲者通过潜在结果框架和最先进的反事实推理技术讨论因果推理。他们解释了对治疗组进行加权如何解释结果的差异,以及如何使用插补来估计潜在结果。他们还讨论了最近的一篇论文,该论文提出使用剪切矩阵来捕获多个混杂因素,并使用 population PC 来调整这些混杂效应,以及使用贝叶斯回归树估算缺失数据的策略。通过这种方式,可以测量个体因果效应以确定治疗的有效性。

  • 01:25:00 在本节中,演讲者讨论了生命科学中深度学习的因果发现方面。他们解释说,从高维数据矩阵中学习因果图结构是一个复杂且具有挑战性的问题。然而,他们指出,这一领域的突破来自于使用遗传学扰乱基因和测量基因表达来学习网络。他们解释说,研究人员现在不再使用基于分数的可能性,而是依赖不变性条件,该条件假设生成数据的单一因果模型,并使用该假设来识别数据的因果结构。演讲者还提供了一个玩具示例来演示这种方法。

  • 01:30:00 在讲座的这一部分,演讲者讨论了不变性条件的概念及其在确定模型是否能够一致地解释实验数据方面的应用。演讲者以基因敲除实验为例,展示了包含错误的预测因子如何导致实验结果被拒绝。因果三角测量的想法也被提到作为提高科学实验可重复性的一种方式。演讲者最后强调了多个正交证据对于开发因果算法的重要性。
 

系统遗传学 - 第 14 讲



系统遗传学 - 第 14 讲 - 生命科学中的深度学习(2021 年春季)

在这个关于系统遗传学和深度学习的讲座中,演讲者涵盖了几个主题,包括 SNP 遗传力、分区遗传力、分层 LD 分数回归和分子表型中的深度学习。他们还探索使用电子健康记录、基因组关联研究和基因组学来分析英国生物样本库的数据集,该数据集包含约 500,000 名具有数千种表型的个体。讲师讨论了如何将深度学习模型用于序列函数预测以了解疾病位点的回路,以及如何使用线性混合模型进行 GWAS 和 EQTL 调用。他们还谈到了深度学习中模型假设的偏差和违背,并强调了细胞类型特异性调控注释在推断疾病关键细胞类型中的重要性。最后,讲师讨论了与负选择和因果效应大小相关的发现的复杂性,并介绍了斯坦福大学的 Manuel Rivas 教授讨论遗传关联的分解。

讲座深入探讨了遗传数据在各个领域的应用,包括量化性状的组成和贡献成分、识别有助于脂肪生成或脂肪分解的遗传变异、识别对基因功能和降低疾病风险有强烈影响的突变,以及开发使用多变量分析的风险预测模型。此外,讲座还讨论了多基因风险评分模型在各种生物标志物中的应用,并强调需要在不同人群之间共享数据以提高预测准确性,尤其是在非欧洲人群的情况下。讲座最后表示愿意监督对与英国生物库多基因评分和亲生效应相关的研究项目感兴趣的学生。

  • 00:00:00 在本节中,演讲者介绍了系统遗传学和电子健康记录的主题。他们简要回顾了前面几节课中涵盖的概念,包括常见和罕见变异、多基因风险评分、连锁不平衡和精细定位变异。由于绝大多数非编码关联与多个 SNP,演讲者讨论了解释全基因组关联研究的挑战。然后,他们介绍了使用基因组、RNA 和变异信息,以及用于序列功能的深度学习模型来预测驱动基因、区域和细胞类型,从而了解疾病位点的潜在回路。演讲者还介绍了 GWAS 和 EQTL 检出的线性混合模型的使用,该模型使用基因型和协变量预测对感兴趣的表型的固定和随机影响。

  • 00:05:00 在本节中,讲师解释了根据遗传变异预测一个人表型的基本基础,以及基因组中所有 SNP 和队列中所有个体的每个替代等位基因的效应大小。噪声分布在具有零中心值和平方协方差矩阵的个体中。此外,使用衡量个体之间遗传共享的亲属关系矩阵来解释随机效应。贝叶斯方法用于整合所有未知数并确定由协方差矩阵驱动的表型效应的概率。建立线性混合模型来估计特定性状的总遗传力,该模型基于无穷小假设并使用受限最大似然模型进行估计。尽管缺乏关于实际因果差异的知识,这种随机效应模型仍能捕获数据和工作的转换。

  • 00:10:00 在本节中,演讲者讨论了深度学习在通过预测中间分子表型的影响以及 SNP 与表达之间的线性关系来捕捉额外变异方面的应用。演讲者解释说,这可以使用与估计周围的潜在噪声相匹配的先验分布来完成,从而可以推断出最优选的结果。他们还提到了人口差异的影响,其中驱动遗传矩阵的最强影响直接源于人口差异。最后,演讲者解释了遗传力的概念,以及将遗传相关性划分为基因组子集如何成为计算遗传力的有效方法,这表明染色体越长,它们对许多复杂性状的解释越多。

  • 00:15:00 在本节中,哈佛大学公共卫生学院的 Alkes Price 解释了 SNP 遗传力的概念,这是一个参数,定义为整个人群中表型和基因型之间关系可达到的最大值。他讨论了在 SNP 的不同功能类别(例如编码与非编码)之间划分遗传力的想法,以及这如何得出关于哪些 SNP 在特定疾病和组织中具有遗传力的结论。 Price 还介绍了分层 LD 评分回归的概念,作为研究人体关键疾病细胞类型和细胞过程的工具。

  • 00:20:00 在本节中,演讲者介绍了统计遗传学中从大数据集中分析汇总关联统计的想法。这种方法在分析精神分裂症、类风湿性关节炎和克罗恩病等疾病时非常有用,在这些疾病中,通过利用汇总统计数据而不是个体水平的基因型和表型可以获得大量样本。演讲者解释了分层 ld 分数回归的方法,该方法用于回归来自疾病 GWAS 的卡方关联统计数据,跨 SNPs 与来自不同功能类别的 LD。该方法基于这样的想法,即平均卡方大于 1 并不意味着混杂,而是依赖于 SNP 的平均 LD 分数。

  • 00:25:00 在本节中,演讲者解释了与 SNP(单核苷酸多态性)及其 LD(连锁不平衡)分数相关的标记信号和生物学因果信号的概念。他们讨论了分层 LD(连锁不平衡)分数回归方法如何帮助检测这些分数中的混杂,较高的平均卡方分数表明存在混杂。他们还涉及基因组 LD(连锁不平衡)问题以及它如何根据 SNP 的群体和频率而变化。然后演讲者以精神分裂症数据集的形式呈现真实数据,以进一步说明这种方法。

  • 00:30:00 在这节课中,引入了一个回归方程来使用 LD 分数来估计 SNP 遗传力。回归方程的截距反映了混杂,而斜率反映了卡方统计量与 LD 分数之间的相关性。这个斜率可以用来估计SNP的遗传力,多元线性回归的各个斜率可以告诉我们不同功能类别的因果SNP遗传力。数量富集可以衡量由特定功能类别解释的 SNP 遗传力百分比与属于该类别的 SNP 百分比。斜率的功能解释取决于功能类别是否重叠。

  • 00:35:00 在本节中,演讲者讨论了分层 LD 分数回归,用于评估各种功能注释的丰富性。该方法适用于编码 SNP、增强子、组蛋白标记等。发言人指出,如果因果类别包含在模型中,该方法会产生无偏估计,但如果因果类别不在模型中,该方法就会产生偏差。然而,即使缺少一些类别,该模型仍然可以提供足够的丰富度来为其余类别生成接近无偏的估计。演讲者强调,个人层面的数据方法目前并非设计用于在大量重叠或连续值的功能类别上运行。

  • 00:40:00 在本节中,演讲者解释说,如果不小心,深度学习中可能会违反模型假设,并引用了基因表达数据中 top qtl 不满足基本模型假设的示例。然后演讲者继续讨论深度学习方法在真实染色质和基因表达数据中的应用。使用 17 种性状的公开汇总统计数据,发言人发现编码 SNP 丰富了疾病和复杂性状,尤其是自身免疫性疾病和身高,同时还发现 29 种哺乳动物的保守 SNP 对疾病有重大影响。此外,幻影五增强子被发现对自身免疫性疾病具有显着的富集作用。然后,讨论转向解释与某些特征如何与生殖适应性具有更高或更低耦合相关的这些结果。

  • 00:45:00 在本节中,讲师解释了某些功能类别因遗传性而丰富的原因,这不是由于较大的因果效应大小。由于负选择,常见的片段在效果大小上有一个软上限,所以更多的是关于功能类别中做某事的片段的数量,每个片段都有中等或中等或中等的因果效果大小。讲师还讨论了细胞类型特异性调节注释在推断疾病关键细胞类型中的重要性。精神分裂症的脑调节注释最丰富,高度相关的骨调节适应最丰富,类风湿性关节炎的免疫细胞类型最丰富。与专注于全基因组重要片段的传统方法相比,全基因组多基因方法可以对高度多基因性状产生更多的生物学见解,这些片段的数量可能非常少。

  • 00:50:00 在讲座的这一部分,演讲者讨论了使用基因表达数据来研究与某些疾病相关的特定基因,包括精神分裂症和类风湿性关节炎。他们还提到了 ld 依赖架构的概念,其中因果效应的大小取决于 ld 的水平,以及 ld 水平较低的片段如何在 56 个不同的特征中具有较大的因果效应大小。演讲者提到了这些发现的复杂性,这些发现与负选择有关,但没有时间讨论单细胞 RNA 测序数据和疾病关键细胞类型。然后,他们介绍了来自斯坦福大学的 Manuel Rivas 教授,他讨论了结合电子健康记录、基因组关联研究和基因组学来分析基于人口的英国生物库数据集的过程,该数据集包含约 500,000 名个体和数千种表型。

  • 00:55:00 在本节中,演讲者讨论了一种称为遗传关联分解的方法,该方法涉及将多对多映射分解为更少的组件以表示遗传关联研究。演讲者使用截断奇异值分解方法来表示由数千个性状和遗传方差的汇总级数据组成的矩阵,从而产生大约 100 个分量的低秩分量,每个分量都是三个矩阵中正交元素的乘积.前两个组件以人体测量表型为特征,演讲者预测每个变体如何加载到两个组件上,以了解它们如何影响不同的表型。

  • 01:00:00 在本节中,演讲者解释了如何量化给定性状的组成和贡献成分,例如身体质量指数 (BMI),它由脂肪成分和非脂肪成分组成. BMI 的遗传风险将由脂肪成分以及其他成分引起。演讲者解释说,他们有兴趣通过研究特定的蛋白质截短变异 (PTV) 和确定强大的效应大小来确定可能有助于脂肪生成或脂肪分解作用的遗传变异,而不仅仅是对体重指数产生无脂肪影响。通过这个过程,演讲者确定了对 BMI 具有高胆固醇无脂肪质量贡献的基因 pde3b,以及对个体发生具有功能性影响的 GPR 151。 2000 种表型的遗传关联可在 biobank engine.com.edu 在线获取,其理念是它成为一个搜索门户,任何人都可以搜索他们最喜欢的基因、变异或表型,并浏览不同流行基因的关联集生物银行。

  • 01:05:00 在本节中,演讲者讨论了对基因功能具有强烈影响并降低疾病风险的突变的鉴定,这可以产生新的治疗假设并指导药物发现靶点的选择。他们通过结合来自多个生物样本库的汇总数据,解释了识别对基因功能和表型具有强烈影响的特定遗传变异的过程。通过估计多基因的遗传力和遗传效应的相关性等遗传参数,他们旨在可视化遗传与性状/疾病之间的关系,以改进推理并指导治疗发展。还提供了强效应突变的例子及其对预防哮喘和 1 型糖尿病等疾病的影响。

  • 01:10:00 在本节中,主持人讨论了遗传数据在风险预测模型中的应用。人类有大量与数百种表型相关的遗传变异,因此探索这些联系的一种方法是拟合数百万个单变量模型。然而,由于遗传变异之间的相关性,这种方法具有较弱的预测特性,这使得很难将相关变异与其他变异区分开来。因此,通过拟合具有数百万个变量的大型回归模型来开发多元模型。为拟合这些模型而开发的包称为 S-LDSC。该模型使用 Lasso 算法,这是一种惩罚回归框架,允许选择变量以提高预测性能。

  • 01:15:00 在本节中,演讲者讨论了 35 种生物标志物(包括心血管、肾脏和肝脏生物标志物)的多基因风险评分模型的应用。该研究创建了 70 个训练数据集、10 个验证集和 20 个测试集来评估模型性能。模型的性能在不同人群中进行了测量,结果显示将这些预测模型从一个使用因果变异进行预测的人群转移到其他人群的局限性。该研究表明,不同人群的相关结构各不相同,影响了模型的预测性能。此外,不同的遗传变异集可以解释表型的遗传性,并且从一个群体转移预测模型在其他群体中可能效果不佳,从而打破了遗传变异之间相关结构的关系。这需要在不同人群之间共享数据以提高预测准确性。

  • 01:20:00 在本节中,演讲者解释说,在研究不同人群的遗传变异时,非欧洲人群中某些变异的缺失会导致效应量的异质性。然而,当一个变体存在于多个人群中时,效果大小往往更加均匀。给出了脂蛋白 a 的例子,并解释了导致欧洲人群变异的遗传变异在非洲人群中不存在,导致非洲人群表现不佳。演讲者还表示愿意监督对与 UK Biobank 多基因评分和亲生效应相关的研究项目感兴趣的学生。
 

图神经网络 - 第 15 讲



图神经网络 - 第 15 讲 - 生命科学学习(2021 年春季)

在这个关于图神经网络的 YouTube 讲座中,演讲者涵盖了广泛的主题,包括图网络的基础知识、光谱表示、半监督分类和多关系数据建模。还有一个重点是图网络和自然语言处理的交叉点,以及如何为药物发现生成图。讲师解释了跨图传播信息以获得可用于预测任务的有用节点嵌入的各种方法。该讲座还强调了对比学习对 GNN 的重要性、结合基于补丁的表示和基于注意力的方法的潜在好处,以及在 NLP 中使用 transformer 方法。讲座的后半部分重点讨论展示 GNN 在药物发现中的实际用途以及如何使用连接树对分子结构进行编码和解码的论文。

该视频讨论了图神经网络 (GNN) 在生命科学中的多种应用,包括药物发现和潜在图推理。演讲者强调了 GNN 中的问题和潜在途径,例如缺乏空间局部性和固定顺序,所考虑的设置涉及预测给定节点的类型、预测两个节点之间的链接、测量两个节点或两个网络之间的相似性,并通过在网络中执行社区检测来聚类节点。讲师还解释了 GNN 如何有效地训练和嵌入图形、转换和聚合信息以及处理多药副作用。此外,讲座还涵盖了生命科学中自动学习表示的两种方法,其中使用了像 MARS 这样的元学习模型来泛化到新的细胞类型。最后,讲座讨论了 GNN 如何跨多个数据集学习潜在细胞表示以捕获细胞类型异质性。

  • 00:00:00 在本节中,演讲者介绍了关于图和蛋白质的第四个模块以及即将进行的关于图神经网络、蛋白质结构和药物设计的讲座。演讲者强调了通过家庭作业、复习和论文复习材料以准备即将到来的课堂测验的重要性。我们的目标不是欺骗或惊奇学生,而是帮助他们拥抱这个领域并深入了解它。演讲者还告知学生 AlphaFold 团队即将举行的关于蛋白质折叠的讲座,这是该领域的革命性进步。

  • 00:05:00 在本节中,讲师介绍了网络的概念以及它们如何普遍存在于社会的各个方面,包括生物网络。生物网络包括在细胞不同层次上运行的调节网络、信号网络和代谢网络。需要网络分析方法来了解这些相互交互的网络的属性。此外,还提到了使用节点和边来表示概率对象的概率网络。这些网络的矩阵表示允许分解它们、学习社区以及通过线性代数方法识别模块。

  • 00:10:00 在讲座的这一部分,演讲者概述了有关网络分析及其频谱表示的大量工作。讨论的方法包括使用基于拉普拉斯矩阵的第一和第二特征值的网络最大切割来识别组件的可分离性,以及使用扩散核来理解不同边之间的信息流。演讲者强调了不要忘记这一既定文献的重要性,因为它可以与深度学习方法结合使用,例如将在讲座中讨论的图神经网络。演讲者随后介绍了客座讲师 Neil Band,他将复习图神经网络并讨论半监督学习、多关系数据和自然语言处理等问题领域。

  • 00:15:00 在本节中,我们将学习如何在图上有效地传播信息以计算节点特征或许多图,并使用图卷积网络执行下游操作。该网络可以聚合特征信息并通过接收和绘制来自邻居的未来信息来更新特定节点。 GNNS 的最终目标是生成一个嵌入向量,可用于预测整个图的属性或预测每个节点的类型。更新规则基于来自节点隐藏表示的传播信息和从最近邻域接收的更新。此外,为了减少模型参数的数量,将具有共享参数的相同权重矩阵应用于所有邻居而不是应用不同的参数。

  • 00:20:00 在本节中,讲师描述了使用图神经网络在以论文为节点、以引文链接为边的引文网络上执行分类任务的过程。应用了双层图卷积网络,它涉及更新图中的每个节点以从其直接邻域吸收信息,然后获得输出。讲师提到了深度网络过度平滑的潜在缺点,并建议使用门控循环单元来保留对初始状态的记忆。此外,讲师还讨论了结合基于注意力的方法和基于块的表示来学习图神经网络中高阶表示的可能性。

  • 00:25:00 在本节中,讲师讨论了图神经网络中的不同范例,包括图卷积网络、注意力更新和消息传递技术。他们强调了当图形在消息传递中变得过于密集时出现的潜在记忆问题,但强调这些范例对不同类型的学习任务很有用。然后他们深入研究图的半监督分类,其中转换设置可以让模型快速学习,即使没有明确的节点特征。最后,讲师介绍了关系图卷积网络,它可用于对多关系数据进行建模,例如在自然语言处理中。

  • 00:30:00 在本节中,讲师讨论了图形网络与自然语言处理之间的联系,特别是 NLP 中 transformer 模型的使用。 Transformer 模型通常用于语言翻译和学习对单词的一般概念理解等任务。 Transformer 方法从一个完全连接的图开始,这与缺少许多边的生物网络不同,并在输出更新版本之前使用自注意力来更新节点嵌入。虽然 transformer 方法不一定有利于生物网络,但两个领域之间的策略和优化有可能交叉授粉。

  • 00:35:00 在本节中,我们将了解如何对两个词的句子执行词嵌入更新,以及如何查找特定词到所有其他词。图注意力网络使用相同的方法,只是它们假设整个邻域都是图,并且存在位置嵌入。演讲者解释了如何将图连接信息合并到架构中,以及如何屏蔽部分图以仅使用之前提到的词。有很多机会交叉应用这些方法。

  • 00:40:00 在本节中,讲师讨论了下游任务(例如节点分类或图分类)的学习节点嵌入的无监督学习设置。为了提高神经网络的能力,使之变得明确,讲师解释了数据增强的概念,并描述了它如何用于对比学习方法。本讲座还涵盖了设计参数,例如采样策略、不同类型的节点表示和不同类型的评分函数。一种方法是使用评分函数来最大化特定类的局部和全局表示之间的互信息。这鼓励网络从图中的不同信息子集中提取与类相关的信息,从而导致更稳健的节点嵌入和更好的下游性能。

  • 00:45:00 在本节中,演讲者讨论了图神经网络 (GNN) 中节点嵌入的维度以及 GNN 对比学习的使用。演讲者解释说,在实践中,GNN 中节点的属性可以存在于高维空间中,例如大图中单个节点的 256 或 512 维。演讲者还指出,可以使用对比学习代替分类来改进图结构的编码,其中涉及使用正例和负例对图结构进行编码。最后,演讲者总结了 GNN 设计决策的要点,强调了基于邻居的评分对链路预测和节点分类的有效性,以及在选择节点表示类型时同时考虑节点特征和图结构的重要性.

  • 00:50:00 在本节中,演讲者讨论了两种生成图的方法,第一种是使用标准图神经网络或图卷积网络作为编码器预测已知实体之间的新链接,并将嵌入函数作为解码器。任何给定边存在的概率都基于它所关联的节点,并且独立于所有其他边。第二种方法使用一个特定状态为整个图生成一个具有单个嵌入向量的图,该状态使用图 RNN 解码,在每个特定节点上添加时进行一组预测。这种方法试图引入尽可能少的关于如何生成图形的归纳偏差。后一种方法用于药物发现,特别是在关于 Junction Tree Variational Autoencoder 的论文中,用于生成具有高效力的从头分子,无论它们之前是否已被合成或表征。

  • 00:55:00 在本节中,描述了论文使用图神经网络编码和解码分子结构的方法。该方法利用细粒度分子图对状态进行编码,并利用树分解来解码图的高层结构。通过使用连接树去除图中的循环,作者能够简化解码过程并仅预测节点的标签以及是否添加子节点,从而产生有效的分子高级结构。作者使用门控循环单元来涉及迄今为止已构建的子树的所有状态,并在分子有效性方面实现了高比例的重建。贝叶斯优化用于评估用于生成新药的潜在空间的可导航性。

  • 01:00:00 在本节中,演讲者讨论了图神经网络 (GNN) 在生命科学中的两种应用。第一个应用是在药物发现领域,GNN 用于推断分子的潜在变量并预测其化学性质。该模型使用编码器-解码器框架进行训练,并使用贝叶斯优化进行优化。第二个应用是潜在图推理,其中 GNN 用于通过对随时间发生的动态集进行编码来对问题中的隐藏结构进行建模。该模型可用于预测未来结果,并可应用于因果发现。演讲者展示了玩具数据和真实世界的动作捕捉数据,以展示 GNN 在这些应用中的有效性。

  • 01:05:00 在本节中,演讲者讨论了图神经网络中的问题和潜在途径。提到了一些问题,包括消息传递和邻域聚合中同构测试的有限功率和理论关系,树结构计算图在寻找图中循环方面的挑战,以及过度平滑的问题。然而,演讲者也看到了扩展这些网络、学习大型数据集以及尝试序列和图形之间的多模态和跨模态学习的希望。在此之后,斯坦福大学的一位博士后讨论了生物网络中的深度学习,以及如何将数据表示为图形,从而需要更广泛适用的深度神经网络框架。据解释,虽然深度学习改变了我们今天对机器学习生命周期的看法,但目前尚不清楚如何将深度学习用于表示为图形的复杂数据。

  • 01:10:00 在本节中,讨论了图数据学习的复杂性,包括空间局部性和固定顺序的缺乏、参考点的不存在以及图的动态特性。图表示学习的目标是找到一种学习映射函数的方法,该映射函数以图为输入将节点映射到低维嵌入空间。高效的与任务无关的特征学习是网络机器学习这一过程的关键目标。所考虑的设置假设一个图具有邻接矩阵和与每个节点关联的节点特征,目标是预测给定节点的类型,预测两个节点之间的链接,测量两个节点或两个网络之间的相似性,以及聚类节点通过在网络中执行社区检测。提出了将深度神经网络应用于图的最朴素的方法,但强调了其局限性,包括网络中参数数量的增加取决于节点数量、训练的不稳定性和过度拟合的可能性增加。

  • 01:15:00 在本节中,演讲者解释了图神经网络如何使用从卷积神经网络借来的思想来有效地训练和嵌入图。节点的邻域定义了神经网络的结构,关键思想是根据局部网络邻域生成节点嵌入。演讲者通过展示如何聚合和转换信息来产生消息转换和聚合运算符来说明这个概念,它们是排列不变的。可以学习这些运算符来转换节点信息并预测感兴趣的属性。

  • 01:20:00 本节讲者讲解图神经网络的转换和聚合过程。基本方法是对来自节点的信息进行平均,并应用神经网络进行线性变换,然后进行非线性变换。演讲者展示了 GraphSAGE 算法的示例,其中引入了广义聚合函数来组合节点本地邻域的特征。可微聚合函数,例如均值、池化或 LSTM 单元,可用于聚合相邻单元的信息。演讲者还讨论了图神经网络在生物学中的应用,以及如何使用它们来预测某些行为或结果。

  • 01:25:00 在本节中,讲师讨论了多种药物副作用的概念,即药物组合产生的副作用。讲师解释说,目标是通过将两种药物建模为异构网络中的节点来估计两种药物组合产生副作用的可能性。讲师展示了一个示例,说明如何在网络中对药物和蛋白质进行建模以捕获药物的作用机制和潜在的生物学机制。然后,讲师解释了如何扩展图神经网络 (GNN) 以嵌入异构网络,其中邻域需要按边类型分隔,以及如何在每个边中节点的网络邻域定义的图中转换和传播信息类型。

  • 01:30:00 在本节中,讲师讨论了生命科学中自动学习表征的两种方法。第一种方法是基于关系图神经网络,可以通过学习图中每个节点的 d 维向量嵌入来预测两种药物是否会产生副作用。第二种方法是称为 MARS 的元学习模型,它利用来自先前注释数据的先验知识来概括新的、前所未见的细胞类型。通过优化未注释的实验和元数据集,MARS 可以自动将细胞注释为细胞类型,并避免根据基因表达谱来注释细胞的繁琐手动工作。

  • 01:35:00 在讲座的这一部分,演讲者讨论了使用图神经网络来学习跨多个数据集的潜在细胞表示,以捕捉细胞类型的异质性。该方法涉及在低维嵌入空间中对来自注释和未注释实验的细胞进行联合投影,其中相似的细胞类型嵌入得很近,不同的细胞类型嵌入得很远。为实现这一目标,该方法使用深度神经网络学习细胞类型标志作为细胞类型代表和非线性映射函数。该方法在包含来自 20 多个组织的 100,000 多个细胞的大规模小鼠细胞图谱数据上进行了验证,并且在 Adjusted Rand Index 方面比现有方法提高了 45% 的性能。
 

用于药物设计的 AI - 第 16 讲


用于药物设计的 AI - 第 16 讲 - 生命科学中的深度学习(2021 年春季)

本讲座讨论深度学习在药物设计中的应用。它解释了如何使用深度学习来寻找具有抗生素抗性的新型化合物。它还讨论了如何通过结合生物学知识来改进深度学习模型。

讲座的第二部分概述了深度学习如何用于药物设计,特别是用于预测药物组合的抗病毒活性。使用基于细胞的测定法在体内测试该模型,并确定了两种新型协同药物组合。

  • 00:00:00 演讲者将介绍药物设计的深度学习及其挑战。他将讨论功能空间和化学空间,并解释如何使用深度学习自动寻找药物。

  • 00:05:00 药物设计的三种方法基于第一性原理、模拟和虚拟筛选。前两个适用于寻找具有特定性质的化合物,但最后一个更有野心,它试图通过查看彼此独立的性质来找到合适的化合物。模拟往往太慢,而虚拟放映又很昂贵。 Denoble 药物设计是最雄心勃勃的方法,它试图通过查看一组标准来解决寻找化合物的逆向问题。

  • 00:10:00 在本次讲座中,演讲者讨论了药物发现、虚拟筛选和贵族药物设计的两种方法。两种方法各有优缺点,虚拟筛选比传统方法更快、更便宜但覆盖面更小,而贵族药物设计速度较慢但可以发现更多新化合物。遗传算法是探索化学空间的有效方法,但用于此任务的算法仍有改进的空间。

  • 00:15:00 在本次讲座中,教授解释了深度学习如何用于药物设计,以及它如何比传统技术更有效。他还提到了一篇名为“Dolly”的论文,该论文展示了如何使用深度学习来生成物体的逼真图像。

  • 00:20:00 在本次讲座中,教授讨论了药物发现中使用的深度学习技术,并举例说明了这些技术如何帮助研究人员找到新的抗生素。

  • 00:25:00 图神经网络是一种人工智能,用于寻找可以杀死细菌的新化合物。使用此类 AI 的目的是找到传统方法未发现的化合物,因为这些方法可能会遗漏未知的抗菌模式。

  • 00:30:00 本讲座讨论了如何使用深度学习来识别与抗生素耐药性相关的数据模式。该模型能够预测分子是否对细菌有效,精度约为 9.0 auc。

  • 00:35:00 该视频讨论了现有抗生素如何不再对某些细菌菌株有效,以及一种称为“幻觉素”的新化合物如何对这些菌株既新颖又有效。它还讨论了该化合物如何有效对抗小鼠感染。

  • 00:40:00 该视频讨论了深度学习模型在发现具有抗生素抗性的新化合物方面相对于传统方法的成功。该视频还展示了传统方法(手工设计)如何无法发现某些具有抗生素抗性的化合物。深度学习模型能够捕获空间的不同部分,并被模型排名很高。

  • 00:45:00 演讲者描述了用于药物设计的深度学习模型,并解释了如何通过结合生物学知识来改进模型。他介绍了一种药物组合的案例研究,该组合被发现比单一药物更有效。

  • 00:50:00 该视频讨论了用于药物设计的 AI,特别侧重于使用深度学习来识别协同化合物。目标是找到具有协同作用且毒性较低的药物,并将病毒复制周期的知识纳入模型。

  • 00:55:00 讲座讨论了药物设计的深度学习方法,重点是如何使用它来预测药物针对多种靶点的抗病毒活性。第一步是使用 Campbell 和美国国立卫生研究院的数据集来预测药物靶点相互作用。然后,神经网络用于学习分子结构的表示,这是药物设计过程的第二步所需要的:预测药物针对各种靶标的抗病毒活性。通过结合使用深度学习和矩阵完成,突出了改进药物设计的潜力。

  • 01:00:00 本讲座讨论如何将深度学习用于药物设计,特别是用于预测药物组合的抗病毒活性。使用基于细胞的测定法在体内测试该模型,并确定了两种新型协同药物组合。

  • 01:05:00 本讲座重点介绍生命科学中的深度学习及其对药物设计的重要性。该讲座涵盖了两种先前的药物设计方法,一种使用序列,另一种使用递归神经网络。该讲座指出,分子的微笑流表示非常脆弱,并且该技术在应用于药物发现时表现不佳。该讲座指出,表示分子的更好方法是使用图形,可以使用递归神经网络有效地生成图形。

  • 01:10:00 讲座讨论了生命科学中的深度学习,特别是与药物设计有关的深度学习。讲座指出,深度学习可用于生成分子,但它在稀疏分子和低树波浪图案方面存在问题。提出了一种循环神经网络作为解决方案,并且发现它对于具有低树波图案的分子更成功。

  • 01:15:00 本讲座讨论生命科学中的深度学习,重点介绍可以将分子编码为低维向量的深度学习自动编码器。这减少了可以生成的图案数量,以及过程的时间复杂度。

  • 01:20:00 在本次讲座中,教授解释了如何使用深度学习来提高药物设计中基序重建的准确性。多方面基序生成模型是有利的,因为它们允许捕获分子中的大循环。由于序列空间的错误表示,使用逐节点方法生成基序的成功率很低。然而,使用逐个主题的方法可以显着提高成功率。这是因为该模型能够学习修改现有分子以改善它们的药物相似性。

  • 01:25:00 演讲者简要概述了生命科学中的深度学习,强调了每个领域的挑战和机遇。最后,她讨论了化学和药物设计。

  • 01:30:00 在本次讲座中,客座讲师为有兴趣从事药物设计人工智能领域项目的学生提供建议。他们表示,如果需要,学生可以接受他们的指导。
 

蛋白质折叠的深度学习 - 第 17 讲



蛋白质折叠的深度学习 - 第 17 讲 - 麻省理工学院生命科学深度学习(2021 年春季)

该视频讨论了深度学习在蛋白质折叠领域的应用,特别是如何使用几何深度学习来研究蛋白质结构和预测诸如配体结合位点和蛋白质-蛋白质相互作用等事物。该视频还涵盖了基于模板与无模板的建模方法、蛋白质折叠中接触预测的各种方法,以及在蛋白质结构预测中使用残差神经网络进行图像建模。总的来说,演讲者强调了深度学习在促进我们对蛋白质结构及其功能的理解方面的前景,并提供了详细的示例和结果来支持这一说法。

该视频讨论了蛋白质折叠深度学习的各种方法,包括使用协同进化预测和模板进行精确建模、寻找更好的同系物的重要性,以及深度学习在不依赖传统物理基础的情况下实现可比结果的潜力方法。演讲者还深入探讨了可微分输出的使用和全局准确性的重要性,以及算法空间的演变和深度学习根据遗传变异或小分子等因素预测蛋白质确认的潜力。总的来说,该视频突出了深度学习在彻底改变蛋白质结构预测及其众多应用方面的令人兴奋的潜力。

  • 00:00:00 在视频的这一部分,Bruno Correa 介绍了几何深度学习的概念及其如何应用于蛋白质结构研究。他解释了深度学习如何在图像分类方面取得成功,但生物学中的数据集通常更加丰富和高维,具有不同的时间和其他维度,这使得几何深度学习成为一种有价值的方法。 Correa 讨论了蛋白质结构在其功能(从机械和化学功能到结合和识别)中的重要性,并举例说明了抗体、离子泵以及通信和刚性蛋白质。他还谈到了 AlphaFold 是否解决了研究蛋白质表面的问题,并解释说 AlphaFold 已经解决了蛋白质结构问题,但并没有专门研究蛋白质表面问题。

  • 00:05:00 在本节中,演讲者讨论了从其结构预测蛋白质功能的挑战,这对于理解蛋白质如何相互作用以及细胞中其他代谢物如何相互作用非常重要。演讲者介绍了表示蛋白质结构的各种方法,重点是尽管具有不同的序列和结构但可能具有相似功能的表面表示。通过类比研究人的脸,演讲者认为研究蛋白质表面的模式可以揭示有关其功能的重要信息。然后,演讲者介绍了一种使用 3D 分子表面表征来预测蛋白质配体结合位点的深度学习方法。

  • 00:10:00 在视频的这一部分,演讲者讨论了使用几何深度学习解决蛋白质折叠问题。他们解释说,几何深度学习的原型对象是图形或曲面,他们的团队使用蛋白质的网格表示来研究它们。然后他们解释了“补丁”的使用,“补丁”是网格的子集,每个节点都有几个矢量特征,以及如何为它们分配局部权重。演讲者描述了编码到每个节点中的不同类型的特征,包括形状指数、距离相关曲率、疏水性和静电特征。然后将此信息重新用于载体以供进一步分析。

  • 00:15:00 在本节中,演讲者讨论了几何深度学习方法如何对分子的表面进行编码而不考虑其序列,从而研究原子模式和化学性质。演讲者指出了这种方法的潜在应用,例如根据特定配体的特征对蛋白质袋进行分类,以及使用表面指纹预测两种蛋白质的对接配置。进行消融研究以了解哪些因素对预测特异性贡献更大,发现化学和几何学都很重要。总的来说,该方法有望促进对蛋白质结构及其功能的理解。

  • 00:20:00 在本节中,演讲者描述了一个名为 massive site 的网络,该网络可以预测给定蛋白质表面的哪些位点更有可能与其他蛋白质相互作用。他们还讨论了用于对接的指纹扫描技术,以及与其他对接程序相比这种方法的成功率。演讲者介绍了称为 D massive 的下一代 massive,它使用完全可微分的网络来创建描述蛋白质表面的点云以及几何和化学特征(包括静电特性)的计算。最后,演讲者简要提到了该项目令人兴奋的设计方面,并讨论了在癌症治疗中控制 T 细胞活性的重要目标。

  • 00:25:00 在本节中,演讲者讨论了他们如何使用深度学习来设计靶向蛋白质的分子。他们使用 massive 来预测更容易被设计分子靶向的位点,并提取目标表面指纹。然后他们将基序停靠到该站点并预测与感兴趣的蛋白质的相互作用。结果是一个以前在自然界中未知的新基序,并成功匹配了均方根偏差约为 1 埃的实验结构,表明与蛋白质结合的高亲和力结合剂。演讲者可能会为有兴趣探索这一研究领域的学生提供建议。

  • 00:30:00 在本节讲座中,演讲者讨论了蛋白质结构预测方法的两大类:基于模板的建模和无模板建模。虽然基于模板的建模依赖于使用 PDB 数据库中现有的蛋白质结构作为模板来预测新结构,但无模板建模是一种更新的方法,涉及同源搜索和机器学习来预测结构而不依赖模板。演讲者重点介绍了后一种方法,并描述了一种更新的方法,该方法使用序列同源性搜索、信号分析和机器学习来预测蛋白质结构而不依赖于模板,这种方法对许多蛋白质显示出比基于模板的方法更好的准确性。演讲者还讨论了片段组装方法,这是过去使用的一种流行的基于模板的建模方法。

  • 00:35:00 在讲座的这一部分,演讲者讨论了用于蛋白质折叠中无模板建模的管道。有关蛋白质中任意两个原子或残基之间距离的预测信息被输入优化引擎以构建结构。演讲者还讨论了多序列比对的不同策略,包括使用覆盖率或所需碳残留量的截止值。该建模的关键组成部分是预测归纳矩阵,使用内容度量或距离度量对感叹词度量进行建模。演讲者提出了一些关于接触位置预测的有效想法,这些想法使近年来的预测变得更加容易,合作也更加有效。

  • 00:40:00 在本节中,演讲者讨论了三种不同的蛋白质折叠接触预测方法。第一种方法是用于联合分析的全局统计方法,但它需要大量的序列同源物才能有效。第二种方法是使用深度卷积残差神经网络预测接触距离,第三种方法是考虑蛋白质数据库中的序列和结构信息的接触预测转换网络。演讲者还解释了以前用于接触预测的监督学习方法所面临的挑战,以及如何通过使用更先进的机器学习模型来改进这些方法。

  • 00:45:00 在本节中,演讲者讨论了以前的蛋白质折叠接触预测方法的局限性,这些方法一次只考虑两个残基,因此忽略了整个蛋白质内更大的关系。为了解决这些问题,演讲者提出了一种使用深度学习同时预测蛋白质中所有接触的新方法。该方法基于将每个原子对视为图像中的一个像素,可用于将问题表述为图像分割任务。通过使用全卷积残差神经网络,演讲者表明他们的方法可以显着提高接触预测精度,并能够折叠更大更硬的蛋白质。此外,该方法对单链蛋白和膜蛋白都适用,可以在不改变模型的情况下用于复杂的接触预测。

  • 00:50:00 在本节中,演讲者讨论了使用残差神经网络通过使用卷积神经网络的图像建模来预测蛋白质结构。他们解释说,使用残差连接可以使用更深的网络,从而在不过度拟合的情况下获得更高的精度。演讲者展示了他们的方法与其他方法相比在排名和准确性方面的一些表现结果,证明了深度学习方法的成功。过去八年精度提高了,现在精度可以达到百分之八十。

  • 00:55:00 在本节中,演讲者讨论了使用深度学习模型进行蛋白质折叠的接触位置和设计位置的进展。接触精度有了显着提高,目前精度达到了 80%,比之前的考试有用多了。演讲者解释了将数字网络用于设计位置的过程,以及它如何显着改进基于临时的建模。演讲者还讨论了 code russian 信息的重要性,并表明即使对于某些发酵蛋白质,不使用它仍然可以实现良好的预测。结果表明,深度学习可以生成新的结构,并且需要少量的序列激素才能进行准确的预测。

  • 01:00:00 在本节中,演讲者讨论了使用序列和结构信息来改进蛋白质建模。他们探索了使用现有预测作为训练集反馈的想法,以增强协同进化预测并产生更好的基于序列的预测器。他们还讨论了使用模板信息以及为准确建模找到好的模板的重要性。此外,他们质疑物理学在蛋白质建模中的作用,并表示,虽然基于物理的方法可以帮助改进模型,但深度学习也可以在不使用物理学的情况下获得类似的结果。

  • 01:05:00 在本节中,视频讨论了如何在不使用模板的情况下对非常大的蛋白质进行建模。示例蛋白质有超过 13,000 个残基,因此很难通过传统方法准确建模。然而,通过结合不同的集成方法并利用 iPhone2 的工作流程,可以对蛋白质进行高精度建模。该视频还指出,使用变压器需要大量的 GPU 功率和内存,这让大多数人难以使用。然而,机器学习模型在较小的训练数据集下仍然可行。此外,寻找更好的同系物作为模型的基础是一个潜在的瓶颈,可以通过进一步的研究加以改进。最后,显示了 3D 建模挑战性目标的进度图表,分数越高表示预测模型的质量越好。

  • 01:10:00 在本节中,Muhammad Al-Qaraghuli 谈到了过去二十年蛋白质结构预测算法空间的演变。他讨论了早期的方法如何专注于使用基于物理学的模型和能量函数来获得蛋白质的最低能量状态,而最近的方法则利用协同进化来使用各种概率推理技术提取信息。 Al-Qaraghuli 指出,如果没有额外的序列信息,这些方法的准确性仍然有限,并讨论了深度学习如何成为蛋白质结构预测的游戏规则改变者,特别是对于膜和跨膜蛋白。

  • 01:15:00 在本节中,演讲者讨论了蛋白质折叠深度学习方法的演变,从 2010 年代初期使用无监督方法开始,以及通过 Jim Wazoo 的工作等独特的基于网络的方法引入深度学习2016 年与 RaptorX 以及 capital X 18 对残差网络架构的使用。演讲者描述了 2018 年第一套端到端可微分方法的开发,这些方法不一定与现有方法竞争,但能够生成预测要快得多。最新开发的 AlphaFold 2 将多序列比对 (MSA) 对象视为规律对象,以潜在地捕获序列和系统发育的高阶相关性和全局方面。最后,演讲者描述了蛋白质折叠的圣杯——从单个蛋白质序列中与 AlphaFold 2 一样工作的能力——这是他们最新工作的目标。

  • 01:20:00 在本节中,演讲者讨论了蛋白质在体外折叠的能力以及细胞内分子伴侣在多大程度上指导这一过程。他们还探索了蛋白质一级序列中存在的信息量,以及这些信息是否足以预测蛋白质改变突变的影响。他们讨论了 A2 蛋白预测,这表明仍然可以根据单个序列进行预测,而无需所有物理方面都存在。最后介绍了空间的算法,涉及到输入,一个神经网络躯干,输出,通常是一个与结构相关的代理对象,然后通过后处理管道发送,生成最终的三维结构。

  • 01:25:00 在本节中,演讲者讨论了可微性对于深度学习模型生成的输出的重要性。如果输出与实际目标相距甚远,那么就会失去潜在的优化。演讲者还讨论了可能导致自相矛盾预测的后处理的使用,以及他们如何实施深度学习模型来预测最终频率结构而不需要代理量。在他们的方法中,他们使用离散的扭转角字母表将局部几何参数化,并预测该字母表上的概率分布。通过这样做,他们可以保持引擎的可微性,从而可以有效优化最终结构。

  • 01:30:00 在本节中,演讲者解释了他们使用每个残基的自由扭转角和迭代过程构建蛋白质结构的方法。损失函数是根据全局精度定义的,而不仅仅是局部精度,以解释残基之间在形成原始结构时的相互作用。演讲者承认,虽然他们的方法是有限的,但他们相信在神经网络内部发生了结构的隐式同质化,随着时间的推移会导致更好的预测。演讲者还讨论了他们如何使用特定于位置的评分矩阵 (PSSM) 和循环架构对输出进行参数化。最后,演讲者介绍了他们使用这种方法做出的一些预测,并指出虽然结构的某些方面得到了很好的预测,但其他方面却没有。

  • 01:35:00 在本节中,演讲者讨论了他们如何使用 frenesia 构造改进了扭转参数化的想法,这简化了数学并简化了公式化过程。他们现在只关注 C alpha 并使用旋转矩阵进行参数化,这解决了病态二级结构的问题。关键的变化是他们回到了单一序列的想法,他们通过语言模型提供了单一序列。他们使用转换器将每个残基嵌入到潜在空间中,并将其用作输入进行预测,同时增加了调整片段和拼接两种不同蛋白质以提高训练性能的挑战。演讲者展示了 RGN1 和 RGN2 在预测目标投射序列方面的比较结果,RGN2 由于后处理优化步骤而取得了明显更好的结果。请务必注意,这是基于通过语言模型的单个序列输入。

  • 01:40:00 在视频的这一部分,演讲者讨论了他们预测蛋白质结构的方法的准确性。他们展示了与 alpha 2 对齐的示例,虽然准确度不如现有技术那么好,但他们使用更少的信息来进行预测。他们还展示了单例蛋白质的例子,这些蛋白质基本上处于序列空间的模糊地带并且没有序列同源物,与最先进的公开可用系统相比,他们的方法在这些方面产生了显着差异。此外,演讲者系统地讨论了从头蛋白质和设计的蛋白质,它们在这些蛋白质上做得很好,这是有道理的,因为这些类型的基于序列的方法在蛋白质设计中很有用。最后,演讲者解释说,他们方法中的显着加速可能对各种应用程序都有用。

  • 01:45:00 在本节中,演讲者讨论了使用深度学习根据不同因素(例如遗传变异或小分子)预测不同蛋白质确认的潜力。虽然在理论上使用单一信号空间方法可能效果更好,但在实际比较不同版本(例如 alpha 2 何时发布)之前,我们无法知道。还提到了细化问题,例如使用 MSA 预测一般故障,然后使用另一个阶段将其细化为实际结构。快速进化的病毒被认为是深度学习可能有用的另一个领域。最后,演讲者表达了他们对未来潜在合作机会的兴奋以及能够与来自世界不同地区的人们联系的特权。
 

病理学机器学习 - 第 19 讲



病理学机器学习 - 第 19 讲 - 麻省理工学院生命科学深度学习(2021 年春季)

该讲座涵盖了深度学习在计算病理学中应用的各个方面,包括该技术的挑战和局限性。演讲者讨论了在盲目信任算法时需要谨慎,并强调了理解网络正在学习什么的重要性。本讲座探讨了深度学习如何用于癌症诊断、预后和治疗反应评估以开发精准医学的预后和预测工具的几个例子。演讲者还讨论了开发结核病多药治疗的挑战,并提出了各种实验室项目来解决这个问题。总的来说,讲座强调了深度学习在病理学中的潜力,同时也承认其局限性和多学科方法的必要性,以确保其在临床环境中的有效部署。

在这段名为“病理学机器学习 - 第 19 讲 - 麻省理工学院生命科学深度学习(2021 年春季)”的 YouTube 视频中,演讲者讨论了他们的团队尝试使用典型的病理学机器学习来解决批次间和细胞间异质性问题变异归一化 (TVN) 和 k 最近邻方法。他们还描述了使用形态学分析根据药物对细菌的影响对药物进行分类,并开发了一种数据驱动的方法来使用监督和非监督学习来设计药物组合并确定其优先级。此外,演讲者感谢她的实验室成员对药物协同作用与拮抗作用研究的贡献,强调了考虑更大背景以理解和推进该领域研究的重要性。

  • 00:00:00 在本节中,Anand Madabhushi 讨论了深度学习在计算病理学领域的影响,特别是在医学图像分析方面。尽管由于可用数据量巨大,病理学的数字化使其成为深度学习应用的温床,但 Madabhushi 警告说,深度学习方法可能无法超越涉及通过数十年专业知识手工制作特征的专业方法.他还提供了一些关于癌症诊断和死亡率的统计数据,以强调通过使用成像技术在早期阶段准确诊断癌症的重要性。 Madabhushi 希望分享他的经验教训和关于深度学习在该领域的哪些地方以及如何最有用的想法。

  • 00:05:00 在本节中,演讲者讨论了癌症的过度诊断和过度治疗问题,尤其是前列腺癌等惰性癌症。尽管生物标志物和治疗方法取得了进步,但过度诊断和过度治疗仍然存在问题,并导致患者的经济损失。然后,演讲者探讨了机器学习在癌症诊断、预后和治疗反应评估方面的潜力,以帮助开发精准医学的预后和预测工具。虽然已经有基于基因表达的检测等工具,但它们有局限性,不能解释肿瘤内的异质性。机器学习提供了一个机会来改进这些限制并更好地管理和治疗癌症。

  • 00:10:00 在本节中,讲师讨论了使用数字化病理学幻灯片和高级机器学习图像分析来识别人类病理学家无法通过视觉识别的特征和模式。通过识别单个细胞、淋巴细胞和癌细胞,数据科学家可以使用网络理论检查单个细胞的空间结构,并从单个细胞的空间排列分析不同的定量指标,以更好地了解患者的诊断、预后和治疗反应.此过程允许采用非侵入性和基于云的方法进行病理分析。

  • 00:15:00 在本节中,演讲者讨论了深度学习在计算病理学领域的影响,其中病理学幻灯片中的数据量已经取代了任何其他医学成像领域。六年前发布了一个神经网络,它使用单个细胞的注释到堆叠稀疏自动编码器,它根据细胞的注释进行学习,允许神经网络获取更小的细节,例如梯度和粗糙的椭圆形状细胞。该网络在有细胞和没有细胞的斑块上进行训练,这些细胞由学生手工标记,将图像分解成一系列边界框。尽管遗漏了一些细胞,但网络能够识别出不同细胞类型的细微差别。

  • 00:20:00 在本节中,演讲者讨论了病理学深度学习的局限性,特别是在染色和注释方面。染色会对分割的保真度产生重大影响,并且由于小细胞和大细胞之间的差异,网络没有以最稳健的方式进行训练。演讲者还讨论了他们在训练基于无监督特征生成的 CNN 算法以区分正常心脏和有心力衰竭风险的心脏方面的工作。 CNN 算法优于病理学家,实现了 0.97 的 AUC,而病理学家的 AUC 仅为 0.74。

  • 00:25:00 在本节中,演讲者讨论了他们在对来自同一机构和扫描仪的两组患者运行相同算法时的惊人发现。尽管图像的病理学没有差异,但由于对图像特征进行了细微的软件升级,第二组的 AUC 急剧下降。这强调了在盲目信任算法时需要谨慎,即使在看似受控的环境中也是如此。 f 中的面板还表明,虽然使用 CNN 的无监督特征生成主要学习对预分析变异源敏感的卷积,但它也强调了某些类型的细胞及其空间排列的重要性。这导致了随后的方法,该方法生成的 AUC 与最初的高分相当,但对跨站点和画布的变化具有更大的弹性。

  • 00:30:00 在本节中,演讲者讨论了了解网络正在学习的内容以及在医疗诊断中对信任强力算法持谨慎态度的重要性。他分享了一个网络示例,该网络学会仅根据背景中是否存在雪来区分哈士奇和狼,这强调了在解释网络结果时需要谨慎。尽管有这些限制,演讲者指出了深度学习在病理学检测和分割任务中的实用性,并分享了一个名为 Quick Annotator 的交互式工具,它使用户能够分割出一些有代表性的例子,在后台训练网络,并进行微调交互式学习模式中的结果。

  • 00:35:00 在本节中,演讲者讨论了病理图像注释过程中的挑战,尤其是病理学家没有足够的时间。为了解决这个问题,演讲者解释了手工制作的特征如何帮助提高注释过程的效率。他们举例说明了使用深度学习来识别不同的组织隔室和细胞类型,然后调用图形网络来查看空间统计数据以及组织隔室内不同细胞类型的相互作用。演讲者还描述了如何使用深度学习来分割胶原纤维并为它们的方向分配一个向量,然后用它来确定熵和对乳腺癌患者的预后价值。最后,演讲者介绍了一项关于前列腺癌的新研究,该研究使用深度学习对腺体进行分割,然后观察腺体的空间排列和结构,以预测哪些患者在手术后会复发。

  • 00:40:00 在本节中,演讲者讨论了用于预测前列腺癌结果的商业分子检测与使用深度学习算法的基于图像的方法之间的直接比较。结果表明,基于图像的方法与两个简单的临床因素相结合,其性能几乎是昂贵的分子检测的两倍。此外,使用深度学习算法的基于图像的方法产生了可解释和验证的特征,与分子分析相比,可以以低得多的成本对其进行分析。演讲者还强调了深度学习临床应用中可解释性的必要性,并强调了手工特征工程与深度学习方法相结合的重要性。

  • 00:45:00 在本节中,重点是病理学机器学习的可解释性挑战,特别是在设计结核病 (TB) 多药疗法的背景下。缺乏可解释性对临床医生构成了重大挑战,他们需要了解模型背后的表示以信任他们的决定。演讲者强调需要不断质疑网络,不要认为任何事情都是理所当然的。他们还讨论了首先从最简单的方法开始并决定何时使用深度学习的重要性。该实验室在结核病方面的工作突出了治疗该疾病的难度、对多种药物疗法的需求以及所涉及的显着异质性。

  • 00:50:00 在本节中,演讲者讨论了开发结核病多药治疗的挑战,因为肺部细菌的微环境多种多样,需要不同的药物来确保易感性。演讲者指出,虽然目前有许多药物可用于治疗结核病,但尚未开发的组合空间巨大,因此很难测试每一种可能的组合。演讲者提出了两个实验室项目来解决这个问题:首先,通过成像缩小单一药物空间以识别新药的作用途径,其次,使用机器学习进行系统的组合测量并开发分类器以预测最有效的新颖的组合。该实验室使用延时成像来捕捉细菌细胞形态的变化,以评估不同的治疗结果。

  • 00:55:00 在本节中,演讲者描述了一个项目,该项目使用无监督学习和聚类来关联大肠杆菌中的相似药物概况。他们假设,当概况看起来相同时,这些药物具有相似的作用机制。他们将这一想法应用于结核病,但细胞并没有像预期的那样接受染色,而且形态学特征看起来彼此之间并没有太大区别。然而,他们仍然发现在一些治疗组中与未处理的细胞存在统计学上的显着差异。建立了典型的细胞学分析流程,他们希望进行分类试验以找出哪些治疗组彼此最相似。他们发现病原体对药物有反应,但反应机制各不相同,而且细胞壁极厚,使药物难以进入。

  • 01:00:00 在讲座的这一部分,演讲者讨论了他们的团队在病理学机器学习实验中解决批次间和细胞间异质性的尝试。他们尝试使用神经网络,但由于数据可变而无法正常工作。然后,他们使用了一种称为典型变异归一化 (TVN) 的方法,该方法由他们在谷歌的合作者 Mike Ando 开发,用于对齐每个实验中未处理对照的主成分分析 (PCA) 生成的协方差矩阵,以减少非生物变异。他们还结合了细胞间异质性指标,并从使用 PCA 转向 k 最近邻方法来捕捉细微的形态变化。他们使用随机方法来避免脆弱性,并为每个分类试验选择了一组新的未经处理的对照。

  • 01:05:00 在本节中,演讲者描述了使用形态学分析根据药物对细菌的影响对药物进行分类的过程。该过程包括用低剂量和高剂量的药物处理细菌、固定和染色细菌、提取特征、标准化数据以及执行随机模拟。由此产生的共识分类准确率约为 75%,并使用网络图可视化药物之间的联系。然而,发言人指出,一种名为贝达喹啉的药物被错误地归类为细胞壁作用剂,这导致了一种假设,即它会在细菌中引发能量危机。通过在脂肪酸上培养细菌证实了这一假设,这导致了不同的分类。

  • 01:10:00 在讲座的这一部分,演讲者讨论了药物 Bedaquiline 对结核病的作用机制,以及它如何取决于细菌的代谢状态。演讲者还描述了使用形态学分析来确定近端损伤和抗菌药物对结核病的二次影响。他们解释说,这种方法提供了一种有针对性的方法,可以帮助将研究人员引向他们应该关注的二次研究路径空间。演讲者还谈到了使用棋盘分析法测量药物组合,这在传统上对于结核病治疗中的高阶组合是低效的。

  • 01:15:00 在本节中,演讲者讨论了与测量结核病中的高阶药物组合相关的挑战,并提出了一种称为 Diamond(n 向药物相互作用的对角线测量)的解决方案。 Diamond 是棋盘分析的几何优化,它保留剂量反应曲线的单位并测量棋盘中信息最丰富的部分。通过投影一条线,演讲者解释了如何使用分数抑制浓度来量化药物相互作用的程度。 Diamond 已被用于有效地测量多达 10 种药物组合。演讲者讨论了一个大型数据集,该数据集用于解决使用结核病体外研究设计多药组合的两个主要问题。该研究在八种不同的生长环境中测量了体外药物的所有单一、成对和三元组合,以通过计算将它们合并在一起,模拟不同动物模型中发生的情况。演讲者得出结论,药物相互作用概况高度依赖于生长环境,并且没有一种组合可以在所有条件下协同作用。

  • 01:20:00 在本节中,演讲者讨论了他们使用机器学习设计药物组合并确定其优先级的数据驱动方法。他们利用监督和非监督学习将数据组装到数据立方体中,并发现了一个强烈的信号,可以根据它们是否优于护理标准来描述组合。他们还找到了一种方法来限制他们在使用不同的监督学习方法(例如随机森林模型)时进行测量的生长条件的数量。发言人强调,更简单的方法对他们来说效果更好,可以为如何使用经过验证的体外模型系统、高效地探索组合空间提供最佳途径。总的来说,他们的方法可以帮助减少体外实验的数量并产生最佳的药物组合。

  • 01:25:00 在这一部分中,演讲者感谢她实验室中从事各种困难和混乱项目的人员,其中包括药物协同作用与拮抗作用研究。这些研究最终有助于为生命科学中的机器学习和深度学习提供更大的背景,强调它们只是更大方程式中的一小部分。强调考虑这一更大背景的重要性,因为它并不总是正确的方法,但对于理解和推进该领域的研究是必要的。总的来说,演讲者的演讲很有启发性,为机器学习和病理学的交叉提供了宝贵的见解。