00:05:00 在本节中,讲师讨论了如何将深度学习用于基因表达预测。基本输入矩阵涉及对每个细胞进行分析,以在多个维度上进行比较,例如给定基因在不同条件、组织、细胞类型、实验、年龄和性别之间的表达载体的相似性。聚类分析可用于查找彼此相似的条件或跨列或跨行彼此相似的基因。 guilty by association 方法也可以用于完成基于表达相似性的未注释基因的注释。此外,讲师建议使用深度学习方法,如自监督学习、使用非线性和高阶特征进行预测以及多任务学习来联合预测不同的兴趣类别,最后,讲师强调深度学习是不是唯一的方法,并且存在一组可用于提出生物学问题和学习这些系统的表示的工具。
00:35:00 在本节中,演讲者讨论了一种方法的开发,该方法结合了多模态数据集以允许对基础生物学进行检查。他们重点介绍了机器学习领域最近提出的将视觉信号与自然语言处理相结合以更好地理解系统的提议。然后,演讲者继续列出他们的实验室主要使用深度学习方法开发的一些工具,包括用于量化 DNA 序列功能的 danq 和用于预测基因表达的 djgx。演讲者还简要讨论了另外两个预测转录因子结合的工具,factory mat 和 sc fin,sc fin 是用于单细胞预测的 factory mat 的扩展。
00:55:00 在本节中,教授基于通用框架讨论了学习数据的问题,并介绍了近似推理方法的思想,特别是流行的变分推理,它提出了对给定 z 分布的辅助分布X。然后通过数据之间的平衡和分布之间的 ko 距离来最小化与辅助分布相关的对数似然的下界,从而确保后验分布足够接近先验分布,同时具有足够的能力对可观察数据集进行建模.这导致了变分自动编码器的发展,它可以通过神经网络对给定 z 的 p(theta)x 和辅助分布进行建模,方法是训练它们以最小化负对数似然的变化。然而,计算这些期望值存在一些问题,可以使用重新参数化技巧解决这些问题,尤其是在应用高斯积时。
01:15:00 在视频的这一部分,演讲者讨论了 splice AI 在罕见病患者中的应用,特别是因单核苷酸突变导致外显子延伸和蛋白质移码的早发性心力衰竭患者。该模型还在 GTEx 的 RNA-seq 上进行了验证,验证率取决于拼接 AI 分数。演讲者强调了解释低分剪接变体的复杂性,因为它们可能会保留正常的剪接,并且需要解决对人类变异的分级解释。还研究了自然选择对具有隐性剪接功能的变体的影响,发现自然选择表明,spicy i 预测的隐性剪接突变本质上等同于移码或无义蛋白编码突变。最后,将该模型应用于自闭症谱系障碍和智力障碍患者的大型临床数据集。
在这个关于单细胞基因组学的讲座中,演讲者讨论了用于分析单个细胞的各种方法和技术,包括细胞分选和微流体。重点是三种特定的单细胞测序技术——Smart-seq、drop-seq 和 pooled 方法。演讲者还介绍了分析单细胞转录组的过程,包括预处理、可视化、聚类和注释,以及自动编码器架构在社区聚类中的使用。深度学习方法用于域适应和以受刺激的方式重建细胞类型。该讲座还讨论了分析单细胞基因组学数据所涉及的挑战,并建议使用生成模型以可扩展且一致的方式解决这些问题。
00:20:00 在本节中,讲师讨论了单细胞测序技术,包括孔中的细胞、液滴和组合索引。可以使用各种类型的测定,例如单细胞 DNA 甲基化分析、单细胞基因组测序和单细胞 DNA 可及性。另一种广泛使用的检测是单细胞 ATAC-seq,它着眼于单个细胞中染色质的可及性。然而,来自单个细胞的数据可能是稀疏的,并且跨多个位置聚合数据对于讨论转录因子是必要的。讲师还提到越来越多的单细胞多组学方法出现,但提醒注意处理噪声和伪影的计算挑战。本节最后介绍了分别来自欧洲和西海岸的两位客座讲座,他们将讨论单细胞基因组学中的深度表征学习。
有关生命科学深度学习的视频讲座探讨了单细胞数据分析中用于聚类和分类的降维技术。这些讲座区分监督学习和非监督学习,并探索使用统计假设检验框架来评估基因的差异表达。本讲座介绍了使用主成分分析、特征分解和奇异值分解进行线性降维的流形学习的概念,并讨论了用于聚类数据保存的 t 分布随机邻域嵌入和分布式随机邻域嵌入的方法。演讲者还讨论了非负矩阵分解在基因组数据中的应用以及单细胞和多组学数据集的整合。这些技术的最终目标是以公正和定量的方式重新定义细胞类型和身份。
01:05:00 在本节中,讲师讨论了在深度学习中使用小批量方法的好处,尤其是对于大型数据集。这种方法允许迭代更新权重,避免将整个数据集存储在内存中,从而加快收敛速度。讲师概述了 mini batch 特别有用的三个场景,其关键优势是能够在新数据集到达时合并它们,而无需重新分析任何以前的数据集。讲师还讨论了这种方法背后的计算机科学,利用在线字典学习论文中的现有理论来优化代理函数,该代理函数在参数方面渐近收敛到相同的解决方案。最终,这种方法在实践中效果很好,并且由于更大数据集中每个额外单元格的冗余,收敛得更快。
01:10:00 在本节中,演讲者讨论了在分析大型数据集的降维方法中使用在线算法的优势。演讲者展示了他们的方法与其他广泛使用的方法的基准,表明它的内存使用率显着降低并且更省时。他们使用 Brain Initiative Cell Census Network 生成的数据展示了该方法的迭代优化能力,他们在该网络中使用在线算法将新数据集合并到因式分解中。他们还展示了如何将 inmf 算法扩展到特征部分重叠的情况,从而允许跨数据集利用共享和非共享特征,这是一种比以前使用的强制特征对齐的方法更令人满意的方法。
该讲座讨论了研究基因组变异对人类健康影响的挑战,以及了解突变如何影响不同细胞类型的重要性。演讲者概述了他们预测基因组序列和变异影响的深度学习方法,特别是在预测转录因子结合和染色质组织方面。他们还描述了他们对这些预测的评估,使用深度测序的基因组数据集来预测 DNA 敏感性和组蛋白标记 QTL,以及他们使用深度学习来预测突变对基因表达和自闭症等人类疾病的影响。最后,他们讨论了对先前已知基因集的公正分析以及深度学习序列模型库的使用。
00:25:00 在本节中,演讲者介绍了全基因组关联研究,该研究收集了数千人(大约 50% 的病例和 50% 的对照)来研究精神分裂症、肥胖症或糖尿病等疾病。这些研究通常会过度代表案例以获得影响力,并且由于与测序相比成本低廉,因此使用了基因分型技术。演讲者强调了样本和 SNP 质量控制的重要性,以确保结果的准确性。此外,演讲者还解释了人口证明的概念以及消除研究中个体之间相关性的必要性。
00:30:00 在本节中,演讲者解释了如何使用卡方统计量和 p 值分布来检测全基因组关联研究 (GWAS) 中的实际疾病信号。使用显示有多少病例和对照携带每个 SNP 的等位基因的列联表,演讲者寻找病例和对照之间等位基因频率的偏差。卡方统计测量偏差的大小,p 值用于拒绝等位基因对表型没有影响的假设。然后,演讲者解释了如何在曼哈顿图中绘制 p 值,以可视化与疾病表型显着相关的基因组区域。
00:35:00 在本节中,演讲者讨论了曼哈顿图的使用,它显示了 SNP 与疾病随机相关概率的负 log 10 p 值,以及 QQ 图,它比较了数以百万计的 SNP 已经过测试。接下来是功能分析,以其他方式检查 SNP 的作用。全基因组显着性水平设定为 5 乘以 10 的负 8 次方,这是根据 20 年前的粗略计算确定的。然而,由于人群中的遗传变异有限,没有足够的时间让所有 SNP 独立分离,精细定位可能具有挑战性。
01:10:00 在本节中,演讲者描述了他们如何评估对影响染色质水平 DNA 敏感性的变异的预测准确性。他们分析了深度测序的基因组数据集,并寻找杂合变体,其中一个等位基因明显多于另一个,表明潜在的 DNA 敏感性差异。他们训练了一个模型来预测参考和替代等位基因的 DNA 敏感性,并将预测与实验结果进行比较。他们发现该模型在预测变异方面具有更高的准确性,参考和替代等位基因之间的差异更大,并且更有信心预测变异。该评估对误报具有鲁棒性,使他们能够过滤出真阳性。他们还将这种方法应用于组蛋白标记 QTL,发现他们可以预测与更高组蛋白标记相关的等位基因。
00:00:00 在本节中,与英国大学客座讲师 Yong Jin Park 教授的讲座重点是将上一节的讨论扩展到理解表观基因组富集、eQTL 等全局变量,以及中介和因果关系的研究哥伦比亚。本讲座计划简要回顾精细定位和基因座机制解剖,然后使用表观基因组学进行全局富集分析的不同方法,以推断作用调节剂的组织、细胞类型和靶基因。此外,该讲座将着眼于线性混合模型和多基因风险评分,用于全基因组关联研究以预测表型和遗传力,以过渡到周四讲座的其余主题。最终目标是同时了解数千个基因位点的曼哈顿图中每个峰背后的功能驱动因素和机制基础。
00:35:00 在本节中,视频讨论了如何将推算甲基化用于更大的队列,以发现基因型驱动的甲基化与阿尔茨海默病等表型之间的相关性。估算的甲基化是甲基化的遗传成分,通过估算它,研究人员可以使用更少的个体并寻找基因型驱动的甲基化,增加功率并专门研究遗传成分。该视频还展示了一些示例,说明在某些情况下,当同时使用多个 SNP 时,许多在基因组学上不显着的 SNP 如何变得重要,这使研究人员可以结合它们的作用来预测甲基化。
00:45:00 在讲座的这一部分,重点是结合基因型和表达个人成分,以确定包含额外协方差和基因型的模型是否比仅基线模型能够更好地解释表达的表型变量。这是表达数量性状基因座 (eQTL) 研究的基础,可以通过等位基因分析进行补充。等位基因分析涉及将杂合子个体的读数分成包含一个带有 A 的等位基因的那些和包含来自同一个人的同一细胞的另一个带有 C 的等位基因的那些。通过将 A 基因型与该等位基因的等位基因特异性表达相关联,该等位基因的表达似乎比 C 等位基因的表达更高,人们可以查看特定区域的等位基因特异性效应,该区域正在接受特定 SNP 的测试。本讲座还涵盖了响应 QTL 及其在确定响应特定环境条件的 QTL 中的作用。
00:55:00 在本节中,演讲者讨论了因果推理方法在研究遗传分析中的应用。因果推理涉及实验干预,以确定改变变量 x 对结果变量 y 的影响。目标是确保条件概率几乎等于干预概率。演讲者还解释了可达性、调节、调整和 d 分离的概念。通过使用因果图形语言,研究人员可以提出因果问题并确定因果与反因果途径。后门路径的存在会影响条件概率的解释,并造成相关性等于因果关系的误解。
01:05:00 在本节中,讲师讨论了孟德尔随机化的概念以及如何使用它来理解基因型、中间表型和疾病表型之间的关系。基因型随机化,更容易估计真正的因果效应。尽管这种方法严重依赖假设,但它已成功应用于基因 eQTL 和基因-环境相互作用研究。此外,讲师解释说,另一种估计 beta 回归参数和中介效应的方法是结合 g 上的回归 y 和 g 上的另一个 x 回归。最终,孟德尔随机化提供了一个独特的机会来理解现实生活中难以操纵的变量之间的复杂关系。
01:20:00 在本节中,演讲者通过潜在结果框架和最先进的反事实推理技术讨论因果推理。他们解释了对治疗组进行加权如何解释结果的差异,以及如何使用插补来估计潜在结果。他们还讨论了最近的一篇论文,该论文提出使用剪切矩阵来捕获多个混杂因素,并使用 population PC 来调整这些混杂效应,以及使用贝叶斯回归树估算缺失数据的策略。通过这种方式,可以测量个体因果效应以确定治疗的有效性。
00:05:00 在本节中,讲师解释了根据遗传变异预测一个人表型的基本基础,以及基因组中所有 SNP 和队列中所有个体的每个替代等位基因的效应大小。噪声分布在具有零中心值和平方协方差矩阵的个体中。此外,使用衡量个体之间遗传共享的亲属关系矩阵来解释随机效应。贝叶斯方法用于整合所有未知数并确定由协方差矩阵驱动的表型效应的概率。建立线性混合模型来估计特定性状的总遗传力,该模型基于无穷小假设并使用受限最大似然模型进行估计。尽管缺乏关于实际因果差异的知识,这种随机效应模型仍能捕获数据和工作的转换。
00:10:00 在本节中,演讲者讨论了深度学习在通过预测中间分子表型的影响以及 SNP 与表达之间的线性关系来捕捉额外变异方面的应用。演讲者解释说,这可以使用与估计周围的潜在噪声相匹配的先验分布来完成,从而可以推断出最优选的结果。他们还提到了人口差异的影响,其中驱动遗传矩阵的最强影响直接源于人口差异。最后,演讲者解释了遗传力的概念,以及将遗传相关性划分为基因组子集如何成为计算遗传力的有效方法,这表明染色体越长,它们对许多复杂性状的解释越多。
00:15:00 在本节中,哈佛大学公共卫生学院的 Alkes Price 解释了 SNP 遗传力的概念,这是一个参数,定义为整个人群中表型和基因型之间关系可达到的最大值。他讨论了在 SNP 的不同功能类别(例如编码与非编码)之间划分遗传力的想法,以及这如何得出关于哪些 SNP 在特定疾病和组织中具有遗传力的结论。 Price 还介绍了分层 LD 评分回归的概念,作为研究人体关键疾病细胞类型和细胞过程的工具。
00:25:00 在本节中,演讲者解释了与 SNP(单核苷酸多态性)及其 LD(连锁不平衡)分数相关的标记信号和生物学因果信号的概念。他们讨论了分层 LD(连锁不平衡)分数回归方法如何帮助检测这些分数中的混杂,较高的平均卡方分数表明存在混杂。他们还涉及基因组 LD(连锁不平衡)问题以及它如何根据 SNP 的群体和频率而变化。然后演讲者以精神分裂症数据集的形式呈现真实数据,以进一步说明这种方法。
00:30:00 在这节课中,引入了一个回归方程来使用 LD 分数来估计 SNP 遗传力。回归方程的截距反映了混杂,而斜率反映了卡方统计量与 LD 分数之间的相关性。这个斜率可以用来估计SNP的遗传力,多元线性回归的各个斜率可以告诉我们不同功能类别的因果SNP遗传力。数量富集可以衡量由特定功能类别解释的 SNP 遗传力百分比与属于该类别的 SNP 百分比。斜率的功能解释取决于功能类别是否重叠。
00:40:00 在本节中,演讲者解释说,如果不小心,深度学习中可能会违反模型假设,并引用了基因表达数据中 top qtl 不满足基本模型假设的示例。然后演讲者继续讨论深度学习方法在真实染色质和基因表达数据中的应用。使用 17 种性状的公开汇总统计数据,发言人发现编码 SNP 丰富了疾病和复杂性状,尤其是自身免疫性疾病和身高,同时还发现 29 种哺乳动物的保守 SNP 对疾病有重大影响。此外,幻影五增强子被发现对自身免疫性疾病具有显着的富集作用。然后,讨论转向解释与某些特征如何与生殖适应性具有更高或更低耦合相关的这些结果。
01:20:00 在本节中,演讲者解释说,在研究不同人群的遗传变异时,非欧洲人群中某些变异的缺失会导致效应量的异质性。然而,当一个变体存在于多个人群中时,效果大小往往更加均匀。给出了脂蛋白 a 的例子,并解释了导致欧洲人群变异的遗传变异在非洲人群中不存在,导致非洲人群表现不佳。演讲者还表示愿意监督对与 UK Biobank 多基因评分和亲生效应相关的研究项目感兴趣的学生。
00:10:00 在讲座的这一部分,演讲者概述了有关网络分析及其频谱表示的大量工作。讨论的方法包括使用基于拉普拉斯矩阵的第一和第二特征值的网络最大切割来识别组件的可分离性,以及使用扩散核来理解不同边之间的信息流。演讲者强调了不要忘记这一既定文献的重要性,因为它可以与深度学习方法结合使用,例如将在讲座中讨论的图神经网络。演讲者随后介绍了客座讲师 Neil Band,他将复习图神经网络并讨论半监督学习、多关系数据和自然语言处理等问题领域。
01:30:00 在本节中,讲师讨论了生命科学中自动学习表征的两种方法。第一种方法是基于关系图神经网络,可以通过学习图中每个节点的 d 维向量嵌入来预测两种药物是否会产生副作用。第二种方法是称为 MARS 的元学习模型,它利用来自先前注释数据的先验知识来概括新的、前所未见的细胞类型。通过优化未注释的实验和元数据集,MARS 可以自动将细胞注释为细胞类型,并避免根据基因表达谱来注释细胞的繁琐手动工作。
00:05:00 在本节中,演讲者讨论了从其结构预测蛋白质功能的挑战,这对于理解蛋白质如何相互作用以及细胞中其他代谢物如何相互作用非常重要。演讲者介绍了表示蛋白质结构的各种方法,重点是尽管具有不同的序列和结构但可能具有相似功能的表面表示。通过类比研究人的脸,演讲者认为研究蛋白质表面的模式可以揭示有关其功能的重要信息。然后,演讲者介绍了一种使用 3D 分子表面表征来预测蛋白质配体结合位点的深度学习方法。
00:20:00 在本节中,演讲者描述了一个名为 massive site 的网络,该网络可以预测给定蛋白质表面的哪些位点更有可能与其他蛋白质相互作用。他们还讨论了用于对接的指纹扫描技术,以及与其他对接程序相比这种方法的成功率。演讲者介绍了称为 D massive 的下一代 massive,它使用完全可微分的网络来创建描述蛋白质表面的点云以及几何和化学特征(包括静电特性)的计算。最后,演讲者简要提到了该项目令人兴奋的设计方面,并讨论了在癌症治疗中控制 T 细胞活性的重要目标。
基因表达预测 - 第 9 讲 - 生命科学中的深度学习(2021 年春季)
基因表达预测 - 第 9 讲 - 生命科学中的深度学习(2021 年春季)
该视频讨论了深度学习在基因表达预测中的应用,以及分析生物数据集所涉及的挑战,包括高维度和噪声。讲座涵盖聚类分析、矩阵的低阶近似和压缩感知等方法。演讲者还谈到了将深度学习用于基因表达预测和染色质,以及弱监督学习用于预测增强子活性位点。本讲座讨论了几种主要使用深度学习方法开发的工具,包括 danq、djgx、factory mat 和 sc fin。演讲者还谈到了使用生成模型研究基因组数据集,并介绍了近似推理方法的概念,尤其是流行的变分推理方法。
在讲座的第二部分,演讲者讨论了深度学习在生命科学中的应用,特别是在基因表达预测和基因组解释方面。第一个主题侧重于变异自动编码器模型在哮喘数据集 RNA 表达分析中的应用。演讲者提出了一个使用条件生成模型去除实验伪影的框架。第二个主题讨论了 Illumina 在深度学习网络上的投资,以确定用于基因组解释的序列到功能模型,特别是剪接。该公司开发了 SpliceAI,这是一种深度卷积神经网络,可以预测核苷酸是剪接供体、受体还是两者都不是。第三个主题是演讲者关于预测某些突变是否具有隐性剪接功能,从而导致移码和疾病的研究。演讲者还邀请了研究职位、实习和博士后的问题和申请。
单细胞基因组学 - 第 10 讲
单细胞基因组学 - 第 10 讲 - 生命科学中的深度学习(2021 年春季)
在这个关于单细胞基因组学的讲座中,演讲者讨论了用于分析单个细胞的各种方法和技术,包括细胞分选和微流体。重点是三种特定的单细胞测序技术——Smart-seq、drop-seq 和 pooled 方法。演讲者还介绍了分析单细胞转录组的过程,包括预处理、可视化、聚类和注释,以及自动编码器架构在社区聚类中的使用。深度学习方法用于域适应和以受刺激的方式重建细胞类型。该讲座还讨论了分析单细胞基因组学数据所涉及的挑战,并建议使用生成模型以可扩展且一致的方式解决这些问题。
视频的第二部分涵盖了与单细胞基因组学和深度学习相关的各种主题。讨论的主题包括变分推理、单细胞 RNA 测序数据的生成过程、用于混合细胞类型数据集的 SCVI 模型、用于传播标签的 CanVAE,以及在称为 CVI 工具的单个代码库上实施各种深度学习算法。演讲者还解决了使用后验概率计算基因表达量度的挑战,并提出了准确计算后验期望和控制完整发现率的方法。
降维 - 第 11 讲
降维 - 第 11 讲 - 生命科学中的深度学习(2021 年春季)
有关生命科学深度学习的视频讲座探讨了单细胞数据分析中用于聚类和分类的降维技术。这些讲座区分监督学习和非监督学习,并探索使用统计假设检验框架来评估基因的差异表达。本讲座介绍了使用主成分分析、特征分解和奇异值分解进行线性降维的流形学习的概念,并讨论了用于聚类数据保存的 t 分布随机邻域嵌入和分布式随机邻域嵌入的方法。演讲者还讨论了非负矩阵分解在基因组数据中的应用以及单细胞和多组学数据集的整合。这些技术的最终目标是以公正和定量的方式重新定义细胞类型和身份。
第二部分讨论了与降维相关的几个主题,特别是其在生命科学中的应用。整合非负矩阵分解 (iNMF) 用于链接转录组学和表观基因组学概况,以更好地了解各种背景下的细胞身份。本讲座还讨论了在深度学习中使用小批量方法的好处,特别是对于较大的数据集,以及如何利用在线算法改进分析大型数据集的降维方法。此外,引入该算法以整合不同类型的数据,例如 RNA-seq 和 ATAC-seq 数据。最后,演讲者表示愿意担任对该领域感兴趣的学生的导师。总的来说,讲座内容丰富,广受好评。
疾病电路解剖 GWAS - 第 12 讲
疾病电路解剖 GWAS - 第 12 讲 - 生命科学中的深度学习(2021 年春季)
这段关于疾病回路剖析 GWAS 的视频涵盖了人类遗传学的基础、解释的计算挑战以及全基因组关联研究 (GWAS) 中检查的各种类型的遗传变异。该视频还探讨了孟德尔作图、连锁分析和与疾病相关的单核苷酸多态性 (SNP) 识别等方法。此外,演讲者还讨论了使用卡方统计、曼哈顿图和 QQ 图来可视化与疾病表型显着相关的基因组区域。该视频还包括一个关于 FTO 基因的案例研究,以及如何全面剖析它对肥胖的机制影响。还讨论了理解与肥胖的遗传关联的挑战以及解决该问题的步骤。
该讲座讨论了研究基因组变异对人类健康影响的挑战,以及了解突变如何影响不同细胞类型的重要性。演讲者概述了他们预测基因组序列和变异影响的深度学习方法,特别是在预测转录因子结合和染色质组织方面。他们还描述了他们对这些预测的评估,使用深度测序的基因组数据集来预测 DNA 敏感性和组蛋白标记 QTL,以及他们使用深度学习来预测突变对基因表达和自闭症等人类疾病的影响。最后,他们讨论了对先前已知基因集的公正分析以及深度学习序列模型库的使用。
GWAS 机制 - 第 13 讲
GWAS 机制 - 第 13 讲 - 生命科学中的深度学习(2021 年春季)
生命科学深度学习系列中关于 GWAS 机制的讲座着眼于了解复杂性状中涉及的非编码遗传变异的功能的各种方法。该讲座讨论了使用表观基因组注释和深度学习模型来识别特定疾病的遗传相关区域的全局属性。它还涵盖了跨不同组织和增强子的富集,并解释了如何将这些转化为经验先验以预测基因座内的因果 SNP。本讲座还讨论了使用中间分子表型(如基因表达和甲基化)来研究全基因组关联研究中的因果关系,以及如何结合基因型和表达个人成分来解释表达的表型变量。最后,讲座检查了因果推理方法的使用,以确定改变变量对结果变量的影响,以确定因果与反因果途径。
本视频中的讲师讨论了在基因组学研究中推断因果效应的各种技术。它们涵盖了 d-分离的概念,并使用遗传学中的自然随机化作为建立因果关系的一种方式。讲师还讨论了孟德尔随机化和鲁宾的准推理模型,以及因果推理的潜在结果方法。他们谈到了观察研究中归因和调整偏差的挑战。演讲者还强调了使用多个正交证据来开发稳健的因果算法的重要性。此外,他们解释了使用遗传学来扰乱基因表达和学习网络,并引入了不变性条件作为识别数据中因果结构的方法。本讲座全面概述了基因组学研究中用于因果推理的各种技术和工具。
系统遗传学 - 第 14 讲
系统遗传学 - 第 14 讲 - 生命科学中的深度学习(2021 年春季)
在这个关于系统遗传学和深度学习的讲座中,演讲者涵盖了几个主题,包括 SNP 遗传力、分区遗传力、分层 LD 分数回归和分子表型中的深度学习。他们还探索使用电子健康记录、基因组关联研究和基因组学来分析英国生物样本库的数据集,该数据集包含约 500,000 名具有数千种表型的个体。讲师讨论了如何将深度学习模型用于序列函数预测以了解疾病位点的回路,以及如何使用线性混合模型进行 GWAS 和 EQTL 调用。他们还谈到了深度学习中模型假设的偏差和违背,并强调了细胞类型特异性调控注释在推断疾病关键细胞类型中的重要性。最后,讲师讨论了与负选择和因果效应大小相关的发现的复杂性,并介绍了斯坦福大学的 Manuel Rivas 教授讨论遗传关联的分解。
讲座深入探讨了遗传数据在各个领域的应用,包括量化性状的组成和贡献成分、识别有助于脂肪生成或脂肪分解的遗传变异、识别对基因功能和降低疾病风险有强烈影响的突变,以及开发使用多变量分析的风险预测模型。此外,讲座还讨论了多基因风险评分模型在各种生物标志物中的应用,并强调需要在不同人群之间共享数据以提高预测准确性,尤其是在非欧洲人群的情况下。讲座最后表示愿意监督对与英国生物库多基因评分和亲生效应相关的研究项目感兴趣的学生。
图神经网络 - 第 15 讲
图神经网络 - 第 15 讲 - 生命科学学习(2021 年春季)
在这个关于图神经网络的 YouTube 讲座中,演讲者涵盖了广泛的主题,包括图网络的基础知识、光谱表示、半监督分类和多关系数据建模。还有一个重点是图网络和自然语言处理的交叉点,以及如何为药物发现生成图。讲师解释了跨图传播信息以获得可用于预测任务的有用节点嵌入的各种方法。该讲座还强调了对比学习对 GNN 的重要性、结合基于补丁的表示和基于注意力的方法的潜在好处,以及在 NLP 中使用 transformer 方法。讲座的后半部分重点讨论展示 GNN 在药物发现中的实际用途以及如何使用连接树对分子结构进行编码和解码的论文。
该视频讨论了图神经网络 (GNN) 在生命科学中的多种应用,包括药物发现和潜在图推理。演讲者强调了 GNN 中的问题和潜在途径,例如缺乏空间局部性和固定顺序,所考虑的设置涉及预测给定节点的类型、预测两个节点之间的链接、测量两个节点或两个网络之间的相似性,并通过在网络中执行社区检测来聚类节点。讲师还解释了 GNN 如何有效地训练和嵌入图形、转换和聚合信息以及处理多药副作用。此外,讲座还涵盖了生命科学中自动学习表示的两种方法,其中使用了像 MARS 这样的元学习模型来泛化到新的细胞类型。最后,讲座讨论了 GNN 如何跨多个数据集学习潜在细胞表示以捕获细胞类型异质性。
用于药物设计的 AI - 第 16 讲
用于药物设计的 AI - 第 16 讲 - 生命科学中的深度学习(2021 年春季)
本讲座讨论深度学习在药物设计中的应用。它解释了如何使用深度学习来寻找具有抗生素抗性的新型化合物。它还讨论了如何通过结合生物学知识来改进深度学习模型。
讲座的第二部分概述了深度学习如何用于药物设计,特别是用于预测药物组合的抗病毒活性。使用基于细胞的测定法在体内测试该模型,并确定了两种新型协同药物组合。
蛋白质折叠的深度学习 - 第 17 讲
蛋白质折叠的深度学习 - 第 17 讲 - 麻省理工学院生命科学深度学习(2021 年春季)
该视频讨论了深度学习在蛋白质折叠领域的应用,特别是如何使用几何深度学习来研究蛋白质结构和预测诸如配体结合位点和蛋白质-蛋白质相互作用等事物。该视频还涵盖了基于模板与无模板的建模方法、蛋白质折叠中接触预测的各种方法,以及在蛋白质结构预测中使用残差神经网络进行图像建模。总的来说,演讲者强调了深度学习在促进我们对蛋白质结构及其功能的理解方面的前景,并提供了详细的示例和结果来支持这一说法。
该视频讨论了蛋白质折叠深度学习的各种方法,包括使用协同进化预测和模板进行精确建模、寻找更好的同系物的重要性,以及深度学习在不依赖传统物理基础的情况下实现可比结果的潜力方法。演讲者还深入探讨了可微分输出的使用和全局准确性的重要性,以及算法空间的演变和深度学习根据遗传变异或小分子等因素预测蛋白质确认的潜力。总的来说,该视频突出了深度学习在彻底改变蛋白质结构预测及其众多应用方面的令人兴奋的潜力。
病理学机器学习 - 第 19 讲
病理学机器学习 - 第 19 讲 - 麻省理工学院生命科学深度学习(2021 年春季)
该讲座涵盖了深度学习在计算病理学中应用的各个方面,包括该技术的挑战和局限性。演讲者讨论了在盲目信任算法时需要谨慎,并强调了理解网络正在学习什么的重要性。本讲座探讨了深度学习如何用于癌症诊断、预后和治疗反应评估以开发精准医学的预后和预测工具的几个例子。演讲者还讨论了开发结核病多药治疗的挑战,并提出了各种实验室项目来解决这个问题。总的来说,讲座强调了深度学习在病理学中的潜力,同时也承认其局限性和多学科方法的必要性,以确保其在临床环境中的有效部署。
在这段名为“病理学机器学习 - 第 19 讲 - 麻省理工学院生命科学深度学习(2021 年春季)”的 YouTube 视频中,演讲者讨论了他们的团队尝试使用典型的病理学机器学习来解决批次间和细胞间异质性问题变异归一化 (TVN) 和 k 最近邻方法。他们还描述了使用形态学分析根据药物对细菌的影响对药物进行分类,并开发了一种数据驱动的方法来使用监督和非监督学习来设计药物组合并确定其优先级。此外,演讲者感谢她的实验室成员对药物协同作用与拮抗作用研究的贡献,强调了考虑更大背景以理解和推进该领域研究的重要性。