锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

机器学习遇到单细胞组学:Perturbation Modeling

时间:2022-11-28 19:00:01 mers00002型细胞电阻仪

细胞生物学的相关研究受到数据的完整性和表型的完整性的限制,对应激状态和稳定状态下的细胞差异观察不够。在过去的五年里,计算机视觉和语音识别领域通过学习和建模大量的无标签数据,很好地解决了数据不足的问题。同样,在最近的研究中,单细胞数据扰动建模也促进了细胞生物学的发展。对于生物学家来讲,无论研究基因、转录本、修饰、蛋白功能,都要频繁的进行人为干预,实现对感兴趣变量的正向或者反向改变,观察细胞表型的变化整个过程需要观察干预工具的构建、导入和实验,从而得出表格结论扰动建模的目的是通过建立数学模型,通过对现有数据的分析、归纳和总结,在没有湿实验的情况下预测分子的功能。对于生物学家和药物研发人员来说,一个好的模型将有助于加深对生物机制的理解,促进药物的研发过程。

在“perturbationmodeling在这个概念下,机器学习使用单细胞数据来处理哪些问题?模型是如何构建的?观点来自Machine Learning for Perturbational Single-Cell Omics。

本期综述结合相关文章进行了相关讨论。文章中反复出现的perturbation如何理解这个词?原意是干扰和干扰。细胞生物学对应于细胞的外部和内部干扰因素:基因突变等内部干扰因素;外部干扰因素,如分子(小分子化合物、大分子等外源性分子)处理和基因knock out、knock down等待干预,这些都是文章中的perturbation对应因素。因此perturbation modeling最终目的是通过学习现有数据准确捕获perturbation生物学意义的解释perturbation影响哪些靶点和信号通路,同时影响新的perturbation预测类型的影响。甚至当多个perturbation同时,判断是协同还是拮抗,解决分子细胞生物学、药物发现等未知问题。perturbation这个词在后面的文章中也被翻译成扰动,请读者知道。

细胞处理过程,包括基因去除、刺激物和再生因子,本质上是对细胞状态的干扰,系统生物学的重要分支是建模和预测干扰的效果。从结合(binding)到对接(docking),到下游分子效应和器官的整体改变。如果要对扰动带来的变化进行评估,必须对细胞、分子和组织之间的相关机制有全面的了解。在传统的分子细胞生物学实验中,研究人员将进行大量的蛋白质-药物互作、生物标志物筛查等试验方法来捕捉外部刺激对细胞本身的变化。

图1:干扰隐藏空间的建立:每个点代表干扰-条件组合(干扰-条件二维矩阵中的数据点):颜色点代表现有实验,点颜色代表剂量、细胞类型、通路激活等不同实验之间的相关性

许多研究单位建立了相关的细胞数据库,如体外药物筛选数据库(如批量获取这种扰动信息)Genomics of Drug Sensitivityin Cancer、 Cancer TherapeuticsResponse Portal、Connectivity Map等),还有其他广谱数据收集,如PharmacoDB、DurgBank该数据库为细胞系或药物建立了信息系统,并具有小分子化合物的一般化学特性。

除了数据上的积累,机器学习模型在过去十年中也得到了发展,不断地对越来越多的数据进行训练、开发、测试,用以获得更好的机器学习模型。经典的ML许多模型用于药物靶点的发现和发现IC50的预测。深度学习模型因其强大的方程拟合能力和灵活性,在最近的研究中得到了广泛的应用,通过化学和序列数据预测化合物结构的毒性,通过体细胞突变预测药物的敏感性。但通过深度学习扰动生物学(perturbationbiology)对分子机制的研究并没有取得太大的成果,对细胞扰动反应机制的理解还远远不够。

本文关注最近单细胞测序的发展,讨论最近使用的问题DL处理上述问题的成功案例建立了方法。单细胞测序产生的细胞水平数据允许DL模型看到了更多的转录组、蛋白质组和表观水平的数据变化。巨大的数据可以同时对细胞的异质性反应variation建模方向。目前使用目前做得最多、最前沿的研究scRNA-seq细胞应答的建模分析数据。

由于单细胞数据提供了更多的训练实例和变化方向,深度学习模型可以通过更少的测试次数来推理一些未知和未见的事件。利用隐藏空间的概念来描述分子特征是一个很好的例子基因组、表观组和蛋白质组特征的蒸馏表示(distilled representation),提取和总结细胞扰动与反应的关系。这种空间建立过程强调并赋予重复事件的权重(如信号通道多个因素的共同表达和细胞生物标志物的出现),从而捕捉细胞的反应特征。另一种对隐藏空间的理解是类似的PCA、t-SNE或者UMAP一种数据压缩方法,如:二维auto-encoder隐藏空间非常相似t-SNE,生成模型利用这一概念隐藏细胞状态之间的互作关系,利用监督学习来压缩数据,从而学习细胞状态的扰动关系。

虽然深度学习模型可以如此广泛地使用,但这种计算模型与显微镜下的实验观察完全不同。目前,大多数现有数据库的主要缺陷是缺乏perturbation的条件。如果没有足够的数据量和深度学习模型,对数据量的要求非常高perturbation在实验中,深度学习模型也难以解决如此高纬度的生物数据压缩问题。参考计算机视觉领域的发展过程,只要数据标准化benchmark单细胞数据的出现也将被用于建立深度学习的模型。

在扰动建模的概念下,围绕单细胞数据试图解决哪些生物学问题?

一.干扰建模的目的

扰动建模是一个包含多个特定模型和任务的大型机器学习框架。因此,每个模型都有评估模型性能的判断方法。该框架下的具体任务基本上是对细胞对外部刺激的评估和预测。

图2:组学评价: 扰动后预测转录组或其他组学的变化, 模型的输入通常是分组信息(处理组、对照组)和不同分组对应的组学数据,可以预测模型的性能同真实值 (X)评估它们之间的相关性

A.组学特征及表型预测

如果模型捕获了干扰带来的重要生物意义,则可以预测未知的组学特征和表型变化(图2)。扰动后,模型可以预测转录组或其他组学的变化,通过真实数据和预测数据的相关性可以评估模型的性能;半抑制浓度(IC50)通过学习其他细胞系,预测是表型预测的经典问题。IC50值的变化特征,预测目标细胞系IC50值(图3),通过经典的回归模型评价方法可以评价模型的性能。这里提到的预测任务通常是解决药物发现中遇到的实际问题,如药物有效性。对不同肿瘤的药物敏感性的预测实际上是试图解决药物发现中的一些问题。

图3:表格预测: 细胞系对各种扰动的相关值变化,如IC50,量效曲线(Dose Response Curve)、细胞毒性等指标

B.预测靶点和机制

图4:通过组学数据预测化合物扰动的靶点,红、蓝、绿分别代表模型隐藏空间中的具体表示

使扰动模型具有生物相关性和分子细胞生物学应用价值的主要途径是让模型学习和预测潜在的分子机制和靶点,如用于预测小分子化合物的蛋白质和化合物。通过对已知化合物的性能,该模型的性能可以precision、recall通过比较和评估指标,该模型的直接应用场景是通过评估新化合物来发现新药,估计副作用和新旧药物的可能性,帮助药物开发。

         图5:预测扰动发生的联合效应,也可以理解为预测小分子化合物联合扰动所带来的效果,部分化合物的联合使用具有协同作用,而有时呈现拮抗效果,对于未知的化合物组合效果,模型可以根据已知数据进行预测

C.扰动互作预测

扰动互作预测就是在评估成对出现的扰动效果的协同性和拮抗性(图5)。化合物或者基因突变等扰动因素可以成对出现,并且可以被打上标签(协同性、拮抗姓),这种模型可以用分类或者回归模型的评价指标进行评估。该任务的应用场景同组合治疗相关,对扰动互作的了解可以更好的建立干扰互作网络,全面了解不同的扰动组合对所关心表型的影响。不同于小分子筛选,基因的knock out、knock down等实验(本质上也是一种扰动,只是发生在基因层面)可以一并在训练模型时考虑在内。

图6给定组学特征,预测扰动因素的化学特性,比如分子图谱、药效官能团或者完整的化合物

D.化学特性预测

根据生物数据预测化合物的化学特性是连接生物学和化学的主要方式。之前的药物设计很多是根据蛋白口袋进行小分子药物的从头设计,而现在可以根据转录组学数据从头设计小分子,预测药效官能团。如果能将生物特征和化学特征联系起来,在没有进行湿实验的时候也可以对化合物的细胞毒性进行评估。对于基因层面的扰动因素,就是对k-mers、motif进行建模预测,这种模型可以在没有体外实验的时候评估该基因突变能带来的影响,甚至可以将这些数据整合起来建立网络效应。

二.现有方法:

目前已经有很多应用于传统表观基因组、转录组和蛋白组学数据学习、分子表型筛选、临床的深度学习方法。最近的研究中,由于单细胞测序技术的大发展和单细胞数据的积累,随着CRISPR和scRNA-seq实验的相互结合,“干扰scRNA-seq”也是第一次被提出,干扰单细胞测序也成为一个独立的方向,被机器学习研究者和生物学家关注。

本文中总结了一些现有的单细胞组学模型,除了CellOracle以外,其余的模型基本都是针对干扰前后、疾病对照的实验思路进行设计训练的。因为CellOracle是利用基因调控网络(GRN)建立的,所以CellOracle的工作过程只能针对基因、单个化合物的靶点进行分析。除了如DRUG-NEM等个别模型,大部分的模型在Github上都提供有直接使用的版本和配套的安装方法和使用说明。

A.线性回归和分类 Linear Regressor/Classifier

线性模型通过对不同表达值的线性组合同输出结果建立关系,输出可以是离散指标(如蛋白靶点)或者连续指标(如IC50)。在单细胞数据大量积累之前,这些浅层分类器或者回归模型非常常见。SCATTome就是通过线性模型来预测不同细胞状态下对药物的应答(cell-state-specific response to drug),Augur等人使用了类似的,但是非线性的随机树模型来预测这种细胞-化合物的应答。

B.因子分解Factor decomposition

因子分解方法将组学数据分解成variation组分不同的几个部分。矩阵分解(Matrix Factorization)就是一种针对传统组学和单细胞组学常用的一种分解方法。结果容易理解并且对大数据容易扩展,通过对表达值的聚类,可以进一步进行机制方面的讨论,如信号通路、生物过程等均可进行富集分析。像上文提到的MUSIC和DRUG-NEM都是通过这种聚类,找到关键基因从而对扰动效果进行定量,或者对每一个细胞每一个蛋白特征计算概率密度,在嵌入效果模型当中使用概率矩阵来获得药物组合的效果。

C.网络建模

网络模型是利用先验信息建立input特征之间相互关系的方法,部分干扰信息的相关数据也是缺失的,但借助这些先验知识可以对未知事件进行预测。比如已知单个药物对细胞系的影响,从而预测这些药物组合的干扰效果。CellOracle目前是唯一通过基因调控网络来利用先验知识,整合转录和转录因子调控的信息的模型。CellOracle联合了scATAC和scRNA-seq数据建立可理解的网络模型,基于该网络模型对一些未知的干扰事件进行应答预测。

三.总结

从上述任务来看,预测扰动模型的建立就是为了捕获生物相关性,让模型去预测一些未知事件,从而减少药物开发时的费用,如果模型捕获基因干扰因素影响的特征,那么这些模型就能对病人对药物的敏感性做出解释和预测,目前通过单细胞转录组、基因组测序的方法就提供了重要的数据来源,为不同的扰动建模提供了数据支持。随着数据的大量积累,更多的研究会致力于如何建立全面的扰动全景,通过已知预测未知,透过已见寻找未见,全面深刻的理解分子生物学调控机制同扰动的关系,将是下一阶段人工智能建模在生物领域的主要方向。单细胞测序遇到人工智能,一同助力药物开发

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章