论文解读:《DeepIPs:使用基于深度学习的方法对SARS-CoV-2感染的磷酸化位点进行全面评估和计算识别》
时间:2022-11-28 14:00:01
DeepIPs: comprehensive assessment and computational identification of phosphorylation sites of SARS-CoV-2 infection using a deep learning-based approach
- 1.论文概述
- 2.背景
- 3.数据
- 4.方法
-
- 4.1 单词嵌入载体表示蛋白质
-
- 4.1.1 有监督的嵌入层
- 4.1.2 Word2Vec
- 4.1.3 GloVe
- 4.1.4 fastText
- 4.2 算法设计
- 5.结果
-
- 5.1 不同条目嵌入法的性能评价
- 5.2 不同结构的性能评价
- 5.3 独立测试
- 5.4 发现潜在的治疗靶点
- 6.结论
文章地址:https://academic.oup.com/bib/article/22/6/bbab244/6310410?login=true
DOI:https://doi.org/10.1093/bib/bbab244
期刊:BRIEFINGS IN BIOINFORMATICS
2022年影响因子/2022年影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因子/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因/影响因JCR分区:13.994/Q1
发布时间:2021 年 6 月 28 日
Web在线服务器:http://lin-group.cn/server/DeepIPs
GitHub:https://github.com/linDing-group/DeepIPs
1.论文概述
SARS-CoV-全球感染的快速传播造成了大规模的健康和社会经济危机。识别磷酸化位点SARS-CoV-感染的分子机制是宿主细胞内途径变化的重要一步。作者提出了这项研究DeepIPs,这是识别感染的第一个方法SARS-CoV-2宿主细胞磷酸化位点的特定深度学习结构。DeepIPs最流行的单词嵌入法和卷积神经网络–构成长期和短期记忆网络结构,以做出最终预测。独立试验表明,与现有的一般磷酸化位点预测工具相比,DeepIPs提高预测性能。
2.背景
严重急性呼吸综合征冠状病毒2(Severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)是一种高度传染性和致病性的冠状病毒,发生于2019年底,已导致急性呼吸道疾病的流行,2019年被称为冠状病毒(coronavirus disease 2019,COVID-19)大规模健康和社会经济危机。为了制定治疗策略来征服SARS-CoV-新冠肺炎病程,减轻医疗机构的负担,迫切需要开发新药,重新调整现有药物的用途。征服治疗策略SARS-CoV-2.迫切需要开发新药,重新调整现有药物的用途,以缩短病程,减轻医疗机构的负担。自2020年10月2日起,新冠肺炎正在开发约405种治疗药物,但大部分仍处于计算阶段,未经感染模型试验。全面了解SARS-CoV-合理调整药物用途的关键是感染的分子机制和宿主细胞内途径的变化。
蛋白质组学是量化蛋白质丰度和磷酸化变化的有力工具。例如,Stukalov等人以全系统的方式描述相互作用组、蛋白质组和信号传输过程SARS-CoV-与宿主细胞的关系;Bouhaddou等人提出基于定量质谱学的建议SARSCoV-2在Vero E6细胞中感染的磷酸蛋白质组学研究,它揭示了宿主与病毒蛋白上磷酸化的戏剧性重新连接;Klann等人利用人Caco-2细胞中SARS-CoV-2通过磷蛋白组学研究信号的变化,感染系统;Hekman等人对SARSCoV-2在iAT为了探索感染和病理的驱动机制,对细胞中的感染进行了定量的磷酸蛋白组学研究。在上述研究中使用的高通量质谱技术可以准确地注释磷酸化位点,从而积累了大量的磷酸化实例。在上述研究中使用的高通量质谱技术可以准确地注释磷酸化位点,从而积累了大量的磷酸化实例。然而,传统的实验方法具有高劳动强度和长时间,特别适用于验证大量候选磷酸化位点。计算方法作为传统实验策略的补充技术,是更好的选择。
到目前为止,已经提出了相当多的预测因素来识别磷酸化位点。它们大多表现出一个共同的策略,可以概括为两个步骤:(1)根据人工设计的特点编码原始序列;(2)选择优化的机器学习算法进行分类和预测。例如,PhosPred-RF信息论特征、重叠属性特征、20位特征、21位特征Skip-n-gram磷酸化位点预测是基于随机森林算法训练的;Quokka应用各种序列评分函数结合优化Logistic回归算法预测磷酸化位点;GPS 5.使用了两种新方法,即位置权重确定和评分矩阵优化,然后使用Logistic回归算法识别磷酸化位点。虽然这些方法所涉及的特性都取得了良好的磷酸化位点预测效果,但这些方法都有局限性,即人工设计可能导致特征偏差。
一个有前途、有吸引力的解决方案是基于深度学习。与传统机器学习技术繁琐的特色工程相比,深度学习具有明显的优势。它能够自动生成复杂的模式,并自适应地从训练数据中捕获高层抽象。在此基础上,提出了几种基于深度学习的磷酸化位点识别模型。例如,MusiteDeep将原始序列数据作为输入,并使用具有新型二维注意机制的卷积神经网络(CNN)预测磷酸化位点;CapsNet引入多层CNN用于蛋白质翻译后修改位点的识别,并展示了胶囊在表征生物意义特征方面的一些突出特征;DeepPSP为预测磷酸化位点,设计了基于全局和局部信息的深度神经网络。这些只使用原始序列的方法比传统的机器学习方法更好。这些只使用原始序列的方法比传统的机器学习方法更好。然而,没有具体的深度学习结构来识别感染SARS-CoV-二宿主细胞磷酸化位点。
作者有了新的CNN-LSTM架构,即DeepIPs,准确预测感染SARS-CoV二宿主细胞磷酸化位点。不同于上述深度学习方法,DeepIPs在自然语言处理中,采用词嵌入法获取蛋白质序列表示,避免了特征工程的局限性,有效提高了模型的性能。为了评估DeepIP作者构建了不同的独立数据集来评估模型的性能。评估结果表明,单词嵌入和CNN-LSTM在识别一般磷酸化位点时,结构一般磷酸化位点时具有很强的区分能力。所以作者提出的体系结构也可以比以前的方法更好地解决其他生物信息学问题。此外,作者的研究提供了生物序列分析中流行词嵌入法的早期用例,并可能为其他生物预测问题提供参考。
3.数据
在本研究中,实验证实了感染SARS-CoV-2的人A549细胞的磷酸化位点来自文献【Multi-level proteomics reveals host-perturbation strategies of
SARS-CoV-2 and SARS-CoV】,该数据集包括14个119个磷酸化位点。为了减少磷酸化蛋白的序列冗余,避免模型过度拟合,使用CD-HIT序列同源阈值为30%。为便于与其他现有磷酸化位点预测方法进行比较,处理后的序列被切断S/T或Y为中心的33个残基长的序列片段。假如片段的中心S/T或磷酸化,定义为正样本;否则,定义为负样本。结果得到了大量的负样品。为了平衡正负数据,作者随机选择了非冗余负样本的子集,以匹配正样本的数量。获得S/T位点样本5387份,负样本5387份,Y位点样本102份,负样本102份。同时,本研究采用了深度学习框架中常用的序列分析性能评价策略,将数据集随机分为8:2的严格不重叠训练集和独立测试集。
4.方法
4.1 单词嵌入载体表示蛋白质
单词嵌入是自然语言处理中的一组技术,其中单词表示使用大量文本语料库作为输入的向量。我们之前的研究已经证明,每一种氨基酸都会被证明(AA)单词嵌入法转换为定义固定长度的向量,并降低特征维度,可产生令人满意的预测性能[21]。因此,在研究实现了两种蛋白质序列的编码策略:一是监督嵌入层(SEL);二是基于预训练的单词嵌入的非监督嵌入层Word2Vec、Glove和fastText。
4.1.1 有监督的嵌入层
Kera嵌入层的本质是一个完全连接的神经网络,它将正整数(索引)转化为固定大小的密集向量。对于给定的蛋白质序列,用相应的编码器代替氨基酸生成固定长度的数字载体。如果长度小于如果长度小于max_length使用函数‘Pad_Sequence将蛋白质序列的长度放大到 200 个氨基酸。通过这种方式,蛋白质序列被转化为许多零稀疏向量。然而,这种普通的编码方案并不能反映蛋白质残基与其顺序和空间邻居之间的关系。因此,作者利用嵌入层将蛋白质序列模拟为文档,并将氨基酸模拟为单词,将氨基酸映射到密集向量。从大规模序列中学到的两种任意氨基酸之间的语义相似性使作者能够使用相似的连续测量概念来评估单个氨基酸的语义质量。嵌入氨基酸可以将左侧嵌入氨基酸 one-hot 向量和权重矩阵 W ∈ Rd×|V|相乘来完成,其中|V|是一种独特的氨基酸,d 大小嵌入vi给定蛋白质序列x=x1,x2···xn中的氨基酸xi单热载体,xi嵌入可表示如下:ei=Wvi。以反向传的方式随机初始化权重矩阵并进行更新。在嵌入层之后,输入序列可以用稠密矩阵来表示:Ed×n =(e1, e2 · · · , en)。
4.1.2 Word2Vec
Word2Vec是一种基于前馈神经网络的机器学习模型,可以用来生成文本中单词的矢量表示,并已广泛应用于生物信息学问题。训练这种模型的基本思想是根据从大型文档语料库收集的单词邻近度,将相似向量表示分配给相似上下文中的单词。作者使用Word2Vec来训练蛋白质序列的分布式表示和嵌入。认为定长k的子序列是氨基酸‘词’(也称为k−mers)。所有可能的k个mers的集合被定义为词汇量(词汇量=21)。然后使用k大小的滑动窗口扫描蛋白质序列及其侧翼区域,步长为1。在构建蛋白质序列及其侧翼区域后,采用CBOW模型对嵌入层进行预训练,CBOW模型相对于Skipgram模型具有均匀组织分布在数据集中的信息的优势。CBOW模型旨在通过几个周围的上下文单词来预测当前单词。在对CBOW模型进行训练后,将优化后的参数作为嵌入层的初始权值,并在片段标签的监督下与后续层一起进行微调。在作者的工作中,Word2vec是用genism=3.8.0实现的。
4.1.3 GloVe
Glove是一种无监督学习算法,用于产生单词的矢量表示。学习是在从语料库计数的全局单词共现统计中执行的。GloVe模型学习全局词-词共现矩阵的非零条目上的条目,该矩阵显示词在表中给定语料库中共现的频率。一般来说,非零的矩阵条目的数量比语料库中的单词总数要少得多。因此,基于加权最小二乘回归模型的损失函数收敛速度更快。
在作者的实验中,将向量大小设置为100,将窗口大小设置为15。
4.1.4 fastText
fastText是Facebook研究团队创建的一个库,它允许创建一种无监督学习算法来获得单词的矢量表示。该模型利用低阶矩阵来减少计算负担,同时在特征和类之间共享参数。这在输出空间大的情况下尤其有用,在这种情况下,罕见的类可能只有几个训练示例。fastText使用类似于CBOW模型的架构,从而将超过N个文档的Softmax损失降至最低。
其中,xn是one-hot向量,Yn是第n个文档的标签。与基于单词级别表示的Word2Vec和GloVe不同,fastText使用较小的字符级别单位来获取单词表示。在本研究中,作者实现了一个1G包来捕获关于局部词序的部分信息。
4.2 算法设计
卷积层:1D卷积
激活函数:ReLU
池化层:最大池化步幅设置为2
丢弃层:0.5
LSTM层:将输出大小设置为70
Dense层:将节点数设置为等于2
环境:Kera=2.2.2、TensorFlow=1.2.1和sklear=0.22.1
5.结果
5.1 不同词条嵌入方法的性能评价
作者评估和比较了CNN-LSTM架构中使用的四种不同的单词嵌入方法的预测性能,并基于S/T和Y磷酸化位点数据集进行了5折交叉验证。结果如图3和表2所示。
最终基于SEL建立了S/T的最终模型,基于GloVe建立了Y的最终模型。
5.2 不同结构的性能评价
5.3 独立测试
5.4 发现潜在的治疗靶点
先前的研究表明,一些激酶抑制剂,如Gilteritinib(一种指定的Flt3/Ax1抑制剂,Ipatasertib(AKT抑制剂)),可以通过阻止SARS-CoV-2的复制并干扰其所需的宿主途径而被用作治疗新冠肺炎的潜在药物。因此,通过整合不同的数据库资源,缩小抗病毒化合物的范围,发现作为治疗靶点的宿主激酶,将为开发新的治疗策略奠定基础。在这一思想的启发下,作者利用本工作中使用的基准数据集中的基因名称和蛋白质登录号作为索引,在Phosphy SitePlus和Phop.ELM数据库中搜索相应的Kase,并对Kase家族进行了分类。详细结果见《补充数据》。作者发现大部分的磷酸化过程是由细胞周期蛋白依赖性蛋白激酶介导的,这表明病毒蛋白通过与宿主蛋白的相互作用来加速宿主细胞周期。这表明,PKC、CK2、PKA和Src也参与了磷酸化反应。因此,开发这些激酶的特异性抑制剂可能是治疗SARS-CoV-2感染的一种有前途的方法。
6.结论
磷酸化在生物过程中具有重要意义,与SARS-CoV-2感染的发生有关。由于实验验证位点的局限性,耗费时间和金钱,迫切需要开发有效的计算方法来鉴定SARS-CoV-2感染的磷酸化。因此,在本研究中,作者提出了由最流行的单词嵌入方法和CNN-LSTM架构组成的DeepIPs来预测磷酸化位点。独立测试表明,DeepIPs比现有的磷酸化位点预测器具有更好的性能。此外,还建立了一个可免费访问的名为DeepIPs的网络服务器。