HLAB:从 ProtBert 编码的蛋白质中学习 BiLSTM 特征,用于 I 类 HLA 肽结合预测
时间:2022-11-28 16:30:01
目录
1.背景
2.数据与方法
2.1 数据集摘要
2.2 预训练的 ProtBert 模型
2.3 BiLSTM(Bi-directional Long Short-Term Memory)
2.4 特征降维和特征选择
2.5 HLAB框架概述
2.6二元分类器及其性能指标
3.结果与讨论
3.1评估模型超参数
3.2预训练模型权重参数评估
3.3基于self-attention评估不同模型的机制
3.4评估模块组合
3.5特征降维模块的必要性
3.6选择算法的性能与选择特征的比率
3.8分类器在不同数据集的性能
3.7FCNN 机器学习分类器
3.9HLA-A?01:01 测试数据集的性能比较
3.10所有 HLA-I 等位基因测试数据集的性能比较
4.结论
论文出处:https://doi.org/10.1093/bib/bbac173
代码链接:http://www.healthinformaticslab.org/supp/resources.php.
1.背景
在人体免疫系统中 T 抗原肽与细胞相结合 I 类和 II 主要组织相容性复合体 (MHC) 激活分子靶特异性的结合 。人类 MHC 又称人类白细胞抗原抗原 (HLA),I类HLA(HLA-I)分子的主要功能是将结合肽呈现给T细胞表面的T细胞抗原受体HLA-I结合肽通常来自降解本身或非自身蛋白质的产物,自身产生的蛋白质很少引起免疫反应,而非自身肽能刺激人体免疫系统的激进反应。HLA分子和肽之间的相互作用导致了这些外源肽的识别 T 细胞控制免疫反应的大小和有效性。因此,开发疫苗和免疫疗法的主要目标是准确预测肽和肽 HLA 分子组合。
2.数据和方法
2.1 数据集摘要
从 Anthem(用户定制的快速准确预测肽和肽的工具 HLA I 类分子之间的组合) 中检索到与 HLA-I 用于训练、验证和独立数据集概述等位基因组合的肽序列。
2.2 预训练的 ProtBert 模型
BERT(BidirectionalEncoder Representations fromTransformer) 在一个非常大的语言语料库上训练的语言表示模型 。BERT 模型架构是多层的双向 Transformer 编码器(模型将根据挖空的上下文进行预测, 这实现了双向表示, 说明BERT是双向语言模型),每层分别有 12 或 24 编码器块分别用于 BERT-base 和 BERT-large 模型。一层由多头自注子层和全连接的前馈子层组成。在两个子层的每个周围部署一个残余连接,然后标准化层。
Transformer Encoder
Bert模型
ProBert模型是通过使用 UniRef100 和 BFD 这两个数据库中的蛋白质序列对原始 BERT 模型进行微调而获得的。数据库 UniRef100 是一个广泛使用的参考蛋白质序列数据库,数据库 BFD 合并了数据库 UniProt 中可用的所有蛋白质序列以及从多个宏基因组测序项目中翻译的蛋白质。ProtBert 将层数增加到 30,以便在下游监督任务中提供更好的性能。作者展示了 ProtBert 模型在三个任务上的优势,即预测二级结构、亚细胞定位和膜结合。本研究在提取序列特征之前,使用训练数据集中的 HLA-I 结合肽进一步调整了 ProtBert 模型。
2.3 BiLSTM(Bi-directional Long Short-Term Memory)
LSTM 是RNN(循环神经网络)的一个子类型 。它的设计特点适合文本和时间序列等顺序数据的建模。双向版本 LSTM (BiLSTM) 通过组合前向和后向 LSTM 显示出更好的捕获文本模式的能力。
LSTM模型
我们可以先把中间部分遮起来,看LSTM在t时刻的输入与输出。首先,输入有三个: 细胞状态
C(t-1),隐层状态h(t-1), t时刻输入向量X(t),而输出有两个:细胞状态C(t), 隐层状态h(t),其中h(t) 还作为t时刻的输出。表示sigmoid函数,它的输出是在0到1之间的,是双曲正切函数,它的输出在-1到1之间。和指向量的按元素操作。细胞状态的信息一直在上面那条线上传递,隐层状态一直在下面那条线上传递,不过它们会有一些交互,在LSTM中,通常被叫做“门”结构。
前向的LSTM与后向的LSTM结合成BiLSTM。比如,我们对“我爱中国”这句话进行编码,模型
LSTM编码句子前向的依次输入“我”、“爱”、“中国”得到三个向量{ ,,
}。 后向的依次输入 “中国”、“爱”、“我”得到三个向量{
, ,}最后将前向和后向的 隐向量进行拼接得到{
, , }。
2.4 特征降维和特征选择
特征降维和特征选择算法可以提高数据集的分类性能,去除不相关的特征将提高训练和预测任务的效率。
降维算法试图保留所有样本之间的成对距离结构,或者更喜欢局部距离而不是全局距离。 Uniform Manifold Approximation and Projection (UMAP)一种降维技术,假设可用数据样本均匀(Uniform)分布在拓扑空间(Manifold)中,可以从这些有限数据样本中近似(Approximation)并映射(Projection)到低维空间。 即UMAP可以将特征空间转换为基于黎曼几何框架的新空间,并针对 t-SNE 算法 以更快的运行速度保留更多的全局结构,与其他降维算法相比,UMAP 具有以下优点: (i) UMAP 捕获全局和局部结构,(ii) UMAP 受数据集样本大小的限制较少,(iii) UMAP 在大型数据集中表现良好,即使具有数万维。因此,本研究使用 UMAP 来提取特征以用于下游预测任务。我们将 UMAP 降维后的维数设置为 5∼18,并将不同 HLA-I 等位基因的 HLA-I 结合肽预测任务优化为不同的维数。
特征选择已经证明了它在减少原始特征和学习的潜在特征数量方面的有效性 。有两类主要的特征选择算法,即过滤器和包装器。过滤器特征选择算法评估单个特征与类标签的关联,而包装器评估启发式选择的特征子集的分类性能。过滤器通常运行得更快,但性能比包装器差。本研究使用了五种特征选择算法,它们是 T 检验、W检验 (Wtest)、随机森林 (RF)、基于线性回归方法的递归特征消除 (LR-RFE) 和基于支持向量的递归特征消除机器方法 (SVM-RFE)。 T 检验和 W 检验按统计 P 值的升序对特征进行排序,其他三种特征选择算法按其算法默认设置对特征进行排序。我们选择排名靠前的特征的百分比作为构建分类模型的所选特征,本研究为特征选择参数设置三个值,0.55/0.75/0.95,用于选择特征。
2.5 HLAB框架概述
首先,从输入序列中提取潜在特征。每个输入向量是一个 49 个字母的残基序列,其中 34 个来自 HLA,15 个来自相应的肽。输入的 HLA-I 序列通过 NetMHCPan 算法转换为伪序列。数据集中没有超过 15 个氨基酸的肽段,因此,肽序列被编码为 15 个字母的序列,短于 15 的肽在其末端用假氨基酸“X”补充,以便将 15 个字母的序列加载到输入向量中。 HLA 伪序列与肽序列连接以进行下一步。根据 BERT 模型的要求,将字符‘[CLS]’和‘[SEP]’添加到整个连接向量的头部和尾部。输入向量被送入 ProtBert 模型和 BiLSTM 模型以进行特征提取,49D 输入序列被编码为 1536D 高维特征向量。
其次,通过降维和特征选择算法对特征空间进行降维。我们使用 UMAP 算法转换特征空间,然后使用特征选择算法(例如 T-test 和 W-Test)通过它们与类标签的个体关联来寻找排名靠前的特征。
第三,我们使用在训练数据集上选择的特征建立分类模型,并在验证数据集上评估训练模型。在验证数据集上具有最佳预测性能的预测模型用于最终预测查询测试肽是否与测试数据集上的模型特异性 HLA-I 等位基因结合。
基于 BERT 和 ProtBert 的参数设置,我们将学习率设置为 5e-5,batch size 为 16,dropout 率为 0.1,并使用 Adam 优化器进行模型优化。 BiLSTM 层的隐藏单元数为 768。训练 epoch 的总数为 3。
2.6 二元分类器及其性能指标
每个 HLA-I 等位基因与其固定长度结合肽之间的预测是一个二元分类模型,二元分类模型的输入是一个 HLA-肽对,其输出是 1 或 0,其中 1 表示肽将与 HLA 等位基因结合,0 表示肽不会结合。七种流行的二元分类器用于建立分类模型,包括逻辑回归(LR)[39]、支持向量机(SVM)[40]、装袋分类器(Bagging)[41]、极端梯度提升(XGBoost)[42] ,k-最近邻(KNN)[43],决策树(Dtree)[44]和朴素贝叶斯(NB)[45]。
二元分类器通过以下五个性能指标进行评估,即接收器操作特征(ROC)曲线下面积(AUC)、灵敏度(Sn)、特异性(Sp)、准确度(ACC)和马修斯相关性系数(MCC)。测量值 TP 和 FN 是真阳性和假阴性的数量。而测量值 TN 和 FP 代表真阴性和假阳性的数量。度量 Sn 和 Sp 定义为 Sn = TP/(TP + FN) 和 Sp = TN/(TN + FP)。整体精度定义为 Acc = (TP + TN)/(TP + FN + TN + FP)。二元分类器预测的相关系数定义为 MCC = (TP × TN-FP × FN)/sqrt((TP + FP) × (TP + FN) × (TN + FP) × (TN + FN) ),其中 sqrt(x) 计算 x 的平方根。AUC 是一种流行的与参数无关的度量,用于描述二元分类器。
分类器使用训练数据集进行训练,并在验证数据集上进行评估。在验证数据集上具有最佳 AUC 值的模型在测试数据集上进行测试。
3.结果与讨论
3.1 模型超参数的评估
对于不同的超参数值,深度学习模型的表现可能会有所不同。我们评估了如图所示的两个主要超参数 Epoch 和 BatchSize。较小的损失值表明更好的模型性能。图 2A 表明模型损失没有随着不同的 epoch 线性变化,并且在 Epoch = 3 之后损失开始增加。因此,当 Epoch = 3 时达到最小损失。对于不同的超参数值也观察到类似的模式批量大小。并且在 BatchSize = 16 时达到了最小损失 0.0891。以下部分使用 Epoch = 3 和 BatchSize = 16 作为默认值。
3.2 预训练模型权重参数的评估
蛋白质进化和结构信息可以通过自我监督训练过程提炼到预训练的 ProtBert 模型中,本节评估这些信息对 HLA-I 结合肽预测的贡献。我们用随机权重初始化 ProtBert 网络,并将这个版本的 ProtBert 表示为 ProtBert_random 模型。我们比较了预训练的 ProtBert 和 ProtBert_random 模型的预测性能以提取序列特征,并使用 softmax 层进行分类评估预测性能。如图所示的实验数据表明,预训练的 ProtBert 模型在所有性能指标上都优于 ProtBert_random 模型。因此,ProtBert 模型在大量全长蛋白质序列下的预训练过程有利于 HLA-A 结合肽的预测任务
3.3 基于self-attention机制对不同模型的评估
本节评估了自注意力机制对整体预测性能的贡献。预训练的 ProtBert 模型基于具有自注意力机制的 Transformer 架构 。 ALBERT 模型共享原始 BERT 模型中注意力层之间的参数,从而显着降低模型复杂度 。 ProtBert 和 ALBERT 都使用了自注意力机制。这两个模型用作序列特征编码器,softmax 层用于分类。图 中描述的实验数据表明,基于 ProtBert 的框架在所有五个性能指标中都优于基于 ALBERT 的模型。因此,自我注意机制和对蛋白质数据的微调都对 HLA-I 结合肽预测任务做出了重要贡献 .
3.4 模块组合的评估
将 BERT 模型提取的特征加载到不同的机器学习和深度学习分类器中。被调查的机器学习分类器包括 SVM、RF 和 XGBoost,深度学习模型包括 BiLSTM、CNN 和全连接神经网络 (FCNN)。 10 折交叉验证实验表明,BERT 模型后跟 BiLSTM 网络达到了最佳的 AUC 值。作者建议使用级联的高维编码器从肽序列中提取潜在特征。
基于这一观察,本研究通过网络模块的不同级联组合构建了特征提取层,用于HLA-I结合肽的预测任务。我们评估了四种不同端到端模块组合的预测性能,包括单独的 ProtBert 模型、与 BiLSTM 级联的 ProtBert 模型、与卷积神经网络 (CNN) 级联的 ProtBert 模型以及具有 BiLSTM 和注意机制的 ProtBert 模型。
训练集用于模型训练,验证集用于模型评估。如图显示最好的模块组合是 ProtBert + BiLSTM。首先,ProtBert 的附加模块 BiLSTM 的 AUC 为 0. 08%,优于单独的模块 ProtBert。如果我们用 CNN 替换 BiLSTM,模块ProtBert + CNN 组合的性能甚至比单独使用 ProtBert 模块还要差。注意层在性能指标 AUC 上没有改进模块组合 ProtBert + BiLSTM,基于消融实验和文献观察,以下部分使用了 ProtBert + BiLSTM 的模块组合。
3.5 特征降维模块的必要性
本研究共调查了 360 个不同的 HLA 结合肽预测任务,样本总数接近 89 万。特征提取步骤使用 ProtBert 和 BiLSTM 级联模块,生成维度为 1536 的特征向量。我们预计它将对具有高维特征的大型数据集进行模型训练特别耗时。我们设计了以下实验来估计整体模型训练时间。
我们选择 HLAA∗02:01 和 9-mer 肽之间的结合预测任务作为示例数据集。
这个预测任务有 23 435 个样本。我们随机选择了 1000, 2000, 3000, . . . , 10 000 个样本作为子数据集来训练模型,而不使用特征降维步骤。实验结果如图 6 所示。根据 10 个示例数据集的模型训练时间,我们拟合数据集大小与模型训练时间之间的函数关系,并使用二次多项式函数逼近非线性关系.拟合函数为 y = 2.58e−7 ∗ x2 − 3.54e−4 ∗ x + 1.91,其中 x 和 y 分别是数据集的大小和模型训练时间(以小时为单位)。
图 6 显示,随着训练样本数量的增加,训练时间增加得非常快。
我们使用 fit 函数估计所有任务的模型训练所需总时间约为 1382.89 小时,或约 57 天。因此,我们在特征选择步骤之前进行了特征降维步骤,以进一步减少模型训练时间。
3.6 不同特征选择算法的性能和选择特征的比率
图 7 显示了在所有 HLAI 绑定预测任务上,通过与七个分类器协作,特征选择算法实现最佳预测性能的次数。一些预测任务可能有不止一种特征选择算法使用相同的分类器实现最佳性能。T-test 为 2121 个预测任务(1275 个)中的 >60% 选择具有最佳分类性能的特征子集,而排名第二的特征选择算法 RF 仅在 26.78%(568 个)预测任务上表现最好。尽管 T 检验在许多 HLA-I 绑定预测任务上表现得非常好,但其余 39.89% 的预测任务依赖于其他特征选择算法来寻找最佳特征子集。因此,本研究使用每个预测任务的训练和验证数据集评估五种特征选择算法,并将验证数据集上的最佳特征选择算法用于测试数据集 .
由于特征选择步骤中选择特征的不同比率对模型性能的影响,评估了 0.15/0.35/0.55/0.75/0.95 五个值。如下图:
因此,本研究对每个预测任务使用了所选特征的三个比率中的最佳选择,即 0.55/0.75/0.95。
3.8 分类器在不同的数据集上表现
七个分类器在等位基因 HLA-A∗01:01 的七个预测任务上表现出不同的预测性能,如图 9A 所示:
由于没有分类器在所有数据集上达到最佳 AUC 值,七个分类器在所有 HLA-I 等位基因上进一步评估,如图 9B 所示:
分类器 LR 在 HLA-I 结合预测任务的七个 k-mer 中的四个 (8/10/12/13) 上实现了最佳平均 AUC 等级。而分类器 XGBoost 仅在两个 k-mer(9 和 14)上实现了最佳 AUC 等级。但是两个分类器 LR 和 XGBoost 在所有 HLA-I 等位基因的所有 k-mers 上的平均 AUC 等级分别为 2.9000 和 2.7728。另一个分类器 SVM 的总体平均 AUC 等级为 2.9245,略低于两个分类器 LR 和 XGBoost 的(2.9000 和 2.7728)。
因此,本研究的以下部分使用不同的特征选择和分类算法为 HLA-I 等位基因的七个 k-mer 提供了最佳模型。
3.7 FCNN 和机器学习分类器
我们在本研究中比较了 FCNN 和机器学习分类器在工程特征上的模型性能,如图 10 所示。为此比较实验选择了五个预测数据集。
图 10 表明,深度神经网络的全连接层通常具有非常好的预测性能,而监督机器学习分类器可以在深度神经网络提取的同一组特征上提供更好的预测结果。因此本研究将分类器算法用于二元分类任务。
3.9 HLA-A∗01:01 测试数据集的性能比较
如图 11A 所示,所提出的 HLAB 在预测与 HLA-A*01:01 等位基因结合的 8 聚体肽方面优于所有七项研究。
如图 11B 所示,算法 NetMHCpan-4.1 在四个肽段长度上实现了最佳预测 AUC 值,而提出的 HLAB 算法在三个肽段上实现了最佳 AUC 值。 但是如果我们计算平均 AUC 值,HLAB 达到了 0.9891,优于 NetMHCpan-4.1 的(0.9869)。因此,所提出的算法 HLAB 在性能指标 AUC 中优于所有现有的关于预测与 HLA-A*01:01 等位基因结合的肽的研究。
如图12,HLAB 的 ROC 曲线用于独立数据集上的 HLA-I 肽结合预测。所有六个预测任务的曲线至少为 0.98。
ROC曲线和AUC值表明,所提出的HLAB算法对不同长度的HLA-I结合肽具有良好的预测性能
3.10 所有 HLA-I 等位基因测试数据集的性能比较
图 13 显示了 HLAB 提出的框架在七个 k-mer 中的六个(除了 9-mer 预测任务)上实现了最佳平均 AUC 值。 HLAB 在平均 AUC 值中将 13-mer 和 14-mer 的预测任务提高了至少 0.0663。
4.结论
本研究针对HLA-I结合肽预测问题提出了特征提取算法HLAB。
实验数据证明了两个 NLP 网络 ProtBert 和 BiLSTM 级联肽编码的必要性。提取的特征可以通过针对不同预测任务的特征选择算法进一步细化。
无监督级联 ProtBert + BiLSTM 模型可能会在未来的研究中针对其他蛋白质序列预测任务进行预训练。例如,II 类 HLA 结合肽的预测可以利用本研究中的框架。潜在的挑战是 II 类 HLA 结合肽的长度范围更广,公开可用的数据集样本较少 。因此,有必要进一步探索如何调整所提出的框架以实现预测 II 类 HLA 结合肽的最佳性能。而且,将无监督级联 ProtBert + BiLSTM 模型应用于翻译后修饰肽的预测任务也是可行的。