㊀㊀㊀㊀㊀㊀㊀㊀2024年4月第39卷第2期JOURNAL OF LIGHT INDUSTRY㊀Vol.39No.2Apr.2024
㊀收稿日期:2023-10-19;修回日期:2024-01-25;出版日期:2024-04-15
基金项目:国家自然科学基金青年科学基金项目(32101976,61906175);河南省科技攻关项目(232102210020,20210221014);河南省高等学校重点科研项目(22A520013,23B520004)
作者简介:王晓(1982 ),男,河南省卫辉市人,郑州轻工业大学副教授,博士,主要研究方向为人工智能㊁生物信息学和食品信息学㊂E-mail :wangxiao@zzuli.edu.
cn
王晓,吴洲,王宏伟,等.基于深度学习和蛋白质语言模型的抗菌肽预测模型研究[J].轻工学报,2024,39(2):12-18.
WANG X,WU Z,WANG H W,et al.Research on antimicrobial peptide prediction model based on deep learning and protein language model[J].Journal of Light Industry,2024,39(2):12-18.DOI:10.12187/2024.02.002
基于深度学习和蛋白质语言模型的抗菌肽预测模型研究
王晓1,2,吴洲1,王宏伟3,王榕4,陈浩然1
1.郑州轻工业大学计算机科学与技术学院,河南郑州450001;
2.河南省食品安全数据智能重点实验室,河南郑州450001;
3.郑州轻工业大学食品与生物工程学院,河南郑州450001;
4.郑州轻工业大学电子信息学院,河南郑州450001
摘要:针对目前已有抗菌肽(Antimicrobial Peptides ,AMPs )预测模型的准确度(ACC )仍有待提高的问题,提出一种新的基于深度学习和蛋白质语言模型的抗菌肽预测模型DeepGlap ,该模型分别采用两个蛋白质语言模型对抗菌肽序列进行特征提取,将提取的特征向量融合后输入由多层双向长短记忆网络(mBi-LSTM )㊁一维卷积神经网络(1D-CNN )和注意力机制组成的深度学习网络中,并进行性能评估与优化㊂结果表明:该模型的ACC ㊁皮尔逊相关系数(MCC )和曲线下的面积(AUC )分别为0.739㊁0.489和0.81,优于已有抗菌肽预测模型的预测效果㊂
关键词:抗菌肽;预测模型;食源性病原体;蛋白质语言模型;深度学习网络
中图分类号:TS201.2;TP399㊀㊀文献标识码:A㊀㊀文章编号:2096-1553(2024)02-0012-07
0 引言
食源性病原体是导致食品安全问题的重要来源之一,研究[1]表明,在畜禽养殖过程中使用抗生素会产生具有耐药性的人畜共患食源性病原体㊂抗菌肽(Antimicrobial Peptides,AMPs)作为抗生素的一
种潜在替代品,是一类广泛存在于动植物体内的具有抗菌活性的小分子蛋白质或多肽,通过破坏细胞
膜㊁干扰蛋白质合成㊁促使微生物发生自我毁灭等方式杀灭细菌㊁真菌㊁病毒等微生物或抑制这些微生物
生长繁殖[2]㊂
抗菌肽的鉴别有助于减轻抗生素依赖,降低因
畜禽养殖过度使用抗生素而带来的耐药性病原体风险,对于研发新型抗菌剂㊁有效保障食品安全和维护公共健康具有重要意义㊂然而,通过湿实验来鉴别抗菌肽操作复杂,且耗费大量的时间与资源[3],因此有必要借助现代计算科学手段开发更高效的抗菌肽预测模型㊂目前,预测抗菌肽的计算方法主要有:1)传统的机器学习方法㊂其中,支持向量机㊁随机森林㊁XGBOOST 及集成学习都得到了广泛应用,如
21㊃
㊀王晓,等:基于深度学习和蛋白质语言模型的抗菌肽预测模型研究
ClassAMP使用随机森林和支持向量机实现了抗菌肽的预测[4];iAMPpred引入蛋白质序列的结构特征和理化性质,并与传统手工特征合并后输入支持向量机以进行抗菌肽的分类预测,可进一步提高抗菌肽的预测精度[5];IAMPE利用氨基酸的CNMR光谱提取特征向量,并与蛋白质的传统手工特征向量融合后输入支持向量机和随机森林来实现抗菌肽的分类预测,该方法获得了较好的预测精度[6];AMPfun 则通过提取序列的n-gram特征㊁AAC特征㊁理化性质等特征向量,并输入支持向量机中以实现抗菌肽的分类预测,进一步提高了抗菌肽的预测精度[7]㊂2)新型的机器学习方法㊂如iAMPCN通过不同的卷积神经网络(CNN)提取4种不同编码方法的特征向量,在实现抗菌肽分类预测的基础上,首次实现了抗菌肽的功能预测[8];sAMPpred-GAT使用图注意力机制,将结构特征引入深度学习网络中,进一步提高了抗菌肽的预测精度[9]㊂
大语言模型是能够基于原有文本来预测下一个字符或词汇的一类神经网络,而蛋白质语言模型是大语言模型在生化领域的迁移应用,在输入蛋白质序列并学习序列中隐含的生化性质㊁结构信息等内在规律后,生成蛋白质的特征向量,这些特征向量可用于预测多种蛋白质属性㊂研究[10]表明,多种下游任务使用蛋白质语言模型进行预测,均取得了较好的效果㊂基于此,本文拟设计一种新的基于深度学习和蛋白质语言模型的抗菌肽预测模型DeepGlap,将两个蛋白质语言模型所生成的特征向量融合后,输入由多层双向长短记忆网络(mBi-LSTM)㊁一维卷积神经网络(1D-CNN)和注意力机制所组成的深度学习网络
中,并对该模型的准确性进行验证,以期获得更好的抗菌肽预测效果㊂
1㊀数据集与数据预处理
迄今为止,已建立了大量的抗菌肽数据库,其中APD(Antimicrobial Peptide Database)作为早期建立的抗菌肽数据库之一,包含不同生物界(细菌㊁真菌㊁动物等)的抗菌肽数据,以及这些抗菌肽的分类㊁结构㊁活性等信息[11];LAMP(Linking Antimicro-bial Peptide)提供了各种生物体内外来源的抗菌肽序列信息,以及相关的文献引用和其他注释数据[12];CAMP(Collection of Anti-Microbial Peptides)汇集了来自不同物种的抗菌肽信息,包含各种结构分类信息[13];DBAASP(Database of Antimicrobial Activity and Structure of Peptides)是一个用于存储和提供抗菌肽信息的数据库,包括抗菌肽的序列㊁结构㊁抗菌活性㊁相关文献引用等信息[14];DRAMP (Data Repository of Antimicrobial Peptides)是一个综合的抗菌肽数据库,包含抗菌肽的结构数据㊁注释条目等[15];SATPdb(Database of Structurally Annotated Therapeutic Peptides)可提供大量的抗菌肽结构数据,其主要部分是通过计算工具预测获取的[16]㊂这些数据库的建立为研究人员提供了便利,有助于推动抗菌肽领域的深入研究㊂
为了消除不同数据库数据分布不同所带来的影响,本文将一个综合基准评测数据集用于模型的训练和验证,该数据集包含了来自APD㊁LAMP㊁CAMP㊁DBAASP㊁DRAMP和SATPdb这6个数据库的抗菌肽和非抗菌肽数据㊂由于新数据库可能参考了较早数据库的数据,不同数据库之间的数据可能有重叠,因
此本文采用CD-HIT工具[17]消除冗余数据,即当来自不同数据库的肽序列之间的相似度高于90%时,将其中一条数据删除㊂根据Y.Zhang 等[18]和K.Yan等[9]的研究,肽链过长可能会产生更复杂的结构,导致蛋白质难以合成,而肽链过短又可能无法包含足够的功能性位点或结构域,且在环境中易发生降解[19],故本文选择长度为10~100个氨基酸的序列,并删除包含非标准氨基酸(B,J,O, U)的序列,最终获得包含4550条抗菌肽和4550条非抗菌肽的基准评测数据集㊂
本文采用CD-HIT工具删除独立测试集XUA-MP(包含1536条抗菌肽和1536条非抗菌肽)[19]与基准评测数据集中相似度高于90%的肽序列,确保数据的独立性,从而更客观地评价预测模型的泛化能力㊂
2㊀特征提取
传统手工特征提取方法通常依赖专家知识提取蛋白质序列的生化统计信息,无法全面准确地反映
㊃31㊃
㊀2024年4月第39卷第2期㊀
蛋白质序列的复杂模式特征;而蛋白质语言模型通
过无监督深度学习技术,学习数亿条蛋白质序列的
复杂依赖关系和结构信息,可以全面准确地提取蛋
白质序列的特征㊂因此,本文使用蛋白质语言模型Unirep和Protbert对抗菌肽序列分别进行特征提取,并将提取的特征向量进行融合,从而获得更全面
的抗菌肽特征向量㊂
2.1㊀Unirep蛋白质语言模型
Unirep蛋白质语言模型采用长短时记忆网络(Long Short Memory Network,LSTM)作为基础架构,通过预测序列中下一个氨基酸值是否与真实氨基酸值相同,不断优化LSTM,最终使用多个LSTM的隐藏层单元平均值作为序列的特征向量㊂Unirep蛋白质语言模型使用多个图形处理器(Graphics Process-ing Unit,GPU),在UniRef50蛋白质数据库中约2400万条蛋白质序列上进行为期3周的训练[20],最终将不同长度的蛋白质序列映射为统一长度的1900维特征向量,通过这种方式可有效将具有较低统一性的蛋白质序列划分为结构相似性较高的类别㊂
2.2㊀ProtBert蛋白质语言模型ProtBert蛋白质语言模型作为Transformer/ BERT架构的创新模型,使用来自BDF蛋白质数据库和UniRef50蛋白质数据库中超过2ˑ108条蛋白质序列进行广泛的训练,最终实现将不同长度的蛋白质序列映射为统一长度的1024维特征向量㊂该模型汲取了Transformer架构中的多头注意力机制,在较高水平全局特征的基础上能更加突出蛋白质序列的局部特征[21]㊂
3㊀深度学习网络模型
抗菌肽预测模型的预测流程为:首先,将抗菌肽
序列分别输入蛋白质语言模型Unirep和ProtBert
中,得到对应的1900维特征向量和1024维特征向
量,并将这两个特征向量进行特征融合;随后,将融
合的特征向量依次输入由mBi-LSTM㊁1D-CNN和注
意力机制组成的深度学习网络中;最后,输入由Flatten操作㊁批归一化(Batch-Normalize)和Sigmoid 激活函数组成的输出层中,完成抗菌肽的分类预测㊂
本文所提出的模型采用ReduceLROnPlateau动态学习率算法,该算法是深度学习框架PyTorch中的学习率调度器之一,可在训练过程中根据验证集上的性能指标动态调整学习率,如在验证集性能停止提升时降低学习率,以帮助模型更好地收敛㊂具体而言,当测试集的准确度(ACC)连续两个epoch 保持不变时,ReduceLROnPlateau动态学习率算法会将学习率调整为原学习率的0.7倍,直到达到最大epoch值为止㊂
本文在模型训练过程中采用二分类交叉熵损失函数,损失(Loss)的计算方法如式①㊁式②所示㊂
Loss=1NðN n=1l n①l n=y n㊃log x n+(1-y n)㊃log(1-x n)②式中,l n是单个样本的损失值,n是当前样本标号, N是样本数量,x n是模型输出,y n是真实标签㊂本文利用ADAM算法优化模型,批量大小为64,初始学习率为0.001,并采用十折交叉验证,每一折包含20个epoch㊂
3.1㊀mBi-LSTM
循环神经网络(Rerrent Neural Network,RNN)已广泛应用于处理时间序列和文本数据,但在处理较长序列数据时,存在无法提取序列的长期依赖的限制㊂为了解决这个问题,学者们将LSTM作为RNN的一种变体㊂LSTM引入细胞状态的概念,以保持前后时刻之间的信息流动,并通过遗忘门㊁输入门和输出门这3个门结构对输入信息和隐藏状态进行调控㊂
王宏伟个人资料简介然而,传统RNN和LSTM在信息传递方面都是单向的,无法获取未来状态的信息㊂蛋白质序列可类比为生物学上的一种语言:肽段相当于句子,而氨基酸残基则类似于单词㊂因此,氨基酸残基之间的上下文关系对预测结果至关重要㊂为了弥补LSTM 的局限性,本文采用mBi-LSTM从相反的方向学习传统特征向量的输入,在不同方向上捕捉序列中的关键模式和信息,从而更全面地表征蛋白质序列,更好地学习和捕获更复杂序列数据中的依赖关系㊂3.2㊀1D-CNN
1D-CNN作为深度学习中提取一维数据的网络
㊃41㊃
㊀王晓,等:基于深度学习和蛋白质语言模型的抗菌肽预测模型研究架构,可用于序列数据的特征提取㊂1D-CNN能接
收来自mBi-LSTM层的输出向量,捕捉序列中的局
部特征,并通过堆叠多个卷积层,学习更高级㊁更抽
象的特征向量㊂
3.3㊀注意力机制
注意力机制最初是为了解决机器翻译任务而提
出的,在自然语言处理领域有着广泛的应用㊂随着
研究的不断深入,注意力机制在计算机视觉领域和
图像处理领域均取得了突出的成果,其善于从输入
数据中挖掘重要信息,并有效地集成多视图特
征[22]㊂此外,注意力机制常与RNN相结合用于生
物信息学,且在生物序列分析问题中取得了较高的
性能得分[23]㊂
3.4㊀输出层
输出层的作用是将神经网络处理后的特征向量
进行变形㊁加工,最终输出Flatten操作㊁批归一化㊁Sigmoid激活函数等分类结果㊂其中,Flatten是神经
网络中的一种操作,通常用于从多维输入数据中拉
平数据维度,以便将其作为全连接层的输入㊂在本
文中,由1D-CNN输出的向量维度为3维,通过Flat-ten可将其变成2维,以便于输入全连接层进行后续
分类处理㊂批归一化的主要思想是在每个训练批次
的数据上进行归一化,以确保输入数据的分布稳定
性㊂具体操作为:计算每个批次数据的平均值和标
准差,然后对数据进行归一化,使其平均值为0,标
准差为1㊂计算方法如式③所示㊂
x i+1=x i-μB
σBα
+β③
式中,x i+1是批归一化后的数据,μB是数据样本的平均值,σB是数据样本的标准差,α和β分别是对数据样本进行的拉伸和偏移,i是x的时间步㊂对特征向量进行所有处理后,通过线性层对其进行分类,验证是否为抗菌肽㊂线性层有较高的分辨能力,如式④所示㊂
x t=W t l x(t-1)+b t④式中,x t和x(t-1)分别是输出向量和输入向量,W t l是权重矩阵,b t是线性层的偏差,t㊁l是时间步序号㊂除第一层和最后一层外,将批归一化用于每个线性层的输出;将Sigmoid激活函数用于最后一层的输出㊂Sigmoid激活函数可将输出转化为0~1,并以此作为概率,认为ȡ0.5的输出为抗菌肽,<0.5的输出为非抗菌肽㊂Sigmoid激活函数如式⑤所示㊂
S(x)=11+e-x⑤式中,x为最后一层的输出㊂
4㊀模型性能评估与优化
4.1㊀性能评估
通过对模型性能进行评估,可在众多参数的组合中选出最适合该预测模型的参数组合,从而有效预测抗菌肽㊂在本文中利用5个指标来评估模型性能,其计算公式如式⑥所示㊂
ACC=TP+TN
TP+TN+FN+FP
MCC=TPˑTN-FNˑFP
(TP+FN)(TP+FP)(TN+FP)(TN+FN)
Sn=TP
TP+TN
Sp=TN
FP+TN
ì
î
í
ï
ï
ï
ï
ïï
ï
ï
ï
ï
ï
式中,TP㊁FP㊁TN和FN分别是真阳性㊁假阳性㊁真阴性和假阴性;当ACC=1时,说明所有的抗菌肽预测正确,当ACC=0时,说明所有的抗菌肽预测错误;MCC是皮尔逊相关系数,MCC越接近1,则表示模型综合性能越高,MCC越接近0,则表示模型性能越接近随机分类器,MCC越接近-1,则表示模型的综合性
能越差;Sp是模型的特指度,Sn是模型的灵敏度,二者分别代表模型预测抗菌肽和非抗菌肽的能力㊂
4.2㊀模型优化
为了使融合向量能更好地反映抗菌肽特征,本文在使用基准评测数据集进行训练和验证时,尝试不同的特征向量融合方法,包括自注意力机制融合特征向量㊁交叉注意力机制融合特征向量和向量拼接,并采用十折交叉验证来保证实验结果的可靠性㊂不同特征向量融合方法的效果见表1㊂由表1可知,向量拼接法对应的ACC最高,模型预测效果最好㊂4.3㊀参数优化
4.3.1㊀mBi-LSTM层参数优化㊀为了使mBi-LSTM
㊃51㊃
㊀2024年4月第39卷第2期㊀
达到最优效果,训练过程中在基准数据集上进行mBi-LSTM层参数优化,并采用十折交叉验证来保证实验结果的可靠性㊂mBi-LSTM的层数分别设置为1~7层,不同mBi-LSTM层参数优化的效果见表2㊂由表2可知,当mBi-LSTM层数设置为2层时, ACC最高,模型预测效果最好㊂
4.3.2㊀1D-CNN层参数优化㊀为了使1D-CNN层能更好地处理mBi-LSTM层的输出向量,训练过程中在
基准评测数据集上进行1D-CNN层的参数优化,并使用十折交叉验证来保证实验结果的可靠性㊂1D-CNN层的输入通道数分别设置为2个㊁4个㊁6个㊁8个和10个,卷积核感受野大小分别设置为1600㊁1800㊁2000㊁2200和2400,不同通道数模型及不同卷积核感受野大小模型的效果分别见表3和表4㊂由表3和表4可知,输入通道为2个㊁卷积核感受野大小为2000的模型ACC最高,模型预测效果最好㊂
表1㊀不同特征向量融合方法的效果
Table1㊀Effect of different teature vector
fusion methods
方法ACC MCC Sp Sn
自注意力机制0.640.300.750.54交叉注意力机制0.500.00  1.000.00向量拼接0.740.480.630.84
表2㊀不同mBi-LSTM层参数优化的效果
Table2㊀Effect of optimizing parameters
of different mBi-LSTM layers
层数/层ACC MCC Sp Sn 10.700.410.830.56 20.740.490.840.64 30.680.380.610.75 40.700.410.670.74 50.710.440.850.56 60.710.430.740.67 70.720.440.790.63
表3㊀不同通道数模型的效果
Table3㊀Effect of models with different
channel number
通道数/个ACC MCC Sp Sn
20.730.490.840.64
40.690.430.900.49
60.700.420.800.60
80.700.410.730.67
100.710.420.750.665㊀实验结果分析
本文将所提出的模型DeepGlap与10种较先进的预测模型(包括amPEPpy㊁AMPfun㊁AMPEP㊁ADAM-HMM㊁AMPIR㊁AMPScannerV2㊁AMPGram㊁Deep-AMPEP30㊁CAMP-ANN㊁sAMPpred-GAT)在独立测试集XUAMP上进行比较,结果见表5㊂由表5可知,本文所提出的模型DeepGlap在ACC㊁MCC和Sn方面均有较好的性能,表明模型的准确率和泛化能力均达到了较高水平㊂而模型Deep-AMPEP30的Sp虽达到了1.000,但Sn非常小,说明该模型大幅度偏向于预测正样本,综合预测精度较差㊂为了进一步验证模型的优劣性,本文采用ROC (Receiver Operating Characteristic)曲线下的面积(Area Under the Curve,AUC)来评估模型的性能, AUC越大,表示模型的性能越好,误报率越低,反之模型性能越差,误报率越高㊂不同模型的AUC如图1所示㊂由图1可知,本文所提出的模型DeepGlap 的AUC最大(为0.81),表明该模型拥有更好的预测能力,且误报率较低㊂
表4㊀不同卷积核感受野大小模型的效果Table4㊀Effect of models with different convolution
kernel receptive field sizes
卷积核感受野大小ACC MCC Sp Sn 16000.660.390.690.70
18000.660.400.940.39
20000.700.490.840.63
22000.710.430.790.62
24000.700.420.840.56
表5㊀不同模型在独立测试集XUAMP上的效果
Table5㊀Effect of different models on the
independent test set XUAMP
模型ACC MCC Sn Sp
amPEPpy0.6790.4310.4000.958
AMPfun0.6740.4140.4060.943
AMPEP0.6610.4290.3300.992 ADAM-HMM0.6840.3900.5210.847
AMPIR0.5630.1560.2660.859 AMPScannerV20.5680.1370.5230.613 AMPGram0.5640.1310.4450.682 Deep-AMPEP300.5330.1830.065  1.000 CAMP-ANN0.5840.1820.3850.782 sAMPpred-GAT0.7150.4640.5300.900
DeepGlap0.7390.4890.6350.843
㊃61㊃