㊀2023年6月第38卷第3期㊀㊀㊀㊀㊀㊀㊀㊀
JOURNAL OF LIGHT INDUSTRY㊀Vol.38No.3Jun.2023
收稿日期:2022-12-15;修回日期:2023-02-15;出版日期:2023-06-15
基金项目:国家自然科学基金青年科学基金项目(32101976);河南省科技攻关项目(232102210020);河南省高等学校青年骨干教师培养项目(2019GGJS132);河南省高等学校重点科研项目(22A520013,23B520004)
作者简介:杨学东(1980 ),男,河北省唐山市人,郑州轻工业大学实验师,主要研究方向为生物信息学㊁食品信息学㊂E-mail :yangxd@zzuli.edu
通信作者:王晓(1982 ),男,河南省卫辉市人,郑州轻工业大学副教授,博士,主要研究方向为生物信息学㊁食品信息学㊂E-mail :wangxiao@zzuli.edu.
cn
杨学东,韩丽君,王榕,等.一种基于深度学习的苦味肽精准预测方法[J].轻工学报,2023,38(3):11-16.YANG X D,HAN L J,WANG R,et al.An accurate identification method of bitter peptides based on deep learning [J].Journal of Light Industry,2023,38(3):11-16.DOI:10.12187/2023.03.002
一种基于深度学习的苦味肽精准预测方法
杨学东1,韩丽君1,王榕1,王宏伟2
,王晓1,3
1.郑州轻工业大学计算机与通信工程学院,河南郑州450001;
2.郑州轻工业大学食品与生物工程学院,河南郑州450001;
3.河南省食品安全数据智能重点实验室,河南郑州450001
摘要:鉴于湿实验方法已无法满足快速鉴别苦味肽的需求,提出一种新颖的融合了传统手工特征和预训练深度特征的预测方法Bitter-Fus ㊂该方法首先使用预训练蛋白质序列语言模型自动地从多肽序列中提取深度学习特征,然后将该特征输入长短期记忆(LSTM )网络中进行降维处理以保留与多肽序列最相关的深度特征,最后将降维后的深度特征与传统氨基酸组成(AAC )方法提取的手工特征融合并输入前馈神经网络中构建预测模型㊂验证实验结果表明:预测方法Bitter-Fus 在10折交叉验证测试中获得了0.902的准确性和
0.805的马修斯相关系数,在独立数据集测试中准确性和马修斯相关系数分别达到0.930和0.862,明显优于当前最先进的苦味肽预测方法BERT4Bitter 和iBitter-SCM ㊂关键词:苦味肽;深度学习;特征提取;特征融合
中图分类号:TS201.2;TP399㊀㊀文献标识码:A㊀㊀文章编号:2096-1553(2023)03-0011-06
0 引言
食物经蛋白酶水解后,会生成不同风味的寡聚肽,也称风味肽㊂苦味肽作为一种重要的风味肽,主要来源于酪蛋白㊁玉米蛋白㊁火腿㊁热米粒㊁黄酒等[1],一般由带有疏水侧链的氨基酸残基(ɤ8个)组成,其中疏水侧链与苦味受体结合产生苦味,而苦味程度随着氨基酸残基数量的增加而增强,但当氨基酸残基超过8个时,苦味程度不再继续增强[2-3]㊂苦味肽中的疏水性氨基酸主要包括亮氨酸㊁苯丙氨
酸和甘氨酸3种㊂其中,亮氨酸主要存在于豆类中,从大豆水解蛋白中分离出的苦味肽其C 端通常都含有一个亮氨酸残基,同时,在发酵不充分的纳豆中也发现有部分苦味肽的N 端和C 端含有亮氨酸残基[4]㊂苯丙氨酸存在于大多数苦味肽中,其自身带有微弱的苦味,且其氨基和羧基末端酰基化修饰能进一步增强相应苦味肽的苦味[5]㊂人工合成的甘氨酸肽中有3种短肽(Gly-Leu㊁Val-Gly 和Gly-Phe-Gly)具有苦味,也有一些含甘氨酸的短肽(如Gly-Gly㊁Gly-Ala 和Gly-Glu)不具有苦味[6]㊂由于苦味
11㊃
㊀2023年6月第38卷第3期㊀
肽会降低食物的味觉品质,因而人类和大部分动物会本能地厌恶苦味食物㊂为了改善人们对食物的味觉
体验,苦味肽及苦味抑制技术得到了国内外学者的广泛关注㊂另外,苦味肽通常具有抗菌㊁抗血栓㊁抗氧化㊁血管紧张素转化酶抑制活性等生物活性[7],特别是其天然㊁安全㊁高效的广谱抗菌活性[8-9],可作为抗生素的替代药物㊂因此,对苦味肽
的精准鉴别对于食品和药物研究开发具有重要意义㊂传统的湿实验方法鉴别苦味肽需要耗费大量的人力㊁物力㊁财力和时间成本㊂随着后基因组时代的来临,新产生的多肽序列呈指数级增长,湿实验方法已无法满足快速鉴别苦味肽的需求㊂因此,迫切需要开发基于计算技术的预测方法,以便快速精确地区别苦味肽和非苦味肽㊂手工设计的特征提取方法主要分为基于氨基酸组成(AAC)[10]的方法㊁基于氨基酸物理化学属性的方法和基于序列进化信息的方法㊂这些特征提取方法大都基于单一视角提取特征,并不能全面刻画多肽序列的整体特性,故影响了预测模型的鉴别能力㊂与手工设计的特征提取方法不同,深度学习方法可以直接从原始多肽序列数据中自动学习具有强鉴别能力的特征,已广泛应用于生物信息学和计算生物学领域[11-15]㊂目前,仅有iBitter-SCM[16]和BERT4Bitter[17]这两种预测方法可直接从多肽的氨基酸序列中鉴别苦味肽㊂其中, iBitter-SCM方法通过手工设计的特征提取方法从多肽序列中提取有鉴别能力的特征,进而结合传统机器学习方法构建预测模型;BERT4Bitter方法使用BERT[18]预训练模型自动地从多肽序列中提取特征,预测性能显著优于iBitter-SCM方法㊂
基于此,本文拟提出一种新颖的融合传统手工特征和预训练深度特征的深度学习方法Bitter-Fus㊂该方法首先使用预训练蛋白质序列语言模型Prot-Bert[19]自动地从多肽序列中提取深度学习特征,然后将该深
度学习特征输入长短期记忆网络(LSTM)[20]中进行降维处理,以保留与多肽序列最相关的深度特征,最后将降维处理后的深度特征与基于氨基酸组成的手工特征融合后,输入前馈神经网络中,进而构建苦味肽预测模型实现苦味肽鉴别,并结合相关验证方法验证该预测方法的准确性㊂1㊀相关方法与模型构建
1.1㊀数据集
为了与已有方法进行公平比较,本文使用已有研究中通用的数据集BTP640[16-17]进行预测模型的构建和评测,其中,BTP640数据集包含320个苦味肽和320个非苦味肽,已剔除重复的及包含X㊁B㊁U㊁Z等不确定氨基酸残基的多肽序列㊂为了训练预测模型和验证模型的泛化能力,BTP640数据集以8ʒ2的比例被随机分割为训练集BTP-CV和独立
测试集BTP-TS㊂训练集BTP-CV包含256个苦味肽和256个非苦味肽,而独立测试集BTP-TS包含64个苦味肽和64个非苦味肽㊂BTP640数据集中的苦味肽均从文献中手工收集且经过实验验证,而非苦味肽数据集由于科学意义较小,其中只有很小一部分经过实验验证㊂因此,在生物活性肽序列数据库BIOPEP[21]中随机生成与苦味肽数目相同的多肽序列,将其作为非苦味肽数据集(前提是它们不存在于苦味肽数据集中)用于训练预测模型㊂这种将随机序列作为阴性数据集的方法使用了先前研究中构建阴性数据集的标准过程[22-23],该过程基于发现随机序列为正的概率非常低的假设㊂
1.2㊀多肽序列特征提取
1.2.1㊀传统手工特征提取㊀前期实验发现,与其他手工设计的特征提取方法相比,AAC方法的预测精度较好㊂因此,本文使用AAC方法提取多肽序列的手工特征㊂氨基酸是组成多肽序列的基本物质,自然界中共有20种基本氨基酸㊂多肽序列可看作是由不同数量基本氨基酸通过不同排列组合构成的㊂氨基酸组成则是指这些基本氨基酸在多肽序列中的出现频率㊂假设P是任意一个多肽序列,f(a i)表示氨基酸a i(i=1,2, ,20)在该多肽序列中出现的次数,则多肽序列P可表示为如下向量形式:
P=(p1,p2, ,p
i
, ,p20)T
p i=f(a i)/ð20i=1f(a i)
式中,i=1,2, ,20,p i表示氨基酸a i在多肽序列中的出现频率㊂
1.2.2㊀预训练深度特征提取㊀BERT的模型架构
㊃21㊃
㊀杨学东,等:一种基于深度学习的苦味肽精准预测方法
是一个多层双向变压器编码器,每层有12个或24
个编码器块,分别用于BERT基带和BERT大型模
型㊂其中,每个编码器块由一个多头自注意力子层
和一个完全连接的前馈子层组成,在这两个子层周
围部署剩余连接,进行层规范化㊂ProtBert是A.El-naggar等提出的预训练蛋白质序列语言模型,通过使用UniRef100和BFD这2个数据库的蛋白质序列
微调原始BERT模型而获得,可直接从原始多肽序
列数据中自动学习到具有强鉴别能力的特征㊂其
中,UniRef100数据库是一个广泛使用的参考蛋白质
序列数据库,BFD数据库合并了UniProt数据库中
可使用的所有蛋白质序列及从多个元基因组测序项
目翻译的蛋白质序列㊂本文使用预训练蛋白质序列
语言模型ProtBert提取深度学习特征㊂
1.3㊀融合传统手工特征和预训练深度特征的
预测方法
㊀㊀融合传统手工特征和预训练深度特征的苦味肽预测模型Bitter-Fus的整体架构如图1所示㊂首先,从输入多肽序列中提取潜在特征㊂根据BERT模型的要求,首先输入多肽序列标记化,即将字符 [CLS] 和 [SEP] 添加到整个多肽序列的开头和结尾,并添加位置编码㊂然后,将生成的向量输入预训练蛋白质序
列语言模型ProtBert中以提取深度学习特征㊂经过ProtBert模型训练,每个输入的标记(即每个氨基酸)创建了上下文感知嵌入,也就是特征,输入的多肽序列被编码为1024维的高维特征向量㊂接着,将获得的1024维的高维深度学习特征向量输入长短期记忆(LSTM)网络中㊂LSTM网络基于多肽序列,对输入的特征信息进行提取,并对其中重要的特征进行选择及降维㊂本文使用网格搜索的方法确定LSTM网络的输出层参数,即对高维特征降维后的维度㊂在实验中,将输出层维度分别设置为128㊁256㊁512㊁640和768后进行训练,根据10折交叉验证的平均结果可知,输出层为512维时的模型预测效果最佳㊂故通过LSTM网络降维,最终获得512维的由ProtBerT模型提取的深度特征㊂随后,将该深度特征与传统AAC方法提取的20维手工特征进行特征融合,得到532维的融合特征㊂最后,将该融合特征输入前馈神经网络(使用
Sigmoid
图1㊀融合传统手工特征和预训练深度特征的苦味肽预测模型Bitter-Fus的整体架构Fig.1㊀The overall architecture of a bitter peptide prediction model Bitter-Fus by fusing handcrafted features and pretrained deep features
分类),建立苦味肽分类预测模型㊂
2㊀实验验证与分析
2.1㊀评价指标
在苦味肽预测领域,通常采用以下4个评价指标定量评估预测模型的预测性能:准确性(Acc)㊁马修斯相关系数(MCC)㊁敏感性(Sn)和特异性(Sp)㊂其中,Acc和MCC从总体分别反映预测模型的准确率和稳定性,而Sn和Sp则从局部分别反映预测模型对正类和负类样本的预测准确率㊂这4个评价指标的计算方法如下式所示:
Sn=1-
N+-
N+
㊀㊀0ɤSnɤ1王宏伟个人资料简介
Sp=1-
N-+
N-
㊀㊀0ɤSpɤ1
Acc=1-
N+-+N-+
N++N-
㊀㊀0ɤAccɤ1
M CC=
1-N+-N++N-+N-
()
1+N-+-N+-N+
()1+N+--N-+N-()㊀-1ɤM CCɤ1
式中,N+表示苦味肽样本总数;N+-表示被错误预测为非苦味肽的苦味肽样本数量;N-表示非苦味肽样
㊃31㊃
㊀2023年6月第38卷第3期㊀
本总数;N-+表示被错误预测为苦味肽的非苦味肽样本数量㊂
当N+-=0,即没有苦味肽样本被错误预测为非苦味肽时,预测模型的Sn=1㊂当N+-=N+,即所有苦味肽样本被错误预测为非苦味肽时,预测模型的Sn=0㊂类似地,当N-+=0,即没有非苦味肽样本被错误预测为苦味肽时,预测模型的Sp=1㊂当N-+= N-,即所有非苦味肽样本被错误预测为苦味肽时,预测模型的Sp=0㊂当N+-=N-+=0,即所有苦味肽和非苦味肽样本都未被错误预测时,预测模型的Acc= 1,MCC=1㊂
当N+-=N+且N-+=N-,即所有苦味肽和非苦味肽样本都被错误预测时,预测模型的Acc=0, MCC=-1㊂当N+-=N+/2且N-+=N-/2时,预测模型的Acc=0.5,MCC=0,意味着模型的预测结果与随机猜测相当㊂
2.2㊀交叉验证
交叉验证是一种广泛用于评估机器模型并测试其性能的方法㊂在预测分析中,10折交叉验证测试㊁独立数据集测试和jackknife测试是3种常用的检验模型预测性能的交叉验证方法㊂本文采用10折交叉验证测试和独立数据集测试对模型进行评估㊂在10折交叉验证测试中,首先将数据集拆分为10个相等的部分,依次选择其中9折作为训练集以训练模型,剩余1折作为测试集以验证模型,随后保存其验证结果㊂最后将获得的10次验证结果平均值作为对模型性能的估计值㊂泛化能力决定了预测模型对新输入的适应能力,而检验深度学习模型的泛化能力非常重要,故本文使用独立数据集BTP-TS 对模型进行独立测试,以评估模型的泛化能力和稳定性㊂
2.3㊀本文预测方法与已有预测方法的比较
为了公平比较,笔者在BTP-CV数据集上采用10折交叉验证方法对本文所提预测方法Bitter-Fus 与iBitter-SCM预测方法和BERT4Bitter预测方法的预测性能进行比较分析,3种预测方法的10折交叉验证结果见表1㊂由表1可知,与BERT4Bitter预测方法相比,Bitter-Fus预测方法的Acc和MCC分别提高了4.8%和10.9%,Sn和Sp分别提高了6.2%和3.4%㊂与iBitter-SCM预测方法相比,Bitter-Fus预测方法的Acc和MCC
分别提高了3.6%和7.2%,Sn 和Sp分别提高了1.0%和6.6%㊂10折交叉验证结㊀㊀㊀表1㊀3种预测方法的10折交叉验证结果Table1㊀10-fold cross-validation results
of3prediction methods
预测方法Acc MCC Sn Sp iBitter-SCM0.8710.7510.9130.828 BERT4Bitter0.8610.7260.8680.854 Bitter-Fus0.9020.8050.9220.883
果表明,本文提出的预测方法Bitter-Fus在4个性能指标上都表现优异㊂
为了进一步评估本文所提预测方法Bitter-Fus 的泛化性能,在独立数据集BTP-TS上将其与iBit-ter-SCM预测方法和BERT4Bitter预测方法进行比较分析㊂3种预测方法的独立数据集测试结果见表2㊂由表2可知,Bitter-Fus预测方法在Acc㊁MCC和Sp这3项指标上均优于BERT4Bitter预测方法,其中,Sp提高最多,为7.0%,Acc和MCC分别提高了0.9%和2.1%㊂尽管Bitter-Fus预测方法的Sn略低于BERT4Bitter预测方法,但明显高于iBitter-SCM 预测方法㊂考虑到独立数据集测试是最严格的交叉验证方法,较高的Acc和MCC更可取,由此表明,本文所提预测方法更有效也更稳定㊂综上所述,本文所提预测方法Bitter-Fus的整体性能优于目前最先进的苦味肽预测方法BERT4Bitter和iBitter-SCM,且更精准和稳定㊂
表2㊀3种预测方法的独立数据集测试结果Table2㊀The results of3prediction methods tested
in independent data sets
预测方法Acc MCC Sn Sp iBitter-SCM0.8440.6880.8440.844 BERT4Bitter0.9220.8440.9380.906 Bitter-Fus0.9300.8620.8910.969
3㊀结论
本文针对苦味肽的精准鉴别问题,提出了一种新颖的融合传统手工特征和预训练深度特征的预测方法㊂该方法首先使用预训练蛋白质语言模型ProtBert提取多肽序列的深度学习特征,并与传统手工特征相融合,然后使用LSTM网络进行特征降维处理,保留与多肽序列最相关的特征以使模型整体预测性能大幅度提高㊂10折交叉验证测试和独立数据集测试结果表明,该方法的Acc分别达到
㊃41㊃
㊀杨学东,等:一种基于深度学习的苦味肽精准预测方法
0.902和0.930,MCC分别达到0.805和0.862,且与当前最先进的苦味肽鉴别方法BERT4Bitter和iBitter-SCM相比,Acc㊁MCC㊁Sn和Sp这4项性能指标均有明显提高㊂在苦味肽的鉴别预测领域,本文所提预测方法有望成为一种有潜力的预测工具㊂此外,将传统手工特征与ProtBert深度学习特征融合的特征工程模块也可应用于其他基于蛋白质序列的预测任务中,并可使下游预测模型获得更全面的序列信息,进而使预测模型得以更充分的训练从而获得更好的预测效果㊂
参考文献:
[1]㊀刘桃妹.风味增强肽及其应用研究[J].江苏调味副食
品,2014(3):5-8.
[2]㊀王知非,林璐,孙伟峰,等.苦味肽和苦味受体研究进
展[J].中国调味品,2016,41(9):152-156.
[3]㊀毕继才,崔震昆,张令文,等.苦味传递机制与苦味肽
研究进展[J].食品工业科技,2018,39(11):333-338.
[4]㊀司阔林,李志国,李玲玉,等.干酪苦味肽的形成及脱
苦方法研究进展[J].食品工业,2021,42(3):267-
271.
[5]㊀郭兴峰,魏芳,周祥山,等.苦味肽的形成机理及脱苦
技术研究进展[J].食品研究与开发,2017,38(21):
207-211.
[6]㊀应欣,张连慧,陈卫华.蛋白水解物苦味形成㊁评价及
功能活性的研究进展[J].中国粮油学报,2017,32
(12):141-146.
[7]㊀邓尚贵,余妙灵,甄兴华,等.苦味肽抗氧化活性延长
食品保鲜[J].食品安全质量检测学报,2020,11(2):
375-380.
[8]㊀杨保军,梁琪,宋雪梅.基于计算机虚拟技术研究牦牛
乳硬质干酪苦味肽的抑菌活性差异[J].食品与生物
技术学报,2021,40(12):75-87.
[9]㊀杨保军,梁琪,宋雪梅.牦牛乳干酪苦味肽ACE抑制活
性表征的分子机制[J].中国食品学报,2022,22(5):8-
17.
[10]CHOU K C.Using amphiphilic pseudo amino acid compo-
sition to predict enzyme subfamily classes[J].Bioinfor-
matics,2005,21(1):10-19.
[11]BO W C,QIN D Y,ZHENG X,et al.Prediction of bitter-
ant and sweetener using structure-taste relationship mod-
els based on an artificial neural network[J].Food
Research International,2022,153:110974. [12]HUANG W K,SHEN Q C,SU X B,et al.BitterX:A tool
for understanding bitter taste in humans[J].Scientific
Reports,2016,6(1):23450.
[13]ZHANG Y Q,ZHU G C,LI K W,et al.HLAB:Learning
the BiLSTM features from the ProtBert-encoded proteins
for the class I HLA-peptide binding prediction[J].Brief-
ings in Bioinformatics,2022,23(5):bbac173. [14]WANG Z F,LEI X J.Prediction of RBP binding sites on
circRNAs using an LSTM-based deep sequence learning
architecture[J].Briefings in Bioinformatics,2021,22(6):
bbab342.
[15]GUO Y C,YAN K,LYU H W,et al.PreTP-EL:Prediction
of therapeutic peptides based on ensemble learning[J].
Briefings in Bioinformatics,2021,22(6):bbab358. [16]CHAROENKWAN P,YANA J,SCHADUANGRAT N,
et al.iBitter-SCM:Identification and characterization of
bitter peptides using a scoring card method with propensity
scores of dipeptides[J].Genomics,2020,112(4):2813-
2822.
[17]CHAROENKWAN P,NANTASENAMAT C,HASAN M M,
et al.BERT4Bitter:A bidirectional encoder representa-
tions from transformers(BERT)-based model for impro-
ving the prediction of bitter peptides[J].Bioinformatics,
2021,37(17):2556-2562.
[18]DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-train-
ing of deep bidirectional transformers for language under-
standing[C]ʊAssociation for Computational Linguistics.
Proceedings of the2019Conference of the North Ameri-
can Chapter of the Association for Computational Linguis-
tics:Human Language Technologies.Minneapolis,Minne-
sota:Association for Computational Linguistics,2019:
4171-4186.
[19]ELNAGGAR A,HEINZINGER M,DALLAGO C,et al.
ProtTrans:Towards cracking the language of lifes code
through self-supervised deep learning and high perform-
ance computing[J].IEEE Transactions on Pattern Analy-
sis and Machine Intelligence,2022,44(10):7112-7127.
[20]HOCHREITER S,SCHMIDHUBER J.Long short-term
memory[J].Neural Computation,1997,9(8):1735-
1780.
[21]MINKIEWICZ P,DZIUBA J,IWANIAK A,et al.BIOPEP
database and other programs for processing bioactive pep-
tide sequences[J].Journal of AOAC International,2008,
91(4):965-980.
[22]GAUTAM A,CHAUDHARY K,KUMAR R,et al.In silico
approaches for designing highly effective cell penetrating
peptides[J].Journal of Translational Medicine,2013,11
(1):74.
[23]KUMAR R,CHAUDHARY K,CHAUHAN J S,et al.An
in silico platform for predicting,screening and designing
of antihypertensive peptides[J].Scientific Reports,2015,
5(1):12512.
㊃51㊃