西北农业学报2021,30(3):351-364
Acta Agriculturae Boreaii-occid entalie Sinica
网络出版日期:2021-03-18di10.7606/j.issn.1004-1389.2021.03.004网络出版地址:knski net/kcms/detail/61.1220.S.20210317.1352.004.html
小麦KUP/HAK/KT基因家族的全基因组鉴定、
系统进化和表达模式分析
吴胜男】,杨媛】,李英壮】,王娜】,谢彦周】,简俊涛2,杨辉2,王成社1
(1.西北农林科技大学农学院,旱区作物逆境生物学国家重点实验室,
陕西杨凌712100;.南阳市农业科学院,河南南阳473000)
摘要为深入发掘小麦KUP/HAK/KT基因的功能,利用小麦最新基因组数据,通过生物信息学手段,对小麦KUP/HAK/KT基因家族进行基因组水平的鉴定,并对其系统进化及表达模式进行分析。鉴定结果表明,本研究在小麦中鉴定到98个KUP/HAK/KT基因,根据系统进化分析结果,可将其分为Cluster I、Clu
ster H、Cluster皿和ClusterJV4个进化簇,不同进化簇具有特异的基因结构。染体定位结果表明,小麦21条染体上均含有KUP/HAK/KT基因,每条染体上有2〜9个KUP/HAK/KT基因。通过对小麦KUP/HAK/KT基因复制事件的分析发现小麦KUP/HAK/KT基因共产生92个基因复制。此外,转录组数据分析发现小麦KUP/HAK/KT基因在逆境胁迫下存在差异表达,多个胁迫响应相关的KUP/HAK/ KT基因被鉴定到,为小麦KUP/HAK/KT基因功能的研究提供了初步的理论依据。
关键词小麦KUP/HAK/KT;系统进化;表达模式
中图分类号S512.1;S330文献标志码A
钾是植物必需的大量营养元素,占植物总干质量的2%〜7%[1]。K+在维持细胞质的电荷平衡、细胞膨压、关键酶促反应的激活、促进细胞延伸和渗透调节等多种生理活动中起至关重要的作用⑵。植物对K的吸收和运输主要通过K+通道蛋白协助完成[]。研究表明,在外界K+浓度较低的条件下,植物主要依靠高亲和力K+转运蛋白来获取生长发育所需的K+⑷。前人在拟南芥和水稻中已经鉴定的K+转运蛋白基因主要分为四大家族:KUP/HAK/KT、Trk/HKT、KEA 及CHX5。KUP/HAK/KUP最早是于大肠杆菌中被鉴定发现的,是最大的K+转运蛋白家族,为H+和K+同向转运蛋白,被认为在维持植物生长发育和介导细胞内钾的积累方面起着重要作用,一般具有10〜14个跨膜结构域,在第2和第3跨膜区之间拥有一个较长的环形结构(p-loop)6。迄今为止,在拟南芥水稻玉米⑼、大豆[10],苹果[11],毛果杨[12]中均有针对KUP/HAK/KT基因家族的系统报道,且多个
文章编号1004-1389(021)03-0351-14
物种中KUP/HAK/KT基因已被克隆。作为最大的钾转运蛋白家族,HAK/KUP/KT家族被分为4个组,即簇I、簇H、簇皿和簇V8。
植物含有多种HAK/KUP/KT转运蛋白,它们在钾的吸收和转运以及植物生长发育、耐盐性和渗透势调节中发挥着不同的作用。拟南芥和水稻中钾转运突变体的存在,使人们更好地理解了它们在钾吸收和转运中的作用。如OsAKT1、AtHAK5、OsAKT5和ThHAK5在低K条件下,能显著提升酵母和大肠杆菌对K的吸收[315]。拟南芥中AtHAK5、AtHAK6、AtHAK2、AtKUP4和AtKUP11可以响应盐胁迫[16];过表达水稻OsHAK5的烟草可显著提高K+从根部转运到地上部的能力,从而增加其对盐胁迫的耐受性;芦苇PhaHAK2在耐盐材料中转录本显著增加[17。生长激素可以通过调节Os-HAK5的K+/H+协同转运活性从而促进植物体对K+的吸收;AtKUP4可参与形成拟南芥根毛,TRH1/KUP4是植物适应环境中根毛发育
收稿日期:2020-05-15修回日期:2020-06-23
基金项目:国家重点研发计划(2016YFD0102101);国家自然科学基金(1101139)。
第一作者:吴胜男,男,硕士研究生,从事小麦遗传育种研究。E-mail:wushengnan666@163
通信作者:王成社,男,教授,博士生导师,主要从事小麦遗传育种研究。E-mail:wangcs2008@126.
com
-352-西北农业学报30卷
及生长素途径的交叉点[18]。水稻OsHAKl、OsHAK19和OsHAK20可通过HAK/KUP/ KT转运蛋白介导花粉管生长所需要的K+稳定态[19]。因此鉴定和克隆植物KUP/HAK/KT 基因,在提高植物对K+的吸收和转运方面,以及响应逆境胁迫具有很大的潜力。
小麦作为世界上最重要的粮食作物,因其是异源六倍体,以及基因组巨大而复杂(约17Gb),且首个六倍体小麦基因组图谱于2018年完成,这限制了对小麦KUP/HAK/KT基因的深入研究。因此本试验用筛选到的小麦、水稻、拟南芥、二穗短柄草、大麦、高粱和玉米KUP/ HAK/KT基因构建系统发育进化树,
并进一步分析了保守结构域、基因结构、染体分布、基因复制、GO功能注释以及表达模式,以期为后续小麦KUP/HAK/KT基因的功能机制和改良小麦性状奠定基础。
1材料与方法
1.1小麦KUP/HAK/KT基因家族成员的筛选
从Ensembl Plants数据库(http://plants. ensembl or g/index thml)中下载小麦的蛋白序列数据、基因组序列和注释文件,并建立本地数据库,使用拟南芥的KUP/HAK/KT蛋白质序列进行BLASTP搜索,筛选阈值设为E<le-50此外在Pfam数据库(h t p://pfam xfam org/) 中下载KUP/HAK/KT结构域(Pfam02705)作为搜索模型,通过HMM3.0软件搜索小麦蛋白质数据库,阈值设为E<le-5,筛选含有KUP/HAK/ KT结构域的蛋白序列。整合两种方法筛选到的蛋白序列,去除冗余和不完整的序列。利用SMART,Pfam和NCBI-CDD数据库对候选蛋白质进行检测,得到最终的小麦KUP/HAK/KT蛋白基因家族序列。最终利用cello数据库(h-tp://ce l o life nctu edu tw/)和ExPASy(ht-
tp://web expasy org/protparam/)进行亚细胞定位、氨基酸长度、蛋白质的分子量和等电点分析[21]。
1.2系统发育树的构建、基因结构、保守结构域序列分析
为了解KUP/HAK/KT基因在禾本科间的进化关系,从TRAI网站(https:///)下载拟南芥KUP/HAK/KT蛋白序列、MSU数据库(h t p://rice plantbiology msu.edu/)下载水稻KUP/HAK/KT白序列,Ensemblplants(h t p://plants ensembl org/in-dex.html)下载二穗短柄草、大麦、高粱和玉米的KUP/HAK/KT蛋白序列,并根据是否含有保守结构域对其进行鉴定,含有保守结构域的KUP/
HAK/KT蛋白被保留下来作进一步分析。基于MAFFT软件进行多重序列比对[22],利用RAx-ML软件,PROTGAMMAJTT模型构建禾本科KUP/HAK/KT系统发育进化树[23]。使用MEME服务器(http://meme-suit/org/)搜索小麦KUP/HAK/KT蛋白序列中的保守基序(mo-
tifs)。根据KUP/HAK/KT基因的cDNA、CDS和全长序列,通过在线软件GSDS2.0(h--tp:/gsdscbi pku cn/)对基因的外显子/内含子结构进行可视化分析。
1.3小麦KUP/HAK/KT基因本体论(GO)注释分析
利用blastp搜索到的小麦KUP/HAK/KT 的蛋白质序列提交的eggNOG-mapper数据库(eggnog-mapper,embl.de/)[4]进行GO 注释分析,使用BGIWEGO进行可视化[25],对KUP/HAK/KT基因进行功能注释。
1.4染体定位和基因复制事件分析
从Ensembl Plants数据库获得小麦KUP/ HAK/KT基因在染体上的位置信息。利用Circos v067工具进行可视化小麦KUP/HAK/ KT基因的复制事件[6]。使用KaKs calculator 软件计算Ka/Ks比值及进化年限[27]。
1.5表达模式分析
从NCBI-SRA(h t p://www ncbinlm nig gov/sra/)数据库获得了干旱胁迫(SRR10990683-SRR10990700),热胁迫(SRR6128107-SRR6128115)和DDT胁迫(SRR8745812-SRR8745820)的转录组数据。使用hisat2和featurecount软件进行转录组分析,计算KUP/HAK/KT基因在不同胁迫下的TPM表达量,利用R语言绘制小麦KUP/ HAK/KT基因的表达量热图。
2结果与分析
2.1小麦KUP/HAK/KT基因家族成员的鉴定
为了从小麦全基因组中筛选并鉴定编码小麦KUP/HAK/KT基因,通过HMM模型和Blast 程序搜索小麦基因组和蛋白组数据库。去除冗余
3期吴胜男等:小麦KUP/H.AK/KT基因家族的全基因组鉴定、系统进化和表达模式分析・353・
后共鉴定到98条编码完整KUP/IAK/KT结构域的小麦KUP/HAK/KT基因,根据其染体位置和系统进化关系进行命名。小麦KUP/ IAK/KT蛋白质存在较大差异(表1),蛋白质长度为93〜1172aa,分子质量为10518〜130495.3u,其中TaHAK皿A-7A-1含有最短的氨基酸序列为93aa,TaHAK I A-5D-3含有最长的氨基酸序列为1172aa,小麦KUP/IAK/KT 蛋白质的等电点为4.18-9.44,平均值为&03。进一步亚细胞定位发现,98个KUP/HAK/KT 基因全部定位到质膜上。
表1小麦KVP/HAK/KT基因家族基因的特征
Table1Characteristic features of KVP/HAK/KT gene family in wheat
物理位置KUP/IAK/KT蛋白质的特征
基因名称Genename 基因序列号
GeneID
染体
Chrom
No
Physicalposition PropertiesofKUP/IAK/KTproteins
起始位置
Start
终止位置
End
蛋白质长度/aa
Proteinlength
分子质量/u
Molecularmass
等电点
PI
TallAKI A2A TraesCS2A02G2561002A392724197392729349875978792889 TallAKI A-2B TraesCS2B02G2864002B394359693394364641873977290881 TallAKI A-2D TraesCS2D02G2666002D325359967325365065878983467888 TallAKI A-5A-1TraesCS5A02G3729005A570937774570941462421463432651 TallAKI A-5B-1TraesCS5B02G3749005B552293788552297311421463432651 TallAKI A-5D-1TraesCS5D02G3824005D452217248452221005421463292651 TallAKI A-5B-2TraesCS5B02G4280005B603953936603956730421468366572 TallAKI A-5D-2TraesCS5D02G4341005D489774653489777453421468366572 TallAKI A-5A-3TraesCS5A02G0873005A11657378011658210011701302661739 TallAKI A-5B-3TraesCS5B02G0932005B12242382712243195711711303561728 TallAKI A-5D-3TraesCS5D02G0989005D1103710091103787681172130495375 TallAKI A6A TraesCS6A02G2942006A526114470526120699806913553913 TallAKI A-B TraesCS6B02G3248006B574459083574465329802909388914 TallAKI A-6D TraesCS6D02G2751006D384217111384223442805912011913 TallAKI B-2A-1TraesCS2A02G2893002A497652197497657341772861700876 TallAKI B-2B-1TraesCS2B02G3059002B43623704743624282676885618591 TallAKI B-2D-1TraesCS2D02G2873002D367502186367507539776864204888 TallAKI B-2A-2TraesCS2A02G289
4002A498042127498044136500563116814 TallAKI B-2B-2TraesCS2B02G3060002B436956645436961938777869167716 TallAKI B-2D-2TraesCS2D02G2874002D367918402367923536774865584732 TallAKI B3A TraesCS3A02G4783003A710698989710701829747829165853 TallAKI B-3B TraesCS3B02G5218003B765001993765005074745824201817 TallAKI B-3D TraesCS3D02G4734003D574916504574919777744823059799 TallAKI B-3A-1TraesCS3A02G4467003A686845698686854898776858104846 TallAKI B-3B-1TraesCS3B02G4820003B729377320729387298787869508859 TallAKI B-3D-1TraesCS3D02G4393003D549634016549641080783864250884 TallAKI B-3A-2TraesCS3A02G4466003A686834648686839665787871690823 TallAKI B-3B-2TraesCS3B02G4818003B729204692729210096783868707846 TallAKI B-3D-2TraesCS3D02G4392003D549623291549628498786870018852 TallAKI B-4A TraesCS4A02G4102004A683484905683488490778866103899 TallAKI B-4B TraesCS4B02G3103004B600654585600658522778867125888 TallAKI B-4D TraesCS4D02G3082004D476302939476306610778866884876 TallAKI B-6A-1TraesCS6A02G0630006A3358274233586036735810293799 TallAKI B-6B-1TraesCS6B02G0842006B6122340161226301737813757785 TallAKI B-6D-1TraesCS6D02G06180
06D2893990528943241734809714817 TallAKI B-6A-2TraesCS6A02G0627006A3353976333543179740812639818 TallAKI B-6B-2TraesCS6B02G0840006B6086088760865106736810318872
-354-西北农业学报30卷(续表1Continued table1)
物理位置KUP/HAK/KT蛋白质的特征
基因名称Genename 基因序列号
GeneID
染体
Chrom
No
Physicalposition Properties of KUP/HAK/KT proteins
起始位置
Start
终止位置
End
蛋白质长度/aa
Proteinlength
分子质量/u
Molecularmass
等电点
PI
TallAKl B-6D-2TraesCS6D02G0622006D2899818829001661738809816871 TaIIAKUA-1A TraesCS1A02G3204001A511009417511015060820906560728 TaIIAKUA-1B TraesCS1B02G3326001B559092320559097912800881093747 TaIIAKUA-lD TraesCS1D02G32020
01D414282820414287346817902855739 TaIIAKUA-2A TraesCS2A02G1167002A667987806680551577886562787 TallAK U A-2B TraesCS2B02G1359002B102971930102978550778864716856 TaIIAKU A-2D TraesCS2D02G1184002D6755589467562036778864835879 TaIIAKUA-A TraesCS3A02G4580003A695495958695502465784875466892 TaIIAK U A-3B TraesCS3B02G4982003B741857081741863328784875477901 TaIIAKU A-3D TraesCS3D02G4508003D559071912559078118784875607892 TaIIAKU A-A TraesCS7A02G4693007A665742886665751773760841597841 TaIIAKU A-7B TraesCS7B02G3711007B637225120637233491760841837841 TaIIAK UA-7D TraesCS7D02G4569007D575502091575510965760842317841 TaIIAK U-A TraesCS2A02G1071002A5955405859558659782871149785 TaIIAK U B-2B TraesCS2B02G1237002B9125680091261379782869748807 TaIIAK U B-2D TraesCS2D02G1066002D5877717658781472780868475796 TaIIAK U B-4A TraesCS4A02G1363004A190823379190835376462515602805 TaIIAK U B-4B TraesCS4B02G1684004B368411260368420475780866274737 TaIIAK U B-4D TraesCS4D02G1709004D297358206297385317780868337738 TaIIAK U B-6A TraesCS6A02G2919006A523944232523950482769848762824 TaIIAK U B6B TraesCS6B02G3223
006B570976629570983055768850004804 TallAKU B-6D TraesCS6D02G2731006D381994141382000776768847621817 TaIIAK U B-7A-1TraesCS7A02G2099007A172464805172470087772853087789 TallAKU B-7B-1TraesCS7B02G1167007B135578175135583147771852096778 TaIIAK U B-7D-1TraesCS7D02G2118007D169910706169916257771852406778 TaIIAK U B-7A-2TraesCS7A02G3936007A571701040571705983829910986834 TaIIAK U B-7B-2TraesCS7B02G2956007B532275520532279555825906272834 TallAKU B-7D-2TraesCS7D02G3889007D504174143504179016827908343841 TaIIAK^A-1A TraesCS1A02G0472001A2918638329192077790884999785 TaIIAK川A-B TraesCS1B02G0612001B4573720245742703783877502801 TaIIAK川A-1D TraesCS1D02G0482001D2819789128203566790883958798 TaIIAK川A-A TraesCS2A02G4226002A677524804677530472792889182843 TaIIAK^A-2B TraesCS2B02G4411002B632915735632921095792888481834 TaIIAK川A-2D TraesCS2D02G4190002D53313227953313761379288745825 TaIIAK1HA-5A TraesCS5A02G3661005A56575284256575851678587762984 TaIIAK^A-5B TraesCS5B02G3685005B546826331546832103785878219858 TaIIAK川A-5D TraesCS5D02G3757005D447880556447885805785877248827 TaIIAK川A-A-TraesCS7A02G14500
07A962038489620443693105180418 TaIIAK^B-2A-1TraesCS2A02G4270002A680077310680084238877972845576 TaIIAK^B-2B-1TraesCS2B02G4474002B640334480640341450856950450549 TaIIAK^B-2D-1TraesCS2D02G4251002D537501142537507896856951020529 TaIIAK^B-2A-2TraesCS2A02G2256002A231347815231369634853946898651 TaIIAK^B-2B-2TraesCS2B02G2491002B256949593256966391853945095579 TaIIAK^B-2D-2TraesCS2D02G2315002D203039948203052478853945415579
3期吴胜男等:小麦KUP/H.AK/KT基因家族的全基因组鉴定、系统进化和表达模式分析•355•
(续表1Continued table1)
物理位置KUP/IIAK/KT蛋白质的特征
基因名称Genename 基因序列号
GeneID
染体
Chrom
No
Physicalposition Properties of KUP/HAK/KT proteins
英壮
起始位置
Start
终止位置
End
蛋白质长度/aa
Proteinlength
分子质量/u
Molecularmass
等电点
PI
TaHAK川-A TraesCS5A02G1987005A403350828403355421814900464687 TaHAK^B-SB TraesCS5B02G1973005B3556856883556904599161018762678 TaIIAK^B-5D TraesCS5D02G2046005D309784596309789223898992993798 TaHAKV A-5A-1TraesCS5A02G2333005A448614339448619942719790451894 TaHAKV A-5B-1TraesCS5B02G2318005B40895519340896157169175673801 TaHAKV A-5D-1TraesCS5D02G2402005D348479747348485739719790171872 TaIIAKVA-5A-2TraesCS5A02G2332005A448602858448607957712787953905 THIAKV A-5B-2TraesCS5B02G2317005B408437145408456435678757300944 TaHAKV A-5D-2TraesCS5D02G2401005D348346856348352006712789124936 TaHAKV A-7A-2TraesCS7A02G0710007A3664839836651772686764282793 TaHAKV A-7D-2TraesCS7D02G0662007D3699399836997103725808722825 TaIIAKVB-3A-3TraesCS3A02G4506003A689132248689135127732806024881 TaHAKV B-3B-3TraesCS3B02G4877003B733748647733751514732806845885 TaIIAKVB-3D-3TraesCS3D02G4434003D552878586552881514778858826889 TaIIAKVB-7A-3TraesCS7A02G2468007A226752723226756922731813716916 TaHAKlV B-7B-3TraesCS7B02G14
45007B186816424186820503711796285932 THIAKVB-7D-3TraesCS7D02G2456007D214348346214352509730813975916
2.2系统发育树的构建、蛋白质保守结构域和基因结构分析
大量研究表明植物KUP/HAK/KT家族是个多基因家族,本研究通过在TRAI网站(h-tps:///)下载拟南芥KUP/HAK/KT蛋白序列、MSU数据库(h-tp:/rice plantbiology msu edu/)下载水稻
KUP/HAK/KT蛋白序列,Ensembl plants(h-tp:///index.htm1)下载二穗短柄草、大麦、高粱和玉米KUP/HAK/KT蛋白序列,并根据是否含有保守结构域对其进行鉴定,含有保守结构域的KUP/HAK/KT蛋白被保留下来做进一步分析。本研究共鉴定到284个KUP/HAK/KT基因(表2),其中分别在拟南芥、二穗短柄草、大麦、水稻、高粱和玉米基因组发现了14、29、35、33、32和42个。其中拟南芥KUP/HAK/KT基因数目最少,小麦中KUP/ HAK/KT基因数目最多,其他5种禾本科作物中KUP/HAK/KT基因数目相差不大。
为进一步分析小麦KUP/HAK/KT基因家族与禾本科作物的进化关系,将搜索到的拟南芥和6种禾本科植物共283个KUP/HAK/KT 基因进行多序列比对,构建拟南芥和6种禾本科植物的系统发育进化树。结果(图1)发现KUP/ HAK/KT家族基因大致可以分为4个进化簇,将禾本科KUP/HAK/KT基因的4个
进化簇分别命名为Cluster I、Cluster H、Cluster皿、Clus-terV,又进一步分为IA、IB、HA、HB、MA、M B、VA和VB8个亚类。其中Cluster I的成员数目最多(03),V亚家族成员数目最少(5)。可以看出除拟南芥外的6种禾本科植物均包含Cluster I-V,且均呈现出Cluster I和Cluster H 的成员数目远多于Cluster皿和Cluster V。在每一个亚组中,如果同一物种中含有多个KUP/ HAK/KT基因则可能发生了基因复制,而某个物种在某个亚组缺乏代表成员则可能发生基因的丢失事件。通过禾本科系统发育进化树笔者发现,在一些亚组中,同一物种的KUP/HAK/KT 基因成对存在,如在H A亚组中,各包含4个二穗短柄草、大麦、水稻和玉米的KUP/HAK/KT 基因。各个亚组中均没有缺失某一物种的代表成员。因此认为每个亚组由一个祖先KUP/ HAK/KT基因经过复制以及物种分化而来,这对后续判断KUP/HAK/KT基因家族在禾本科植物中的进化和起源具有指导意义。