龚意辉,唐诗眙,周桂花,等.黄荆坪竹根椒叶绿体基因密码子使用偏好性及影响因素分析[J].江苏农业科学,2023,51(20):28-34.doi:10.15889/j.issn.1002-1302.2023.20.005
黄荆坪竹根椒叶绿体基因组密码子使用偏好性
及影响因素分析
龚意辉1,唐诗眙1,周桂花1,陈 磊1,张 斌1,李 鹏2
(1.湖南人文科技学院农业与生物技术学院,湖南娄底417000;2.湘潭市农业科学研究所,湖南湘潭411134)
  摘要:为了解黄荆坪竹根椒(CapsicumannuumL.cvHuangJingping)叶绿体基因组密码子使用模式,以其51条蛋白编码序列(codingsequence,CDS)为研究对象,采用CodonW1.4.2、CUSP、Excel2010、SPSS16.0等软件对黄荆坪竹根椒密码子的G
C含量、有效密码子值(ENC)、RSCU、中性绘图、ENC-plot、PR2-plot、最优密码子及其影响因素进行详细的分析。结果表明,黄荆坪竹根椒密码子第1位(GC1)、第2位(
GC2)、第3位(GC3)中的GC含量分别为42 68%、36.25%、27.89%,其中GC1>GC2>GC3,表明密码子第3位碱基以A/U结尾为主;ENC值介于34.10%~54 31%之间,平均值为46.55%,表明黄荆坪竹根椒密码子偏好性较弱。相关性分析结果表明:(1)GC1与GC2呈极显著正相关,GCall与GC1、GC2、GC3均为极显著正相关;(2)ENC与GC1、GC2均不存在显著相关关系,但与GC3存在极显著相关关系。R
SCU分析结果显示:在黄荆坪竹根椒叶绿体基因组中共有30个高频密码子的RSCU>1,其中以U、A、G结尾的高频密码子数分别为16、13、1个,表明黄荆坪竹根椒密码子第3位偏好以A或U结尾。ENC-plot绘图分析结果表明,黄荆坪竹根椒基因组中大多数基因位于标准曲线下方,有13个基因的ENC比值介于-0.05~0.05之间,说明选择压力主要影响黄荆坪竹根椒密码子的偏好性;PR2-plot分析结果表明,黄荆坪竹根椒叶绿体基因组中大部分基因位于平面图的右下方,即T>A、G>C,表明碱基突变、自然选择压力等多种因素共同影响黄荆坪竹根椒密码子的偏好性。在黄荆坪竹根椒叶绿体基因组中共筛选出GCA、GCU、AGA等19个最优密码子并全部以A/U结尾。本研究结果可为进一步开展黄荆坪竹根椒性状改良、遗传进化及叶绿体基因工程的应用提供分子理论支撑。  关键词:黄荆坪竹根椒;叶绿体基因组;密码子偏好性;最优密码子
  中图分类号:S641.301  文献标志码:A  文章编号:1002-1302(2023)20
-0028-06
收稿日期:2022-12-22
基金项目:湖南省教育厅科学研究重点项目(编号:20A281);湖南省自然科学基金面上项目(编号:2021JJ30376);湖南省科技特派员服务乡村振兴项目(编号:2022NK4218);湘潭市农业科学研究所横向项目(编号:
380220590112)。作者简介:龚意辉(1988—),男,湖南涟源人,博士,讲师,主要从事园艺作物分子生物学方向研究。E-mail:gyhzgh@163.com。通信作者:李 鹏,农艺师,主要从事果蔬分子生物学方向研究。E-mail:907653797@qq.com。
  密码子是构成原核生物与真核生物遗传信息的基本单元,在生物体转录、翻译过程中起着非常重要的作用。自然界中64种密码子编码20种氨基酸和3种终止密码子(TGA、TAA和TAG),除甲硫氨酸(
Met)和酪氨酸(Trp)外,其余18种氨基酸均有多个同义密码子与之对应。同义密码子在不同物种叶绿体基因组中,甚至在同种物种同样基因中
的使用频率也不是均等的[1]
。同义密码子使用频
率的差异性称之为密码子偏好性(
synonymouscodonusagebias,SCUB)。越来越多的研究表明,不同植物中密码子的偏好性不同,例如天山雪莲(Saussurea
involucrata)[2]
、云南樟(Cinnamomumglanduliferum)[3]、橄榄(Canariumalbum)[4]
。因此,对植物密码子的偏好性进行深入探究,不仅有利于明确植物的分类与鉴定[5],而且还可根据最优密码
子设计植物的外源基因,进一步提高外源基因的表达丰度及转化效率,从分子角度全面解析植物的进
化过程[6]。
叶绿体是植物进行光合作用的重要场所,为植物的正常生长提供源源不断的营养物质。叶绿体拥有一套完整的遗传信息,能进行母系遗传,长度
大小一般为120~160kb,具有高度保守的特征[7]。因此,叶绿体基因组学在物种遗传分类、鉴定、进化规律、基因工程等方面有重要的研究意义[8-9]。植
物叶绿体全基因组伴随着现代高通量测序技术的快速发展而不断被美国国家生物技术信息中心(NCBI)数据库收录,已有越来越多的学者在植物中
开展叶绿体基因组密码子的偏好性研究,例如,萝卜(RaphanussativusL.)[10]、苋菜(AmaranthustricolorL.)[11]、莲藕(NelumbonuciferaGaertn)[12]。因此,分析植物密码子的偏好性及其影响因素不仅可以确定该物种的最优密码子,然后根据最优密码子设计基因表达载体,进一步提高外源基因的表达水平,从而有利于阐明植物适应外界环境的分子机制。
黄荆坪竹根椒(CapsicumannuumL.cvHuangJingping)是茄科(Solanaceae)辣椒属(Capsicum)一年或有限多年生草本植物,主要分布在湘潭市黄荆坪排头乡。黄荆坪竹根椒因个体细长、泽鲜艳、皮薄肉多、味道鲜美而深受广大消费者的青睐。近年来,黄荆坪竹根椒规模及产业发展迅速,现已成为湘潭市黄荆坪排头乡实现乡村振兴、农民
致富的重要支柱产业。目前有关辣椒的研究主要集中在高产高效技术栽培[13]、遗传育种[14]、品质评价[15]等方面,随着黄荆坪竹根椒全基因组测序和拼接组装工作的完成,目前国内外有关黄荆坪竹根椒密码子偏好性的研究还尚未见报道。本研究对黄荆坪竹根椒密码子的碱基组成及其各相关参数进行分析,首次阐明黄荆坪竹根椒密码子偏好性使用的特征,从而在黄荆坪竹根椒叶绿体基因组中遴选出最优密码子,并明确影响黄荆坪竹根椒密码子偏好性的主要因素,以期为今后进一步开展黄荆坪竹根椒性状改良、进化规律及叶绿体基因工程的应用提供分子理论支撑。
1 材料与方法
1.1 黄荆坪竹根椒叶绿体全基因序列的获得2022年5月15日采集湘潭市农业科学研究所种苗中心的黄荆坪竹根椒幼嫩叶片,经液氮速冻后送华智生物技术有限公司进行叶绿体基因组测序,采用Illumina/MGI测序平台完成了黄荆坪竹根椒叶绿体基因组的测序,全长为156817bp,包括82个蛋白编码基因(CDS),GenBank登录号为OP919650.1。在筛选黄荆坪竹根椒蛋白编码基因时,首先删除重复序列,然后选择ATG作为起始密码子,TGA、TAA和TAG为终止密码子,且以编码序列大于300bp的叶绿体基因用于密码子偏好性分析,最后共得到51个满足条件的CDS序列。
1.2 中性绘图分析
参照Liu等的方法[16],计算黄荆坪竹根椒叶绿体密码子第3位中的GC含量(GC
),以GC
为横坐
标,密码子第1、第2位中的平均GC含量(GC
12
)为纵坐标,制作散点图进行相关性分析。
1.3 相对同义密码子使用度分析
参照原晓龙等的方法[17],使用CodonW软件分别统计黄荆坪竹根椒各密码子的相对同义密码子使用度(relativesynonymouscodonusage,RSCU),将黄荆坪竹根椒密码子的RSCU>1定义为高频密码子。
1.4 ENC-plot绘图分析
参照Fuglsang的方法[18],分别以黄荆坪竹根椒
的GC
3s
、有效密码子ENC(effectivenumberofcondon)为横坐标和纵坐标,绘制散点图,其ENC的
计算公式为ENC=2+GC
3s
+29/[GC2
3s
+(1-
GC
3s
)2]。结合黄荆坪竹根椒的ENC比值频数分布对其差异进行定量分析,以ENC值为-0.05~0.05区间作为具体的判断标准。
1.5 PR2-plot绘图分析
参照Sueoka的方法[19],分别统计黄荆坪竹根
椒密码子第3位中碱基组成(G
、C
、A
、T
)比例,
分别以G
/(G
+C
)、A
/(A
+T
)为横坐标和纵坐标进行黄荆坪竹根椒的PR2偏倚分析。
1.6 最优密码子分析
参照原晓龙等的方法[17],最优密码子以黄荆坪竹根椒的ENC值作为衡量密码子偏性标准,分别在两端挑选最高和最低的10%基因构建黄荆坪竹根椒高低基因表达库,分别计算黄荆坪竹根椒各高低基因的RSCU和ΔRSCU值,将同时符合高频率密码子(RSCU>1)和高表达密码子(ΔRSCU≥0.08)2个条件的密码子定义为最优密码子。
2 结果与分析
2.1 黄荆坪竹根椒相关偏性指数分析
利用在线软件CodonW1.4.2和CUSP软件对黄荆坪竹根椒叶绿体中的51条CDS序列
进行分析,其各基因不同位置的GC含量和ENC值如表1所示,51条CDS密码子中的总GC含量介于
30.73%~45.32%之间,平均GC含量(GC
all
)为
35.61%,GC
含量介于34.39%~58.88%之间,平
均GC含量为42.68%,GC
含量介于29.13%~
56 83%之间,平均GC含量为36.25%,GC
含量介于18.52%~37 39%之间,平均GC含量为27 89%,其结果说明黄荆坪竹根椒密码子不同位置
表1 黄荆坪竹根椒密码子不同位置的GC含量% 基因GC1GC2GC3GCallENCaccD40.4036.7830.2535.8147.13atpA55.7139.9626.7740.8146.20atpB57.1141.4831.0643.2251.27atpE53.7339.5530.6041.2949.23atpF46.4935.1432.4338.0243.20atpI49.6037.5027.4238.1744.62ccsA34.3938.2226.7533.1246.75cemA38.7029.1333.0433.6248.58clpP158.8838.0732.4943.1551.75matK37.6532.7527.8432.7548.99ndhA43.9639.0124.1835.7142.04ndhB41.6838.5531.5137.2546.35ndhC46.2832.2331.4036.6451.33ndhE39.2232.3524.5132.0342.26ndhF37.5236.1726.3233.3342.35ndhG42.9434.4620.9032.7741.72ndhH51.0236.5529.1938.9248.99ndhI44.0535.1228.5735.9152.65ndhJ50
.9437.7435.2241.3053.95ndhK44.7643.1527.0238.3149.59pafI48.5237.8730.7739.0554.31pafII43.2440.5430.8138.2051.83petA52.3437.6933.9641.3352.54petB49.0741.6732.8741.2047.95petD50.9338.5124.2237.8941.77psaA52.8643.4132.4942.9247.66psaB48.9843.1331.5641.2246.66psbA49.7243.5035.3142.8441.58psbB54.8146.3729.8643.6844.84psbD51.6943.5033.3342.8445.84rbcL58.1643.3130.1343.8648.15rpl1455.2837.4024.3939.0243.23rpl1651.8552.5918.5240.9936.31rpl250.5548.3632.3643.7651.51rpl2040.8846.5435.2240.8843.99rpl2239.1039.1029.4935.9048.54rpoA43.4932.2525.4433.7345.70rpoB50.8938.3827.0838.7847.10rpoC151.1737.6827.5738.8147.58rpoC246.8037.8730.7438.4748.80rps1155.4056.8323.7445.3248.54rps1251.6148.3928.2342.7443.82rps1443.5646.5333.6641.2536.35rps1837.2541.1
827.4535.2945.62rps243.0443.4629.5438.6848.96rps346.1234.7025.1135.3148.83rps451.4937.1325.2537.9552.89rps751.9244.8723.0839.9642.28rps842.2240.0022.9635.0634.10ycf136.5029.3726.3230.7347.02ycf242.2035.1137.3938.2351.15平均值42.6836.2527.8935.6146.55  注:GC1、GC2、GC3分别表示密码子第1、2、3位碱基中的GC含量,GCall:密码子总GC含量。的GC含量存在差异,GC
>GC
>GC
,表明在黄荆
坪竹根椒密码子第3位多为A/T碱基;ENC值介于34.10%~54.31%之间,平均值为46.55%,其中35条CDS的ENC值高于45.00%,占总编码基因数的68.63%;可判断出黄荆坪竹根椒密码子的使用偏好性较弱。
  对黄荆坪竹根椒叶绿体密码子各项系数进行
相关性分析(表2),GC
all
与GC
、GC
、GC
均呈极显
著相关(P<0.01);GC改密码qq
与GC
呈极显著相关,但与
GC
相关性不显著,说明黄荆坪竹根椒密码子第1
位和第2位碱基组成存在相似性;ENC与GC
呈极
显著相关,其相关系数为0.448,但与GC
和GC
不存在显著相关性,说明GC
碱基组成主要影响黄荆坪竹根椒密码子的偏好性。
表2 黄荆坪竹根椒密码子的相关性分析
密码子
相关系数
GC1GC2GC3GCallENCGC20.442  1.000-0.028 0.751  -0.237GC30.053-0.0281.0000.389  0.448  GCall0.822  0.751  0.389  1.0000.139ENC0.158-0.2370.448  0.1391.000  注:  表示极显著相关(P<0.01)。
  根据黄荆坪竹根椒的RSCU分析可知,在黄荆坪竹根椒叶绿体基因组中共有30个高频密码子的RSCU>1,其中以U、A、G结尾的高频密码子数分别为16、13、1个(表3),表明黄荆坪竹根椒密码子第3位偏好以A或U结尾。
2.2 中性绘图分析
中性绘图分析结果(图1)表明,GC
取值介于
18.52%~37.39%之间,GC
12
取值介于31.76%~57.86%之间,黄荆坪竹根椒全部基因分布在对角线之上,回归系数为0.0221,r2为0.02,说明黄荆坪
竹根椒叶绿体基因组中GC
12
和GC
的相关性显著,说明黄荆坪竹根椒密码子第1位和第2位与第3位的碱基组成不同但不存在显著性相关,说明自然选择主要影响黄荆坪竹根椒偏好性的形成。
2.3 ENC-plot绘图分析
黄荆坪竹根椒叶绿体基因组密码子的ENC-plot分析结果(图2)表明,黄荆坪竹根椒少数基因沿着标准曲线周围分布,说明黄荆坪竹根椒密码子的实际ENC值与期望ENC值接近,大部分基
因则分布在标准曲线下方,并且与标准曲线相距较远,表明自然选择主要影响黄荆坪竹根椒叶绿体基因
表3 黄荆坪竹根椒叶绿体基因组相对同义密码子使用度分析
组密码子的偏好性。通过计算黄荆坪竹根椒密码子的ENC比值(表4),ENC比值介于-0.05~0.05区间的基因共有13个,而ENC比值位于这个范围之外的基因共有38个,且距期望ENC值较远,说明
表4 黄荆坪竹根椒叶绿体基因ENC比值频数分布
组段组中值组数(个)组频-0.15~-0.05-0.1010.02
-0.05~0.050.00130.25
0.05~0.150.10300.59
0.15~0.250.2040.08
0.25~0.350.3030.06合计511.00
这些基因与标准曲线相距较远,说明选择压力主要影响黄荆坪竹根椒密码子的偏好性。
2.4 PR2-plot分析
采用PR2-plot绘图对黄荆坪竹根椒叶绿体基因氨基酸A、G和T、C之间的关系进行分析(
图3),在黄荆坪竹根椒叶绿体基因组中大多数基因位于平面图的下半部分,说明A、G、T、C4种碱基的使用频率存在差异,即T>A,G>C;这表明碱基突变、自然选择压力等多种因素共同影响黄荆坪竹根椒密码子的偏好性。
2.5 最优密码子的确定
对黄荆坪竹根椒51条CDS的ENC值进行排序,从两极分别挑选10%的基因建立高低表达库,计算各密码子的RSCU值、ΔRSCU值,将同时符合RSCU>1且ΔRSCU≥0.08这2个条件的密码子确
定为黄荆坪竹根椒的最优密码子(表5),结合表3统计的30个RSCU>1的高频密码子,有26个密码子的ΔRSCU≥0.08,最终在黄荆坪竹根椒叶绿体基因组中筛选出19个最优密码子,分别为GCA、GCU、AGA、CGA、UGU、CAA、GAA、GGU、AUU、CUA、CUU、AAA、CCA、CCU、UCU、ACA、ACU、GUA、GUU,其中10个最优密码子以A结尾,9个最优密码子以U结尾,说明黄荆坪竹根椒密码子偏好使用A/U。
表5 黄荆坪竹根椒最优密码子分析
  注: 、  、  分别表示ΔRSCU≥0.08、ΔRSCU≥0.3、ΔRSCU≥0.5。
3 结论与讨论
密码子偏好性是有效分析原核生物和真核生物进化特征的一个重要手段[20]。大量研究结果表明,密码子偏好性受多种生物因素的影响,例如基因表达丰度、基因片段大小、tRNA丰度、碱基组成及突变等因素均可以影响物种密码子的使用模式[21]。然而,已有研究报道碱基突变和自然选择是决定物种密码子使用偏性的重要原因,已被广泛用于阐明物种基因组密码子使用的特异性[17]。据报道,在植物中,核苷酸组成在核基因组密码子偏性形成中发挥重要作用,但自然选择则在植物线粒体基因组和叶绿体基因组密码子偏好性形成中发挥重要作用[22-23]。本研究系统分析了影响黄荆坪竹根椒密码子偏好性的主要因素,中性分析表明,黄荆坪竹根椒基因组中GC
12
和GC
不存在显著相关性,且回归方程斜率较低,说明自然选择可能比突变更能影响黄荆坪竹根椒密码子偏好性的形成。
本研究发现黄荆坪竹根椒密码子GC
1(42 68%)>GC
(36.25%)>GC
(27.89%),GC