櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄
  济南:山东大学,2007.
[16]王晓东.转基因小麦抗旱性生理生化及农艺性状鉴定[D].杨
凌:西北农林科技大学,
2016:7-48.[17]闫建俊,白云凤,左静静,等.转基因马铃薯外源基因插入位点
分析及检测方法的建立[J].分子植物育种,2020,18(16):5361-5366. 
[18]游 朝,晁朝霞,姚正培,等.转MvNHX1和MvP5CS基因棉花
耐盐抗旱性比较与育种价值分析[J].棉花学报,2015,27(3):198-207.
[19]易小平,谭燕华,彭存智,等.转基因作物安全评价的检测技术
[J].热带生物学报,2015,6(1):98-104.
[20]康 丹,方小艳,游腾飞,等.染体步移技术克隆已知序列侧
翼启动子的研究进展[J].农业生物技术学报,2013,21(3):355-366. 
[21]赵才美,黄兴奇,殷富有,等.水稻NAC转录因子家族的研究进
展[
J].植物科学学报,2020,38(2):278-287.[22]段晓亮,许兰杰,刘志勇,等.转基因小麦外源基因插入位点初步分
析及检测方法的建立[J].粮油食品科技,2014,22(4):76-81.[23]姜子焱.梭梭HaNAC38、HaNAC42启动子克隆和转录因子特性
分析[D].乌鲁木齐:新疆农业大学,2018:3-37.
[24]涂松林,施爱民.我国转基因棉花研究与应用进展[J].江西棉
改密码qq花,2001,23(1):9-13.
[25]陈秀兰,张玉忠,张 军.棉花分子育种研究进展[J].棉花学
报,
1997,9(1):5-8.[26]王瑞芳,胡银松,高文蕊,等.植物NAC转录因子家族在抗逆响
应中的功能[
J].植物生理学报,2014,50(10):1494-1500.[27]王志霞.转基因棉花研究进展[J].江苏农业学报,2003,19
(2):74.
[28]林 清,彭于发,吴 红,等.转基因作物及产品检测技术研究
进展[J].西南农业学报,2009,22(2):513-517.
[29]王淑君,曲延英,倪志勇,等.转CarNAC1基因可提高棉花的抗
旱性[
J].干旱地区农业研究,2018,36(4):272-281.余 涛,蒲 芬,管 芹,等.南欧大戟叶绿体基因组密码子偏好性分析[J].江苏农业科学,2023,51(15):35-41.
doi:10.15889/j.issn.1002-1302.2023.15.006
南欧大戟叶绿体基因组密码子偏好性分析
余 涛,蒲 芬,管 芹,范 敏
(大理大学药学院,云南大理671000)
  摘要:为了揭示南欧大戟叶绿体基因组密码子使用偏性及形成原因,以南欧大戟叶绿体基因组中长度大于300bp的非重复蛋白质编码序列为研究对象,利用CodonW1.4.1、CUSP在线程序等生物信息学分析工具对其密码子偏性及使用模式进行分析。结果表明,南欧大戟叶绿体基因组密码子中相对同义密码子使用度>1的有31个,其中以A/U结尾的占71%,表明其偏好使用以A/U结尾的密码子;有效密码子数均值为46.74,说明密码子使用的偏好性较弱;GC1与GC2呈极显著相关,GC3与GC2、GC1无显著相关性,表明密码子第3位碱基与其他位置碱基的组成有差异;此外,ENC与GC3呈极显著相关,说明密码子末尾碱基组成在一定程度上会影响密码子使用偏好性。ENC-plot绘图分析、中性绘图分析、PR2-plot偏倚分析结果表明,影响南欧大戟叶绿体基因组同义密码子使用偏性的主要因素是自然选择,但同时也受到突变压力等其他因素的影响;通过建库分析,筛选出GAU、AUA、UUG等14个最优密码子。研究结果可为开展目的基因优化、物种改良和系统进化分析等研究提供科学参考。  关键词:南欧大戟;叶绿体
基因组;密码子偏好性;最优密码子
  中图分类号:S184  文献标志码:A  文章编号:1002-1302(2023)15-0035-07
收稿日期:2022-11-30
基金项目:云南省乡村振兴科技专项(编号:202204BK090318);云南省地方高校联合专项(编号:202001BA070001-104)。
作者简介:余 涛(1997—),男,云南丽江人,硕士研究生,主要从事中药资源化学研究。E-
mail:2958263230@qq.com。通信作者:范 敏,女,博士,讲师,主要从事中药资源化学研究。E-mail:fanmin@dali.edu.cn。
  南欧大戟(EuphorbiapeplusL.)为大戟科(
Euphorbiaceae)大戟属(Euphorbia)一年生草本植物,原产于地中海沿岸,在我国云南、广西、广东及
台湾等地区均有分布[1]
。民间常用其哮喘、癌症等疾病[
2]
。已有研究发现,南欧大戟含有二萜、三萜、甾醇、黄酮、酚酸和糖类等化学成分[3-5]
,具有抗炎[6]、抗肿瘤[7]、心血管疾病和改善多重耐药性[
8]
等作用。目前,关于南欧大戟的研究主要涉及化学成分、药理活性等方面,在核酸等生物大分子层面的研究较少。笔者所在课题组前期对南欧大戟叶绿体基因组特征和系统发育关系进行了阐
述[9]
,但未对其叶绿体基因组密码子使用偏性影响
因素及使用模式进行分析。
密码子由信使RNA上3个连续的核苷酸组成[10],又称为遗传密码,是生物体遗传信息传递的载体[11]。标准的64种密码子由4个碱基随机组合形成,其中包括不具有编码功能的3个终止密码子和61个编码20种氨基酸的密码子[12];除甲硫氨酸、氨酸外,其余氨基酸均由1个以上同义密码子编码[13]。经过不断的进化,不同物种在mRNA翻译的过程中,编码相同氨基酸的不同密码子被选择性地使用,从而形成其特有的使用模式,这种现象被称为密码子使用偏好性(codonusagebias,CUB)[14]。研究发现,特定基因的功能和蛋白表达水平受密码子使用偏好性的影响[12],而CUB又受到自然选择、基因表达水平、基因组长度、碱基突变和tRNA丰度等因素的综合影响[13]。
叶绿体基因组具有规模小、多拷贝、分子结构相对保守[15]、母系遗传[10]和序列易获得的特点。近年来,测序技术飞速发展,被广泛应用于系统发育分析、DNA条形码鉴别研究和基因工程等领域[16]。基于叶绿体基因组进行密码子使用模式研究及筛选最优密码子,对于提高遗传转化效率、基因表达水平和物种改良有重要意义[17-18]。因此,为了解南欧大戟叶绿体基因组密码子使用偏好性及其形成的影响因素,本研究对南欧大戟叶绿体基因组密码子使用模式进行探讨,并筛选出最优密码子,以期为目的基因优化、物种改良和分子育种等提供科学依据。
1 材料与方法
1.1 材料与方法
从云南省大理市(25°84′95″N,100°11′96″E)采集南欧大戟新鲜叶片,用液氮速冻后将样品送至上海元莘生物医药科技有限公司进行测序,随后对获得的原始数据进行组装注释,将测序结果提交至美国国家生物技术中心数据库(NCBI),登录号:MZ678242。南欧大戟叶绿体基因组序列大小为159466bp,包含84条蛋白质编码序列(codingsequences,CDS),将CDS中长度小于300bp的基因和重复基因剔除[18],最终共获得52条CDS用于后续分析。
1.2 密码子偏好参数的计算
将筛选到的52条蛋白质编码序列整合成1个fasta文件,用CodonW1.4.1[19]软件分析,获取南欧大戟叶绿体基因组CDS的相对同义密码子使用度(relativesynonymouscodonusage,RSCU)、有效密码子数(effectivenumberofcodon,ENC)等相关信息。不同基因中各个密码子第1、2、3位的GC含量(GC
、GC
、GC
)和基因序列总的GC含量(GC
all
)由EMBOSS在线程序CUSP计算得到。
1.3 ENC-plot绘图分析
以各CDS的有效密码子数为纵坐标、GC
为横
坐标绘制散点图,并插入ENC
exp
=2+GC
+29/
[GC2
+(1-GC
)2]的标准曲线;然后通过公式计算
得到ENC期望值(ENC
exp
),再利用ENC
Ratio
(ENC
exp
-ENC
obs
)/ENC
exp
公式获得ENC比值
(ENC
Ratio
频数分布情况。结合以上2种分析结果,对密码子偏好性受突变、自然选择的影响程度进行评价[19]。
1.4 中性绘图分析
以各CDS中密码子第1、2位GC的平均值
(GC
12
)为纵坐标、GC
为横坐标构建坐标系,拟合
GC
12
与GC
的线性关系,添加对角线,解析GC
GC
和GC
的相关性,以进一步分析密码子使用偏性的影响因素。
1.5 PR2-plot偏倚分析
为了揭示密码子第3位4种碱基的数量和关
系,用计算得到的G
/(G
+C
)、A
/(A
+T
)值分别作为x轴、y轴,绘制散点图,以A=T且G=C作为图中心点,基因的偏性程度和方向则用该基因点与中心点的矢量距离表示[21]。
1.6 最优密码子的分析
以ENC值作为指标,对南欧大戟叶绿体基因组的CDS序列进行由高到低的排序,筛选出前后10%的基因序列,分别构建高、低偏性库。用CodonW1.4.1软件获取偏性库中密码子的RSCU值,ΔRSCU=RSCU高表达-RSCU低表达;高表达密码子的ΔRSCU≥0.08,高频密码子的RSCU>1,最优密码子的ΔRSCU≥0.08且RSCU>1[22]。
2 结果与分析
2.1 密码子的RSCU值分析
对南欧大戟叶绿体基因组中的52条蛋白质编码序列的RSCU值进行分析,图1结果显示,在64个编码氨基酸的密码子中,RSCU值<1的密码子有31个;RSCU值=1的密码子有2个,分别为编码Met、Trp的AUG、UGG;RSCU值>1的密码子有31
个,其中第3位碱基为G的密码子有8个,第3位碱基为C的密码子有1个,第3位碱基为A、U的密码
子有22个,占比为71%,表明南欧大戟叶绿体基因组密码子偏好以A、U
结尾。
2.2 密码子组成分析
对南欧大戟叶绿体基因组各CDS序列的密码子碱基组成情况及ENC值进行统计分析。表1结果显示,在各基因序列的密码子中,总GC含量平均值为37.80%,范围为29.55%~46.04%;密码子第1、2、3位的GC含量均值分别为46.73%、39.39%、27.28%,范围分别为33.44%~57.56%、27.07%~56.83%、16.95%~36.41%。由此可知,密码子不同位置的碱基数量有差异。在绝大多数密码子中,GC1、GC2显著高于GC3,表明南欧大戟叶绿体基因组密码子偏好以A或U结尾。南欧大戟各CDS的ENC值为38.42~55.14,平均值为
46 74,大于35[23]
。由分析结果可知,南欧大戟叶绿
体基因密码子的使用偏性较弱。
  对南欧大戟叶绿体基因组密码子参数进行Pearson相关性分析,由图2可知,GCall与GC3、GC2、GC1间相关系数分别为0.52、0.79、0.85,P值均<0.01,呈极显著相关;GC1与GC2间也呈极显著相关(P<0.01);而GC3与GC1、GC2之间相
关系数分别为0.24、0.13,无显著相关性,表明密码子碱基组成第3位与其他位置间有一定差异,第1、2位间的碱基组成较相似。ENC与GCall呈显著相关关系,与GC3呈极显著相关关系,说明密码子末尾碱基组成在一定程度上会影响密码子使用的偏好性。ENC
表1 密码子碱基组成和偏性相关指标
基因ENCGC1
(%)GC2
(%)GC3
(%)GCall
(%)NaccD44.4139.4037.2026.6034.40500atpA47.4455.7140.1628.7441.54508atpB46.4156.3141.2827.8641.82499atpE55.1452.9939.5531.3441.29134atpF48.6447.0332.9734.0538.02185atpI47.6849.6036.6929.8438.71248ccsA43.5533.4436.5323.2231.06323cemA39.5836.2427.0725.3329.55229clpP
150.6956.8536.5526.4039.93197matK47.7336.9029.5625.9930.82504ndhA44.4742.0338.4620.3333.61364ndhB47.3741.9638.6331.1837.25510ndhC45.2642.9833.8827.2734.71121ndhD48.0640.3237.7227.9435.33501ndhE44.9239.2234.3124.5132.68102ndhF45.5434.9934.8524.2631.37746ndhG38.5141.8133.3316.9530.70177ndhH47.1251.0135.6125.0037.21396ndhI47.5040.4637.5727.7535.26173ndhJ47.9650.9435.8528.9338.57159ndhK45.7542.1942.6225.7436.85237pafI52.8347.9339.0531.3639.45169pafII45.2243.7839.4628.6537.30185petB
40.92
48.15
41.67
27.31
39.04
216
表1(续)
基因ENCGC1
(%)
GC2
(%)
GC3
(%)
GCall
(%)
petD38.4248.3538.4621.4336.08182psaA47.2851.8043.1428.5041.15751psaB47.3849.2543.2729.6640.73735psbA39.4249.7243.5032.2041.81354psbB46.4854.6245.3829.6743.22509psbC45.7754.7646.1030.5243.80462psbD44.3852.2643.2232.4942.66354rbcL46.8757.5643.7028.5743.28476rpl252.2449.8248.3631.2743.15275rpl1452.5252.0339.0223.5838.21123rpl1642.9049.2652.9423.5341.91136rpl2050.0136.9743.7024.3735.01119rpl2249.6040.9836.8920.4932.79122rpoA50.1143.2032.3324.4733.33331rpoB48.0250.1437.4426.9838.191071ropC148.2251.1037.4426.2838.28681rpoC248.7344.8736.6826.8536.131393rps249.7043.8843.0428.6938.54237rps342.9645.6632.8818.7232.42219rps453.2451.4939.1127.2339.27202rps744.8152
.5645.5123.7240.60156rps846.3842.9640.0031.8538.27135rps1147.1253.9656.8327.3446.04139rps1241.5652.4247.5826.6142.20124rps1439.6444.5547.5227.7239.93101ycf152.7240.6632.2334.0435.64332ycf252.7141.7133.7536.4137.292299均值46.7446.7339.3927.2837.80379.27与N(密码子数)未呈显著相关,表明基因序列长度
对密码子使用偏性的影响较弱。
2.3 ENC-plot绘图分析
南欧大戟叶绿体基因组密码子的ENC与GC
3关联分析结果如图3所示,在标准曲线及曲线附近仅有小部分基因分布,表明该部分基因的实际ENC值与期望ENC值间差异较小,突变对这些基因序列密码子的偏性起主要作用;其他大部分基因距标准曲线较远,且大多数分布于曲线下方,说明该部分基因的实际ENC值与期望ENC值间有较大差异,CDS序列密码子偏好性受自然选择影响较大。此外,对参试基因ENC比值计算分析结果显示,有15个基因分布在ENC比值为-0.05~<0.05的区间,占比为0.289;分布
于-0.15~<-0.05、0.05~<0.15、0.15~<0.25、0.25~0.35区间的基因分别有3、27、6、1个,占比分别为0.058、0 519、0.115、0.019(表2),说明基因主要分布在-0.05~<0.05区间外,其偏好性主要受到选择压力的影响。以上结果表明,南欧大戟叶绿体基因组密码子偏好性在受碱基突变压力影响的同时,更多受到自然选择的影响。
2.4 中性绘图分析
南欧大戟叶绿体基因组52个CDS序列中性绘图分析结果(图4)显示,在对角线上分布的基因为atpF,在对角线下方分布的基因有ycf1、ycf2,其余基
因则分布于对角线上方,表明绝大多数基因的GC
3值小于其自身的GC
12
值。GC
12
、GC
的取值范围分
表2 南欧大戟叶绿体基因组ENC比值频数分布组段组中值频数频率-0.15~<-0.05-0.1 30.058-0.05~<0.050150.2890.05~<0.150.1270.5190.15~<0.250.260.1150.25~0.35
0.3
10.019合计
52
1.00
别为0.3166~0.5540、0.1695~0.3641,Pearson相关系数=0.0482,r=0.2195,2个参数呈较低的相关性,表明密码子不同位置的碱基组成存在差异。上述结果说明,自然选择对南欧大戟叶绿体基因组密码子偏性起主要作用。2.5 PR2-plot偏倚分析
采用PR2绘图对52条CDS序列密码子第3位碱基的使用频率进行分析。图5显示,各基因散布于以0.5为中心的4个象限中,且分布不均匀,表明密码子第3位4种碱基的使用频率有差异;多数基因位于水平中心线下方,表明密码子中碱基使用频率表现为G>C,T(U)>A。若碱基突变为影响密码子使用偏性的唯一因素时,基因应位于中心位置,但分析结果表明,南欧大戟叶绿体基因组密码子的
使用偏性在受到突变影响的同时还受到自然
选择等其他因素的影响。2.6 最优密码子筛选
将52条参试基因按ENC值的高低进行排序,选取首尾各10%的基因建立高、低基因表达库,并计算ΔRSCU值。表3结果显示,ΔRSCU≥0.08的高表达密码子有27个,其中包括以G结尾的12个密码子,以C结尾的7个密码子,以A结尾的5个密码子,以U结尾的3个密码子。筛选ΔRSCU≥
0 08且RSCU>1的密码子作为南欧大戟叶绿体基因组的最优密码子,最终共获得14个密码子,分别为GCG、GAU、GGA、GGG、AUA、CUU、UUG、AAU、CCA、AGA、AGG、CGG、UCC和UCG,其中以G/C结尾和以A/U结尾的各占50%(图1)。
表3 南欧大戟叶绿体基因组最优密码子分析
氨基酸密码子高表达基因低表达基因数目(个)R
SCU数目(个)RSCUΔRSCUAla
GCA
251.020161.0160.004GCC
160.65360.3810.272GCG 130.53160.3810.150GCU
441.796352.222-0.426Cys
UGC
130.74300
0.743
UGU221.257112.000-0.743AspGAC
320.38170.483-0.102GAU
1361.619221.5170.102GluGAA
1331.378401.509-0.131
GAG
600.622130.4910.131PheUUC910.892300.8220.070UUU
1131.108431.178-0.070GlyGGA
651.793251.3330.460GGC110.30380.427-0.123GGG 300.82830.1600.668GGU391.076392.080-1.004HisCAC190.48760.4620.026CAU
591.513201.539-0.026
IleAUA 810.968270.7860.182AUC
59
0.705
17
0.495
0.210