(日常记录)使用TBtools批量提取基因组中的CDS、UTR、exon等

（⽇常记录）使⽤TBtools批量提取基因组中的CDS、UTR、

exon等

在分析基因组数据时，我们有时候只需要基因组中某个部位的信息，⽐如涉及编码蛋⽩功能就只需要CDS序列，研究miRNA与mRNA互作时，只需要3‘UTR序列，那么如何简单快速的得到基因组中的⽬标序列呢？今天就要⽤⼀个好⽤的数据分析⼯具TBtools。

⼀、准备基因组注释⽂件以及序列⽂件：1、可从NCBI、ENSEMBL、GENCODE等数据库中下载，本⽂以ensembl为例，打开ensembl数据库，进⼊Downloads，点击Downloading with rsync， Ensembl FTP site 选择发布的基因组版本，以最新版本99为例

2、选择fasta和gff3，选择物种，下载基因组序列⽂件和gff注释⽂件。⽐如homo，在序列下载时选择primary或top均可，不要选rm和soft，会降低⽐对率（下载⼯具就不多说啦）

文件名提取⼆、TBtools序列提取

2、打开TBtools，进⼊sequence toolkit，GFF3/GTF Manipulate，GXF Sequences Extract

3、⾸先，分别导⼊GFF⽂件和FASTA序列⽂件，再点击initialize，初始化⽂件。初始化完成后，会跳出⼀个帮助⽤户选择feature的框，可直接关掉跳过（不懂GFF注释结构的童鞋可以看⼀下哈哈），然后软件的Feature Tag就会出现以下可供选择的序列区域啦，包括

mRNA，Lnc_RNA，CDS、3’UTR等，可⾃⾏选择提取。

注意：

注意：因为TBtools有特定的函数程序，所以提取之前需提前设定好输出的⽂件名，也就是在set an output fasta file出，除了选择输出⽬录外。还需⼿动添加需要输出的⽂件名(.fa)，最后，Start就可以啦，⼏分钟之后就可以在输出⽬录下到你的序列了。是不是特别简单？^-^

(日常记录)使用TBtools批量提取基因组中的CDS、UTR、exon等

发布评论取消回复

最近发表

热门文章

标签列表