(⽇常记录)使⽤TBtools批量提取基因组中的CDS、UTR、
exon等
在分析基因组数据时,我们有时候只需要基因组中某个部位的信息,⽐如涉及编码蛋⽩功能就只需要CDS序列,研究miRNA与mRNA互作时,只需要3‘UTR序列,那么如何简单快速的得到基因组中的⽬标序列呢?今天就要⽤⼀个好⽤的数据分析⼯具TBtools。
⼀、准备基因组注释⽂件以及序列⽂件:1、可从NCBI、ENSEMBL、GENCODE等数据库中下载,本⽂以ensembl为例,打开ensembl数据库,进⼊Downloads,点击Downloading with rsync, Ensembl FTP site 选择发布的基因组版本,以最新版本99为例
2、选择fasta和gff3,选择物种,下载基因组序列⽂件和gff注释⽂件。⽐如homo,在序列下载时选择primary或top均可,不要选rm和soft,会降低⽐对率(下载⼯具就不多说啦)
文件名提取⼆、TBtools序列提取
2、打开TBtools,进⼊sequence toolkit,GFF3/GTF Manipulate,GXF Sequences Extract
3、⾸先,分别导⼊GFF⽂件和FASTA序列⽂件,再点击initialize,初始化⽂件。初始化完成后,会跳出⼀个帮助⽤户选择feature的框,可直接关掉跳过(不懂GFF注释结构的童鞋可以看⼀下 哈哈),然后软件的Feature Tag就会出现以下可供选择的序列区域啦,包括
mRNA,Lnc_RNA,CDS、3’UTR等,可⾃⾏选择提取。
注意:
注意:因为TBtools有特定的函数程序,所以提取之前需提前设定好输出的⽂件名,也就是在set an output fasta file出,除了选择输出⽬录外。还需⼿动添加需要输出的⽂件名(.fa),最后,Start就可以啦,⼏分钟之后就可以在输出⽬录下到你的序列了。是不是特别简单?^-^