生工类 1301-3《生物信息学》考试说明
时间:第 17 周周五(6 17 日)上午 3-4
地点:厚学 201
题型:(开卷)名词解释 5 20 分,单项选择题 10 20 分,综合分析题 4 60 分。 重点:可参考以下课后题
2.2 何为一级数据库?有哪些一级数据库?
一级数据库属于档案数据库,库中的主要内容是来源于实验室操作所得到的原始数据结果;一级数据库:核酸序列数据库GenBank、EMBL、DDBJ蛋白质数据库PDB(protein data bank)。
2.3 二级数据库、三级数据库等是指什么样的数据库?
二级数据库是在一级数据库的信息基础上进行了计算加工处理并增加了许多人为的注释而构成的。例如,NCBI的RefSeq数据库,其mRNA 序列式综合了GenBank中来源于同一物种相同基
因的所有Mrna序列信息的一致性序列;而公共数据库中大多数的蛋白质序列是将核苷酸序列中的编码序列区域进行蛋白质翻译后,通过后续的一些计算分析,主观的人为地为序列加上蛋白质产物名称及功能注释。
三级数据库:参考书本P16页
2.6  请查阅资料,了解序列信息的标准数据存放格式:FASTANBRF/PIRGDE Raw
书10页到11页
2.8 GenBank 数据库中的 GenBank 条目包含哪些内容?请结合 GenBank 中的一条具 体的序列信息加以说明。
书17页到19页
2.12 蛋白质序列数据库有哪些?
书22页
2.13 Uniprot 数据库分哪几个层次?
书22页,分为三个层次。
是Uniprot Knowledgebase(Uniprot KB)它涵盖大量人工注释的蛋白质信息,包括功能、分类以及数据库的交叉引用等;
是Uniprot  Archive(Uniparc)力图收集最完整、最全面的蛋白质序列数据,不过数据没有加以注释整理,只给出了相关序列的来源;
三是Uniprot Reference Clusters(UniRef),是将UniParc中的序列数据依据不同的参数条件去除冗余后得到的结果。
2.14 UniProtKB/SwissProt UniProtKB/TrEMBL 有何关联?
书23页
SwissProt提供了最全面和可靠的注释信息,被称为是蛋白质序列数据的“黄金标准”;TrEMBL是为了在不降低SwissProt高水平注释质量的同时,又能使经由测序和翻译获取的蛋
白质序列数据得以尽快地发布,作为SwissProt数据库的补充。
3.1 序列比对在什么情况下选择核苷酸序列?在什么情况选择蛋白质序列?
书51页
核苷酸序列:在确认给定DNA序列和DNA数据库中的序列的一致性时在搜索多态性时在分析所克隆的cDNA片段的一致性时
蛋白质序列:由于蛋白质序列比DNA所含信息多,所以除以上情况外用蛋白质序列
3.2 请比较同源性、相似性和一致性三个概念。
书51页到53页
同源性:是指从某个共同祖先经趋异进化而形成的不同序列,也就是从一些数据中推断出的两个基因在进化上具有共同祖先的结论,是质的判断。
一致性:是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例。
相似性:两序列间直接的数量关系,如部分相同,相似的百分比或其他一些合适的度量。
3.4 在进化过程中,两条同源蛋白质序列之间会产生分歧的突变有哪些?
书P54
替换、插入、删除
替换:发生于一个突变导致的一种氨基酸的密码子变成另一种氨基酸的密码子时,在比对结果中显示为同一位置上出现两个不同的氨基酸。
插入和删除:发生于残基添加或消除时,比对中由一单点表示(.,加在一条或另一条序列中。插入和删除(即使只有一个字符长度)都被认为是比对中的空位
3.13  查阅资料了解 BLAST 比对程序家族的主要程序,如何选择?
3.15 如何寻远缘相关的蛋白质?
PSI-BLAST是位点特异性迭代BLAST,用来寻远缘相关的蛋白质序列,对于蛋白质的相似序列的寻比常规blastp更敏感。
PSI-BLAST工具的比对步骤为:
南京有什么大学(1)用blastp在目标数据库中进行比对搜索;
2)从第一步中获得的结果构建多序列对比,根据多序列比对构建一个位点特异性矩阵PSSM
3)用第二步获得的PSSM矩阵再一次搜索目标数据库;
4)位点特异性反复比对后用缺失比对的参数检验每个匹配的统计显著性;反复执行2~4步,一般要重复5次,而当新的结果不再出现或者程序明确指出不会再有新的结果出现时,可以停止比对循环。
3.16  如何利用 BLAST 来发现新基因?
1)用一个已知序列蛋白质开始TBLAST比对,搜索一个DNA数据库;
2)检查结果:寻与已知蛋白质,相关蛋白质的DNA序列匹配,非显著序列的匹配;
3)进行BLASTX NRBLASTP NR比对
4)用你新发现的DNA或蛋白质搜索一个蛋白质数据库来证实是否真的发现一个新的基因或蛋白质。
4.3 什么是外显子?什么是内含子?
外显子:是真核生物基因的一部分,他在剪接后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。
内含子:是一个基因中非编码DNA片段,他分开相邻的外显子。内含子是阻断基因线性表达的序列。
4.6 基因预测方法有哪些?
书本P107
基于表达数据的基因预测、基于机器学习方法的基因预测
基于表达数据的基因预测方法主要是利用基因产物(包括cDNA    EST以及蛋白质等)反推基因结构
基于机器学习方法的基因预测主要是通过挖掘基因组序列以及各类证据以及各类证据数据信息中蕴含的基因结构特征,并建立数据模型进行基因结构预测。
4.7 什么是 EST 序列?如何利用 EST 序列预测基因?
EST:完整mRNA转录物的片段。
把来自不同克隆的EST拼接起来形成完整的cDNA弥补其数量缺少的情况
利用PASA程序软件将聚类的转录物片段(全长cDNAEST)拼接成最大对比片段 得到完整地或者部分的基因结构,并获得更多的可变剪切的信息
5.3 什么是系统发生树?
在研究生物进化和系统分类中,常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发生树。
5.5 构建系统发生树有哪两类方法?
P131
一类是基于距离的方法,也直接称为基于距离法
另一类是基于字母特征的方法
5.8 分子系统发生分析常用的软件有哪些?
1PHYLIP。(2PAUP。(3MEGA。(4TREE-PUZZLE。(5MrBayes。(6PhyML
6.1 提供了蛋白质结构的检索和查询服务的数据库主要有哪些?
PDB数据库 DSSP数据库、 HSSP数据库  SCOP  CATH
6.2 简要说明四个层次的蛋白质结构。
(一)一级结构
蛋白质的一级结构(primary structure)是指多肽链的氨基酸残基的排列顺序。
(二)二级结构
蛋白质二级结构(secondary structure)是指多肽链主链原子借助于氢键沿一维方向排列成
具有周期性的结构构象,是多肽链局部的空间结构(构象)主要有α螺旋、β折叠、β转角、无规卷曲等形式
(三)超二级结构、结构域
超二级结构(supersecondary structure)是指相邻的二级结构单元组合在一起,彼此相互作用,排列形成规则的、在空间结构上能够辨认的二级结构组合体,同时充当三级结构的构件,基本形式有α α、 β β、β α β等。
(四)三级结构
三级结构(tertiary structure)是指整条多肽链的三维结构,包括骨架和侧链在内的所有原子的空间排列。
(五)四级结构e
四级结构(quat rnary structure)指在亚基和亚基之间通过疏水作用等次级键结合成为有序排列的特定的空间结构。
6.4 PDB 收录了哪些实验类型的结构数据?
X射线晶图谱法,核磁共振法,电子显微镜二维晶体三维结构
6.6 蛋白质结构家族分类数据库主要有哪些?
SCOPCATHFFSP
6.8 蛋白质结构分析主要包含哪些方面?
组织层次、结构测定及预测,蛋白质折叠
6.9 如何进行蛋白质结构比对?有那些常用的结构比对工具?
首先对两个蛋白质结构定义结构相似部分(或称共同子结构);然后通过多次迭代策略来调整共同子结构,直到出优化的结构比对,即到两个蛋白质空间上最大的重叠部分。DALI方法、  CE方法、  STRUCTURAL方法、  SSM方法、  TM-align方法