很早之前学习生物信息时候的笔记。
1. 生物信息学数据库
初级数据库和二级数据库。初级数据库贮存原始的生物数据,如 DNA 序列,由晶体衍射(Crystallography)获得的蛋白质结构等。二级数据是在初级数据库的基础上经加工和增加相关信息,使它们更便于特定专业人员的使用, 如真核生物启动子序列库 EPD 和蛋白质一般结构或功能模体(motif)数据库 PROSITE。
1.1 DNA 数据库
DNA 序列构成了初级数据库的主体部分。目前国际上有 3 个主要的 DNA 序列公共数据库:欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)(位于英国剑桥),GenBank[美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI),该中心隶属于美国家医学图书馆,位于美国国家卫生研究院(NIH)内]和日本 DNA 数据库(DNA Databank of Japan,DDBJ)。
1.2 基因组数据库
第二个主要的初级数据源来自各种基因组计划。大部
分数据信息在 EMBL 中均可找到。生物基因组差异极大,这种差异不仅表现在基因组大小而且在于单链或双链 DNA、RNA 的遗传信息存储特性。另外,一些基因组是线性的(如哺乳动物),而另一些则上封闭的环状(如绝大多数细菌)
1.3 蛋白质序列数据库
SWISS-PROT 和 PIR 是国际上二个主要的蛋白质序列数据库,目前这二个数据库在 EMBL 和 GenBank 数据库上均建立了镜像 (mirror) 站点。
SWISS-PROT 的序列数量呈直线增长。SWISS-PROT 的数据存在一个滞后问题,即把 EMBL 的 DNA 序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的 DNA 序列尚未列入 SWISS-PROT。为了解决这一问题,TREMBL(Translated EMBL)被建立了起来。TREMBL 也是一个蛋白质数据库,它包括了所有 EMBL 库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这势必导致其注释质量的下降。PIR 数据库的数据由美国家生物技术信息中心(NCBI)翻译自 GenBank 的 DNA 序列。PIR 根据注释程度(质量)分为 4 个等级:
- 分类并注释 (Classified and annotated)
- 注释 (Annotated)
- 未核实 (Unverified)
- 未翻译 (Unencoded or untranslated)
1.4 蛋白质结构数据库
实验获得的三维蛋白质结构均贮存在蛋白质数据库 PDB 中。PDB 是国际上主要的蛋白质结构数据库,虽然它没有蛋白质序列数据库那么庞大,但其增长速度很快。PDB 贮存有由 X 射线和核磁共振(NMR)确定的结构数据。
参考文献
《生物信息学札记》樊龙江 :http://ibi.zju.edu.cn/bioinplant/
因为我们是朋友,所以你可以使用我的文字,但请注明出处:http://alwa.info