很早之前学习生物信息时候的笔记。

1. 生物信息学数据库

　　初级数据库和二级数据库。初级数据库贮存原始的生物数据，如 DNA 序列，由晶体衍射(Crystallography)获得的蛋白质结构等。二级数据是在初级数据库的基础上经加工和增加相关信息，使它们更便于特定专业人员的使用，如真核生物启动子序列库 EPD 和蛋白质一般结构或功能模体(motif)数据库 PROSITE。

1.1 DNA 数据库

　　DNA 序列构成了初级数据库的主体部分。目前国际上有 3 个主要的 DNA 序列公共数据库：欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)(位于英国剑桥)，GenBank[美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)，该中心隶属于美国家医学图书馆，位于美国国家卫生研究院(NIH)内]和日本 DNA 数据库(DNA Databank of Japan,DDBJ)。

1.2 基因组数据库

　　第二个主要的初级数据源来自各种基因组计划。大部
分数据信息在 EMBL 中均可找到。生物基因组差异极大，这种差异不仅表现在基因组大小而且在于单链或双链 DNA、RNA 的遗传信息存储特性。另外，一些基因组是线性的(如哺乳动物)，而另一些则上封闭的环状(如绝大多数细菌)

1.3 蛋白质序列数据库

　　SWISS-PROT 和 PIR 是国际上二个主要的蛋白质序列数据库，目前这二个数据库在 EMBL 和 GenBank 数据库上均建立了镜像 (mirror) 站点。
　　SWISS-PROT 的序列数量呈直线增长。SWISS-PROT 的数据存在一个滞后问题，即把 EMBL 的 DNA 序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的 DNA 序列尚未列入 SWISS-PROT。为了解决这一问题，TREMBL(Translated EMBL)被建立了起来。TREMBL 也是一个蛋白质数据库，它包括了所有 EMBL 库中的蛋白质编码区序列，提供了一个非常全面的蛋白质序列数据源，但这势必导致其注释质量的下降。PIR 数据库的数据由美国家生物技术信息中心(NCBI)翻译自 GenBank 的 DNA 序列。PIR 根据注释程度(质量)分为 4 个等级：

分类并注释 (Classified and annotated)
注释 (Annotated)
未核实 (Unverified)
未翻译 (Unencoded or untranslated)

1.4 蛋白质结构数据库

实验获得的三维蛋白质结构均贮存在蛋白质数据库 PDB 中。PDB 是国际上主要的蛋白质结构数据库，虽然它没有蛋白质序列数据库那么庞大，但其增长速度很快。PDB 贮存有由 X 射线和核磁共振(NMR)确定的结构数据。

参考文献

《生物信息学札记》樊龙江：http://ibi.zju.edu.cn/bioinplant/

因为我们是朋友，所以你可以使用我的文字，但请注明出处：http://alwa.info

Shen Huang's Blog

生物信息学介绍