NCBI(美国国立生物技术信息中心)理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字母来代表DNA化学亚基的字母表,出现了生命过程的语法,其最复杂形式就是人类。阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。挑战在于发现新的手段去处理这些数据的容量和复杂性,并且为研究人员提供更好的便利来获得分析和计算的工具,以便推动对我们遗传之物和其在健康和疾病中角色的理解。
ncbi_NCBI -简介
NCBI(美国国立生物技术信息中心)理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字母来代表DNA化学亚基的字母表
NCBI
,出现了生命过程的语法,其最复杂形式就是人类。阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。挑战在于发现新的手段去处理这些数据的容量和复杂性,并且为研究人员提供更好的便利来获得分析和计算的工具,以便推动对我们遗传之物和其在健康和疾病中角色的理解。
ncbi_NCBI -国立中心的成立
参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了在1988年11月4日建立国立生物技术信息中心(NCBI)的立法。NCBI是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。
ncbi_NCBI -研究任务
它的使命包括四项任务:
建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统
实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究
加速生物技术研究者和医药治疗人员对数据库和软件的使用。
全世界范围内的生物技术信息收集的合作努力。
NCBI通过下面的计划来实现它的四项目的:
基本研究
NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础科学上做出重要贡献,而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分析,和结构的预测。目前研究计划的一些代表是:检测和分析基因组织,重复序列形式,蛋白domain和结构单元,建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据库搜索中的序列错误影响的分析,开发新的数据库搜索和多重序列对齐算法,建立非冗余序列数据库,序列相似性的统计显著性评估的数学模型和文本检索的矢量模型。另外,NCBI研究者还坚持推动与NIH内部其他研究所及许多科学院和政府的研究实验室的合作。
ncbi_NCBI -数据库和软件
在1992年10月,NCBI承担起对GenBank DNA序列数据库的责任。NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库。同美国专利和商标局的安排使得专利的序列信息也被整合。
GenBank是NIH遗传序列数据库,一个所有可以公开获得的DNA序列的注释过的收集。GenBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。
GenBank以指数形式增长,核酸碱基数目大概每14个月就翻一个倍。最近,GenBank拥有来自47,000个物种的30亿个碱基。
孟德尔人类遗传(OMIM),三维蛋白质结构的分子模型数据库(MMDB),唯一人类基因序列集合(UniGene),人类基因组基因图谱,分类学浏览器,同国立癌症研究所合作的癌症基因组剖析计划(CGAP)。
Entrez是NCBI的为用户提供整合的访问序列,定位,分类,和结构数据的搜索和检索系统。Entrez同时也提供序列和染色体图谱的图形视图。Entrez是一个用以整合NCBI数据库中信息的搜寻和检索工具。这些数据库包括核酸序列,蛋白序列,大分子结构,全基因组,和通过PubMed检索的MEDLINE。Entrez的一个强大和独特的特点是检索相关的序列,结构,和参考文献的能力。杂志文献通过PubMed获得,PubMed是一个网络搜索界面,可以提供对在MEDLINE上的九百万杂志引用的访问,包含了链接到参与的出版商网络站点的全文文章。
BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,sequin和BankIt。所有的NCBI数据库和软件工具可以从WWW或FTP来获得。NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。
NCBI数据库介绍
下面按照检索框上的顺序分别介绍各数据库。
● Nucleotide
该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国Hinxton Hall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成。这三个组织联合组成国际核苷酸序列数据库协作体,每天交换各自数据库中的新增序列记录实现数据共享。其中的序列数据也通过与基因组序列数据库(GSDB)合作获取;专利序列数据通过与美国专利与商标局、国际专利局合作获取。
● Genome
即基因组数据库,提供了多种基因组、完全染色体、Contiged序列图谱以及一体化基因物理图谱。
● Structures
即结构数据库或称分子模型数据库(MMDB),包含来自X线晶体学和三维结构的实验数据。MMDB的数据从PDB(Protein Data Bank)获得。NCBI已经将结构数据交叉链接到书目信息、序列数据库和NCBI的Taxonomy中运用NCBI的3D结构浏览器和Cn3D,可以很容易地从Entrez获得分子的分子结构间相互作用的图像。
● Taxonomy
即生物学门类数据库,可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等。
● PopSet
包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列。PopSet既包含核酸序列数据又包含蛋白质序列数据。
Entrez 功能强大,在于它的大多数记录可相互链接,既可在同一数据库内链接,也可在数据库之间进行链接。当运用BLAST软件比较某氨基酸或DNA序列与库中其他氨基酸或DNA序列差异即进行相似性检索时,则会涉及到蛋白质库或核苷酸库的库内链接。库间链接发生在核苷酸数据库内的记录与PubMed库中已发表序列的引文间的链接,或蛋白质序列记录与核苷酸序列库中编码它的核苷酸序列间的链接。
NCBI数据库检索
NCBI数据库的检索方法很简单,在检索框中输入检索词,检索词间默认逻辑关系为AND,检索规则基本同PubMed。图2是显示检索结果页面。
可以通过下拉菜单选择记录的显示格式,通常选择GenBank Report格式或FASTA Report格式。当选择GenBank Report格式后,屏幕显示较完整的基因记录,其内容包括:基因位点(Locus)、基因定义(Definition)、基因存取号(Accession)、 核酸编号(NID )、关键词(Keywords)、 来源(Source)、组织分类(Organism)、参考文献(Reference)、 著者(Author)、题目(Title)、期刊Journal)、Medline存取号(Medline)、序列特征(Features)、基因(Gene)、CDS(cDNA)、等位基因(Allele) 对等的肽(Mat-Peptide )、计算碱基数(Base Count)、原序列(Origin)。而FASTA Report格式仅包括检出序列的简要特征描述。
● OMIM
孟德尔遗传学(OMIM)数据库是人类基因和基因疾病的目录数据库。该数据库包括原文信息、图片和参考信息,同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息。
BLAST相似性检索
BLAST(Basic Local Alignment Search Tool)是用于序列相似性检索的一个重要数据库,是区分基因和基因特征的工具。该软件能在15秒内完成整个DNA数据库的序列检索。BLAST记录的相关度有明确的统计学解释,以便更容易地将相关记录与随机的数据库记录相区分。在NCBI主页的左工具条中,点击BLAST图标,即进入BLAST主页。
BLAST 主页提供了几种BLAST检索软件。其中BLAST2.0是一种新的BLAST检索工具,它在原有基础上作了改进,运行速度更快,灵敏度更高,同时具有Gapped BLAST 和PSI-BLAST两种软件的新功能。Gapped BLAST 允许在对准的序列中引入空位(碱基缺失或插入),引入空位(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。这些空位对准的记分系统更能反映相关序列的类似程度。PSI-BLAST的全称是Position-Specific Iterated BALST,即特殊位置重复BLAST,它提供了自动、易用的概貌(Profile)检索,是查找序列同源的有效工具。
ncbi_NCBI -教育和训练
NCBI通过赞助会议,研讨会,和系列演讲来培养在应用于分子生物学和遗传学的计算机领域的科学交流。一个科学访问学者项目已经成立,来培养同外部科学家的合作。作为NIH内部的部分研究项目,也提供博士后工作位置。
美国国立医学图书馆(NLM)于1988年11月4日建立国家生物技术信息中心(NationalCenterofBiotechnologyInformation,简称NCBI)。该中心的主要任务为:
为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;促进生物学研究人员和医护人员应用数据库和软件;努力协作以获取世界范围内的生物技术信息。
NCBI首先创建GenBank数据库,在重点开发GenBank的同时,又于1991年开发了Entrez数据库检索系统。该系统整合了GenBank、EMBL、PIR和SWISS-PROT等数据库的序列信息以及MEDLINE有关序列的文献信息,并通过相关链接,将他们有机地结合在一起。NCBI还提供了其它数据库,包括在线人类孟德尔遗传(OMIM)、三维蛋白结构的分子模型数据库(MMDB)、人类基因序列集成(UniGene)、人类基因组基因图谱(GMHG)、生物门类(Toxonomy)等数据库。图1是NCBI分子生物学数据库检索主页。