分子生物学最重要的一个网站,没有它,很多事情就会变得很麻烦,如同源基因的比对、查询。
下面是介绍:http://www.biosino.org/pages/ncbi-1.htm
NCBI(美国国立生物技术信息中心)简介
》》》NCBI 资源介绍
介绍
理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字母来代表DNA化学亚基的字母表,出现了生命过程的语法,其最复杂形式就是人类。阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。挑战在于发现新的手段去处理这些数据的容量和复杂性,并且为研究人员提供更好的便利来获得分析和计算的工具,以便推动对我们遗传之物和其在健康和疾病中角色的理解。
国立中心的建立
后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了在1988年11月4日建立国立生物技术信息中心(NCBI)的立法。NCBI是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。它的使命包括四项任务:
建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统
实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究
加速生物技术研究者和医药治疗人员对数据库和软件的使用。
全世界范围内的生物技术信息收集的合作努力。
NCBI通过下面的计划来实现它的四项目的:
基本研究
NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础科学上做出重要贡献,而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分析,和结构的预测。目前研究计划的一些代表是:检测和分析基因组织,重复序列形式,蛋白domain和结构单元,建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据库搜索中的序列错误影响的分析,开发新的数据库搜索和多重序列对齐算法,建立非冗余序列数据库,序列相似性的统计显著性评估的数学模型,和文本检索的矢量模型。另外,NCBI研究者还坚持推动与NIH内部其他研究所及许多科学院和政府的研究实验室的合作。
数据库和软件
在1992年10月,NCBI承担起对GenBank DNA序列数据库的责任。NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库。同美国专利和商标局的安排使得专利的序列信息也被整合。
GenBank是NIH遗传序列数据库,一个所有可以公开获得的DNA序列的注释过的收集。GenBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。
GenBank以指数形式增长,核酸碱基数目大概每14个月就翻一个倍。最近,GenBank拥有来自47,000个物种的30亿个碱基。
孟德尔人类遗传(OMIM),三维蛋白质结构的分子模型数据库(MMDB),唯一人类基因序列集合(UniGene),人类基因组基因图谱,分类学浏览器,同国立癌症研究所合作的癌症基因组剖析计划(CGAP)。
Entrez是NCBI的为用户提供整合的访问序列,定位,分类,和结构数据的搜索和检索系统。Entrez同时也提供序列和染色体图谱的图形视图。Entrez是一个用以整合NCBI数据库中信息的搜寻和检索工具。这些数据库包括核酸序列,蛋白序列,大分子结构,全基因组,和通过PubMed检索的MEDLINE。Entrez的一个强大和独特的特点是检索相关的序列,结构,和参考文献的能力。杂志文献通过PubMed获得,PubMed是一个网络搜索界面,可以提供对在MEDLINE上的九百万杂志引用的访问,包含了链接到参与的出版商网络站点的全文文章。
BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt。所有的NCBI数据库和软件工具可以从WWW或FTP来获得。NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。
教育和训练
NCBI通过赞助会议,研讨会,和系列演讲来培养在应用于分子生物学和遗传学的计算机领域的科学交流。一个科学访问学者项目已经成立,来培养同外部科学家的合作。作为NIH内部的部分研究项目,也提供博士后工作位置。
http://www.ncbi.nlm.nih.gov/About/index.html
--------------------------------------------------------------------------------
相关文章:
NCBI站点地图相关文章:
关于Database的一般介绍
Human Genome人类基因组数据介绍
其他基因组数据介绍
工具概述
其他各项介绍
NCBI癌症基因组研究介绍
NCBI-Coffee Break
NCBI-基因和疾病
安装APACHE和PHP运行环境才能用。如果要有数据库支持(一般都会有)还有安装数据库。APACHE是一个服务器软件,php是它的插件。
可以在以下地址找到
http://www.php.net/
http://httpd.apache.org/
集成信息检索:ENTREZ系统编辑本段回目录检索服务器可以对有目标的检索记录,但它主要的缺陷在于一次只能从一个数据库中检索到记录;想对一批数据库进行检索的用户必须为每一个目标数据库分别发出一次申请。很明显,这些大量的公用数据库之间存在着逻辑联系。例如,MEDLINE中的一篇论文可能描述一个基因的序列,该基因又在GenBank中出现。其核苷酸序列所编码的蛋白质的序列又存放在蛋白质数据库中。这种蛋白质的三维结构可能又是已知的,结构的数据可能出现在结构数据库中。最后,基因可能定位在某条染色体的某个区域,这类信息存放在图谱数据库中。在这些生物学上的联系的基础上开发了一种方法;可以通过它查询所有与某一特殊的生物学实体有关的所有信息,而不必按次序查询分立的数据库。这就是一个名为Entrez的分子检索系统。它由NCBI开发和维护,Entrez在所有的主要的数据库计算机平台上均可使用,允许对PubMed(MEDINE)的记录,核苷酸和蛋白质的序列数据,三维结构信息,图谱信息进行集成的访问。全部信息只需经过一次查询。Entrez能够通过数据库之间的两种类型联系:相近性和硬连接来提供集成的信息检索。
相近性
相近性联系着一个给定的数据库之内的记录。使用者在查看MEDLINE中某条记录时可以要求Entrez"找出所有类似的论文",类似的,使用者在查看一个序列的同时可以要求Entrez"找出所有与这个序列类似的序列"。一个数据库之内的相近性关系是建立在对相似性的统计计算上的:
BLAST 序列数据可以用基本局部对比搜索工具(Basic Local Alignment Search Tool,即BLAST)相互比较。这个算法试图找到"高度匹配的片段对"(high-scoring segment pairs,简记为HSPs),即能够无缺口的对齐且达到一定的分数的成对的序列。
VAST 几套坐标数据之间的比较采用一种名为VAST的基于向量的算法。VAST即Vector Alignment Search Tool(Madej等,1995;Gibrat等,1996)。VAST的比较有三个步骤:
1.第一,在坐标数据的基础上,标出所有的构成蛋白质的核心部分的α螺旋和β片层。然后根据这些二级结构单位的位置计算向量。以下的步骤使用这些向量来做对比而不是整个一套坐标。
2.然后,算法试图最佳的匹配这些向量,寻找类型和相对方位相同的成对的结构单位,并且在这些单位之间还要有同样的连接方式。其目标在于识别高度相似的"核心结构",这些成对结构的匹配性要比随机的选择蛋白质相互比较得到的高得多。
3.最后,在每个残基位置上使用蒙特-卡洛方法对结构的排列进行优化。
使用这个方法有可能找到一些序列相似性不明显的蛋白质之间的结构上的关系(可能在功能上也有关系)。最后的对齐结果不一定是全局的,可能在不同的蛋白质的单独的结构域之间配对。
需要重点注意的是VAST不是确定结构相似性的最好办法,因为还可以利用三维坐标文件中的其它信息来做更进一步的修正,如考虑侧链的位置及侧链之间的相互作用的热力学特点。而把结构压缩成一列矢量必然会导致信息的丢失。然而,考虑到这个问题的数量级-即需要做的成对比较的次数-及采用更高级的方法所需要的计算能力和时间,VAST至少为结构相似性问题提供了一个简单和快速的答案。
加权的关键词 序列数据对比问题与MEDLINE记录的对比相比较还是容易一点,MEDLINE的记录是自由书写的文本,语法上不固定。Entrez使用了名为"相关配对模式检索"的方法来做这种对比,该方法依靠的基础是加权关键词(Wilbur和Caffee,1994Wilbur和Yang 1996),这个概念用具体的例子来描述比较合适。
硬连接
硬连接的概念比相近性的概念更容易接受。硬连接用于联系不同的数据库中的记录,只要这些记录之间存在逻辑联系,就存在硬连接。举例来说,如果一条MEDLINE记录是关于??装配型质粒的,那么在这条记录和对应的核酸记录之间就建立一条硬连接。如果这个装配型质粒??上的一个开放阅读框架编码某种已知的蛋白质,那么在核酸记录和蛋白质记录之间就建立一条硬连接。如果这种蛋白质恰好已经有实验测出了它的结构,那么在这条蛋白质记录和结构记录之间也会建立一条硬连接。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)