NCBI(美国国立生物技术信息中心)简介
介绍
理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字母来代表DNA化学亚基的字母表,出现了生命过程的语法,其最复杂形式就是人类。阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。挑战在于发现新的手段去处理这些数据的容量和复杂性,并且为研究人员提供更好的便利来获得分析和计算的工具,以便推动对我们遗传之物和其在健康和疾病中角色的理解。
国立中心的建立
后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了在1988年11月4日建立国立生物技术信息中心(NCBI)的立法。NCBI是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。它的使命包括四项任务:
建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统
实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究
加速生物技术研究者和医药治疗人员对数据库和软件的使用。
全世界范围内的生物技术信息收集的合作努力。
NCBI通过下面的计划来实现它的四项目的:
基本研究
NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础科学上做出重要贡献,而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分析,和结构的预测。目前研究计划的一些代表是:检测和分析基因组织,重复序列形式,蛋白domain和结构单元,建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据馑阉髦械男蛄写砦笥跋斓姆治觯⑿碌氖菘馑阉骱投嘀匦蛄卸云胨惴ǎ⒎侨哂嘈蛄惺菘猓蛄邢嗨菩缘耐臣葡灾云拦赖氖P停臀谋炯焖鞯氖噶磕P汀A硗猓琋CBI研究者还坚持推动与NIH内部其他研究所及许多科学院和政府的研究实验室的合作。
数据库和软件 数据挖掘研究院
在1992年10月,NCBI承担起对GenBank DNA序列数据库的责任。NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库。同美国专利和商标局的安排使得专利的序列信息也被整合。
GenBank是NIH遗传序列数据库,一个所有可以公开获得的DNA序列的注释过的收集。GenBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。
GenBank以指数形式增长,核酸碱基数目大概每14个月就翻一个倍。最近,GenBank拥有来自47,000个物种的30亿个碱基。
孟德尔人类遗传(OMIM),三维蛋白质结构的分子模型数据库(MMDB),唯一人类基因序列集合(UniGene),人类基因组基因图谱,分类学浏览器,同国立癌症研究所合作的癌症基因组剖析计划(CGAP)。
Entrez是NCBI的为用户提供整合的访问序列,定位,分类,和结构数据的搜索和检索系统。Entrez同时也提供序列和染色体图谱的图形视图。Entrez是一个用以整合NCBI数据库中信息的搜寻和检索工具。这些数据库包括核酸序列,蛋白序列,大分子结构,全基因组,和通过PubMed检索的MEDLINE。Entrez的一个强大和独特的特点是检索相关的序列,结构,和参考文献的能力。杂志文献通过PubMed获得,PubMed是一个网络搜索界面,可以提供对在MEDLINE上的九百万杂志引用的访问,包含了链接到参与的出版商网络站点的全文文章。 数据挖掘研究院
BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt。所有的NCBI数据库和软件工具可以从WWW或FTP来获得。NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。
NCBI站点地图---关于Database的一般介绍
GenBank Overview
基本信息
什么是GenBank?GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
纪录样本 - 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。
访问GenBank - 通过Entrez Nucleotides来查询。用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于Entrez更多的信息请看下文。用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据。
增长统计 - 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank增长)小节。
公布通知,最新 - 最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。
公布通知,旧 - 同上相同,是过去公布的统计。
遗传密码 - 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。
(向)GenBank提交(数据)
关于提交序列数据,收到accession number,和对纪录作更新的一般信息。
BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。(请在提交前用VecScreen去除载体)
Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)
ESTs - 表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。 数据挖掘研究院
GSSs - 基因组调查序列,短的、单次(测序)阅读的cDNA序列,exon trap获得的序列,cosmid/BAC/YAC末端,及其他。
HTGs - 来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。(注意:完成的人类的HTG序列可以同时在GenBank和Human Genome Sequencing页面上访问。)
STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列,用于产生作图位点。
注:SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。
国际核苷酸序列数据库合作组织
GenBank,DDBJ,EMBL - 合作计划的概述,并链接到相应的主页。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)数据库共享的数据是每天都交换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是accession number,序列数据和注解都是一模一样的。即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。
DDBJ/EMBJ/GenBank特性表 — 特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸的代号。
FTP GenBank and Daily Updates
GenBank普通文件格式 — 参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。
ASN.1格式 — 摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。
FASTA格式 — 定义行号后只跟随序列数据(示例),参见描述数据库的readme文件,包括nt.Z(每天更新的非冗余BLAST核酸数据库,包括GenBank+EMBL+DDBJ+PDB序列,但是不包括EST, STS, GSS, or HTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。
分子数据库概览
核酸序列
Entrez核酸 — 用accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索核酸序列记录(在GenBank + PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用Batch Entrez(批量Entrez)。 数据挖掘研究院
RefSeq — NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。
dbEST — 表达序列标签数据库,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。
dbGSS —基因组调查序列的数据库,短的、单次(测序)阅读的cDNA序列,exon trap获得的序列,cosmid/BAC/YAC末端,及其他。
dbSTS —序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位点。
dbSNP — 单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。
完整的基因组
参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。
UniGene — 被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。 数据挖掘研究院
o 人类UniGene
o 小鼠UniGene
o 大鼠UniGene
o 斑马鱼UniGene
BLAST — 将你的序列同核酸库中的的序列比较,检索相似的序列。(更详细的信息见下面Tools/Sequence相似搜索部分)
蛋白序列
Entrez蛋白 —用accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索蛋白序列记录(在GenPept + Swiss-Prot + PIR + RPF + PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用Batch Entrez(批量Entrez)。
RefSeq — NCBI数据库的参考序列。Curated, 非冗余集合包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。
FTPGenPept — 下载“genpept.fsa.Z”文件,这个文件包含了从GenBank/EMBL/DDBJ记录中翻译过来的FASTA格式的氨基酸序列,这些记录都有一到两个CDS特性的描述。
完整基因组 数据挖掘研究院
参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。
Entrez基因组 — 提供了一个编码区的概要和各种物种的分类表(TaxTable)。编码区概要列出了在基因组中所有的的蛋白,并提供链接到FASTA文件和BLAST。分类表总结了蛋白BLAST分析的结果,建议他们的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系(参见下面′Genomes和Maps,′部分Entrez基因组的一般描述)
FTP基因组蛋白 — 从ftp站点的genbank/genomes目录下下载各种物种的FASTA格式的氨基酸序列*.faa和蛋白表文件*.ptt。参见readme文件。蛋白表也可以在Entrez基因组中看到。
PROW — Web上的蛋白资源,关于大约200种人类的CD细胞表面分子的简短官方向导。互相检索,为每个CD抗原提供大约20中标准信息的分类(生化功能,配体,等等)
BLAST — 将你的序列同蛋白库中的的序列比较,检索相似的序列。(更详细的信息见下面Tools/Sequence相似搜索部分)
结构
结构主页 — 关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。
MMDB:分子模型数据库 — 一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍射和NMR色谱分析。MMDB是来源于Brookhaven蛋白数据库(PDB)三维结构的一部分,排除了那些理论模型。MMDB重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的交叉参考。数据的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织的,以及联系两者的一套指针。利用将化学,序列,和结构信息整合在一起,MMDB计划成为基于结构的同源模型化和蛋白结构预测的资源服务。MMDB的记录以ASN.1格式存储,可以用Cn3D, Rasmol, 或 Kinemage来显示。另外,数据库中类似的结构已经被用VAST确认,新的结构可以用VASTsearch来同数据库进行比较。
Cn3D — “See in 3-D”, 一个用于NCBI数据库的结构和序列相似显示工具,它允许观察3-D结构和序列—结构或结构—结构同源比较。Cn3D用起来就象你浏览器上的一个帮助工具。
VAST — 矢量同源比较搜索工具—一个在NCBI开发的计算算法,用于确定相似的蛋白三维结构。每一个结构的“结构邻居”都是预先计算好的,而且可以通过MMDB的结构概要页面的链接访问。这些邻居可以用来确认那些不能被序列比较识别的远的同源性。 数据挖掘研究院
VAST 搜索 — 结构—结构相似搜索服务。比较一个新解出的蛋白结构和在MMDB/PDB数据库中的结构的三维坐标。VAST搜索计算一系列可能会被交互浏览的结构邻居,用分子图形来观察重叠和同源相似。
分类学
NCBI的分类数据库主页 — 关于分类计划的一般信息,包括分类资源和同NCBI分类学家合作的外部管理者的列表。
分类浏览器 — 搜索NCBI的分类数据库,包括大于70000个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。可以检索一个特定种或者更高分类(如属,科)的核酸,蛋白,和结构记录。如果有新物种的序列数据被放到数据库中,这个物种就北加到(分类)数据库中。NCBI的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。
文献数据库概要
PubMed — 一个关于生物医药科学的检索系统,包括引用,摘要,和杂志的索引术语。它包括直接由出版商提供给NCBI的文献引用以及链接到在出版商网址上的全文的URLs。PubMed包括MEDLINE和PREMEDLINE的完整内容。它还包括一些被MEDLINE认为超出范围的文章和杂志,(这些文章或杂志)由于内容或在某一时期不在索引范围内。因此PubMed是比MEDLINE的更大的集合。 数据挖掘实验室
杂志浏览器 — 允许你去查找收录到PubMed系统的杂志的名字,MEDLINE的缩写,或ISSN号码。
PubRef(开发中)— 一个关于来自于广大范围的科学杂志的数目记录,和链接到出版商网址的全文。PubRef包含了PubMEd,加上了来自其它学科的杂志出版商提供的引用和摘要。因此它是比PubMed更大的集合。这个计划的启动是因为NAS要求为科学领域的电子杂志提供一个“白皮书”服务。
PubMed中心(开发中) — PubMed中心是一个无障碍的NIH资源,用于在生命科学领域中同业互查的基础研究报告。从2000年一月开始接受杂志文章。所有在PubMed中心的材料将由目前任一主要的摘要和索引服务中列出的杂志提供,或者在编辑委员会中拥有3个以上有主要资金机构的研究经费的拥有人的杂志提供。
OMIM — 在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。
书籍 — 同书籍出版商合作NCBI为网络改编了教科书,并把他们链接到PubMed—生物医药书目数据库。这是为了给PubMed提供背景信息,这样使用者可以探究在PubMed搜索结果中不熟悉的概念。目前收录的书有: 数据挖掘研究院
Molecular Biology of the Cell, 3rd ed. Alberts B., Bray D., Lewis J., Raff M., Roberts K., Watson J.D., 1994, Garland Publishing.
外部链接 — 一个登记服务,用于建立从在Entrez中的特定的文章,杂志,或生物数据到外部网址的链接。第三方可以提供一个URL,资源名字,关于他们网址的简要的描述,和关于从NCBI数据的哪里他们希望建立链接的详细说明。这个详细说明可以用对Entrez有效的布尔查询来写,也可以用特定的文章或序列的标志列表来写。这样NCBI PubMed的用户将可以通过“NCBI小房间”服务(开发中)来选择哪个外部链接在他们的搜索中是可见的。
引用匹配 — 允许你找到任何一篇在PubMed数据库中的文章的PubMed ID或MEDLINE UID,给出书目信息(杂志,卷,页码等)。
单篇文章的引用匹配。
许多文章的批量引用匹配。
E-mail引用匹配也是可以的,也可以用于单篇或许多文章。如果要获得帮助文件,给citation_matcher@ncbi.nlm.nih.gov写一封只有内容为HELP的E-Mail。
Genomes and Maps Overview
Entrez基因组:人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒,和真核细胞器。
Entrez基因组(各种物种)
Entrez基因组 — 超过800种在GenBank中被完整测序的物种,包括大于500种病毒,〉25种细菌,酵母,和许多viroids,质粒,和细胞器。还包括正在进行中的基因组,比如人,小鼠,线虫,疟原虫,果蝇,利什曼原虫,水稻,和玉米。提供完成的基因组/染色体的图形概览,并可以探究那些逐步细化的区域。也提供那些已经被NCBI工作人员分析过的物种的编码区的摘要和TaxTables。另外,Entrez Map Viewer,Entrez基因组的一个软件组成部分,提供整合的果蝇(细胞遗传学和序列图谱)和人类(细胞遗传学,遗传连锁,序列,放射杂交,和其它图谱)的染色体图谱的浏览。
通过每个物种的Entrez基因组页面来下载〈350kb的基因组。
通过NCBI ftp站点来下载〉350kb的基因组—参见在genbank/genomes目录下的readme文件,ftp链接在每个物种的Entrez基因组页面上也有。
NCBI站点地图---Human Genome人类基因组数据介绍 数据挖掘研究院
向导
人类基因组资源向导 — 可用的人类基因组数据资源概览。包括关于人类基因组的公告和进展报告和提供对以前分离的数据的集中访问。
人类基因组序列数据的状态 — 描述了目前在GenBank中的数据的范围,包括完成的和草图高通量基因组序列数据的讨论。
染色体
人类基因组测序 — 每一条染色体,概述了人类基因组计划的测序进展(图示和统计)。提供对基因组序列数据的访问,也有链接到参与的国际基因组中心,各种STS图谱,疾病基因信息,和选择出的参考文献。列出完成的contig的大小和位置。Contig可以被显示出来,以表示组成他们的GenBank中的记录的成分,或者那些由e-PCR确定的位于其上的STS标记。Contig用在GenBank中处于第三期的HTG序列记录来组装起来,组装的办法是用Jang, et al描述的过程,并给于一个NT_*的accession number,作为RefSeq计划的一部分。关于各期HTG序列的详细说明见HTG网页。
Entrez图谱浏览器 — 整合的染色体图谱—图谱浏览器是Entrez基因组的一个软件组成部分,用来显示一个或多个用共同标记或基因名字互相align过的图谱,以及用相同序列进行比较过的序列图谱。在人类基因组数据和搜索技巧文件中有关于20种序列,细胞遗传,遗传连锁,放射杂交,和其它的图谱。Entrez图谱浏览器的帮助文件提供了关于如何使用这个工具的一般说明。 数据挖掘实验室
FTP — 每个染色体都有一个文件目录包含各种格式的完成的基因组contig(NT_*记录):
hs_chr*.asn ASN.1 格式 (description above)
hs_chr*.fna.gz FASTA 格式(description above)
hs_chr*.gbk.gz GenBank flat file 格式
(目前注解包括STS标记,已知和预期的基因将被在将来几个月中加入)
hs_chr*.gbs GenBank summary 格式
(这个格式不含有序列数据,但是包含一个“CONTIG”字段,表明这个contig是如何有独立的GenBank记录组装起来的。)
BLAST人类基因组序列数据
BLAST人类染色体 — 将一个核酸或蛋白序列同已经完成的HTG contig比较。Contig用在GenBank中处于第三期的HTG序列记录来组装起来,组装的办法是用Jang, et al描述的过程,并给于一个NT_*的accession number,作为RefSeq计划的一部分。关于各期HTG序列的详细说明见HTG网页。同人类染色体作BLAST是人类基因组测序页面的一个组成部分。
BLAST htgs数据库 — 将一个核酸或蛋白序列同未完成的HTG序列(第0,1,2期)进行比较(关于各期HTG序列的详细说明见HTG网页)。尽管htgs数据库包含有来自许多物种的序列,你可以使用Advanced BLAST页面来限定你的搜索只在人类。 数据挖掘研究院
BLAST gss数据库 — 将一个核酸或蛋白序列同随机的“单次(测序)阅读”的基因组调查序列比较,如同cosmid/BAC/YAC末端序列,exon trap获得的基因组序列,和Alu PCR序列。尽管gss数据库包含有来自许多物种的序列,你可以使用Advanced BLAST页面来限定你的搜索只在人类。
基因
位点链接(LocusLink) — 为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,同名,序列accesssion number,表型,EC号码,OMIM号码,Unigene簇,图谱信息,和相关的网址。LocusLink是NCBI,人类基因命名委员会,OMIM和其它组织的合作结果。LocusLink目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。
OMIM — 在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。
RefSeq — NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。
UniGene — 被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。
序列
人类基因组测序 — 每一条染色体,概述了人类基因组计划的测序进展(图示和统计)。提供对基因组序列数据的访问,也有链接到参与的国际基因组中心,各种STS图谱,疾病基因信息,和选择出的参考文献。列出完成的contig的大小和位置。Contig可以被显示出来,以表示组成他们的GenBank中的记录的成分,或者那些由e-PCR确定的位于其上的STS标记。Contig用在GenBank中处于第三期的HTG序列记录来组装起来,组装的办法是用Jang, et al描述的过程,并给于一个NT_*的accession number,作为RefSeq计划的一部分。关于各期HTG序列的详细说明见HTG网页。
RefSeq — NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。 数据挖掘研究院
Entrez — 对GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB数据库中的核酸和蛋白序列数据提供整合的访问,同时提供对3D蛋白结构,基因组图谱信息和PubMed MEDLINE的访问。Entrez包含了对每个数据库记录的预先计算好的相似搜索,产生一个相关序列,结构,和MEDLINE记录的表。包括了来自〉70000个物种的序列数据,可以用物种字段来限制记录只在人类搜索。
UniGene — 被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。
DbEST — 表达序列标签数据库—短的(300—500bp)的cDNA序列,代表mRNA的单次(测序)阅读。常常有大量的EST被测序,并代表了在一个给定的组织或一个给定的发育阶段的基因表达的快照。同时包含了由CGAP计划产生的ESTs,和来自差异显示及RACE实验的序列。
克隆
克隆登记 — 由多方人类基因组测序中心使用的数据库,用来记录哪些克隆已经被选来测序,哪些正在被测序,哪些已经完成,哪些已经被送到GenBank中去了。包括BACs, PACs, cosmids, fosmids。使用统一的克隆名字表示克隆在微量板上的位置(板号,行,和列),位置前面加上库的缩写,来产生唯一的名字。包括了克隆定购的信息。
基因组图谱
Entrez基因组 — 链接到人类基因组测序站点的人类染色体视图。Entrez基因组同时包括了一个人类线粒体的视图(通过真核细胞器来访问),可以查看完整情况或查看逐步详细的信息。
Entrez图谱浏览器 — 整合的染色体图谱—图谱浏览器是Entrez基因组的一个软件组成部分,用来显示一个或多个用共同标记或基因名字互相align过的图谱,以及用相同序列进行比较过的序列图谱。在人类基因组数据和搜索技巧文件中有关于20种序列,细胞遗传,遗传连锁,放射杂交,和其它的图谱。Entrez图谱浏览器的帮助文件提供了关于如何使用这个工具的一般说明。
GeneMap’99 — 〉35000个人类基因标记的物理图谱,由国际放射杂交图谱联合用一致的RH试剂和方法建成。提供了突出了染色体上关键标志(富含基因区)的框架,从而加速了测序,代表了超过100名科学家的国际合作努力。
NCBI RH图谱 — NCBI整合的RH图谱,包括来自GeneMap’99的G3和GB4的RH单子上的23723个标记。这些标记相对于1084个框架标记(一个G3和GB4共同的子集)被绘制。所有的标记被统一在GB4的尺度上。R. Agarwala et al.的文章提供了详细的整合策略,以及评估整合图谱质量的方法。
Mitelman癌症染色体变异摘要 — 由Drs. Mitelman, Mertens, 和 Johansson建立的基因组范围的人类癌症中染色体断裂位点图谱。参见Nature Genetics, Vol. 15(Spec. No.):417-74 (April 1997)的超文本版本。
OMIM基因图 — 被报道的和被许多定位方法决定的基因的细胞遗传位点。可以用基因代号或细胞遗传染色体位点来搜索。可以从OMIM页面上访问。
OMIM致病图 — 按字母排列的疾病和相应的细胞遗传图位点,链接到OMIM的条目。可以从OMIM页面访问。
人类/小鼠同源图 —University of California at Davis的M. F. Seldin建立,一张比较人和老鼠在同源区段DNA上基因的表,按在每个基因组上的位置排列。
绘制的标记
dbSTS —序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,因而可以确定在物理图谱上的特定位置。
电子PCR(e-PCR) — 找到一个查询序列的假设位点图。用于在DNA序列上发现STS位点计算过程。
GeneMap’99 — 〉35000个人类基因标记的物理图谱,由国际放射杂交图谱联合用一致的RH试剂和方法建成。提供了突出了染色体上关键标志(富含基因区)的框架,从而加速了测序,代表了超过100名科学家的国际合作努力。
人类基因组测序 — 绘制的标记已经用e-PCR自动被放到完成的HTG序列组成的contig上。标记来源于dbSTS, GeneMap′99(基于基因的标记),Stanford G3 RH单子(又有基因标记也有非基因标记),Whitehead GB4 RH单子和YAC图谱(又有基因标记也有非基因标记),Genethon遗传图谱,和一些染色体特异的图谱,如NHGRI的7号染色体图谱,Washington University的X染色体图谱。
OMIM基因图 — 被报道的和被许多定位方法决定的基因的细胞遗传位点。可以用基因代号或细胞遗传染色体位点来搜索。可以从OMIM页面上访问。
基因表达
CGAP cDNA表达谱 — 在UniGene簇和cDNA库中的ESTs分布。可以在CGAP页面上访问。
SAGEmap — CGAP SAGE(Serial Analysis of Gene Expression)库的差异显示。也包含了对在人类GenBank记录中的SAGE标签的完整分析,在人类GenBank记录中一个UniGene的标志被分配给了每个含有一个SAGE标签的人类序列
遗传变异
dbSNP — 单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。DbSNP包含种族特异的频率和基因型数据,实验条件,分子上下文,及中性多态和临床变异的定位信息。
OMIM — 在线人类孟德尔遗传—约900个OMIM记录的等位变异。为了查看这些OMIM记录的列表,在等位变异字段上搜索“0001”。或者,把一个疾病的名字同“0001”放到一起。如:Gaucher & 0001。
位点特异突变数据库 — 从OMIM主页和相关的LocusLink条目链接到许多外部数据库。
失调
基因和疾病 — 介绍遗传因素和人类疾病的关系。有约60种遗传疾病的概要信息,以及链接到相关数据库和组织。
Mitelman癌症染色体变异摘要 — 由Drs. Mitelman, Mertens, 和 Johansson建立的基因组范围的人类癌症中染色体断裂位点图谱。参见Nature Genetics, Vol. 15(Spec. No.):417-74 (April 1997)的超文本版本。
OMIM — 在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。
OMIM Morbid Map - alphabetical listing of diseases and corresponding cytogenetic map locations, with links to OMIM entries. Accessible from OMIM page (see Genes).
OMIM致病图 — 按字母排列的疾病和相应的细胞遗传图位点,链接到OMIM的条目。可以从OMIM页面访问。
癌症研究
CCAP — 癌症染色体变异计划—计划用来加速同恶性转移相关的显著染色体变异的定义和详细的特征描述。
CGAP — 癌症基因组剖析计划 — 交叉学科项目,目的是基于cDNA库,鉴定在不同癌症阶段的人类基因表达,和决定正常,癌前和恶性细胞的分子表达谱。是NCI,NCBI和其它许多实验室的合作。
Mitelman癌症染色体变异摘要 — 由Drs. Mitelman, Mertens, 和 Johansson建立的基因组范围的人类癌症中染色体断裂位点图谱。参见Nature Genetics, Vol. 15(Spec. No.):417-74 (April 1997)的超文本版本。 数据挖掘实验室
SAGE分析 — 在癌症库中的SAGE标签的差异表达。
NCBI站点地图---其他基因组数据介绍
小鼠基因组
小鼠基因组资源向导 — 把从各个中心来的各种小鼠相关的资源整合在一起,包括序列,图谱,和克隆信息以及指向小鼠种系和突变资源的指针。
小鼠基因组测序 — 小鼠基因组计划的测序进展,HTG序列contigs(可以用大小和染色体号来浏览)由测序中心的数据建立,可以contig或染色体的形式来下载。
小鼠UniGene — 被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载
位点链接(LocusLink) — 为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,序列accesssion number, Unigene簇,图谱信息,和相关的网址。LocusLink是NCBI,人类基因命名委员会,OMIM和其它组织的合作结果。LocusLink目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。 数据挖掘实验室
Entrez —包括了来自〉70000个物种的序列数据,可以用物种字段来限制记录只在小鼠搜索。
人类/小鼠同源图 —University of California at Davis的M. F. Seldin建立,一张比较人和老鼠在同源区段DNA上基因的表,按在每个基因组上的位置排列。
大鼠基因组
大鼠UniGene —被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载
位点链接(LocusLink) — 为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,序列accesssion number, Unigene簇,图谱信息,和相关的网址。LocusLink是NCBI,人类基因命名委员会,OMIM和其它组织的合作结果。LocusLink目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。
斑马鱼基因组
斑马鱼UniGene —被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载 数据挖掘研究院
位点链接(LocusLink) — 为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,序列accesssion number, Unigene簇,图谱信息,和相关的网址。LocusLink是NCBI,人类基因命名委员会,OMIM和其它组织的合作结果。LocusLink目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。
果蝇基因组
黑腹果蝇主页 — 提供所有可使用的果蝇资源的概要,用图形的方式显示了染色体,允许你通过Entrez基因组浏览器的方法来搜索整个基因组的细胞遗传和序列信息。Entrez基因组提供了对于一个物种一致的遗传,物理,和序列数据的图形界面。当你用一个基因的代号来搜索时,它给出搜索结果的一个图形的基因组视图,从那你可以放大到你所感兴趣的区域的更详细的图谱视图,并且链接到序列数据和包含更多信息的相关资源。
黑腹果蝇基因组测序的状态 —描述了目前在GenBank,Entrez Genomes,和FTP站点中的数据的范围
Entrez图谱浏览器 — 整合的染色体图谱—图谱浏览器是Entrez基因组的一个软件组成部分,用来显示一个或多个用共同标记或基因名字互相align过的图谱,以及用相同序列进行比较过的序列图谱。在人类基因组数据和搜索技巧文件中有关于目前可以使用的果蝇的序列和细胞遗传学图谱。Entrez图谱浏览器的帮助文件提供了关于如何使用这个工具的一般说明。
位点链接(LocusLink) — 为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,序列accesssion number, Unigene簇,图谱信息,和相关的网址。LocusLink是NCBI,人类基因命名委员会,OMIM和其它组织的合作结果。LocusLink目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。
线虫基因组
Entrez基因组 — 染色体的图形表示,可以整个的查看,也可以逐步放大的看。链接到相关的序列数据。
酵母基因组
Entrez基因组 — 染色体的图形表示,可以整个的查看,也可以逐步放大的看。链接到相关的序列数据。
COGs — 相邻类的聚簇 — 来自于完整基因组的基因家族自然系统。COGs用比较21种完整的基因组的编码的蛋白序列描绘了17个主要的种系发生系统。每个COG包含至少来自3个世系的独立蛋白或蛋白家族的相邻体,所以对应了一个古老的保守domain。
疟原虫基因组
疟原虫遗传学和基因组 — 提供与疟原虫遗传学和基因相关的数据和信息。资源包括物种特异的序列BLAST数据库(恶性疟原虫,所有疟原虫,以及弓形虫),基因组图谱,连锁标记,以及遗传学研究信息。链接到其他的疟原虫网站和相关的寄生虫遗传学数据库包括弓形虫。
Entrez基因组 — 恶性疟原虫的染色体全长的图形视图,完整的染色体序列数据(2和3),链接到正在进行的染色体的分离数据表(来自于HB3 X Dd2杂交的染色体),链接到其他基因组测序中心。
FTP站点 (pub/Malaria目录)— 用于查找在DNA序列中STS的电子PCR疟原虫版。
FTP站点 (genbank/genomes 目录) — 下载各种格式的完整的染色体序列数据(2和3),包括GenBank的flat file (*.gbk),GenBank的概要文件(*.gbs),FASTA核酸文件(*.fna),FASTA氨基酸文件(*.faa),蛋白表(*.ptt)和其他。
细菌基因组
Entrez基因组 — 完整细菌基因组的图形表示,可以整个的查看,也可以逐步放大的看。链接到相关的序列数据。对每一个细菌都提供了一个编码区域的概要和TaxTable。
微生物基因组测序计划 — 完成的和正在进行的测序计划,链接到NCBI的图形视图和测序中心。
COGs — 相邻类的聚簇 — 来自于完整基因组的基因家族自然系统。COGs用比较21种完整的基因组的编码的蛋白序列描绘了17个主要的种系发生系统。每个COG包含至少来自3个世系的独立蛋白或蛋白家族的相邻体,所以对应了一个古老的保守domain。 数据挖掘研究院
FTP站点— 下载各种格式的完整的细菌染色体序列数据,包括GenBank的flat file (*.gbk),GenBank的概要文件(*.gbs),FASTA核酸文件(*.fna),FASTA氨基酸文件(*.faa),蛋白表(*.ptt)和其他。
微生物基因组BLAST数据库 — 与完成的和未完成的微生物基因组进行BLAST。
病毒基因组
Entrez基因组 — 完整病毒基因组的图形表示,可以整个的查看,也可以逐步放大的看。链接到相关的序列数据。对每一个病毒都提供了一个编码区域的概要。
反转病毒资源 — 收集了一批资源用于特别支持反转病毒的研究。资源包括,一个基因型工具用BLAST算法来确定一个查询序列的基因型,一个对齐工具(alignment)用于多个序列的通用对齐,一个HIV-1自动序列注解工具,以及16种反转病毒的可以在GenBank,FASTA和图形方式来查看的注解图谱及链接到其他相关序列纪录。
疫苗基因组
Entrez基因组 — 完整疫苗基因组的图形表示,可以整个的查看,也可以逐步放大的看。链接到相关的序列数据。对每一个疫苗都提供了一个编码区域的概要。
质粒 数据挖掘研究院
Entrez基因组 — 完整质粒的图形表示,可以整个的查看,也可以逐步放大的看。链接到相关的序列数据。对每一个质粒都提供了一个编码区域的概要。
真核细胞器
真核细胞器主页 — 提供真核细胞器的概述,关于细胞器参考序列计划的描述,以及链接到以分类等级和以物种字母顺序排列的完整测序的细胞器列表,链接到后生动物线粒体的基因和RNA,以及相关的网站。
Entrez基因组 — 完整真核细胞器的图形表示,可以整个的查看,也可以逐步放大的看。链接到相关的序列数据。对每一个真核细胞器都提供了一个编码区域的概要。
NCBI站点地图---工具概述
数据检索 — 文本搜索
Entrez — 对GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB数据库中的核酸和蛋白,包括了来自〉70000个物种的序列序列数据提供整合的访问,同时提供对3D蛋白结构,基因组图谱信息和PubMed MEDLINE的访问。Entrez包含了对每个数据库记录的预先计算好的相似搜索,产生一个相关序列,结构,和MEDLINE记录的表。Entrez可以用很广泛的文本方式来搜索,比如作者名字,杂志名字,基因或蛋白名字,物种,唯一的标号(如:accession number,序列ID,PubMed ID,MEDLINE UID),和其他的术语,根据被搜索的数据库来确定。使用新的Linkout服务,外部资源可以被链接到Entrez纪录。 数据挖掘研究院
批量Entrez — 允许你用一批的方式来用Entrez检索大量的核酸或蛋白序列,并把他们保存在你计算机的磁盘上。有三种方法来提交一个查询:1)输入一个含有GI或accession number列表的文件,2)指定一个物种名字或更高的分类来检索那个类的所有序列。3)输入一个Entrez搜索查询。搜索结果将被直接保存到你的计算机上。
查询E-Mail服务器 — 用Entrez PubMed查询引擎来检索核酸序列,蛋白序列,三维结构,和PubMed MEDLINE纪录。如果要获得帮助文件,给query@ncbi.nlm.nih.gov写一封只有内容为HELP的E-Mail。
网络Entrez — 一个WWW Entrez基于TCP/IP的客户-服务器版本。直接通过Internet来连接NCBI的数据库来检索数据。数据以二进制的方式来传输,减少网络传输的带宽要求。有PC,Mac,Unix,版本的客户软件。
dbEST, dbGSS, dbSTS搜索叶面 —EST, GSS, 和STS序列可以从两种方法获得:GenBank(通过Entrez)的EST/GSS/STS部分,和分开的但相关的数据库dbEST/dbGSS/dbSTS。两种来源的序列和accession number是一致的,但是纪录的格式不一样,dbEST/dbGSS/dbSTS纪录包括了一些基于BLAST搜索结果增加的注解,包括上至15最佳匹配的核酸和蛋白。dbEST, dbSTS, dbGSS搜索叶面还允许用克隆号码来搜索。
引用匹配 — 允许你找到任何一篇在PubMed数据库中的文章的PubMed ID或MEDLINE UID,给出书目信息(杂志,卷,页码等)。
单篇文章的引用匹配。
许多文章的批量引用匹配。
E-mail引用匹配也是可以的,也可以用于单篇或许多文章。如果要获得帮助文件,给citation_matcher@ncbi.nlm.nih.gov写一封只有内容为HELP的E-Mail。
序列相似搜索
BLAST主页 — 访问BLAST程序,概要,帮助文件,和FAQs。
Gapped BLAST (2.0) — 一种BLAST版本,允许在它产生的对齐(alignments)中存在缺口。统计有效性的评估是基于使用随机序列的优先模拟。在不久的将来,所有对Gapped BLAST的访问都要通过QBLAST。
QBLAST — 一种新的系统,允许用户以他们方便的方式检索Gapped BLAST结果,并且可以用各种格式选项多次格式化他们的结果。这个系统也使NCBI更有效的使用计算资源,更好的为大家服务。到1999年秋季,QBLAST系统用于所有的BLAST搜索。
PSI-BLAST — 位点特异迭代BLAST — 用蛋白查询来搜索蛋白数据库的一个程序。所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起来。这个矩阵被用来搜索数据库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。 数据挖掘研究院
PHI-BLAST — 模式发现迭代BLAST — 用蛋白查询来搜索蛋白数据库的一个程序。仅仅找出那些查询序列中含有的特殊模式的对齐。
BLAST两个序列 — 一个基于BLAST的工具,对齐两个核酸或蛋白的序列,产生一个成对的DNA-DNA或蛋白—蛋白序列比较。
IgBLAST —IgBLAST被开发出来以便于分析在GenBank中的免疫球蛋白的序列。它允许用blastp或blastn来搜索nr数据库或一个由免疫球蛋白生殖系变化区基因的特殊的数据库。搜索可以限制在人类或小鼠的基因。IgBLAST执行三个主要的功能:1)报告与查询序列最相似的可变,D,或J区,2)根据Kabat et al.来注解免疫球蛋白domains(从FWR1到FWR3),3)对于搜索核酸或蛋白nr数据库,通过匹配IgBLAST的发现和最接近的生殖系变化区基因来简化识别相关序列的过程。
PowerBLAST —PowerBLAST是一个程序,允许对非常长的序列进行快速的gapped BLAST搜索,它把序列分割开,对每个部分搜索,然后把结果组装起来。包含在Sequin中的PowerBlast版本使用了新的强大的gapped BLAST算法,过滤和物种特异的输出特点还仍旧保留。
BLAST E-mail服务器 — 基于e-mail的序列相似搜索服务,接受FASTA格式的核酸或蛋白序列。如果要获得帮助文件,给blast@ncbi.nlm.nih.gov写一封只有内容为HELP的E-Mail。
网络BLAST — 一个WWW Entrez基于TCP/IP的客户-服务器版本。直接通过Internet来连接NCBI的数据库来检索数据。有PC,Mac,Unix,版本的客户软件。
单独的BLAST — 下载可用于本地执行使用的BLAST。二进制版本有IRIX 6.2, Solaris 2.6, DEC OSF1 (ver. 4.0d), LINUX, 和 Win32系统。BLAST数据库同样可以下载。
专门的BLAST页面
BLAST人类染色体 — 人类染色体测序页面的一部分。
BLAST against Drosophila melanogaster genome sequence - see additional information on the Drosophila genome above.
BLAST against dbSNP - additional information about dbSNP is above.
Microbial Genomes BLAST Databases - BLAST against finished and unfinished microbial genomes.
BLAST against P. falciparum only, all Plasmodium, or all Toxoplasma in GenBank
BLAST against P. falciparum 3D7 Genome Project finished and unfinished sequences
序列分析
BLAST — 见上
VecScreen — 一个工具,在序列分析和提交之前用来确定一个核酸序列是否有载体,接头或连结序列。VecScreen被开发来对付公开数据库中的载体污染问题。在开始进行任何一种序列分析前把序列用VecScreen检查一下都是有用的,因为在序列中存在载体序列可能会导致错误的BLAST结果。
ORF Finder — 一个图形分析工具,用于在用户提供的序列或数据库中的序列中寻找被选择的最小长度的开放阅读框。用标准的或替代的遗传密码来确定所有开放阅读框。推断出的氨基酸序列可以用各种格式来保存,还可以用WWW BLAST到序列数据库中进行搜索。ORF Finder同Sequin序列提交软件捆绑在一起。单独的程序可以从NCBI的ftp站点下载。
Sequin — 一个提交工具,包括了ORF Finder,一个对齐浏览器/编辑器,和一个链接到PowerBLAST。更详细的见上Sequin。
e-PCR ­ 电子PCR — 将一个查询序列同已经定位的STSs比较,来发现查询序列的可能的图谱定位。E-PCR通过查找在的DNA序列中与定位标记的PCR引物非常吻合的子序列来找到STSs。这个子序列一定要有正确的顺序,方向,和间隔,以至他们可以合理的启动一个扩增出正确分子量的PCR产物。最新版本的e-PCR搜索除了NCBI dbSTS数据库以外的其他资源:1)人类:GDB,Genethon遗传图谱,GeneMap′99,Stanford G3图谱v2,Whitehead GB4图谱,Whitehead YAC图谱,NHGRI chr 7图谱,WUSTL chr X图谱,NCBI RH图谱,和2)小鼠:Whitehead遗传图谱,Whitehead RH图谱,Whitehead YAC图谱。e-PCR可以通过WWW查询,或可以从NCBI ftp站点的/pub/schuler/e-PCR目录下载。
COGnitor — 将你的序列同COGs数据库比较,来确定它属于的相邻组的簇。单独的COGs程序也是可以获得的。COGnitor可以以批的模式来运行,同很多的COGs数据库中的蛋白比较,并可以从ftp站点下载。
疟原虫遗传学和基因组 — 提供与疟原虫遗传学和基因相关的数据和信息。资源包括物种特异的序列BLAST数据库(恶性疟原虫,所有疟原虫,以及弓形虫),基因组图谱,连锁标记,以及遗传学研究信息。链接到其他的疟原虫网站和相关的寄生虫遗传学数据库包括弓形虫。
反转病毒资源 — 收集了一批资源用于特别支持反转病毒的研究。资源包括,一个基因型工具用BLAST算法来确定一个查询序列的基因型,一个对齐工具(alignment)用于多个序列的通用对齐,一个HIV-1自动序列注解工具,以及16种反转病毒的可以在GenBank,FASTA和图形方式来查看的注解图谱及链接到其他相关序列纪录。
SAGEmap — 基因表达的串行分析(SAGE)是一种实验技术用来定量分析基因的表达。提供CGAP SAGE(Serial Analysis of Gene Expression)库的差异显示。也包含了对在人类GenBank记录中的SAGE标签的完整分析,在人类GenBank记录中一个UniGene的标志被分配给了每个含有一个SAGE标签的人类序列网站建设过程的描述,分析工具,参考文献,定义,和定位数据可以从站点上下载。 数据挖掘研究院
CGAP DDD — 数字差异显示 — 一个在线工具,用来比较从挑选出来的cDNA库的计算基因表达谱。
3-D Structure Display and Similarity Searching
Cn3D — “See in 3-D”, 一个用于NCBI数据库的结构和序列相似显示工具,它允许观察3-D结构和序列—结构或结构—结构同源比较。Cn3D用起来就象你浏览器上的一个帮助工具。
VAST搜索 — 结构—结构相似搜索服务,将一个新解出的蛋白结构的三维坐标同在MMDB/PDB数据库中的比较。VAST搜索计算出可能会交互浏览的临近结构的列表,通过分子图形来查看重叠和对齐。
NCBI站点地图---其他各项介绍
在NCBI的研究的概览
计算生物学分支主页 — 在NCBI计算生物学分支研究计划的概览和高级研究员的列表。研究项目集中在对广泛的分子生物学基本问题的理论的,分析的,和应用的解决方法,包括生物分子结构,基因组分析,序列分析理论,硬件设计,软件和数据库设计,和文本检索和文件分析。
讨论会日程 —NCBI的讨论会有广泛的分子生物学和数学专题。这些讨论会对NIH公众和一般民众是公开的,由NCBI职员和访问科学家出席。
职员目录 — 在职和以前NCBI职员出版的和正在印刷的文章和专题论文的章节的列表。包括链接到相应的PubMed纪录。选出的文章也可以看到全文。
选出的职员出版物的全文 — 选出的在职和以前NCBI职员出版的和正在印刷的文章和专题论文的章节的全文。
教育概要
文章
A Billion Base Pairs Up for Grabs — 关于在NCBI的用来访问分子生物学数据库和分析序列数据的资源的介绍。包括对Entrez PubMed, BLAST, 3-D structures, Genomes, 和Taxonomy 概要的介绍。也包括在NCBI的生物采样。
生物信息学 — 一个新纪元 — 关于在这个领域内的生物信息学,从业者和训练,以及新的方向的讨论。作为Trends Guide to Bioinformatics介绍的服务器。
数据库部门和同源搜索文件 — 在GenBank/EMBL/DDBJ数据库部门的概要,有关于HTG部门的详细信息。包括在NCBI和EBI同源搜索文件的讨论
数据库搜索的基础 — 关于序列相似搜索工具的原理讨论,这些工具是可以被用来评估序列对齐。
基因组分析:实验室手册系列 — 第一卷:DNA分析,第七章:DNA和蛋白序列的计算分析。用于基因组分析的计算机数据库,网络,和软件工具的介绍。包括Internet基础,用BLAST分析序列,用Entrez对整合的信息检索,多重对齐,序列motifs,和结构推理,以及提交数据到公共数据库的讨论。同时也包括许多在Internet上的分子生物学资源的列表。
交互学习指南
Coffee Break — 关于最近生物学发现的简报的汇总。每一个简报都合并了交互学习指南来显示生物信息学工具是如何被用作研究过程的一部分的。
Entrez Tutorial
OMIM Tutorial
PubMed Tutorial
Tours and Exercises
How to BLAST
BLAST Statistics
Cn3D Structure Viewer
Bioinformatics Problems
Genetic Linkage Analysis
Online Information
CancerNet — 由NCI提供的广泛的准确的,可信赖的肿瘤信息。CancerNet信息由肿瘤专家定期综述,是基于最新的研究。它包括为病人,健康专家,和基础研究者提供选择的和组织好的信息。
基因和疾病 —介绍遗传因素和人类疾病的关系。有约60种遗传疾病的概要信息,以及链接到相关数据库和组织。
遗传术语词汇表 —NHGRI
遗传例证 —NHGRI
遗传研究技术 —NHGRI
人类基因组计划 — 一个国际研究,致力于通过对人类和选出的模式生物的DNA全部作图和测序来描述他们的基因组,发展基因组分析的技术,调查人类遗传研究带来的伦理的,法律的和社会的牵连,训练科学家,使他们可以使用通过HGP发展起来的工具和资源来进行生物学研究并提高人类的健康。
NHGRI教育和训练 — 国立人类基因组研究所(NHGRI)的政策协调办公室(OPC)致力于确定和协调为健康专家和公众的已存在的遗传教育活动,建立关于遗传教育的公共和私立组织之间的合作,和发展对遗传学的兴趣的活动。
FTP站点概要
Databases
GenBank普通文件格式 — 参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。
ASN.1格式 — 摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。
FASTA格式 — 定义行号后只跟随序列数据(示例),参见描述数据库的readme文件,包括nt.Z(每天更新的非冗余BLAST核酸数据库,包括GenBank+EMBL+DDBJ+PDB序列,但是不包括EST, STS, GSS, or HTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。
RefSeq — NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。
位点链接(LocusLink) — 为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,序列accesssion number, Unigene簇,图谱信息,和相关的网址。LocusLink是NCBI,人类基因命名委员会,OMIM和其它组织的合作结果。LocusLink目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。
dbSNP — 单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。 数据挖掘实验室
数据库的仓库 — 即,UniGene, GeneMap, dbEST, dbGSS, dbSTS, OMIM,和许多外部校正和维护的特定数据库。
软件
BLAST单独的程序 — 下载可执行的BLAST用于本地使用。提供IRIX 6.2, Solaris 2.6, DEC OSF1 (ver. 4.0d), LINUX, 和Win32系统的二进制形式。BLAST数据库也可下载。
客户/服务器程序
Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)
网络Entrez — 一个WWW Entrez基于TCP/IP的客户-服务器版本。直接通过Internet来连接NCBI的数据库来检索数据。有PC,Mac,Unix,版本的客户软件。
网络BLAST — 一个WWW Entrez基于TCP/IP的客户-服务器版本。直接通过Internet来连接NCBI的数据库来检索数据。有PC,Mac,Unix,版本的客户软件。 数据挖掘研究院
PowerBLAST —PowerBLAST是一个程序,允许对非常长的序列进行快速的gapped BLAST搜索,它把序列分割开,对每个部分搜索,然后把结果组装起来。包含在Sequin中的PowerBlast版本使用了新的强大的gapped BLAST算法,过滤和物种特异的输出特点还仍旧保留。
NCBI Software Toolkit — 一套软件和数据交换说明,被NCBI用来产生用于分子生物学的可移植的,模块化的软件。在Toolbox中的软件是主要设计成读出ASN.1格式的纪录。可以从NCBI的ftp站点的toolbox/ncbi_tools目录下载,可以直接使用,也可以在其基础上建立有相似功能的工具。在toolbox和toolbox/ncbi_tools目录下的readme文件包含了更详细的关于toolbox和ASN.1的信息。同时提供了ASN.1概要。
许多NCBI科学家个人项目研制的软件程序 —— 在FTP站点的/pub目录下包含了象MACAW和e-PCR这样的程序。
最新评论共有 0 位网友发表了评论
查看所有评论
发表评论
热点关注

