分子生物学数据库的应用可以分为两个主要方面,即数据库查询(databaase query)和数据库搜索(database search)。数据库查询和数据库搜索是分子生物信息学中两个常用术语。在具体介绍数据库查询和数据库搜索以前,有必要把这两个术语作简单说明。所谓数据库查询,是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。例如,对蛋白质序列数据库SwissProt输入关键词insulin(胰岛素),即可找出该数据库所有胰岛素或与胰岛素有关的序列条目(Entry)。数据库查询有时也称数据库检索,它和互联网上通过搜索引擎 (Search engine) 查找需要的信息是一个概念。数据库查询、数据库检索和数据库搜索这三个词经常混用。其实,数据库搜索在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。例如,给定一个胰岛素序列,通过数据库搜索,可以在蛋白质序列数据库SwissProt中找出与该检测序列(query sequence)具有一定相似性的序列。因此,在生物信息学中,数据库搜索是专门针对核酸和蛋白质序列数据库而言,其搜索的对象,不是数据库的注释信息,而是序列信息。显然,数据库查询和数据库搜索在生物信息学中是两个完全不同的概念,它们所要解决的问题、所采用的方法和得到的结果均不相同。
本章以SRS和Entrez为例,介绍数据库查询的基本方法;并列举一些常用的实例。
SRS是Sequence Retrieval System的缩写,由欧洲分子生物学实验室开发,最初是为核酸序列数据库EMBL和蛋白质序列数据库SwissProt的查询开发的。随着分子生物信息数据库应用和开发的需求不断增长,SRS已经成为欧洲各国主要生物信息中心必备的数据库查询系统。目前,SRS已经发展成商业软件,由英国剑桥的LION Bioscience公司继续开发,学术单位在签定协议后可以免费获得该软件的使用权,而非学术单位则需要购买使用权。
SRS是一个开放的数据库查询系统,即不同的SRS查询系统可以根据需要安装不同的数据库,目前共有300多个数据库安装在世界各地的SRS服务器上。读者可以直接从LION公司的网页上查到这些数据库的名称,并知道它们分别安装在何处(http://www.lionbio.co.uk/publicsrs.html)。欧洲生物信息学研究所、英国的基因组测序中心Sanger Centre和英国基因组资源中心HGMP等大型生物信息中心安装了100多个数据库。北京大学生物信息中心1997年开始安装SRS系统,目前共有70多个数据库,其中核酸序列数据库EMBL和蛋白质结构数据库PDB每日更新。国内微生物所、上海生命科学院等单位也于2000年开始安装SRS系统。下表列出国际上主要SRS数据库查询系统服务器系统的网址,以供用户参考。
|
单 位 |
网 址 |
|
欧洲生物信息研究所 |
http://srs6.ebi.ac.uk/srs6/ |
|
英国基因组资源中心 |
http://iron.hgmp.mrc.ac.uk/srs6/ |
|
英国基因组测序中心 |
http://www.sanger.ac.uk/srs6/ |
|
法国生物信息中心 |
http://www.infobiogen.fr/srs6/ |
|
荷兰生物信息中心 |
http://www.cmbi.kun.nl/srs6/ |
|
澳大利亚医学研究所 |
http://srs.wehi.edu.au/srs6/ |
|
德国癌症研究所 |
http://genius.embnet.dkfz-heidelberg.de/menu/srs/ |
|
加拿大生物信息资源中心 |
http://www.cbr.nrc.ca/srs6.1/ |
Entrez由美国NCBI开发,用于对文献摘要、序列、结构和基因组等数据库进行关键词查询,找出相关的一个或几个数据库条目。该系统目前主要包括核酸序列数据库、蛋白质序列数据库、基因组数据库、蛋白质结构数据库、生物医学文献摘要数据库、系统分类数据库、人类遗传疾病和遗传缺失在线数据库,以及基因信息数据库、种群亲缘关系核酸序列比对数据库、表达序列标签数据库等。
