返回首页

基本概念

时间:2004-11-23 07:06来源: 作者:unkonwn 点击:
  

这里简要介绍一下数据库搜索基于的基本概念和算法。

相似性和同源性

如上所述,数据库搜索的基础是序列的相似性比对,而寻找同源序列则是数据库搜索的主要目的之一。所谓同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。必须指出,相似性(similarity)和同源性(homology)是两个完全不同的概念。相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。总之,不能把相似性和同源性混为一谈。所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应该避免使用。

相似性概念的含义比较广泛,除了上面提到的两个序列之间相同碱基或残基所占比例外,在蛋白质序列比对中,有时也指两个残基是否具有相似的特性,如侧链基团的大小、电荷性、亲疏水性等。在序列比对中经常需要使用的氨基酸残基相似性分数矩阵,也使用了相似性这一概念。此外,相似性概念还常常用于蛋白质空间结构和折叠方式的比较。

 

局部相似性和整体相似性

序列比对的基本思想,是找出检测序列和目标序列的相似性。比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除(图3.1)。序列比对的最终实现,必须依赖于某个数学模型。不同的模型,可以从不同角度反映序列的特性,如结构、功能、进化关系等。很难断定,一个模型一定比另一个模型好,也不能说某个比对结果一定正确或一定错误,而只能说它们从某个角度反映了序列的生物学特性。此外,模型参数的不同,也可能导致比对结果的不同。

图3.1 序列比对,图中“-”表示插入和删除,用字符表示相同的残基,“+”表示相似残基。

序列比对的数学模型大体可以分为两类,一类从全长序列出发,考虑序列的整体相似性,即整体比对;第二类考虑序列部分区域的相似性,即局部比对。局部相似性比对的生物学基础是蛋白质功能位点往往是由较短的序列片段组成的,这些部位的序列具有相当大的保守性,尽管在序列的其它部位可能有插入、删除或突变。此时,局部相似性比对往往比整体比对具有更高的灵敏度,其结果更具生物学意义。

区分这两类相似性和这两种不同的比对方法,对于正确选择比对方法是十分重要的。应该指出,在实际应用中,用整体比对方法企图找出只有局部相似性的两个序列之间的关系,显然是徒劳的;而用局部比对得到的结果也不能说明这两个序列的三维结构或折叠方式一定相同。BLAST和FastA等常用的数据库搜索程序均采用局部相似性比对的方法,具有较快的运行速度,而基于整体相似性比对的数据库搜索程序则需要超级计算机或专用计算机才能实现。

 

相似性分数矩阵

在对蛋白质数据库搜索时,可采用不同的相似性分数矩阵,以提高搜索的灵敏度和准确率。常用的相似性矩阵有突变数据矩阵(Mutation Data Matrix,简称MD)和模块替换矩阵(BLOcks Substitution Matrix,简称BLOSUM)。

图3.2 突变数据相似性分数矩阵PAM250。

在序列比对中,通常希望使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机出现的概率的比值的矩阵。这些比值可以用相关几率(relatedness odds)矩阵表示。这就是突变数据相似性分数矩阵产生的基础,在序列比对过程中,两个序列从头到尾逐个残基进行比对,所得几率值的乘积就是整个比对的分值。在实际使用时,通常取几率值的对数以简化运算。因此,常用的突变数据矩阵PAM250实际上是几率值的对数矩阵(图3.2)。矩阵中值大于0的元素所对应的两个残基之间发生突变的可能性较大,值小于0的元素所对应的两个残基之间发生突变的可能性较小

突变数据矩阵PAM即可接受点突变(Point Accepted Mutation,简称 PAM)。1个PAM的进化距离表示100个残基中发生一个残基突变的概率。对应于一个更大进化距离间隔的突变概率矩阵,可以通过对初始矩阵进行适当的数学处理得到[Dayhoff等,1978],如常用的PAM250矩阵,PAM250相似性分数矩阵相当于在两个序列之间具有20%的残基匹配(图3.2)。主对角线上分数值是指两个相同残基之间的相似性分数值,有些残基的分值较高,如色氨酸W为17、半胱氨酸C为12,说明它们比较保守,不易突变;有的残基的分值较低,如丝氨酸S、丙氨酸A、门冬酰氨N三种氨基酸均为2,这些氨基酸则比较容易突变。不同氨基酸之间的分数值越高,它们之间的相似性越高,进化过程中容易发生互相突变,如苯丙氨酸F和酪氨酸Y,它们之间的相似性分数值是7。而相似性分数值为负数的氨基酸之间的相似性则较低,如甘氨酸和色氨酸之间为-7,它们在进化过程中不易发生互相突变。此外,表中把理化性质相似的氨基酸按组排列在一起,如碱性氨基酸组氨酸H、精氨酸R和赖氨酸K。

突变数据矩阵的产生基于相似性较高(通常为85%以上)的序列比对,那些进化距离较远的矩阵(如PAM250)是从初始模型中推算出来而不是直接计算得到的,其准确率受到一定限制。而序列分析的关键是检测进化距离较远的序列之间是否具有同源性,因此突变数据矩阵在实际使用时存在着一定的局限性。

而模块替换矩阵BLOSUM则以序列片段为基础,它是基于蛋白质模块数据库BLOCKS,Henikoff夫妇(Henikoff和Henikoff,1992)从蛋白质模块数据库BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。在每一片段中,计算出每个残基位置的平均贡献,使得整个片段可以有效地被看作为单一序列。通过设置不同的百分比,产生了不同矩阵。由此,例如高于或等于80%相同的序列组成的串可用于产生BLOSUM80矩阵(BlOcks SUbstitution Matrix 发音为blossom);那些有62%或以上相同的串用于产生BLOSUM62矩阵,依此类推。BLOSUM与BLOCKS对于同样的序列比对产生的结果在局部有所不同,可能是一个认为不相似不可以替换而另一个认为相似可以替换。必须说明,如果比对这两个序列高度相似,这些细微的差别对整个序列比对结果的影响不大,但在序列比对的边界区可能产生显著影响,此时增强微弱信号以探测远距离相关变得十分重要。

 

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
最新评论 查看所有评论
发表评论 查看所有评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 密码: 验证码:
发布者资料
admin 查看详细资料 发送留言 加为好友 用户等级: 注册时间:2008-12-30 06:12 最后登录:2008-12-31 04:12