Proximity(邻近)是聚类中一个重要的概念。拿到一个n*p的数据矩阵后(n个
为了得到邻近度(proximity),可以通过直接和间接的方法。所谓直接的方法,
我们得分别考虑分类数据,连续数据,和混合数据。 数据挖掘研究院
首先是categorical data(分类数据),这类数据中的变量的取值是离散的有限个。其中最特殊的是二分的数据,即各个变量的取值非零即一。计算较为简单,两个样本的各个变量的比较无非四种情况:1-1,1-0,0-1,0-0。分别计数成 a,b,c,d。其中唯一需要注意的是0-0是否要被算作“相同”,基于不同情况可以
对于连续数据,就需要定义一个距离(distance, dissimilarity)的量度了。这个量度d(i,j)需要满足三角不等式。即对于任何的样本点i,j,m有 :d(i,j)+d(j,m)>=d(i,m),而d(i,i)=0。常用的量度方法
最后是混合数据的情况。当连续数据和分类数据混合在一起的时候,有两种对策:一是将各个变量二分,然后使用二分数据计算相似性量度的方法;二是,对每种变量,分别构建一个相异性的量度,然后可以结合权重或不结合,将它们混在一起构成一个系数。值得记下来的是Gower的general similarity measure:
s_{ij}=frac{sum_{k=1}^{p}w_{ijk}s_{ijk}}{sum_{k=1}^{p}w_{ijk}}
数据挖掘研究院
其中w_{ijk}是权重,一般设为0或1,代表该数据点是否可用。s_{ijk}是s_{ij}=1-|x_{ik}-x_{jk}|/R_{k}
R_{k}是第k个变量的幅度(range)。这个general similarity measure在没有丢失数据的情况下可以使用3.6公式对应为欧几里得的距离矩阵。
接下来的议题是如何计算组与组之间的邻近度。有两个基本的方法可供选择。 数据挖掘实验室
一是,从邻近矩阵出发,利用两组的样本之间的距离值来计算。比如用两组间最小的样本距离值来表示(nearest neighbour distance),最大的距离值(furthest neighbour distance),或者用两组样本之间所有距离的平均值来表示。这三种技术分别对应于single linkage(单连锁)聚类,complete linkage(全连锁)聚类和group average(组平均)聚类。
另一种方法是,通过组内数据的统计性质得到一个可以代表该组的观察量,然后用它们之间的距离表示组与组之间的距离。最容易想到的方法是计算各个变量的平均值,以它们来表示整个组。更合适的做法是利用上组内的统计性质。如 Mahalanobis距离(P46,公式3.13),它利用了两组数据内部的协方差
关于权重的选择。给变量加上权重相当于指定变量的重要性。这种指定可以是由研究者给出或者由数据矩阵数据中(not 距离矩阵)计算得出。对后者的最普遍的想法是让权重反比于对应变量可变化性。这个可变化性(variability)可
方法一:通过估算类内部的变化性来决定权重的方法。这种方法是权重选择中效果最好的。当得到估计的类内部的变化性后,比如协方差矩阵后,可以方便地使用前面提到的Mahalanobis公式计算两点间的距离。由Art等人于1982年提出
方法二:后来Gnanadesikan 于1995年进一步发展了这个方法,估算一个类间的协方差矩阵B^{*},用diag(B^{*})(diag(W^{*}))^{
方法三:De Soete提出这样为每个变量找到权重,使权重后的欧几里得距离最小化某个标准使得其偏离超测度(ultrametricity)。这种方法倾向于优
方法四:变量选择。主旨是找出一个原来变量的子集进行后续的聚类研究。这种做法的例子是Fowlkes等在1988年发明的正向选择方法。结果是对于选中的
Gnanadesikan等在1995年的评价中指出:1、相同的权重,标准差权重,
对权重选择的一些建议:1、主观的确定变量的权重往往反映了数据已存在的分类,因此对聚类分析没有帮助;2、没有一个绝对好的权重选择方法,方法的好坏往往取决于未知的类结构,尽管如此,大多数时候应该选择上面提到的方法二,而流行的一股脑的把所有的变量都放进分析中(相同权重)或是使用标准差计算权重的方法似乎没有效果。 数据挖掘研究院
另一个重要的问题是标准化,因为常常各个变量是在不同的测度不同的单位和标准下测量的。当所有的变量都是连续的测度下测得的,常常计算变量的标准差,然后简单的使各个变量单位化再进行分析(autoscaling,or standard scoring)。另一个方法则是对每个变量除以它们各自的变化范围(range),
关于邻近度度量方法的选择。方法太多了,没有一个绝对的适用于任何情况的选择,但有些注意点得记住:1、数据的性质会很强的影响到量度方法的选择;2、数据的测度影响方法的选择,如是否是二分的数据,是样本的大小(size) 重要还是形状(shape)重要等等;3、聚类方法与系数的选取存在联系。
在多变量研究中常遇到的问题是,某些数据会有遗失。最简单(但最好的)的处理方法是只是用没有数据遗失的那些样本进行聚类分析。另一种方法是使用 Gower′s general similarity measure来构建邻近度矩阵,但如果单个样本遗失的数据较多,这样建立的邻近度矩阵就变得不可信,最好还是扔掉这个样本!根据统计信息估算丢失的值不是值得推荐的办法。为了估计这些值,用全局的统计信息是不合适的,最好当然是使用类内部的统计信息,因此有了步进的流程来计算这些值。先使用没有丢失数据的样本聚类,然后将丢失数据的样本归入某些类中(e.g.依据可以使用的那些变量),接着计算类内部的统计性质,给丢失的数据赋值,最后再拿这所有的样本变量聚类并重复最后的两步直到赋的值和类结构不再变化。实际应用中可以使用多种估算方法,如果各种方法给出的值差不多,则可以有信心的使用估算丢失值的处理方法。

