RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

第十章 对应分析

来源: 作者:unkonwn 时间:2004-12-08 点击:

第一节  对应分析的基本理论

一、对应分析引例 数据挖掘研究院

我们经常遇到将数据进行双向分组的表格,称为列联表。如1977年美国佛罗里达州杀人案件中,被告和判死刑与否的326个对象如下表: 数据挖掘研究院

判刑 数据挖掘研究院

被告
 死
 否
 
白人
 19
 141
 
黑人
 17
 149
 

我们要分析的是法院判处死刑是否与被告肤色有关。这就要用对应分析。本章教学目的是教会学生如何分析行变量和列变量的关系。 数据挖掘研究院

在因子分析中,或者对指标(列中的变量)进行分析,或者对样品(观测值或行中的变量)进行分析。

另外,在处理实际问题中,样品的个数远远抵大于指标个数。如有100个样品,每个样品测10个指标,要做样品的因子分析,就要计算(100×100)阶相似系数阵的特征根和特征向量,这对于计算机来说也是一想耗时费力的事情

典型相关分析也只研究列中两组变量之间的关系。 数据挖掘研究院

然而,在很多情况下,所关心的不仅仅是行或列本身变量之间的关系,而是行变量和列变量的相互关系;这就是因子分析等方法所没有说明的了。 数据挖掘研究院

二、对应分析的基本思想

由于指标型的因子分析和样品型的因子分析都是反映一个整体的不同侧面,以它们之间一定存在内在的联系。

数据挖掘实验室

对应分析就是通过一个过渡矩阵Z将两者有机的结合起来:

即:首先给出指标变量点的协差阵A=Z,Z和样品点的协差阵B=ZZ’,由于两者有相同的非零特征根,可以很方便的借助指标型因子分析而得到样品型因子分析的结论。 数据挖掘研究院

如果对每组变量选择前两列因子载荷,那么两组变量就可以画出两个因子载荷的散点图。 数据挖掘研究院

由于这两个图所表示的载荷可以配对,于是就可以把这两个因子载荷的两个散点图画到同一张图中,并以此来直观地显示各行变量和各列变量之间的关系。
 
第二节  对应分析应用

一、问题提出

数据挖掘研究院

在研究读写汉字能力与数学的关系的研究时,人们调查了232个美国亚裔学生的数学成绩和汉字读写能力的数据。

关于汉字读写能力的变量有三个水平: 数据挖掘实验室

“纯汉字”——可以完全自由使用纯汉字读写, 数据挖掘研究院

“半汉字”——读写中只有部分汉字(比如日文),

“纯英文”——只能够读写英文而不会汉字。

数据挖掘研究院

而数学成绩有4个水平(A、B、C、D)。

这项研究是为了考察汉字具有的抽象图形符号的特性能否会促进儿童空间和抽象思维能力。 数据挖掘实验室

该数据以列联表形式展示在表中: 数据挖掘研究院


对这个列联表进行X2检验考察行变量和列变量是否独立,结果如下表: 数据挖掘实验室

由于所有的检验都很显著,看来两个变量的确不独立。

数据挖掘研究院

但是如何用象因子分析的载荷图那样的直观方法来展示这两个变量各个水平之间的关系呢?这就是本章要介绍的对应分析(correspondence analysis)方法。

数据挖掘实验室

对应分析是将指标型的因子分析与样品型的因子分析结合起来进行的统计分析。 数据挖掘研究院

对应分析是从指标型因子分析出发,而直接获得样品因子分析的结果。 数据挖掘研究院

概括起来,因子分析可以提供三方面的信息:

指标之间的关系; 数据挖掘实验室

样品之间的关系;

数据挖掘研究院

指标与样品之间的关系。

数据挖掘研究院

二、对应分析的展开

数据挖掘研究院

1.利用上述资料运行SPSS得对应分析结果为: 数据挖掘研究院

 

可以发现运用纯汉字的点和最好的数学成绩A最接近,而不会汉字只会英文的点与最差的数学成绩F(或者D,虽然在纵坐标稍有差距)最接近,而用部分汉字的和数学成绩B接近。

对应分析各维汇总表为:


2.表中各术语为: 数据挖掘实验室

Singular Value-奇异值(是惯量的平方根),反映了是行与列各水平在二维图中分量的相关程度,是对行与列进行因子分析产生的新的综合变量的典型相关系数。

Inertia-惯量, 实际上就是常说的特征根,表示的是每个维度对变量各个类别之间差异的解释量。

数据挖掘研究院

Chi Square-就是关于列联表行列独立性x2检验的x2统计量的值,和前面表中的相同。其后面的Sig为在行列独立的零假设下的p-值,注释表明自由度为(4-1)×(3-1)=6,Sig.值很小说明列联表的行与列之间有较强的相关性。 数据挖掘研究院

Proportion of Inertia-惯量比例,是各维度(公因子)分别解释总惯量的比例及累计百分比,类似于因子分析中公因子解释能力的说明。 数据挖掘研究院

3.输出结果解释

从该表可以看出,由于第一维的惯量比例占了总比例的93.9%,因此,其他维的重要性可以忽略(虽然画图时需要两维,但主要看第一维-横坐标)。 数据挖掘研究院

在对应分析中,每个变量的类别差异是通过直观图上的分值距离表现出来的,但这个距离并不是我们通常所说的距离,而是经过加权的距离,在加权的过程中,以卡方值的差异表现。 数据挖掘研究院

4.行剖面 数据挖掘研究院

 
第一部分是关于行变量每一类别在两个维度上的分值情况,实际上就是每一类别在坐标途中的坐标, Mass为行与列的边缘概率 。

数据挖掘研究院

第二部分(Contribution of Point to Inertia of Dimention)是说明行变量各个类别对每一维度特征值的影响,数值越大的类别,说明它对类别间差异的影响越大。

第三部分(Contribution of Dimention to Inertia of Point)是说明每一维度对行变量各个类别特征值的影响。

数据挖掘研究院

   数据挖掘研究院

5.列剖面

数据挖掘研究院

   

数据挖掘研究院

思考题:

1.对应分析与因子分析有什么不同?

数据挖掘研究院

2. 举例说明如何理解对应分析计算的结果。 数据挖掘研究院

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?