RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

第十一章 非参数统计(2)

来源: 作者:unkonwn 时间:2004-12-08 点击:

第三节  两独立样本检验 数据挖掘研究院

一、比较两总体中位数的非参数检验:Wilcoxon(Mann-Whitney)秩和检验

数据挖掘研究院

假定第一个样本有m个观测值,第二个有n个观测值。把两个样本混合之后把这m+n个观测值升幂排序,记下每个观测值在混合排序下面的秩。之后分别把两个样本所得到的秩相加。记第一个样本观测值的秩的和为WX而第二个样本秩的和为WY。这两个值可以互相推算,称为Wilcoxon统计量。 数据挖掘研究院

该统计量的分布和两个总体分布无关。由此分布可以得到p-值。 数据挖掘研究院

直观上看,如果WXWY之中有一个显著地大,则可以选择拒绝零假设。

该检验需要的唯一假定就是两个总体的分布有类似的形状(不一定对称)。

下面数据(GDP.sav)是地区1的十个城市和地区215个城市的人均GDP(元)。 数据挖掘研究院

现在要想以此作为两个样本来检验两个地区的人均GDP的中位数m1m2是否一样,即双尾检验  H0: m1=mH1: m1m2

数据挖掘研究院

由于地区2的人均GDP的中位数大于地区1的中位数,因此也可以做单尾检验

数据挖掘实验室

H0: m1=m2   H1: m1<m2

数据挖掘实验室

地区13223452638362781598232164710562823034618

数据挖掘研究院

地区2539139834076594147484600632545345526569970085403667855375257

数据挖掘研究院

SPSS的输出可以得到下面结果: 数据挖掘研究院

  数据挖掘研究院

数据挖掘研究院

对于双尾检验H0: m1=m2   H1: m1m2p-值为0.016(见“Exact Sig. (2-tailed)”); 数据挖掘实验室

而对于单尾检验H0: m1=m2    H1: m1<m2(见“Exact Sig. (1-tailed)”),p-值为0.008 数据挖掘研究院

这两个结果是精确计算的。通常在样本量大的时候利用近似方法得到渐近分布的p-值(见“Asymp. Sig. (2-tailed)”),它只给了双尾检验的近似p-0.017,和精确值差别不大。注意单尾检验的p-值是双尾检验的p-值的一半。 数据挖掘研究院

这个例子的结果表明,可以拒绝原假设,即有理由认为地区2的人均GDP的中位数要高一些。 数据挖掘研究院

二、关于两样本分布的Kolmogorov-Smirnov检验 数据挖掘研究院

假定有分别来自两个独立总体的两个样本。要想检验它们背后的总体分布相同的零假设,可以进行两独立样本的Kolmogorov-Smirnov检验。

原理完全和单样本情况一样。只不过把检验统计量中零假设的分布换成另一个样本的经验分布即可。

假定两个样本的样本量分别为n1n2,用S1 (X)S2 (X)分别表示两个样本的累积经验分布函数。再记DjS1 (Xj)-S2 (Xj)。近似正态分布的检验统计量为:

数据挖掘研究院

  

 

数据挖掘研究院

  数据挖掘研究院

 

 


 

以教材资料twonp.txt为例,SPSS运算结果为: 数据挖掘实验室

 

数据挖掘研究院

数据挖掘研究院

由结果可以看到精确检验的P值为0.124,对于0.05的显著性水平,不能拒绝两个分布相同的零假设。

数据挖掘实验室

三、两样本WaldWolfowitz游程检验

数据挖掘研究院

Wald-Wolfowitz游程检验(Wald-Wolfowitz runs test)和Kolmogorov-Smirnov检验都是看两个样本所代表的总体是否分布类似。 数据挖掘研究院

但是所采取的方法不一样。Wald-Wolfowitz游程检验把两个样本混合之后,按照大小次序排列,一个样本的观测值在一起的为一个游程。

数据挖掘实验室

和单样本的游程问题类似,可以由游程个数R看出两个样本在排序中是否随机出现。

由教材twonp.sav数据,可以得到下面SPSS关于Wald-Wolfowitz游程检验的输出:

数据挖掘研究院

数据挖掘研究院

由结果可以看到精确检验的P值为0.415,对于0.05的显著性水平,不能拒绝两个分布相同的零假设。
第四节 关于多个独立样本的检验。
一、Friedman秩和检验
前面讨论了两因子试验设计数据的方差分析,那里所用的F检验需要假定总体的分布为正态分布。
有一种非参数方差分析方法,称为Friedman (两因子)秩和检验,或Friedman方差分析。它适用于两个因子的各种水平的组合都有一个观测值的情况。
假定第一个因子有k个水平(称为处理,treatment),第二个因子有b个水平(称为区组);因此一共有k×bkb个观测值。
这里之所以称一个因子为处理,是因为这是我们想要看该因子各水平是否对试验结果有显著的不同(它的各个水平的观测值也就是本小节的多个相关样本)。
而另一个因子称为区组,不同的区组也可能对结果有影响。下面是一个例子。
教材资料数据fert.sav
这里有三种肥料作为第一个因子(肥料因子)的三个水平;而四种土壤为第二个因子(土壤因子)的四个水平。
感兴趣于是否这三种肥料对于某作物的产量有区别。
称肥料因子为处理,而土壤因子为区组。数据在下表中(表中数字为相应组合的产量,单位公斤)。
 
肥料种类
肥料A
肥料B
肥料C
土壤类型
土壤1
22
46
68
土壤2
25
36
48
土壤3
18
21
20
土壤4
11
13
19
    Friedman秩和检验是关于位置的,和Kruskal-Wallis检验类似,形式上,假定这些样本有连续分布F1,…,Fk
零假设为H0F1=…=Fk
备选假设为HaFi(x)=F(x+qi),i=1,…,k,这里F为某连续分布函数,而且这些参数qi并不相等。
虽然这和以前的Kruskal-Wallis检验一样,但是由于各组的影响, 要首先在每一个组中计算各个处理的秩;再把每一个处理在各组中的秩相加.如果Rij表示在j个区组中第i个处理的秩。则秩按照处理而求得的和为:
这样做的目的是在每个组内比较处理
例如, 同个年龄段中比较药品的疗效比不分年龄来比较疗效要合理;在同一个部位比较不同的材料要比混合起来比较要合理等等。
Friedman统计量定义为:
数据挖掘实验室
  
第一个式子表明,如果各个处理很不一样,和的平方就会很大,结果就显著。第二个公式是为了计算方便而导出的。它有近似的(有k-1个自由度的)X2分布。
 
就上面的数据可以得到SPSS结果为:
 
结果可以看出精确的P值为0.042,在0.05的显著性水平下,可以拒绝不同肥料作用相同的零假设。
二、Kendall协同系数检验
在实践中,常需要按照某些特别的性质来多次对一些个体进行评估或排序;比如几个(m个)评估机构对一些(n个)学校进行排序。人们想要知道,这些机构的不同结果是否一致。如果很不一致,则该评估多少有些随机,意义不大。
换句话说,这里想要检验的:
零假设是:这些对于不同学校的排序是不相关的或者是随机的;
而备选假设为:这些对不同学校的排序是正相关的或者是多少一致的。
一个机构对诸个体(学校)的秩(次序)的和为1+2+…+n=n(n+1)/2
所有m个机构对所有个体评估的总秩为mn(n+1)/2;这样对每个个体的平均秩为m(n+1)/2。
如果记每一个个体的m个秩(次序)的和为Ri(i=1,…,n),那么,如果评估是随机的,这些Ri与平均秩的差别不会很大,反之差别会很大,也就是说下面的个体的总秩与平均秩的偏差的平方和S很大。S定义为
  
 
数据挖掘研究院
 
这个和Kendall协同系数(Kendall’s Coefficient of Concordance)是成比例的,Kendall协同系数W(Kendall’s W)定义为:
以教材数据school.sav为例,4个独立的环境研究单位对15个学校排序的结果每一行为一个评估机构对这些学校的排序。看上去不那么一致(也有完全一致的):
SPSS输出结果为:
计算结果W0.491,近似的P值为0017,在显著性水平为0.05时可以拒绝评估是随机的零假设。
思考题:
1.举例说明总体参数的推断与非参数统计的区别。
2. 非参数统计主要用到哪些统计检验方法?
最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?