第三节 两独立样本检验 数据挖掘研究院
一、比较两总体中位数的非参数检验:Wilcoxon(Mann-Whitney)秩和检验
假定第一个样本有m个观测值,第二个有n个观测值。把两个样本混合之后把这m+n个观测值升幂排序,记下每个观测值在混合排序下面的秩。之后分别把两个样本所得到的秩相加。记第一个样本观测值的秩的和为WX而第二个样本秩的和为WY。这两个值可以互相推算,称为Wilcoxon统计量。 数据挖掘研究院
该统计量的分布和两个总体分布无关。由此分布可以得到p-值。 数据挖掘研究院
直观上看,如果WX与WY之中有一个显著地大,则可以选择拒绝零假设。
该检验需要的唯一假定就是两个总体的分布有类似的形状(不一定对称)。
下面数据(GDP.sav)是地区1的十个城市和地区2的15个城市的人均GDP(元)。 数据挖掘研究院
现在要想以此作为两个样本来检验两个地区的人均GDP的中位数m1和m2是否一样,即双尾检验 H0: m1=m2 H1: m1≠m2
由于地区2的人均GDP的中位数大于地区1的中位数,因此也可以做单尾检验
H0: m1=m2 H1: m1<m2。
地区1:3223,4526,3836,2781,5982,3216,4710,5628,2303,4618
地区2:5391,3983,4076,5941,4748,4600,6325,4534,5526,5699,7008,5403,6678,5537,5257
由SPSS的输出可以得到下面结果: 数据挖掘研究院
对于双尾检验H0: m1=m2 H1: m1≠m2,p-值为0.016(见“Exact Sig. (2-tailed)”); 数据挖掘实验室
而对于单尾检验H0: m1=m2 H1: m1<m2(见“Exact Sig. (1-tailed)”),p-值为0.008。 数据挖掘研究院
这两个结果是精确计算的。通常在样本量大的时候利用近似方法得到渐近分布的p-值(见“Asymp. Sig. (2-tailed)”),它只给了双尾检验的近似p-值0.017,和精确值差别不大。注意单尾检验的p-值是双尾检验的p-值的一半。 数据挖掘研究院
这个例子的结果表明,可以拒绝原假设,即有理由认为地区2的人均GDP的中位数要高一些。 数据挖掘研究院
二、关于两样本分布的Kolmogorov-Smirnov检验 数据挖掘研究院
假定有分别来自两个独立总体的两个样本。要想检验它们背后的总体分布相同的零假设,可以进行两独立样本的Kolmogorov-Smirnov检验。
原理完全和单样本情况一样。只不过把检验统计量中零假设的分布换成另一个样本的经验分布即可。
假定两个样本的样本量分别为n1和n2,用S1 (X)和S2 (X)分别表示两个样本的累积经验分布函数。再记Dj=S1 (Xj)-S2 (Xj)。近似正态分布的检验统计量为:
以教材资料twonp.txt为例,SPSS运算结果为: 数据挖掘实验室
由结果可以看到精确检验的P值为0.124,对于0.05的显著性水平,不能拒绝两个分布相同的零假设。
三、两样本Wald—Wolfowitz游程检验
Wald-Wolfowitz游程检验(Wald-Wolfowitz runs test)和Kolmogorov-Smirnov检验都是看两个样本所代表的总体是否分布类似。 数据挖掘研究院
但是所采取的方法不一样。Wald-Wolfowitz游程检验把两个样本混合之后,按照大小次序排列,一个样本的观测值在一起的为一个游程。
和单样本的游程问题类似,可以由游程个数R看出两个样本在排序中是否随机出现。
由教材twonp.sav数据,可以得到下面SPSS关于Wald-Wolfowitz游程检验的输出:
|
|
肥料种类
|
|||
|
肥料A
|
肥料B
|
肥料C
|
||
|
土壤类型
|
土壤1
|
22
|
46
|
68
|
|
土壤2
|
25
|
36
|
48
|
|
|
土壤3
|
18
|
21
|
20
|
|
|
土壤4
|
11
|
13
|
19
|
|

