RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

第三章 数据的描述(2)

来源: 作者:unkonwn 时间:2004-12-08 点击:

第二节 用少量数字来概括数据的特征 数据挖掘研究院

    用一两个数字概括大量数字是日常生活中常见的。比如说,北京人的平均收入是多少;东西部的收入差距是多少,高收入的人占人口的百分比等。这些 “ 平均 ” , “ 差距 ” 或百分比都是用来概括的数字。

数据挖掘研究院

一、定性变量的数据描述 数据挖掘研究院

    由于定性变量主要是计数,比较简单,常用的概括就是比例、百分比、中位数和众数。

数据挖掘研究院

    中位数 (median) 数据挖掘研究院

    中位数是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。

    众数

    众数就是数据中出现次数或出现频率最多的数值。 数据挖掘研究院

    在定性变量中,由于记录的是频率,因此众数用得多些。比如在图 3.6 的关于语言的饼图中,可以看出众数就是由 “ 其他 ” 语种代表;这是因为无论是母语还是日常使用语, “ 其他 ” 类的频率都最大。当然, “ 其他 ” 不是一个语种。就单一语种来说,还是中国北方话为众数。

数据挖掘研究院

    用 spss 进行定性变量的数据描述,主要选项: 数据挖掘研究院

    Spss Analyse Descriptive Statistics Frequencies 数据挖掘研究院

二、定量变量的数据描述

数据挖掘研究院

    统计量和总体参数

    除了图表之外,可以用少量汇总统计量或概括统计量 (summary statistic) 来描述定量变量的数据。

    通常有 :

    均值 ( 平均数 ) 、中位数、总数;标准差、方差、标准误。 数据挖掘研究院

    如果这些数字是从样本数据得来的,称为统计量 (statistic) 。

数据挖掘实验室

    如果这些数字是从总体数据得来的,称为总体参数 (statistic) 。

数据挖掘研究院

    由于样本本身是随机的,从同一个总体抽出来的不同样本也不一样。因此,对于不同数据或样本,统计量的取值也不一样;所以统计量是随机的。

数据挖掘研究院

    一些统计量前面有时加上 “ 样本 ” 二字,以区别于总体的同名参数。 数据挖掘研究院

    比如后面的从样本产生的均值和标准差严格说来应该叫做 “ 样本均值 ” 和 “ 样本标准差 ” ,以区别于总体的均值和标准差;但在不会混淆时可以只说 “ 均值 ” 和 “ 标准差 ” 。一些总体参数将在下一章介绍。 数据挖掘研究院

    数据的 “ 位置 ” 数据挖掘研究院

    人们常说哪个地方穷,哪个地方富。也常说,哪个国家人高,哪个国家人矮。 数据挖掘研究院

    说这些话的人绝对不是说富地方的所有人都比穷地方的所有人富,也不是说,一个国家的人都比另一个国家的所有人都高。他们仅仅省略了 “ 平均起来 ” , “ 大部分 ” 等词语。

数据挖掘实验室

    这些说法实际上是关于数据中某变量观测值的 “ 中心位置 ” 或者数据分布的中心( center 或 center tendency )的某种表述。和这种 “ 位置 ” 有关的统计量就称为位置统计量 (location statistic) 。 数据挖掘研究院

    位置统计量当然不一定都是描述 “ 中心 ” 了,比如后面要讲的 k 百分位数。

数据挖掘研究院

    最常用的位置统计量就是小学时所学到的算数平均值,它在统计中叫做均值 (mean) ; 数据挖掘研究院

    严格地说叫做样本均值 (sample mean) ,以区别于下一章要介绍的总体均值。 数据挖掘研究院

    样本均值是把一个变量的所有观测值相加再除以观测值的数目。 数据挖掘研究院

    以前面的地区 1 高三男生的身高数据为例,身高的均值(平均身高)是 170.9 ;这在前面的直方图所附带的数目中可以看出。它比地区 2 的高三男生的身高均值(均值为 164cm )要高。利用统计软件可以很方便地得出均值。

数据挖掘研究院

    中位数在数据大小顺序中居中。

    而前面提到的上下四分位数(或分别称为第一四分位数和第三四分位数, first quantile, third quantile )则分别位于(按大小排列的)数据的上下四分之一的地方。 数据挖掘实验室

    一般地还称上四分位数为 75 百分位数( 75 pecentile ,有 75 %的观测值小于它),下四分位数为 25 百分位数(有 25 %的观测值小于它)。 数据挖掘研究院

    有了 25 百分位数和 75 百分位数的概念,人们就不难理解什么是任意的 k- 百分位数( k-pecentile )了(有 k %的观测值小于它)。 数据挖掘研究院

    如果令 a=k% ,则 k- 百分位数也称为 a 分位数 (a-quantile) 。显然中位数是 50 百分位数或 0.5 分位数。

    众数,除了中位数和均值之外,还有样本中出现最多的数目,称为众数 (mode) , 数据挖掘实验室

    高三男生身高数据中 177cm 和 168cm 都是 11 个,因此有 168 和 177 两个众数。

数据挖掘研究院

    众数反映的信息也不多,又不一定唯一,

数据挖掘实验室

    在连续变量的情况,可能没有重复的数据,这时也不可能有众数。众数用得不如均值和中位数普遍。 数据挖掘实验室

    数据的 “ 尺度 ” 数据挖掘研究院

    有一句老话 “ 不患贫,患不均 ” 。这是指穷一些不怕,怕的是不公平造成贫富差距太大。 数据挖掘研究院

    贫富是由位置统计量来描述的,而是否 “ 均 ” 是由尺度统计量( scale statistic )来描述的。

    尺度统计量是描述数据散布,即描述集中与分散程度或变化( spread 或 variability )的度量。

数据挖掘研究院

    从两个高三男生身高数据的盒形图(图 3.2 )可以看出,左边的数据平均要高些,但右边的数据散布范围要小得多(数值之间要接近一些)。

    统计中有许多尺度统计量。一般来说,数据越分散,尺度统计量的值越大。

数据挖掘研究院

    常用的尺度统计量有 :

数据挖掘研究院

    极差、四分位数极差、标准差、方差。 数据挖掘研究院

    最简单的就是极差 (range) ;顾名思义,极差就是极大值和极小值之间的差。

    盒形图盒子的长度为两个四分位数之差,称为四分位数极差或四分位间距 (interquantile range) ;它描述了中间半数观测值的散布情况。 数据挖掘研究院

    另一个常用的尺度统计量为(样本)标准差 (standard deviation) 。它度量样本中各个数值到均值的距离的一种平均。 数据挖掘研究院

    标准差

    标准差:它是各个离差的平方和的平均数的开平方。

    标准差实际上是方差 (variance) 的平方根。

数据挖掘研究院

    高三男生身高的两个数据的标准差分别是 10.9 和 5.7 。 ( 方差则是它们的平方: 119.1 和 32.5) 。方差由于和数据的量纲不同,因而在实际应用中使用得不如标准差那么普遍。

    标准误差 数据挖掘实验室

    即使出于同一个总体,样本量相同的不同样本有不同的均值;这种变化的样本均值也是随机变量,它也有均值;所有样本均值的标准差,称为标准误差 (standard error) 。由于不同样本所产生的均值比一个样本中的观测值要稳定得多,它的标准差比针对整个数据的标准差要小得多。

    标准误差定义为标准差除以样本量的平方根。

    比如地区 1 高三男生数据的标准差为 10.9 ,而除以样本量 163 的平方根 12.77 之后成为大约 0.85 ,即 10.9/ √ (163)=10.9/12.77 ≈ 0.85 。

第三节 数据的标准得分

 

    假定两个水平类似的班级(一班和二班)上同一门课,但是由于两个 任课 老师的评分标准不同,使得两个班成绩的均值和标准差都不一样 (SPSS 数据: grade.sav) 。 数据挖掘研究院

          分数的均值    标准差 数据挖掘研究院

    一班    78.53       9.43 数据挖掘研究院

    二班    70.19       7.00 数据挖掘研究院

    那么得到 90 分的一班的张颖是不是比得到 82 分的二班的刘疏成绩更好呢?怎么比较才能合理呢?显然,这种均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,然后再比较标准化后的数据。 数据挖掘研究院

    一个标准化的方法是把原始观测值(亦称得分, score )和均值之差除以标准差;得到的度量称为标准得分 (standard score ,又称为 z-score) 。

数据挖掘研究院

    即:

    然后可以比较来自不同样本的标准得分。 数据挖掘研究院

    这样:

数据挖掘实验室

    张颖的标准得分为: 数据挖掘实验室

 

数据挖掘研究院

    刘疏的标准得分为: 数据挖掘实验室

 

数据挖掘研究院

    显然如果两个班级水平差不多,刘疏的成绩应该优于张颖的成绩;这是在标准化之前的数据中不易看到的。 数据挖掘研究院

    下图展示了这两个班级的原始成绩的盒形图(左边)和标准化之后成绩的标准得分的盒形图(右边)。


 

    可以看出,原始数据是在各自的均值附近,而散布也不一样。但它们的标准得分则在 0 周围散布,而且散布也差不多。 数据挖掘研究院

实际上,任何样本经过这样的标准化后,就都变换成均值为 0 、方差为 1 的样本。标准化后不同样本观测值的比较只有相对意义,没有绝对意义。

数据挖掘研究院

    标准化之后的数据虽然总的尺度和位置都变了,但是数据内部点的相对位置没有变化。比如,距离均值两倍标准差的一个点在标准化后距离均值还是两倍标准差。 数据挖掘研究院

    这从图中也可以看出:每个数据标准化前和标准化后的盒形图(在纵向)相似。

    这是因为标准化仅仅是把盒形图进行纵向放大(或缩小)和位移。班级 1 的两个离群点还是离群点。虽然如此,但两个不同的数据在标准化后就有了进行比较的基础。

数据挖掘实验室

    标准得分的思想不仅仅用于比较,而且在后面的推断中也有其用处。另外,计算标准得分也仅仅是许多标准化方法中最常见的一种。 数据挖掘研究院

思考题:

•  根据经验,给出定性和定量变量的例子。

数据挖掘研究院

•  对于问题 1 的资料,画出各种描述性图形并计算汇总统计量。 数据挖掘研究院

•  举例说明众数、中位数和均值的优缺点。 数据挖掘研究院

•  尺度统计量说明了数据的什么特性?举例说明。

•  标准得分实际上是对原始数据的一种标准化。试举例说明标准得分的用处。

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?