变量之间的关系
数据挖掘论坛
人们每时每刻都在关心事物之间的关系。不同的关系往往能决定事物发展的方式和规律,因此,认识事物之间的关系对于人们有非常重要的作用。
数据挖掘研究院
事物之间的关系有不同类型,有两个事物(因素)之间的关系(二元关系),也有多个事物(因素)之间的关系(多元关系)。 数据挖掘交友
比如,职业种类和收入之间的关系、政府投入和经济增长之间的关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等。这些都是二元的关系。 数据挖掘工具
还有更加复杂的诸多变量之间的相互关系,比如企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系是不能用简单的一些二元关系所描述的。
数据挖掘实验室
第一节 相关分析。 数据挖掘论坛
1 、定量变量的相关分析;
2 、定性变量的相关分析;
数据挖掘交友
3 、定性变量与定量变量的相关分析; 数据挖掘实验室
4 、偏相关分析。 数据挖掘交友

数据挖掘论坛
一、变量之间的相关关系 数据挖掘交友
例 5.1 广告投入和销售之间的关系(数据 ads.sav )
这两个变量有关系;这从散点图就很容易看出。基本上销售额是随着广告投入的递增而递增,称为相关关系。 数据挖掘论坛
如果有关系,它们的关系是否显著?这也可以从散点图得到。当广告投入在 6 万元以下,销售额增长很快;但大于这个投入时,销售额增长就不明显了。因此,这两个变量的关系是由强变弱。
数据挖掘论坛
这个关系是否带有普遍性?也就是说,仅仅这一个样本有这样的关系,还是对于其他企业也有类似的规律。 数据挖掘工具
这里的数据还不足以回答这个问题。可能需要考虑更多的变量和收集更多的数据。一般来说,人们希望能够从一些特殊的样本,得到普遍的结论,以利于预测。
数据挖掘交友
由于变量可分为定性变量和定量变量,因此变量之间的相关关系也可分为: 数据挖掘研究院
1 .定性变量之间的相关关系
数据挖掘研究院
2 .定性变量与定量变量之间的相关关系 数据挖掘研究院
3 .定量变量之间的相关关系 数据挖掘论坛
对不同的变量之间的相关关系的分析方法也不一样。
数据挖掘论坛
1 .定性变量间的关系
数据挖掘工具
(关于某项政策调查所得结果 :table7.sav )
数据挖掘研究院
大致可以看出女性赞成的多,低收入赞成的多
2 .定性和定量变量间的混和关系
关于高等学校的数据的一些指标包括 : 在校生人数 , 研究生比例 , 教师人数 , 职工人数 ,SCI 和 SSCI 文章数目 , 具有各种职称的教职工人数 , 科研项目数 , 科研经费 , 招生专业等。这些数据有定性变量有定量变量,这些变量之间存在着各种各样的关系。 数据挖掘实验室
3 .定量变量之间的关系 数据挖掘论坛
例 5.2 数据挖掘交友

有 50 个从初中升到高中的学生,为了比较初三的成绩是否和高中的成绩相关 , 得到了他们在初三和高一的各科平均成绩 ( 数据 :highschool.sav)
从这张图中我们可以看到什么?显然初三的学习成绩与高一的学习成绩之间存在着一定的关系,虽然不是一一对应的,有些同学初三的成绩很好,高一却未必是最好的,而有些同学的情况则恰恰相反,但我们仍然可以发现,总体上看,初三学习成绩比较好的同学到了高一成绩仍然比较好,而初三成绩比较差的同学,在高一大多数仍然属于成绩比较差的。这种相互关联却又不一一对应的数量关系,就是典型的相关关系。 数据挖掘交友
二、相关分析的基本方法之一 ——绘制散点图 数据挖掘交友
在 spss 中提供了四种散点图:
数据挖掘论坛
简单散点图 —— Simple
重叠散点图 —— Overlay 数据挖掘实验室
矩阵散点图 —— Matrix 数据挖掘研究院
三维散点图 —— 3-D
三、相关分析的基本方法之二 ——计算相关系数 数据挖掘实验室
对不同类型的变量数据,应采用不同的相关系数来度量。
1 .定量变量的相关分析:
Pearson 简单相关系数:又叫相关系数或线性相关系数。它一般用字母 r 表示。它是用来度量定量变量间的线性相关关系。
可以运用 Spss 计算 r 统计量,并对相关系数进行检验,检验的原假设是:相关系数为 0 。 数据挖掘工具
2 .定性变量的相关分析
数据挖掘研究院
两种常用的相关系数:
Spearman 等级相关系数,用来度量序次变量件的线性相关关系。它利用的是非参数检验的方法,在定义中把点的坐标换成各自样本的秩(变量的排序名次)。 数据挖掘工具
Kendall tua-b 等级相关系数,它也是用来度量序次变量件的线性相关关系。这里的度量原理是把所有的样本点配对 , 看每一对中的 x 和 y 是否都增加来判断总体模式。
数据挖掘论坛
Spss 中的相关系数计算与检验
数据挖掘论坛
Spss 选项:
数据挖掘工具
Analyze— Correlate— Bivariate ,选择要计算相关系数的变量到 Variables 中;根据数据类型决定选取那一个相关系数;确定是双尾检验还是单尾检验。 数据挖掘论坛
3 .定性变量与定量变量间的相关分析 数据挖掘工具
以例 5.2 来说明相关关系数的计算。 数据挖掘实验室
在例 5.2 中数据中,除了初三和高一的成绩之外,还有一个定性变量,它是学生在高一时的家庭收入状况;它有三个水平:低、中、高,分别在数据中用 1 、 2 、 3 表示。 数据挖掘交友

数据挖掘工具
我们首先计算初三和高一的成绩的相关系数,这是两个定量数据之间的相关关系的度量。利用 Spss 计算结果如下: 数据挖掘工具
下面,我们来绘制三种收入对高一成绩和高一与初三成绩差的盒形图,并计算高一成绩、初三成绩及高一成绩与初三成绩之差分别与家庭收入的相关系数
数据挖掘实验室

数据挖掘实验室

数据挖掘交友
高一成绩与家庭收入的相关系数:

初三成绩与家庭收入的相关系数: 数据挖掘论坛

数据挖掘论坛
高一成绩与初三成绩之差与家庭收入的相关系数: 数据挖掘交友
4 .偏相关分析 数据挖掘实验室
简单相关关系有时不能真实反映现象的关系, 数据挖掘实验室
如:在研究商品的需求量和价格、消费者收入之间的关系时会发现,需求量和价格之间的相关关系实际上还包含了消费者收入对商品需求量的影响。
数据挖掘论坛
所以,我们在进行相关分析时往往要控制第三个变量,而研究变量之间的相关关系。
Spss 中的偏相关系数计算与检验 数据挖掘研究院
Spss 选项: Analyze— Correlate— Partial

高一成绩作为控制变量,初三成绩与家庭收入的相关系数: 数据挖掘工具
数据挖掘工具

数据挖掘研究院
初三成绩作为控制变量,高一成绩与家庭收入的相关系数: 数据挖掘论坛
数据挖掘实验室
第二节 回归分析。 数据挖掘实验室
一、回归分析
数据挖掘研究院
当变量之间确实存在相关关系时,就可进行回归分析。如果两个定量变量没有关系,就谈不上建立模型或进行回归。

我们对例 5.2 中的两个变量的数据进行线性回归,就是要找到一条直线来最好地代表散点图中的那些点
数据挖掘实验室
假定学生初三学习成绩与高一的学习成绩呈线性相关关系,可设:
数据挖掘交友
一般情况下,构造样本回归模型时,可以先不考虑误差 ε ,通过计算得到: 数据挖掘工具
这就是我们构造的关于高一成绩与初三成绩之间具体关系的回归方程。 数据挖掘论坛
二、回归分析——最小二乘法的原理 数据挖掘研究院
根据最小二乘的要求,有: 数据挖掘交友
由此确定回归系数: 数据挖掘工具
β 0 , β 1
数据挖掘实验室
多元回归的原理也相同 数据挖掘研究院
三、回归方程的检验问题等 数据挖掘研究院
对于回归系数 β 1 =0 的检验 ——→ t 检验 数据挖掘实验室
对于拟合方程的检验 ——→ F 检验 数据挖掘实验室
对于方程的解释程度 ——→ R 2 ( 决定系数 ) 及修正的 R 2 . 数据挖掘论坛
四、回归分析的类型
数据挖掘工具

数据挖掘研究院
在实际中,进行回归分析时,往往面临多个自变量,而不仅仅是二元的问题,多个自变量的回归模型如下:
这个方程叫做多元回归模型,式中 y 为因变量, x 1 …… x k 为自变量。 数据挖掘研究院
根据回归模型中因变量与自变量各自数据类型的不同,回归分析可以做如下分类:
数据挖掘交友
1 .因变量与自变量都是定量变量的回归分析 —— 即我们常做的回归分析 数据挖掘工具
2 .因变量是定量变量,自变量中有定性变量的回归分析 — 即含有哑变量的回归分析
数据挖掘实验室
3 .因变量是定性变量的回归分析 —Logistic 回归分析
五、因变量与自变量都是定量变量的回归分析
1 .一元线性回归分析 数据挖掘论坛
我们利用最小二乘法配合出来的回归方程,都是由样本数据进行的,其目的是由样本数据对总体进行推断。但是只有当满足一定的假设条件下,样本数据的最小二乘估计才是总体参数的最佳无偏估计。
数据挖掘交友
2 .回归分析的假设 数据挖掘交友
这个假设称为高斯假设,它是对随机误差项 ε 提出以下基本假设。
数据挖掘实验室
零均值性: 即在自变量取一定值的条件下,其总体各误差项的条件平均值为零。如果违反这一假设则由最小二乘估计得到的估计不再是无偏估计。
等方差性: 即在自变量取一定值的条件下,其总体各误差项的条件方差为一常数。如果违反这一假设则最小二乘估计不再是有效估计,不能进行区间估计。
数据挖掘研究院
误差项之间相互独立(不相关) :如果违反这一假设则误差项之间可能出现序列相关,最小二乘估计不再是有效估计。 数据挖掘交友
误差项与自变量之间应相互独立: 如果违反这一假设对单一方程影响不大,但对联立方程会有严重损害。
数据挖掘实验室
除此之外,还要求 总体误差项服从正态分布 。如果违反这一假设则最小二乘估计不再是最佳无偏估计,不能进行区间估计。
数据挖掘研究院
3 .对假设的检验 数据挖掘交友
对随机误差项 ε 的假设检验,可通过观察样本误差 e 的散点图来进行。 数据挖掘论坛
在 SPSS 回归分析中,可以提供多种统计图供用户检查回归分析的假设条件是否满足。
数据挖掘工具
以 5.2 为例来说明。
( 1 )直方图 — 可用来检查正态分布假设( Histogram of * Zresid ) 数据挖掘实验室
( 2 )正态概率图 — 可用来检查正态分布假设 数据挖掘实验室
( 3 )标准化回归误差值与标准化的预测值散点图
数据挖掘交友
该图可做的检查:因变量与自变量之间是否为线性关系检查;如果实际数据中变量真为线性关系,该散点图中便无明显趋势。 数据挖掘工具
均方差性检查;如果均方差性存在,横轴各点上散点的纵向分布宽度应该相等。 数据挖掘工具
是否存在特异值检查:如果超出 ± 2 区间的标准化误差值,便可以认为是特异值。
( 4 )是否存在误差序列相关 -D.W 检验。
数据挖掘交友
4 .一元回归 SPSS 输出结果 数据挖掘论坛
回归方程的决定系数和调整后的决定系数;
回归方程的 F 检验 数据挖掘论坛
回归系数和回归系数的 t 检验
数据挖掘工具
六、多元回归分析 数据挖掘工具
以上讨论的所有一元回归的假设条件都适用于多元回归。上述诸检验同样适用于多元回归。
数据挖掘研究院

数据挖掘研究院
多元回归模型: 数据挖掘论坛
例 5.3 有关我国民用航空数据 .SAV

进行变量的相关分析: 数据挖掘实验室
根据相关分析的结果,可以去掉铁路客运量变量。 数据挖掘论坛

进行回归分析 - enter 数据挖掘论坛
数据挖掘研究院

进行回归分析 - stepwise 数据挖掘实验室

数据挖掘实验室
思考题 :
数据挖掘交友
• 举例说明何谓相关关系 ? 数据挖掘实验室
• 相关系数是说明什么问题的统计量 ? 数据挖掘工具
• 决定系数与相关系数是一样的吗 ? 如果不一样 , 请问两者的关系如何 ? 数据挖掘论坛
数据挖掘工具