第六章 试验设计与方差分析 (1)

一、试验设计初步。

    1 、试验及其模型; 数据挖掘交友

    2 、处理设计:单因素试验、多因素试验;

    3 、试验误差:系统误差、随机误差、错失误差; 数据挖掘交友

    4 、试验的排列:设置重复、随机化、区组化、拉丁方试验。

数据挖掘研究院

二、方差分析 —ANOVA

    方差分析( analysis of variance , ANOVA )

数据挖掘工具

    在研究一个变量时,能够解决多个总体的均值是否相等的检验问题;

    在研究多个变量对不同总体的影响时,它也是分析各个自变量对因变量影响的一种方法。

    1 .方差分析的内容

    首先我们对多个总体均值是否相等这一假设进行检验。

    例 6.1

    某饮料生产企业研制出一种新型饮料 . 饮料的颜色共有四种 : 橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超市上收集了该种饮料的销售情况。

数据挖掘研究院

    该饮料在五家超市的销售情况: 数据挖掘研究院

超市 数据挖掘工具

无色

粉色 数据挖掘实验室

橘黄色

数据挖掘研究院

绿色 数据挖掘实验室

1

数据挖掘论坛

2 数据挖掘实验室

3

数据挖掘实验室

4 数据挖掘交友

5 数据挖掘研究院

26.5

28.7 数据挖掘工具

25.1

29.1 数据挖掘实验室

27.2

31.2 数据挖掘论坛

28.3 数据挖掘实验室

30.8

数据挖掘实验室

27.9

数据挖掘研究院

29.6

数据挖掘研究院

27.9

25.1

28.5

24.2

数据挖掘论坛

26.5

30.8

29.6 数据挖掘论坛

32.4

31.7 数据挖掘交友

32.8 数据挖掘工具

均值

27.32

数据挖掘论坛

29.56

数据挖掘工具

26.44 数据挖掘交友

31.46 数据挖掘工具

    进行方差分析:

数据挖掘实验室

    问题:饮料的颜色是否对销售量产生影响?

    在其他条件相同的情况下,上述问题就归结为一个检验问题,即:检验饮料颜色对销售量是否有影响? 数据挖掘论坛


    即:

数据挖掘工具

    2 .方差分析的原理

    从方差分析的目的看,是要检验四种颜色的饮料的销售均值是否相等,我们可用方差比较的方法来判断。

    首先,四种颜色的销售情况可看作为分为四个组: 数据挖掘工具

颜色 数据挖掘研究院

组内平均数 数据挖掘论坛

数据挖掘实验室

组内平方和 SSA 数据挖掘实验室

数据挖掘实验室

组间平方和 SSE 数据挖掘工具

数据挖掘交友

无色 数据挖掘论坛

27.32

10.688 数据挖掘交友

 

 

数据挖掘交友

76.8455

数据挖掘交友

粉色 数据挖掘研究院

29.56 数据挖掘研究院

8.572

数据挖掘论坛

橘黄色 数据挖掘交友

26.44 数据挖掘论坛

13.192 数据挖掘论坛

绿色 数据挖掘交友

31.46 数据挖掘工具

6.632 数据挖掘工具

合计 数据挖掘论坛

- 数据挖掘论坛

39.084 数据挖掘研究院

总平方和 SST

数据挖掘交友

    由此可知:差异的产生来自两个方面:

数据挖掘交友

    一方面是由不同颜色的差异造成的,既不同的饮料颜色对销售量产生了影响 数据挖掘工具

    另一方面是由于抽选样本的随机性而产生的差异,即各颜色内的随机误差,如相同颜色的饮料在不同的商场销售量也不同。 数据挖掘论坛

    这两个方面产生的差异可以用两个方差来计量: 数据挖掘实验室

    一个称为水平之间(组间)方差 ( 组间平方和除以自由度 (r-1) , r 为组数 ) ,一个称为水平内部(组内)方差(组内平方和除以自由度( n-1) , n 为样本容量总数)。

数据挖掘工具

    水平之间的方差既包括系统性因素,也包括随机性因素;水平内部方差仅包括随机性因素。如果不同的水平(饮料颜色)对结果没有影响,那么在水平之间的方差中,就仅仅有随机因素的差异,而没有系统性差异,它与水平内部方差就应该近似,从而应有: 数据挖掘研究院

数据挖掘工具


    即,两个方差的比值就会接近于 1 。反之,水平之间的方差就会大于水平内的方差,当这个比值达到某个程度,或者说达到某临界点,就可做出判断,既不同的水平之间存在着显著差异。

    因此,方差分析就是通过不同方差的比价,做出拒绝原假设或不能拒绝原假设的判断。

数据挖掘工具


    水平间的方差和水平内方差之比是一个统计量,这个统计量服从 F 分布:

  数据挖掘交友

    3 .方差分析的种类 数据挖掘论坛

    分析多个变量时,称为多元方差分析 Multivariate 数据挖掘论坛

    4 .应用方差分析的条件

    各组的观察数据,要看作是从服从正态分布的总体随机抽取的样本; 数据挖掘研究院

    各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。 数据挖掘工具

三、一元单因素方差分析

数据挖掘工具

    例 6.1 中有一个变量和一个因素,即:变量 dependent variable :饮料的销售量;因素 factor :饮料的颜色。 数据挖掘研究院

    用 Spss 处理数据: 数据挖掘论坛

    Spss 数据:饮料的颜色 数据挖掘交友

    Spss 选项: Analyze — Compare Mean — One-Way ANOVA 数据挖掘交友

    SPSS 输出结果:

 


   SPSS 单因素方差分析的进一步分析 数据挖掘交友

    Spss 单因素方差分析的前提检验

    由于方差分析的前提是各水平下的总体服从方差相等的正态分布。其中,正态分布的要求不是很严格,但对于方差相等的要求是比较严格的,因此,我们有必要对方差分析的前提进行检验。检验的方法是: Homogeneity-of -variance 数据挖掘研究院

    Spss 选项:在 One-Way ANOVA 中选择 Option ,选定 Homogeneity-of –variance 即可。 数据挖掘实验室

    Spss 输出结果: 数据挖掘研究院


   Spss 单因素方差分析的多重比较检验

    通过上面的检验,我们只能判断控制变量的不同水平是否对观察变量产生了显著影响。我们还想进一步了解:究竟是哪一个水平对观察变量产生了显著影响,即那种颜色的饮料对销售量有显著影响。这就是单因素方差分析的多重比较检验。检验结果输出如下:


数据挖掘研究院

四、一元多因素方差分析。

数据挖掘研究院

    1 、只考虑主效应的方差分析; 数据挖掘论坛

    2 、考虑交互效应的方差分析;

数据挖掘论坛

    3 、考虑多变量的方差分析;

数据挖掘实验室

    4 、协方差分析。 数据挖掘论坛

    例 6.2

数据挖掘实验室

    某商家有如下的数据,研究这个问题的主要目的是看销售额是否受到促销方式、售后服务和奖金这三个自变量的影响,以及怎样的影响。

    Dependent variable 因变量:销售额

数据挖掘研究院

    Factor 因素:促销方式、售后服务 数据挖掘论坛

    Covariate 协变量:奖金 数据挖掘交友

    数据文件: Sales.sav 数据挖掘工具


   当有两个或两个以上因素,进行方差分析时,不仅要考虑每个因素的主效应,往往还要考虑因素与因素之间的交互效应。

数据挖掘论坛

    主效应就是每个因素对因变量的单独影响,而交互效应是当两个或更多的因素的某些水平同时出现时除了主效应之外的附加影响。 数据挖掘工具

    1 .只考虑主效应的方差分析 数据挖掘工具

    首先假定自变量受到的仅仅有不同因素的主效应( main effect )而没有交互效应( interaction )和协变量的影响。

    即: 数据挖掘工具

    因变量 = 因素 A 主效应 + 因素 B 的主效应 + 随机误差项

数据挖掘研究院

    销售额 = 促销方式 + 售后服务 + 随机误差项

数据挖掘工具

    以例 6.2 来说,当只考虑主效应时,假定主动促销比被动促销可以多产生 8 万元效益,而有售后服务比没有售后服务多产生 9 万元效益。那么在没有交互作用时,同时采取主动促销和售后服务会产生 8 + 9 = 17 万元的效益(称为可加的)。 数据挖掘工具

    但如果存在交互效应,那么同时采取主动促销和售后服务会产生一个附加的效应即交互效应(一般来说也可能是正面的,也可能是负面的),这时的总效应就不是 17 万元了。 数据挖掘研究院

    用 Spss 处理数据:

    Spss 选项: Analyze— Gereral Linear Model — Univariate 数据挖掘工具

    选择效应分析: Model— custom— Main effect

数据挖掘工具


   Spss 主效应输出结果: 数据挖掘工具


   没有交互作用的模型可以从下面点图中直观看出。图中下面一条折线连接了没有售后服务时三种促销状况的销售均值,而上面一条连接了有售后服务时三种促销状况的销售均值。由于模型选择为无交互作用,所以这两条线是平行的。从该图可以看出,两个因子效应综合效应是简单的加法。

数据挖掘论坛

  数据挖掘工具

    2 .考虑交互效应的方差分析

    考虑交互效应的方差分析为: 数据挖掘工具

    因变量 = 因素 A 主效应 + 因素 B 的主效应 + 因素 A 与 B 的交互效应 + 随机误差

    即:

数据挖掘实验室

    销售额 = 促销方式 + 售后服务 + 促销方式与售后服务的交互效应 + 随机误差项 数据挖掘实验室

    用 Spss 处理数据: 数据挖掘研究院

    SPSS 选项: Model— Custom ,


    在 Build Terms 中选择 Interaction ,先把 promot(F) 和 service(F) 选入 Model ,再把 promot(F) 和 service(F) 同时选入 Model (出现 “promot*service” ); 数据挖掘研究院

    SPSS 输出结果:

    方差分析表的意义:

    图示: 数据挖掘研究院

数据挖掘论坛

    3 .考虑协变量的多因素方差分析 数据挖掘研究院

    在进行方差分析时,要求控制变量(因素)是可控的,但实际中,有些因素的不同水平很难人为控制,但他们确确实实对观测变量产生显著的影响。在方差分析中如果忽略这些因素的存在,而单单去分析其他因素对观测变量的影响,往往会夸大或缩小这些因素的影响作用,使得分析结论不正确。 数据挖掘工具

    协方差分析

数据挖掘实验室

    如:我们研究销售额时,仅仅考虑促销方式和售后服务,而不去考虑销售人员的奖金对销售情况的影响,显然是不全面的。因此为了更加准确地研究控制变量不同水平对观测变量的影响,应尽量排除其他能够排出的因素对分析的影响作用。

数据挖掘实验室

    协方差分析是将那些很难控制的因素作为协变量,在排除协变量影响的条件下,分析控制变量对观察变量的影响,从而更加准确地对控制因素进行评价。 数据挖掘实验室

    方差分析中的影响变量(因素)都是定性变量,而协方差分析中的协变量应是定量变量,即连续数值型,协变量之间没有交互影响,且与控制变量之间也没有交互影响。

数据挖掘论坛

    现在加上作为协变量的定量变量奖金,看它对销售有没有影响,这时的线性模型就又多了一个如同回归一样的代表自变量奖金的一项: 数据挖掘工具

    因变量 = 因素 A 主效应 + 因素 B 的主效应(观察变量) + 因素 A 与 B 的交互效应 + 协变量 + 随机误差 数据挖掘实验室

    用 Spss 处理数据:

    Spss 选项:只要将奖金( bonus )这个变量放入 Covariate 中即可。 数据挖掘研究院

    SPSS 输出结果: 数据挖掘工具


    多因素方差分析的其他选项: 数据挖掘研究院

    Model 选项:建立多因素方差分析的模型。

数据挖掘论坛

    Contrast 选项:对控制变量各水平的观察变量的差异进行对比检验。 数据挖掘实验室

    Post Hoc 选项:进行多重比较检验。

数据挖掘论坛

    Plots 选项:以图形的方式展现各控制变量之间是否有交互影响。 数据挖掘论坛

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:第十章 对应分析
下一篇:第六章 试验设计与方差分析 (2)
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • 方差分析软件下载
  • 因子分析
  • 第七章 主成分与因子分析
  • 第五章 相关与回归分析
  • 第八章 聚类分析与判别分析
  • 一段求极值的matlab代码 SGA
  • 第十三章 时间序列分析
  • 利用Excel进行医学统计t检验分析
  • 第六章 试验设计与方差分析 (1)
  • 第九章 典型相关分析
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • JASA中一组经典的统计学文章
  • 中国文化与中国的统计科学
  • “显著性”的关系和这种关系中的陷阱
  • 有关标准化回归系数的误用
  • 描述性回归与预测性回归
  • 论文撰写中常见的统计学问题及其处理
  • 医学论文中常见的统计学处理问题
  • 心理统计学(Psychological Statistics)
  • 统计学习笔记——因素分析
  • 统计学习笔记-判别分析
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静