统计学习笔记-判别分析

  判别分析是一种根据观测变量判断研究样本如何分类的多变量统计方法,它对于需要根据对样本中每个个案的观测来建立一个分组预测模式的情况是非常适用的。分析过程基于对预测变量的线性组合产生一系列判别函数,但是这些预测变量应该能够充分地体现各个类别之间的差异。判别函数是从一个每个个案所属的类别已经确定的样本中拟合出来的,并且生成的函数能够运用于同样进行了预测变量观测的新的样本点,以判断其类别归属。判别分析的基本原理[1]可以表述为:在一个P维空间R中,有K个已知的总体G1,G2,G3,…,GK,同时有样本点X(X1,X2,X3,…,XP),它属于且仅属于这K个总体中的一个,判别分析所要解决的问题是确定这个样本点X具体应该属于那一个G总体。实际上判别分析的过程[2]分为两个部分,首先是依据已知样本及其预测变量建立起一系列分类规则或判别规则,其次是运用这一规则对样本的原有分类进行检验以确定原有分类错判率。同时如果原有分类具有较低的错判率,则建立起来的分类规则可以应用于实际工作中。 数据挖掘工具

  判别分析的方法中较常使用的有Bayes判别和Fisher判别。Bayes判别[3] [4]是一种概率型的判别分析,在分析过程开始时需要获得各个类别的分布密度函数,同时也需要知道样本点属于各个类别的先验概率,以建立一个合适的判别规则;而分析过程结束时则计算每个样本点归属于某个类别的最大概率或最小错判损失,以确定各个样本点的预测类别归属。当某个样本点的判别得分为D时,则它属于第i个类别的概率为: 数据挖掘论坛

P(Gi|D)=P(D|Gi)P(Gi)/ΣP(D|Gi)P(Gi) 数据挖掘论坛

式中P(Gi)为先验概率,P(D|Gi)为在第i组判别得分D的条件概率,而P(Gi|D)为在第i组判别得分D的后验概率。判断某个样本点是否属于某个类别,则需要判断属于该组的概率是否最大。Fisher判别是依据方差分析原理建立起来的另外一种判别分析方法。Fisher判别的基本思路[5] [6]就是投影,针对P维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x): 数据挖掘实验室

y(x)= ΣCjxj 数据挖掘研究院

  然后应用这个线性函数把P维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想,即依据组间均方差与组内均方差之比最大的原则来进行判别。 数据挖掘研究院

  判别分析的结果对应着分析的不同步骤过程,也就包括了分类规则和分类结果两个部分。在分类规则中应该包括典型判别函数(Canonical Discriminant Function)、衡量预测变量与判别函数之间关系的结构矩阵(Structure Matrix)以及Fisher线性分类函数(Fisher Classification Function)。典型判别函数是基于Bayes判别思想建立起来的,主要用途在于对参与分析的各个类别、各个预测变量、各个类别中的各个样本点及其相互关系进行考察。要将典型判别函数应用于大量的实践操作中是不现实的,因为这涉及到对被分类的样本计算各种概率,十分繁琐不利用操作。而Fisher线性分类函数则是针对每个类别分别建立起来的,可以直接应用实践操作中对新的样本进行分类。在分类结果部分则依据已经建立起来的分类规则对参与分析的各个样本点重新进行分类,并通过与原有分类进行比较来确定原有分类的判对率。

数据挖掘工具

  数据挖掘研究院

--------------------------------------------------------------------------------

[1] 张敏强主编:教育与心理统计学,人民教育出版社,1993年12月第一版,第370页。 数据挖掘研究院

[2] SPSS10.0 Syntax Reference Guide, 1999 by SPSS Inc. US, p286-302 数据挖掘实验室

[3] 袁淑君、孟庆茂:数据统计分析—SPSS/PC+原理及应用,北京师范大学出版社,1994年4月第一版,第198页。 数据挖掘论坛

[4] 张敏强主编:教育与心理统计学,人民教育出版社,1993年12月第一版,第384-386页。

数据挖掘工具

[5] 袁淑君、孟庆茂:数据统计分析—SPSS/PC+原理及应用,北京师范大学出版社,1994年4月第一版,第198页。 数据挖掘交友

[6] 张敏强主编:教育与心理统计学,人民教育出版社,1993年12月第一版,第392-394页。

数据挖掘研究院

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:利用Excel进行医学统计t检验分析
下一篇:统计学习笔记——因素分析
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • 方差分析软件下载
  • 因子分析
  • 第七章 主成分与因子分析
  • 第五章 相关与回归分析
  • 第八章 聚类分析与判别分析
  • 一段求极值的matlab代码 SGA
  • 第十三章 时间序列分析
  • 利用Excel进行医学统计t检验分析
  • 第六章 试验设计与方差分析 (1)
  • 第九章 典型相关分析
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • JASA中一组经典的统计学文章
  • 中国文化与中国的统计科学
  • “显著性”的关系和这种关系中的陷阱
  • 有关标准化回归系数的误用
  • 描述性回归与预测性回归
  • 论文撰写中常见的统计学问题及其处理
  • 医学论文中常见的统计学处理问题
  • 心理统计学(Psychological Statistics)
  • 统计学习笔记——因素分析
  • 统计学习笔记-判别分析
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静