描述性回归与预测性回归

社会科学中大多数运用回归的方式,完全不同于自然科学或者经典数理统计学中的运用回归的方式。自然科学中的回归,大多以预测为目的(当然不是绝对如此)。比如说,已知某一种材料的坚韧度是受锻造过程中的温度与压力影响的,现在我们得到一组数据,是不同温度与不同压力下锻造的材料的坚韧度。这时做一个回归模型,其目的就是得到一个函数形式,可以预测在一定温度与压力下的坚韧度,以及得到要使材料坚韧度达到最大,温度与压力各自应为多少。而社会科学中的回归其目的不是于预测,而在于得到一种对于社会现象更为可信的解释或者更切合实际的描述。比如说,想了解影响人的政治态度的因素是什么?这里的讨论中暂时将前者称为“描述性回归”;后者称为“预测性回归”。它们都运用回归,但是方式却大为不同:
  一 预测性回归中变量间的因果关系往往已经是较为明确的了;而在描述性回归中因果关系往往是未知的,是有着多种解释的,也正是我们所感兴趣的。材料的坚韧度是受锻造过程中的温度与压力影响,我们在做回归前就知道这一点,我们不知道的只是这种关系的函数形式。但是在做回归前,我们并不知道大众媒体是否(显著地)影响人的政治态度,我们所做的正是想证明或证伪这一点。

数据挖掘交友


  二 预测性回归中,因果关系更为单纯,影响依变量结果的因素是有限的;而在描述性回归中,因果关系是极为复杂的,影响依变量结果的因素可能非常繁复。人的政治态度除了受大众媒体的影响外,还会受到他个人的个性、经历、环境等等因素的影响,而个性、经历、环境是千差万别的,无以穷尽的,这些细节虽然对因变量有影响,但并非我们关心的对象。但是一种材料是没有个性的,没有经历的,决定它坚韧度的因素是有限而且单纯的。
  三 基于上述两点,在预测性回归中,得到一个精确的函数形式是重要的(这正是其目的),也是可能的(因果关系是单纯的);而在描述性回归中,一个精确的函数形式并不重要(真正的目的是得到可信的解释),也不可能(因果关系是复杂的)。大众媒体的偏向影响是25%还是24%,这并不是我们所关心的,我们关心的是偏向是否对于人的态度有重要影响。即使我们测出了基于样本数据真实的偏向的影响是25%,这个数值也并不具有普遍性的,换一个地区、时间,这一数值可以会变化很大。但是我们的结论,“媒体对人的态度有重要影响”是具有普遍性的。事实上,任何函数关系清晰的法则在社会科学领域都不可能通过严格的经验检验。
  四 预测性回归的结论是依据某一个精确的回归方式得出的;但在描述性回归中,单单一个回归方程说明不了任何问题,结论是在对许多形式的回归方程进行多方面的统计比较之后得出的。在预测性回归中会有一个“最终的”或“完全的”回归方程函数形式;在描述性回归中则是没有的。一个研究的可信度很大程度上要看它是否能够驳斥其它精巧的因果解释,这样才能显出这一解释的竞争力。检验方法越多样化,分析的数据越丰富,驳斥的其它解释越多,结论才越可信,得到的因果关系对于我们的理论与实践才会有更丰富的启发。不同方程间系数的比较往往比系数的绝对数值更重要;不同方程间拟合优度的相对比较往往比拟合优度的绝对数值更重要。在社会科学中的一些经典例子中,回归方程的拟合优度值绝对值虽然很低,但仍然得出了相当有意义的结论。
  五 在预测性回归中,一个自变量只要能够提高回归方程的拟合优度,它就应当被加入到回归方程中来,因为它提高了预测的精度;但在描述性回归中,一个自变量是否应加入到回归方程来,不仅应看它是否提高了回归方程的拟合优度,而且要看它是否丰富了这种解释的内涵,它提高的拟合优度是否显著?(在社会科学研究中,大多数自变量的加入多多少少都会提高回归方程的拟合优度,因为社会生活中的各个方面多多少少都有一些联系)。因为我们更关心的不是某个函数形式,而且某些解释,那么加入某一自变量首先需要它有着实际意义;其次加入自变量也会降低解释的简洁性,这里应有对于“简约性”与“准确性”的权衡。准确性指能够尽可能地拟合数据,这常常用拟合优度统计量表示(决定系数R2、残差的标准差);简约性指解释应尽可能简洁,把握问题本质,这可以用自变量个数来表示。两者间常常有一个权衡。
  六 上述结论在方法论上的意义在于:社会现象是非决定论的,在社会科学中,最重要的是“理解”,对于社会现象与社会意义的理解。回归在这里只是我们获取对社会的理解的一种工具。我们不太可能获得一个放之四海而皆准的决定论的因果模型,我们想获得只是对于社会现象的一种描述,这种描述是基于理论或经验感觉的;而且这一描述能够尽可能多地解释事实(也就是数据);而且这一描述应足够简洁。
[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:论文撰写中常见的统计学问题及其处理
下一篇:有关标准化回归系数的误用
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • 方差分析软件下载
  • 因子分析
  • 第七章 主成分与因子分析
  • 第五章 相关与回归分析
  • 第八章 聚类分析与判别分析
  • 一段求极值的matlab代码 SGA
  • 第十三章 时间序列分析
  • 利用Excel进行医学统计t检验分析
  • 第六章 试验设计与方差分析 (1)
  • 第九章 典型相关分析
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • JASA中一组经典的统计学文章
  • 中国文化与中国的统计科学
  • “显著性”的关系和这种关系中的陷阱
  • 有关标准化回归系数的误用
  • 描述性回归与预测性回归
  • 论文撰写中常见的统计学问题及其处理
  • 医学论文中常见的统计学处理问题
  • 心理统计学(Psychological Statistics)
  • 统计学习笔记——因素分析
  • 统计学习笔记-判别分析
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静