RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

分类与回归树[2] 背景

来源: 作者:unkonwn 时间:2004-12-09 点击:

在加州大学,圣地亚哥医疗中心,当一个心脏病发作的病人被收诊后,在头24小时期间有19个变量被测量。包括血压、年龄以及另外17个顺序排列的二元变量。这些变量用来概括说明医疗症状作为病人情况重要的指示器。 数据挖掘研究院

最近医疗研究的目标(见第6章)是研究出一种方法,基于最初24小时的数据识别出高危险病人(他们的存活时间将不超过30天)。 数据挖掘实验室

1.1描述了在该研究中产生的树型结构分类规则。字母F代表不是高危险;G代表高危险。

数据挖掘研究院

这些规则通过至多三个问题的Yes-No的回答将新进病人归类为FG。有人可能会简单地提了猜疑,即用常规的统计分类方法可能会产生更加精确的分类规则。当我们进行试验后发现,用常规的统计方法产生的规则复杂的多,而精确度却差得多。

数据挖掘实验室

用于构造树型结构规则的方法论是这本专著的主要内容。 数据挖掘研究院

1.1分区式的分类

一般的分类问题同上面所述的医疗诊断问题相类似。对一些实例或对象进行度量。基于这些度量,我们预测给定的实例应该归入哪一类。 数据挖掘研究院

例如,我们可以根据臭氧水平将洛杉矶盆地的时间分成以下三类: 数据挖掘实验室

类一:不用警戒(低臭氧)

数据挖掘实验室

类二:第一阶段警戒(中等程度臭氧) 数据挖掘研究院

类三:第二阶段警戒(高臭氧)

对于当前日期,度量是在很多气象学的变量上作出的,例如温度、湿度、上层大气情况以及空气传播的污染物的当前数量水平。由加州空气资源委员会(ZeldinCassmassi,1978))提供基金的是一个项目目的是探索出一些方法用当前日期的度量来预测随后日期的类别。

美国环保署的工程有一个目标:完全分析一个复杂的化学化合物的原子组成速度慢而费用昂贵。测量它的质谱做起来将回更快而且相对来说费用比较低廉。测量质谱能否精确地预测,举例来说,化合物是在类1(包含一个或更多个氯原子),或是在 数据挖掘研究院

2(不包含氯原子)中?

数据挖掘研究院

(进一步讨论请见第7章) 数据挖掘实验室

这些问题它们的目标都是一致的。给定一系列实例或对象的变量,找出一个系统化的方法预测该实例或对象属于哪一类。对任何问题,一个分类器或一套分类规则是预测一个实例归属哪一类的系统化的方法。

数据挖掘实验室

为了给出一个更加精确的简洁明白的陈述,将这些度量采用预先指定的次序进行排列。即将度量分别记为x1x2,……这里,x1表示年龄,x2表示血压等等。定义作用在实例上的度量(x1x2,……)作为相应实例的度量向量X。度量空间X被定义为包含所有可能的度量向量。 数据挖掘研究院

例如,在心脏病发作的实例中X是一个19维的空间,其中第一个坐标x1(年龄)的范围为0200的所有整数值;第二个坐标,血压可能被定义为范围50150的连续值。对于X可能有一些不同的定义。重要的是对于X的任何定义具有这样的性质:相对于任何实例我们希望度量向量X在空间X中分类到一个点。 数据挖掘研究院

 假定实例或对象分成J个类。给类编号为12,……JC记为分类集,即C={1,……,J}

预测类成员的一个系统化的方法是:指定C中的类成员到X中的每一个度量向量X的规则,即,对于任何XX,该规则指派类{1,……,J}中的一个给X

数据挖掘研究院

定义1.1,分类器或分类规则是定义在X上的一个函数d(x),对于每一个Xd(x)等于数12,……,J之一。 数据挖掘实验室

另外一种考虑分类的方法是,定义Aj满足d(x)=jX的一个子集,即: 数据挖掘研究院

Aj={x;d(x)=j}

集合A1,……,AJ相互之间不相交,并且X = ,这样,Aj构成了X的一个分割,下面给出等价定义: 数据挖掘研究院

定义1.2  分类器是将X分割为J个互不相交的子集A1,……,AjX = ,对于每一个XAj,预测的类为j

数据挖掘研究院

1.2 使用数据来构造类

分类器的构造并非空穴来风。它们建立在过去经验的基础上。例如,医生知道,年纪较大的心脏发作病人如果伴有低血压通常情况下是高危险的。洛杉矶人知道炎热、高污染的天气将延续到下一天。

构造系统分类器时,过去的经验是根据学习样本概括出来的。这包括观察过去的N个实例的度量数据以及它们实际的分类。 数据挖掘实验室

最初24小时最小心脏收缩血压>91

数据挖掘实验室

年龄>62.5? 数据挖掘研究院

静脉窦心脏过速吗?

数据挖掘研究院


医疗诊断项目的学习样本包括被医院收诊的215个心脏病人的记录。这些病人在最初的24小时里都是存活的。记录包含了最初的19个度量值以及那些没有活过至少30天的病人的标识。

臭氧分类项目的学习样本包含长达6年(19721977)的超过400个气象学变量的每天的度量值以及每小时一次的在洛杉矶盆地30个测位的空气污染度量。

数据挖掘实验室

对于氯项目的数据包含已知分子结构的大约30000种化合物的质谱。对于每种化合物的质谱能够表达成与分子重量相等的向量维的度量。30000个度量向量的集合,其维数变化的范围是50左右一直到超过1000 数据挖掘研究院

我们假设这本专著后面的所有部分对分类器都建立在学习样本的基础上。

数据挖掘实验室

定义1.3  学习样本包含N个实例的数据(X1j2),……(XNjN),其中XnX 学习样本记为L,即,

数据挖掘研究院

L={X1j2),……(XNjN} 数据挖掘研究院

我们区分出现在度量向量中的两类普通变量类型。 数据挖掘研究院

定义1.4  如果一个变量的度量值是一个真实的数据,则称该变量为顺序型或数值型,如果一个变量在一个有限的没有自然顺序的集合中取值,则该变量称为类别类型。 数据挖掘研究院

例如,类别类型的变量,可以在集合{redbluegreen}中取值,在医疗数据中,血压、年龄为顺序型的变量。 数据挖掘研究院

定义1.5  如果所有度量向量Xn,具有固定的维数,那么这些数据具有标准的结构。

在医疗和臭氧项目中,固定数目的变量集对每一个实例(或日期)进行度量,数据具有标准的结构。质谱数据不具有标准结构。 数据挖掘研究院

1.3 分类分析的目的

根据问题的不同,分类研究的基本目的或者是为了产生一个准确的分类器,或者是为了揭示问题的结构。如果我们的目标是后者,则我们应设法理解是什么变量或者变量间的交互作用来驱动现象——即,给出条件的简单特性的描述(度量变量XX)决定何时一个对象属于一个类而不是另一类。这两个目的并不是排斥的。根据我们的经验,在通常情况下,分类目标既是为了准确地预测也是为了准确地理解,有时这个或者那个目的强调的更多一些。 数据挖掘研究院

在质谱项目中,强调的是预测。其目的是产生一个有效的、准确的在线算法,接受未知化合物质谱的输入,将化合物分类到含氯或不含氯的类中。 数据挖掘研究院

在臭氧项目中两个目标都有。研究理解大气变量及其相互之间的作用与警报水平的日期联系起来是产生分类器的一个必要的组成部分。

数据挖掘实验室

1.1所示的树结构分类规则给出了对医疗诊断问题的一些有趣的知识深入观察。所有血压小于或等于91的病例都被预测为高危险,对于血压高于91的病例,分类依赖于年龄以及是否出现静脉窦心动过速的现象。为了达到区分高或低危险病例的目的,一旦年龄被记录,则只有两个变量需要进行测量。 数据挖掘研究院

良好分类过程的一个重要标准不仅是要产生一个准确的分类器(在有限数据的基础上),而且还要提供深入可理解的数据的预测结构。 数据挖掘研究院

目前许多可利用的统计技术适合于所有变量具有相同类型,具有标准结构的规模较小的数据集,其潜在的假设为现象是同类的。也就是说,整个度量空间变量之间的关系是相同的,这导致模型只有少量必要的参数来跟踪所包含的各种要素的作用。

数据挖掘研究院

包含许多变量、更多结构的大数据集能够被识别并尝试用各种不同的方法。但是大本身并非必然包含丰富的结构。

对数据集感兴趣的原因不仅仅是它的大小还有它的复杂性,复杂性可能包含如下一些考虑:

高维 数据挖掘研究院

混合的数据类型 数据挖掘研究院

不标准性 数据挖掘研究院

以及不均匀性,这可能是最具有挑战性的。即,在度量空间的不同部分变量之间的相互关系也不同。 数据挖掘研究院

随同复杂数据集出现的是“维的咒语”(Bellman提出的一个词组,1961)。其困难是维数越高,数据点的分布就越稀少,伸展得越分散。在一个单元间隔中10个点还算近邻,但是10个点分布在具有10维的单元矩形上就象是沙漠里的绿洲。 数据挖掘研究院

例如,用100个点,在一个单元间隔中构建一个10单元柱状图是一个合情合理的过程。若有M维,在每个维上使用10个间隔的柱状图将产生的10M单元,即使M是一个中等大小的数,也需要一个非常大的数据集来得到一个可觉察到的柱状图。

另外一种观察“维的咒语”的方法是在M维上指定分布所需的参数数目。

一般:OM2 数据挖掘研究院

二元:O2M 数据挖掘实验室

除非给出强制的假定变量之间无关,否则需要详述M维分布的参数数目将比OM)增加得快很多。换一句话说,数据集的复杂性随同维数的增长快速增长。 数据挖掘研究院

随着计算机的加速使用,具有变量维或混合数据类型、不均匀性等性质的复杂的高维数据库将不再稀有。

数据挖掘研究院

针对数据集维数的不断增长,最广泛使用的多元过程都包含有对维的约简处理。回归和判别式分析中的渐近式变量选择和变量子集选择是维的约简处理的一些例子。

虽然目前多元约简工具的缺点被广泛认识到,但它们是针对明确需求的。为了分析和理解复杂的数据集,需要找出一些方法来智能地选择数据中显著的特征,排除背景噪音,并以可理解的概述信息反馈给分析者。

数据挖掘研究院

1.4 准确率评估

给定一个分类器,也就是说,给定定义在x上的函数d(x)x的值取自C,我们记R*(d)为其“事实的错误分类率”。在本节提出的问题是:哪些是事实及怎样评估。 数据挖掘实验室

观察分类器的准确性(也就是评估R*(d))的方法之一是用已知分类的数据测试分类器的准确度。例如,在臭氧项目中,分类器用1972-1975年的数据建立,准确性用1976-1977年的数据评估。即,用以前的数据建立函数d(x),然后用1976-1977年的数据被错误分类的比例来评估R*(d) 数据挖掘研究院

在大数据量光谱项目中,30,000个光谱数据随机分入两个集合,一个有20,000个数据,一个有10,000

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?