RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

数据挖掘中一种基于粗糙集理论的属性值离散映射方法

来源: 作者:unkonwn 时间:2004-11-26 点击:

数据挖掘的目的是发现隐含在数据中对决策有帮助的规律、模式等信息[#]。在管理领域,由于信息的不完全性和数据个体的不确定性,使得数据集中只有部分数据具有比较明显的规律性,还有一些数据体现出比较弱的规律性或根本不存在规律,这就决定了隐藏在这些数据中的是一些具有一定置信度级别的不确定性知识。 数据挖掘研究院

将数据库中的原始数据离散映射为标准的离散符号是数据挖掘的一个关键步骤,这个过程中的一个主要问题是如何确定合理的属性值划分区间,避免由于最小信任度问题和最小支持度问题而使大量不确定性知识不能被发现出来的现象。本文基于粗糙集理论提出了一个划分属性值离散区间的算法,该算法同时适用于字符型属性的数据和数值型属性的数据,从而可以广泛地应用于不确定性知识的挖掘。本文的贡献在于:

数据挖掘实验室

(#)提出了一个不确定性信息系统的粗糙集模型,从而明晰了具有不同信任度水平的知识与数据源的关系。 数据挖掘研究院

(!)在改进的信息系统粗糙集模型的基础上,结合面向属性的归纳原理提出一个划分属性值离散区间的算法。 数据挖掘研究院

为了能够从原始数据中发现规则,我们需要首先将属性值映射为标准的离散符号。对于数值型属性来说,我们首先将属性值按一定的标准划分为一个个数值区间,并用标准的离散符号代表这些数值区间。在离散映射过程中,如果属性值在某个区间范围内,那么就用代表这个区间的离散符号替换这个属性值。在属性值的离散映射过程中,不仅数值型属性需要按一定的划分区间进行离散映射,有些字符型属性也存在区间的划分的问题。例如,我们可以按较大的区间将属性*(+, 的取值按“工作日”、“休息日”分别映射为&,",也可以按较小的划分区间将属性*(+, 的取值按“星期一”、“星期二”?分别映射为&,",!?等。 数据挖掘研究院

资料全文下载 数据挖掘实验室

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?