1,数据挖掘
简单来说Data Mining(数据挖掘)就是在庞大的数据库中寻找出有价值的隐藏信息.模式和趋势,籍由统计及人工智能的科学技术,将资料做深入分析,找出其中的知识,并根据企业的问题建立不同的模型,以提供企业进行决策时的参考依据。近年来,Data Mining已成为企业热门的话题。愈来愈多的企业想导入Data Mining的技术,美国的一项研究报告更是将Data Mining视为二十一世纪十大明星产业,可见它的重要性。一般Data Mining较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及医疗服务业等。更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。
2,遗传算法
遗传算法(Genetic Algorithm, GA)是近几年发展起来的一种崭新的全局优化算法,它借用了生物遗传学的观点,通过自然选择.遗传.变异等作用机制,实现各个体适应性的提高。用遗传算法解决问题时,先要对待解决问题的模型结构和参数进行编码,一般用字符串表示,这过程将问题符号化.离散化了。
生物从其亲代继承特性或性状的现象称遗传,而生物遗传载体是染色体,而基因是控制生物遗传的基本单位,多个基因组成染色体。(染色体中基因的位置称为基因座,同一基因座可能有的全部基因称为等位基因)等位基因和基因座决定了染色体的特征,也决定了生物个体的性状。染色体有两种相应的表示模式,分别是基因型和表现型。
3,关联规则
挖掘关联规则是指数据库中挖掘出具有这种形式的规则:由于某些事件的发生而引起另外一些事件的发生。它在决策支持系统.专家系统和智能系统等各个方面起着重要的作用。随着数据库应用的普及,数据挖掘的应用越来越广,在近几年内倍受人们的关注。与这规则有关的两个因子,可信度(Confidence)和支持度(Support)。
二.相关技术
1,数据挖掘使用的方法
常用的数据挖掘方法有决策树和遗传算法等:
(1) 决策树
利用信息论中的信息增益寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分支子集中重复建树的下层结点和分支的过程,即可建立决策树。决策树表示法是应用最广泛的逻辑方法,通过一组输入输出样本构建决策树。
数据挖掘研究院
资料全文下载

