RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

数据开采工具及应用

来源: 作者:unkonwn 时间:2004-12-10 点击:

数据开采工具的任务
    数据开采工具的目标是从数据库中发现隐含的、有意义的知识,主要有以下4类任务:
    1.关联分析
    数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联(例如,购买面包的顾客中有90%的人同时购买牛奶)、时序关联(例如,若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%)、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联是否存在精确的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

    2.聚类
    数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Michalski提出了概念聚类技术。其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分得出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
    3.概念描述
    概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多, 如决策树方法、遗传算法等。 数据挖掘实验室

    4.偏差检测
    数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。
数据挖掘研究院

数据开采工具的分类
    数据开采工具根据所采用的技术,大致可分为以下6类:
    1.基于规则和决策树的工具
    大部分数据开采工具采用规则发现技术或决策树分类技术来发现数据模式和规则,其核心是某种归纳算法,如ID3及其发展C4.5。这类工具通常先对数据库的数据进行开采,生成规则和决策树,然后对新数据进行分析和预测。这类工具的主要优点是,规则和决策树都是可读的。
    其典型产品有:①Angoss Software开发的KnowledgeSeeker。它可运行于DOS和Windows 环境,广泛应用于市场和金融分析。它采用聚类分析和规则归纳技术,从数据集中发现多种因果关系,并以图形形式显示决策树,价格约850美元。②Attar Software开发的XpertRule Profiler。它可运行于Windows环境,采用客户 /服务器技术,适于大数据量开采,可分析上百万条记录而不必取样或取子集。其归纳过程采用SQL语言查询,因此开采速度依赖于数据库所在机器的速度。它可以产生决策树,支持ODBC,价格为1.5万美元。
    2.基于神经元网络的工具
    由于对非线性数据的快速建模能力,基于神经元网络的数据开采工具现在越来越流行。其开采过程基本上是将数据聚类,然后分类计算权值。神经元网络很适合非线性数据和含噪声数据,所以在对市场数据库的分析和建模方面应用广泛。 数据挖掘研究院
    典型产品有Advanced Software Application开发的DBProfile。它可运行于Windows环境,适于针对市场行业的数据分析和决策支持系统。它采用的方法包括自然聚类、分段、统计模型和可视化技术。它通过精密的数据分析,帮助市场人员了解顾客、市场前景和市场状况,结果以图形或表格形式显示,支持ODBC,价格为1万美元。
    3.数据可视化方法
    数据可视化以前多用于科学和工程领域,现在也出现了针对商业用户需求的产品。这类工具大大扩展了传统商业图形的能力,支持多维数据的可视化,从而提供了多方向同时进行数据分析的图形方法。
有些工具甚至提供动画能力,使用户可以"飞越"数据,观看不同层次的细节。其优点是,提供了发现并翻译数据模式及数据间关系的图形方式。
    典型产品有Information Technology Institute开发的WinViz。它可运行于Windows环境,是一个良好的可视化数据分析工具,其接口允许在一幅图中显示多维数据集。其交互式图形查询使用户可快速浏览数据库,观察数据集中不同属性与其它数据集的关联关系,价格约150美元。

    4.模糊发现方法
    这类工具较少,其发现方法是应用模糊逻辑进行数据查询、排序等。典型产品有Inform ation Builders Inc.开发的Level5 Quest。


它可运行于Windows和Unix环境,使用模糊概念和"最近"搜索技术的数据查询工具。它可以让用户指定目标,然后对数据库进行搜索,找出接近目标的所有记录,并对结果进行评估。它支持ODBC,价格为495美元。
    5.统计方法
    基于传统统计方法的工具也相当多。因为这些工具没有使用人工智能技术,所以更适于分析现有信息,而不是从原始数据中发现数据模式和规则。典型产品有BBN Software开发的Cornerstone。它可运行于Windows和Unix环境。其特点是,数据集间可动态链接,也可链接到其它数据源,对数据集可生成多种图形视图、联机超文本帮助,易于操作,可对数据进行存取、可视化、分析和表现。它支持ODBC,价格约1500美元。
    6.综合多方法
    不少数据开采工具采用了多种开采方法。这类工具一般规模较大,运行于Unix工作站或并行处理平台,适于大型数据库(包括并行数据库)。这类工具的开采能力很强,但价格昂贵, 并要花很长时间进行学习。
    典型产品有:①Integral Solutions Ltd.开发的Clementine。它运行于Unix工作站,适于最终用户和开发人员的数据开采系统及开发工具。它采用多种开采方法,综合了可视化、神经元网络和规则归纳,具有良好的最终用户可视化编程环境,内置的专家系统为用户提供选择数据开采模型和算法的建议。专业人员可开发自己的神经元网络和归纳模型。它支持Ora cle、Ingress、Sybase、Informix,价格为1.9万美元。②Thinking Machines开发的Darwin 。它可运行于Windows环境和MPP平台,是大规模数据开采系统和开发环境。它使用多种算法,包括神经元网络、规则归纳、决策树、基于记忆的推理、遗传算法等,并支持关系数据库和并行数据库。 数据挖掘研究院
数据挖掘研究院

数据开采应用
    目前,数据开采应用最集中的领域包括以下7个方面,但每个领域又有其特定的应用问题和应用背景。

    1.金融
    金融事务需要收集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。数据开采在金融领域应用广泛,包括:
    (1)数据清理、金融市场分析和预测
    财经分析依赖各种来源的数据,这些数据可能包含错误信息或丢失信息,有时还表达相互矛盾的信息。因此,对数据进行清理或联机验证十分重要。Lockheed的Recon曾用于清理一个有2200个墨西哥和英国政府债券及欧洲债券的数据库,以辅助投资决策,并进行预测。
    (2)帐户分类、银行担保和信用评估
    金融业务的利润和风险是共存的。为了保证最大的利润和最小的风险,必须对帐户进行科学的分析和归类,并进行信用评估。The Leeds就使用XpertRule Analyzer进行分析并建立模型,预测该组织内50万贷款帐户的欠款情况,并分析可能欠款的帐户的关键特征。
    2.医疗保健 数据挖掘研究院
    医疗保健行业有大量数据需要处理。但这个行业的数据由不同的信息系统管理,数据以不同的格式保存,从总体看,数据是无组织的。
在这个行业中,数据开采最关键的任务是进行数据清理,预测医疗保健费用。例如,GTE实验室开发了KEFIR,从大型时变数据库中发现并解释关键信息。这个系统能进行多维分析,用以分析GTE的医疗保健数据,对比数据和预测数据,在定量范围内解释偏差,生成超文本报表。

    3.市场业
    市场业应用数据开采技术进行市场定位和消费者分析,辅助制定市场策略。例如,Dicki nson Direct是个市场分析公司,他们为AT&T、IBM、PowerSoft这样的客户工作。Dickinson  Direct使用Information Harvester的规则归纳、模糊推理及统计能力对客户的历史数据进行分析,得出产品的购买趋势。

    4.零售业
    零售业是最早应用数据开采技术的行业,目前主要应用于销售预测、库存需求、零售点选择和价格分析。例如,Automated Wagering公司使用Advanced Software Applications的ModelMax预测模型,结合地理信息分析开发了Lottery Machine Site Selection,以决定在佛罗里达州安装彩票机的最佳地点。



    5.制造业
    制造业应用数据开采技术进行零部件故障诊断、资源优化、生产过程分析等。例如,HP 公司的工程师使用Angoss Software的KnowledgeSeeker来进行HPⅡc彩色扫描仪的生产过程分析。他们基于大约200个参数建立了一个自动数据收集系统,产生了难以手工处理的大量数据。通过使用KnowledgeSeeker,工程师们能够对数据进行分析,并对20个最重要的参数进行认定。工程师们还利用KnowledgeSeeker来减少组装过程中使扫描光学仪器正确对齐的固定过程的错误。通过对生产数据进行分析,还能发现一系列装配过程中哪一阶段最容易产生错误。

    6.司法
    数据开采技术可应用于案件调查、诈骗监测、洗钱认证、犯罪组织分析,可以给司法工作带来巨大收益。例如,美国财政部使用NetMap开发了一个叫FAIS的系统。这个系统对各类金融事务进行监测,识别洗钱、诈骗等。该系统从1993年3月开始运行,每周处理约20万个事务,针对超过1亿美元并可能是洗钱的事务产生了400多个调查报告。
    7.工程与科学
    数据开采技术可应用于各种工程与科学数据分析。例如,Jet Propulsion实验室利用决策树方法对上百万天体进行分类,效果比人工更快、更准确。这个系统还帮助发现了10个新的类星体。 数据挖掘实验室

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?