RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

基于元数据的Web 信息检索技术研究

来源: 作者:unkonwn 时间:2004-12-06 点击:
计算机和网络技术的进展使信息的发布与共享不再受到时空限制,同时也给我们带来了“信
息过载”的问题,即信息资源极大丰富,而真正有用的信息和知识却相对匮乏。作为一个全球化信
息空间,Web 为信息检索提供了一个前所未有的实验环境和应用情景;同时也给信息检索带来了
新的挑战。搜索引擎等Web 信息检索系统虽然部分地满足了人们的需要,但在精度、易用性等方
面仍存在诸多问题,其效果远不能使人满意。据此,本文对“Web 信息检索”,尤其是Web 上中文
信息资源的有效检索,这个具有重要理论意义和广阔应用前景的课题进行研究和探索。
在对Web 信息检索现有问题进行剖析后,本文提出了一种基于元数据的Web 信息检索方案。
实现基于元数据的检索需要解决Web 文档元数据的表示、创建、组织和使用等诸多问题。目前的
研究工作主要集中于元数据表示的标准化上,而对元数据的自动生成、有效组织和使用的研究才刚
刚开始,关于中文Web 文档元数据检索的研究工作尚未见报道。在提出检索方案的基础上,本文
对其中所涉及的元数据组织与分析、元数据自动生成、分布协作检索等关键技术进行了深入研究,
力图为Web 信息资源与知识的有效发现提供理论基础和实验依据。 数据挖掘研究院
本文的主要研究工作和所取得的成果包括:
(1) 分析Web信息检索现状、提出基于元数据的Web信息检索方案
从“系统分类”、“关键技术”、“评价标准”等角度对Web 信息检索的研究现状进行了回顾,
并总结了Web 信息检索目前存在的主要问题。在对这些问题进行剖析的基础上,提出了一种基于
元数据的Web信息检索方案,即:使用元数据来描述Web 文档的属性和语义特征,并采用多维文
档立方体模型加以组织;利用分类、摘要等智能化方法来自动生成Web 文档的元数据,进而通过
分析Web 文档的特征分布来发现其中的分布规律和隐含模式;在此基础上,利用协作框架将各个
分布的检索子系统集成为检索群体,共同完成Web信息检索任务。该方案为Web 环境下的信息检
索和知识发现提供了一条新颖、有效的思路。
(2) Web 文档元数据的多维组织和分析
本文从语义定义和语法描述这两个方面简单介绍了Web文档元数据的表示,并对Web 文档元
数据的组织和分析进行了重点研究。针对用户在信息检索中的使用需求,提出了组织Web 文档及
其元数据的多维文档立方体模型,并根据用户的检索条件来生成多维文档视图。在此基础上,给出 数据挖掘研究院
了对多维文档视图进行操作、分析和挖掘的方法,以帮助用户浏览检索结果并揭示蕴含在大量Web
文档中的规律和模式,从而充分地发挥元数据在Web 文档检索、浏览、分析和挖掘中的作用。
(3) 中文Web文档的无词典智能化抽词
对于中文信息检索,应该说技术手段与英文信息检索基本类似,也可以考虑上述基于元数据
的检索方案。但是,中文文档与英文文档又有着很大的区别,特别是中文文档需要经过分词环节。
本文针对Web 环境和分类、摘要等工作的特点提出了基于汉字结合模式的无词典抽词模型,采用
自增长算法来获取文档中的汉字结合模式,并引入支持度、置信度等概念来快速、准确地抽取文档
中的中、高频词条。该模型对传统的中文分词方法进行了变革,摆脱了词典的束缚,也不需要使用
领域语料库进行训练,对于分类、摘要等词条频度敏感的中文信息处理工作具有重要的理论意义和
实际应用价值。
(4) 中文Web文档的自动摘要
“摘要”、“关键词”是概括描述Web 文档内容的重要元数据,对于Web 信息检索工作具有重
要的辅助作用。本文根据Web 环境对文档自动摘要技术在质量、速度、领域、用户等方面的要求,提出了一种以篇章结构为指导、以机械摘要为基本手段的Web 文档自动摘要方法。该方法通过对 数据挖掘研究院
段落间的语义关系进行分析,划分出文档的主题层次,得到文档的篇章结构;在篇章结构的指导下,
使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档摘要。该方法具有不受领域限
制、摘要速度快等优点;同时文档篇章的智能化分析也有助于克服简单机械摘要方法停留于字面表
层的局限性。
(5) 中文Web文档的自动分类
“主题类别”是Web文档最重要的元数据之一,因此Web 文档分类对检索工作具有重要意义。
如何在保证文档分类准确性的同时尽可能地减少空间占用、提高分类速度,是将自动分类方法用于
Web 信息检索的关键所在。本文提出了一种对中文Web 文档进行快速、准确分类的ETC3 方法。
该方法采用了文档空间变换和主成分分析技术,将文档的原始矢量表示从高维词条空间映射到低维
主成分空间,并利用文档类别重心进行分类。从理论角度分析,ETC3 分类方法弥补了词条无关假
设的缺陷;从实验结果来看,ETC3 能在保证分类准确度的前提下,大幅度地削减文档表示的维数,
并减少空间占用、提高分类速度。
(6) 分布协作式Web信息检索框架的设计
本文采用上述基于元数据的Web 信息检索方案以及元数据的多维组织与分析、智能化生成等 数据挖掘研究院
关键技术,设计并实现了一个原型系统MIRS。在此基础上,我们对分布协作式的Web信息检索进
行了初步探索,提出了一个分布协作框架DCIRF。DCIRF 由用户代理UA、信息检索系统IRS 以及
信息检索中间商IRB 等三类组件构成,采用分布协作策略取代了传统Web 信息检索的集中方式,
并具有良好的可扩充性和透明性。
在江苏省“九五”科技攻关项目中,我们利用本文的部分研究成果建立了一个中文Web 信息
检索系统,取得了较好的效果。此外,本文的成果对于信息过滤、信息agent 等领域的研究也有借
鉴作用。
关键词:Web,元数据,信息检索,信息挖掘,多维文档立方体,分词,摘要,分类,分布协作

资料全文下载 数据挖掘研究院

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?