RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

多文档文摘中基于语义相似度的最大边缘相关技术研究

来源: 作者:unkonwn 时间:2004-12-04 点击:

一、引言 互联网的普及和飞速发展,使网络用户面对着如 何在海量信息中准确、高效地找到所需信息的问题。 目前人们主要是通过搜索引擎来查找信息,但搜索引 擎返回的是相关资料的链接,这些链接的内容有大量 是重复或相似的,如果一一阅读,不仅浪费时间,而 且无法满足人们准确、高速地获取与处理所需信息的 需求。多文档自动文摘技术研究的目标正是为了解决 这一问题,它直接给用户提供简洁、信息全面的短小 文档,以提高用户获取信息的效率。理想的多文档文 摘应该包含大多数文档中共同具有的和主题或用户 Query 相关的无重复内容,同时覆盖不同文档中的不 同点,达到信息的内聚性和全面性。 如何选取文摘句,是自动文摘系统中的一个关键 技术所在,在很大程度上决定着文摘质量的好坏。 Goldstein 等提出的MMR 技术的最重要特点是[1]:在 选择文摘句时,使要进入文摘的句子既和主题的相关 度较高,又使该句和已选文摘句之间的冗余度尽可能 的小,来保证和主题或用户Query 的相关度,同时减 少冗余信息,增加进有特色的内容,使得到的文摘质 量较高。Goldstein 在单文档文摘系统中的实验表明, 该方法生成的文摘,信息冗余度较其它方法有明显的 降低;日本横滨国立大学开发的一个多文档自动文摘 系统将MMR 技术和IGR(Information Gain Ratio)技术 结合起来, 称为MMI-MS(Maximal Marginal Importance – Multi-Sentence) 来选取文摘句[2] ; Goldstein 等提出了在多文档文摘系统中采用基于 MMR-MD((Maximal Marginal Relevance Multi-Document)的方法[3]。这些方法在降低冗余度方 面都取得了较好效果,得到的文摘质量较高。 在借鉴Goldstein 等人的理论基础上,鉴于在中文 自动文摘领域中还没有文献表明对该技术的研究,本文研究的重点是对已有MMR 技术的改进和在中文多 文档自动文摘系统中的应用。分析上述各方法的不足 之处:应用MMR-MD 时,适合产生基于用户Query 驱动的文摘,但没有考虑自然语言理解和信息提取技 术,使文摘缺乏指代上的一致性和连贯性,甚至有语 义上的模糊性[3];MMI-MS 适合处理较短的文档, 且文档数要少(7 篇或更少),不能满足实时处理网络 上海量信息的要求[2]。本文提出了基于句子语义相似 的最大边缘相关方法( Semantic Similarity based Maximal Marginal Relevence,以下简称MMR-SS)来选 择文摘句,生成关于同一主题的通用文摘。该方法在 利用MMR 基本理论选择文摘句时,引入语句级语义 相似度计算方法来计算候选文摘句和主题以及候选文 摘句与已选文摘句之间的相似度,提高相似度计算准 则,同时改进原有方法,并结合其它统计信息和领域 知识,来达到选择最佳文摘句,提高文摘质量的目的。 实验结果表明,MMR-SS 方法在降低冗余度、扩大信 息覆盖面、增强内容概括性上有较好的表现,有一定 的实用效果。

数据挖掘研究院

  数据挖掘研究院

资料全文下载 数据挖掘研究院

 

数据挖掘实验室

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?