首页 | 人工智能 | 数据挖掘知识 | 相关研究方向 | 编程技术 | 电脑常识 | 互联网资源 | 交流论坛 | 免费书籍资料下载 | 论文下载 | 文档资料 | 在线手册
人工智能: 信息检索 商业智能 搜索引擎技术与新闻 神经网络 生物信息学 模式识别 知识工程 本体理论与方法 机器学习 决策支持 自然语言理解 专家系统 >>更多
数据挖掘知识:
数据挖掘论文 数据挖掘其他 数据挖掘工具与应用 时序模式 相关研究人员主页 相关方向求职招聘信息 文本挖掘 学位论文 异类 预测 web数据挖掘 >>更多
相关研究方向: 联机分析 信息抽取 小波变换 数据仓库 access数据库 DB2数据库 Mysql数据库 Oracle数据库 SqlServer数据库 Sysbase数据库 统计分析 >>更多
主页>数据挖掘知识>文本挖掘>

多文档文摘中基于语义相似度的最大边缘相关技术研究

一、引言 互联网的普及和飞速发展,使网络用户面对着如 何在海量信息中准确、高效地找到所需信息的问题。 目前人们主要是通过搜索引擎来查找信息,但搜索引 擎返回的是相关资料的链接,这些链接的内容有大量 是重复或相似的,如果一一阅读,不仅浪费时间,而 且无法满足人们准确、高速地获取与处理所需信息的 需求。多文档自动文摘技术研究的目标正是为了解决 这一问题,它直接给用户提供简洁、信息全面的短小 文档,以提高用户获取信息的效率。理想的多文档文 摘应该包含大多数文档中共同具有的和主题或用户 Query 相关的无重复内容,同时覆盖不同文档中的不 同点,达到信息的内聚性和全面性。 如何选取文摘句,是自动文摘系统中的一个关键 技术所在,在很大程度上决定着文摘质量的好坏。 Goldstein 等提出的MMR 技术的最重要特点是[1]:在 选择文摘句时,使要进入文摘的句子既和主题的相关 度较高,又使该句和已选文摘句之间的冗余度尽可能 的小,来保证和主题或用户Query 的相关度,同时减 少冗余信息,增加进有特色的内容,使得到的文摘质 量较高。Goldstein 在单文档文摘系统中的实验表明, 该方法生成的文摘,信息冗余度较其它方法有明显的 降低;日本横滨国立大学开发的一个多文档自动文摘 系统将MMR 技术和IGR(Information Gain Ratio)技术 结合起来, 称为MMI-MS(Maximal Marginal Importance – Multi-Sentence) 来选取文摘句[2] ; Goldstein 等提出了在多文档文摘系统中采用基于 MMR-MD((Maximal Marginal Relevance Multi-Document)的方法[3]。这些方法在降低冗余度方 面都取得了较好效果,得到的文摘质量较高。 在借鉴Goldstein 等人的理论基础上,鉴于在中文 自动文摘领域中还没有文献表明对该技术的研究,本文研究的重点是对已有MMR 技术的改进和在中文多 文档自动文摘系统中的应用。分析上述各方法的不足 之处:应用MMR-MD 时,适合产生基于用户Query 驱动的文摘,但没有考虑自然语言理解和信息提取技 术,使文摘缺乏指代上的一致性和连贯性,甚至有语 义上的模糊性[3];MMI-MS 适合处理较短的文档, 且文档数要少(7 篇或更少),不能满足实时处理网络 上海量信息的要求[2]。本文提出了基于句子语义相似 的最大边缘相关方法( Semantic Similarity based Maximal Marginal Relevence,以下简称MMR-SS)来选 择文摘句,生成关于同一主题的通用文摘。该方法在 利用MMR 基本理论选择文摘句时,引入语句级语义 相似度计算方法来计算候选文摘句和主题以及候选文 摘句与已选文摘句之间的相似度,提高相似度计算准 则,同时改进原有方法,并结合其它统计信息和领域 知识,来达到选择最佳文摘句,提高文摘质量的目的。 实验结果表明,MMR-SS 方法在降低冗余度、扩大信 息覆盖面、增强内容概括性上有较好的表现,有一定 的实用效果。 字串4

  字串1

资料全文下载

字串5

  字串6

上一篇:John Platt´s Home Page   下一篇:一种基于相似度分析的主题提取和发现算法
版权申明:本站信息收集自互联网,仅供学习参考使用。若有违法转摘您的作品请email我们及时删除!  
用户名: 新注册) 密码: 匿名评论 所有评论
评论内容:(不能超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规。
Google
8 热门推荐
  • More data isn’t always a good thing in
  • Text Categorization
  • Finding Advertising Keywords on Web Page
  • Communities from Seed Sets
  • To Randomize or Not To Randomize: Space
  • Overview of Text Summarization History
  • Porter Stemming Algorithm
  • Sequential Minimal Optimization
  • 句子相似度计算在FAQ中的应用
  • 弱指导的统计隐含语义分析及其在跨语言信息
  • 8 阅读排行
     
    版权所有:数据挖掘研究院 2004-2006 未经授权禁止复制或建立镜像
    增值电信业务经营许可证编号:皖B2-20040042 文网文:[2005]027号