首页 | 人工智能 | 数据挖掘知识 | 相关研究方向 | 编程技术 | 电脑常识 | 互联网资源 | 交流论坛 | 免费书籍资料下载 | 论文下载 | 文档资料 | 在线手册
人工智能: 信息检索 商业智能 搜索引擎技术与新闻 神经网络 生物信息学 模式识别 知识工程 本体理论与方法 机器学习 决策支持 自然语言理解 专家系统 >>更多
数据挖掘知识:
数据挖掘论文 数据挖掘其他 数据挖掘工具与应用 时序模式 相关研究人员主页 相关方向求职招聘信息 文本挖掘 学位论文 异类 预测 web数据挖掘 >>更多
相关研究方向: 联机分析 信息抽取 小波变换 数据仓库 access数据库 DB2数据库 Mysql数据库 Oracle数据库 SqlServer数据库 Sysbase数据库 统计分析 >>更多
主页>数据挖掘知识>文本挖掘>

句子相似度计算在FAQ中的应用

引言
    自动问答系统是目前自然语言处理领域一个非常热的问题,它即能够让用户用自然语言句子提问,又能够为用户返回一个简洁、准确的答案,而不是一些相关的网页。因此,自动问答系统和传统的依靠关键字匹配的搜索引擎相比,能够更好地满足用户的检索需求,更准确地找出用户所需的答案,具有方便、快捷、高效等特点。在国际上每年一度的文本信息检索(TREC)会议上,自动问答(Question Answering Track)是最受关注的主题之一。
    常问问题库 (FAQ)是很多自动问答系统中的一个组成部分。它把用户常问的问题和相关答案保存起来。这样,对于用户输入的问题,可以首先在常问问题库中查找答案。如果能够找到相应的问题,就可以直接将问题所对应的答案返回给用户,而不需要经过问题理解、信息检索、答案抽取等许多复杂的处理过程。本文将对自动问答系统中FAQ的设计和实现方法做一全面介绍,并着重介绍了其中的句子相似度计算。本文所介绍的句子相似度的计算方法不仅能够用于FAQ的检索,还能够用于自动问答的其它阶段,本文简要地介绍了其在答案查找中的应用。
1 系统概述
系统主要包含三个部分:候选问题集的查找,句子相似度计算,FAQ库的更新。
2 候选问题集的查找 字串2
这一步骤的目的是要从常问问题库(FAQ)中找出若干个候选的问题组成候选问题集,以缩小查找的范围,使后续的相似度计算等较复杂的处理过程都在候选问题集这个相对较小的范围内进行。在本系统中,我们选出FAQ中50%的问句作为候选问题集。设用户输入的问句(简称为目标问句)中共有n个词: 、 、…、 。FAQ库中共有m个问句,第i(1  i  m)个问句含有 个词: 、 、…、 。第i个问句和目标问句之间重叠的词个数记为 ,即 。我们将 值最大的前50%的FAQ问句选出来,组成候选问题集。

资料全文下载 字串5

上一篇:基于向量空间模型的文本自动分类系统的研究与实现   下一篇:基于内容的图像检索中的相关反馈研究
版权申明:本站信息收集自互联网,仅供学习参考使用。若有违法转摘您的作品请email我们及时删除!  
用户名: 新注册) 密码: 匿名评论 所有评论
评论内容:(不能超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规。
Google
8 热门推荐
  • More data isn’t always a good thing in
  • Text Categorization
  • Finding Advertising Keywords on Web Page
  • Communities from Seed Sets
  • To Randomize or Not To Randomize: Space
  • Overview of Text Summarization History
  • Porter Stemming Algorithm
  • Sequential Minimal Optimization
  • 弱指导的统计隐含语义分析及其在跨语言信息
  • 基于文本概念和kNN 的跨语种文本过滤
  • 8 阅读排行
     
    版权所有:数据挖掘研究院 2004-2006 未经授权禁止复制或建立镜像
    增值电信业务经营许可证编号:皖B2-20040042 文网文:[2005]027号