首页 | 人工智能 | 数据挖掘知识 | 相关研究方向 | 编程技术 | 电脑常识 | 互联网资源 | 交流论坛 | 免费书籍资料下载 | 论文下载 | 文档资料 | 在线手册
人工智能: 信息检索 商业智能 搜索引擎技术与新闻 神经网络 生物信息学 模式识别 知识工程 本体理论与方法 机器学习 决策支持 自然语言理解 专家系统 >>更多
数据挖掘知识:
数据挖掘论文 数据挖掘其他 数据挖掘工具与应用 时序模式 相关研究人员主页 相关方向求职招聘信息 文本挖掘 学位论文 异类 预测 web数据挖掘 >>更多
相关研究方向: 联机分析 信息抽取 小波变换 数据仓库 access数据库 DB2数据库 Mysql数据库 Oracle数据库 SqlServer数据库 Sysbase数据库 统计分析 >>更多
主页>数据挖掘知识>文本挖掘>

一种基于相似度分析的主题提取和发现算法

在万维网上,对于给定的用户查询,搜索引擎典型的做法是返回大量与查询关键词相匹配的文档;但用户所
意浏览的只是其中的极小一部分.许多研究者试图针对特定的查询,确定文档的相对的权威值[1~5],依据这种
威值搜索引擎返回给用户那些权威值最高的文档.这种找出高质量页面的过程称为主题提取(topic distillation)[1].但是,在互联网环境中,提交给搜索引擎的查询常常是不明确的,有时候包含了若干个可能的主题.
许多情况下,用户可能更有兴趣找出与给定查询相关的几个主题,但是主题提取的目标是找出那些最流行的
题的权威网页,也就是说,它排除了与查询关键词相关的其他可能主题.因此,有必要在主题提取的过程中同
找出所有可能的查询主题,这种功能我们称为主题发现(topic exploration).
著名的HITS算法是一种有效的基于链接分析的主题提取方法,它所依赖的是对超链接环境下链接结构的
析[3].但在过去几年中,由几位研究者所继续的实验却显示出HITS算法提取质量的恶化[1,4~6].因此,他们试图
HITS算法进行改进以避免主题漂移(topic drift)问题.所采取的方法是对文档进行内容分析.
许多人也许认为,内容与链接相结合的混合型方法是对纯链接分析方法研究的终结,但实际的情形却更像 字串4
一种相持不下的军备竞赛.在混合型方法中,需要获取并存储整个页面,还要对内容文本进行处理,这些都增
了算法额外的负担.而且,当查询中蕴含若干主题时,这些算法都放弃了那些次流行的主题,我们把这种缺陷
为主题遗失(topic missing).
对于主题提取与主题发现,文档之间的链接信息是一个丰富的资源,应该被我们更好地利用.我们对HITS
法进行了透彻的分析,试图换一种角度来重新看待它的行为.也就是说,我们将提出一个基于相似度的分析模
来观察其提取的过程.我们在技术上的主要贡献是一种新的基于相似度的主题提取算法,它仅使用链接的信
而能改善提取的质量;主题发现的功能也结合到了这一算法的框架中,它使得在查询蕴含多个主题的时候,用
能够搜索到那些次流行的主题.

字串6

 

字串2

资料全文下载

字串6

  字串8

上一篇:多文档文摘中基于语义相似度的最大边缘相关技术研究   下一篇:一种新的基于统计的自动文本分类方法
版权申明:本站信息收集自互联网,仅供学习参考使用。若有违法转摘您的作品请email我们及时删除!  
用户名: 新注册) 密码: 匿名评论 所有评论
评论内容:(不能超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规。
Google
8 热门推荐
  • More data isn’t always a good thing in
  • Text Categorization
  • Finding Advertising Keywords on Web Page
  • Communities from Seed Sets
  • To Randomize or Not To Randomize: Space
  • Overview of Text Summarization History
  • Porter Stemming Algorithm
  • Sequential Minimal Optimization
  • 句子相似度计算在FAQ中的应用
  • 弱指导的统计隐含语义分析及其在跨语言信息
  • 8 阅读排行
     
    版权所有:数据挖掘研究院 2004-2006 未经授权禁止复制或建立镜像
    增值电信业务经营许可证编号:皖B2-20040042 文网文:[2005]027号