RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

一种基于相似度分析的主题提取和发现算法

来源: 作者:unkonwn 时间:2004-12-05 点击:

在万维网上,对于给定的用户查询,搜索引擎典型的做法是返回大量与查询关键词相匹配的文档;但用户所
意浏览的只是其中的极小一部分.许多研究者试图针对特定的查询,确定文档的相对的权威值[1~5],依据这种
威值搜索引擎返回给用户那些权威值最高的文档.这种找出高质量页面的过程称为主题提取(topic distillation)[1].但是,在互联网环境中,提交给搜索引擎的查询常常是不明确的,有时候包含了若干个可能的主题.
许多情况下,用户可能更有兴趣找出与给定查询相关的几个主题,但是主题提取的目标是找出那些最流行的
题的权威网页,也就是说,它排除了与查询关键词相关的其他可能主题.因此,有必要在主题提取的过程中同
找出所有可能的查询主题,这种功能我们称为主题发现(topic exploration).
著名的HITS算法是一种有效的基于链接分析的主题提取方法,它所依赖的是对超链接环境下链接结构的
析[3].但在过去几年中,由几位研究者所继续的实验却显示出HITS算法提取质量的恶化[1,4~6].因此,他们试图
HITS算法进行改进以避免主题漂移(topic drift)问题.所采取的方法是对文档进行内容分析.
许多人也许认为,内容与链接相结合的混合型方法是对纯链接分析方法研究的终结,但实际的情形却更像

数据挖掘研究院


一种相持不下的军备竞赛.在混合型方法中,需要获取并存储整个页面,还要对内容文本进行处理,这些都增
了算法额外的负担.而且,当查询中蕴含若干主题时,这些算法都放弃了那些次流行的主题,我们把这种缺陷
为主题遗失(topic missing).
对于主题提取与主题发现,文档之间的链接信息是一个丰富的资源,应该被我们更好地利用.我们对HITS
法进行了透彻的分析,试图换一种角度来重新看待它的行为.也就是说,我们将提出一个基于相似度的分析模
来观察其提取的过程.我们在技术上的主要贡献是一种新的基于相似度的主题提取算法,它仅使用链接的信
而能改善提取的质量;主题发现的功能也结合到了这一算法的框架中,它使得在查询蕴含多个主题的时候,用
能够搜索到那些次流行的主题. 数据挖掘研究院

 

数据挖掘研究院

资料全文下载

 

数据挖掘研究院

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?