首页 | 人工智能 | 数据挖掘知识 | 相关研究方向 | 编程技术 | 电脑常识 | 互联网资源 | 交流论坛 | 免费书籍资料下载 | 论文下载 | 文档资料 | 在线手册
人工智能: 信息检索 商业智能 搜索引擎技术与新闻 神经网络 生物信息学 模式识别 知识工程 本体理论与方法 机器学习 决策支持 自然语言理解 专家系统 >>更多
数据挖掘知识:
数据挖掘论文 数据挖掘其他 数据挖掘工具与应用 时序模式 相关研究人员主页 相关方向求职招聘信息 文本挖掘 学位论文 异类 预测 web数据挖掘 >>更多
相关研究方向: 联机分析 信息抽取 小波变换 数据仓库 access数据库 DB2数据库 Mysql数据库 Oracle数据库 SqlServer数据库 Sysbase数据库 统计分析 >>更多
主页>人工智能>信息检索>

向量空间模型信息检索技术讨论

0 引言
基于WWW的搜索引擎技术,一直是一个非常重要的研究课题,在此技术领域中的信息采集、分析存储和信息检索形成了完整的搜索引擎,其中信息检索是其最重要的组成部分,具有代表性的文本检索模型主要有布尔模型(Boolean Model)、向量空间模型(Vector Space Model,简称VSM)、概率模型(Probabilistic Model)等,这些模型从不同角度使用不同的方法处理特征加权、类别学习和相似计算等问题,而向量空间模型是最有效的文本表示模型之一。
Gerard Salton在上世纪60年代提出的向量空间模型进行特征表达,用TFIDF(Term-Frequency Inverse-Document-Frequency)将Web页面文档转化为向量形式,再通过相关度的计算,倒排文档进行索引,从而使用户得到一个清晰的检索结果。在成功应用于SMART文本检索系统后(System for the Manipulation and Retrieval of Text),这一系统理论框架到现在仍然是信息检索技术研究的基础。但随着Web页面信息量的增大、Web格式的多样化,这种方法查询的结果往往会与用户真实的需求相差甚远,而且产生的无用信息量会非常大,许多用户希望的个性化查询无法实现(个性化查询就是将一般的查询结果根据用户的个性模型进行二次检索,以适应用户个人的需要),为此人们从许多方面对此技术进行了优化和改进,以期获得更高的查询精度和效率。因此,讨论这一技术的应用具有较为重要的现实意义。
1 基于向量空间的信息检索
一个向量空间是由一组线性无关的基本向量组成,向量维数与向量空间维数一致,并可以通过向量空间进行描述。
1.1 向量空间模型描述:
概念1 文档D(Document):泛指文档或文档中的一个片段(如文档中的标题、摘要、正文等)。
概念特征项tTerm):指出现在文档中能够代表文档性质的基本语言单位(如字、词等),也就是
通常所指的检索词,这样一个文档D就可以表示为D(t1,t2,…,tn),其中n就代表了检索字的数量。
概念3 特征项权重Wk(Term Weight):指特征项tn能够代表文档D能力的大小,体现了特征项在文档中的重要程度。这样文档D的向量可以表示为D(wn1,wn2,…,wnm),其中w1,w2,…,wm分别代表文档D特征项t1,t2,…,tn的特征项权重。在WWW索引文件中,每一个向量对应一个URL,当用户检索查询一个文档内容时,如果匹配,则向量D对应的特征项t值为1,否则值为0,如下所示:
TermID
T1
T2
Tn
 
D1
0
1
0
D2
1
1
 
1
Dn
1
0
 
1

字串3


θ
文档D1w1,w2,…,wm
文档D2w1,w2,…,wm
特征项3
特征项2
特征项1
查询qj
1 文档VSM及相似度Sim(D1,D2)

字串2

字串1

字串2

字串5

字串5

概念4 相似度SSimilarity):指两个文档内容相关程度的大小,当文档以向量来表示时,可以使用向量文档向量间的距离来衡量,一般使用内积或夹角θ的余弦来计算,两者夹角越小说明相似度越高,由于查............

资料全文下载

字串3

上一篇:Forrester Expects Growth in Behavioral Ad Targeting   下一篇:International Symposium on Neural Networks 2006
版权申明:本站信息收集自互联网,仅供学习参考使用。若有违法转摘您的作品请email我们及时删除!  
用户名: 新注册) 密码: 匿名评论 所有评论
评论内容:(不能超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规。
Google
8 热门推荐
  • 如何实现中文文献的自动聚合分类
  • 信息检索的核心支撑技术
  • Efficient Similarity Search over Vector
  • MARS: A Matching and Ranking System for
  • 信息检索研究人员推荐读物
  • Resources for Text, Speech and Language
  • Information Wants to be Found
  • Boyer Moore 算法
  • 字符串匹配的KMP算法
  • 中文信息处理——纵览与建议
  • 8 阅读排行
     
    版权所有:数据挖掘研究院 2004-2006 未经授权禁止复制或建立镜像
    增值电信业务经营许可证编号:皖B2-20040042 文网文:[2005]027号