聚类/分类理论研究及其在文本挖掘中的应用

十八世纪的法国,在启蒙运动精神的鼓舞下,一些人士提出了一项雄心勃勃、近乎幻想的规划:将全世界所有的知识汇集在一起,做成一本反映人类全部文明的百科全书。然而两个世纪之后,当Internet看来就要将这个乌托邦式的梦想付诸实现的时候,人们又发现了一个更加严峻的问题,那就是:我们如何来使用这个知识宝库呢?我们如何来翻阅这本厚厚的百科全书呢?
1.1 我们所期望的信息服务
让Internet为人类服务,是未来几年的真正挑战。电子邮件甚至是电话会议都已普及,然而这些应用并没有触及Internet的核心问题:Internet的空间是原始信息和分析结果的巨大储存库,Internet是一个庞大而又充满着混沌的网络。一方面,它为信息发布者提供了极大的言论自由:你可以非常容易地向整个世界发布你的思想、高论抑或呓语,以你最钟爱的方式---文本、声音或者图象;然而另一方面,这种快速、无序的增长对于信息的使用者来说却意味着混乱---很多信息变得稀奇古怪、突然消失或者杂乱无章。那么,我们希望这本没有主编的,因而有些杂乱无章的百科全书能够提供哪些服务呢?也许我们可以从以下几个方面来概括:
● 准确而全面的“人找信息”
人们一直梦想有这么一种手段:只要你说出想查询什么,马上就能得到所有符合要求的信息,并且不被那些不相干的信息所打扰。这实际上隐含了对信息检索的两个要求:查全率和查准率。


查准率是检出文档之中真正符合检索意图的文档所占的比率,即:
中国科学院计算技术研究所学位论文
正确文档数
查准率 =
检出文档数
查全率是所有符合检索意图的文档之中被检出的文档所占的比率,即:
正确文档数
查全率 =
应有文档数
查全率和查准率反映了检索质量的两个不同方面,二者必须综合考虑,不可偏废。如果只考虑查准率,那么可以只检出1篇最有把握的文档,赌正了查全率就是100%,但是这样的话,符合要求的文档被检出的数目太少,不能满足全面了解相关信息内容的要求;同样地,如果只追求查全率,那么把所有的信息都端出来,查全率固然可以达到100%,但是真正有用的信息就都淹没在大量的无用信息之中了,无法满足快速地、有针对性地了解信息内容的需求。因此,任何信息检索系统都要在查全率和查准率之间进行权衡。
在网络时代说起信息检索,大家都会想到搜索引擎。现在的确有很多声名显赫的搜索引擎,比如Yahoo!、Excite等,但是如果你因此而以为问题已经解决的话,那就大错特错了。实际使用过搜索引擎的人想必都有这种体会:想查的东西查不着,不相关的东西倒是很多。构造更好的信息检索系统仍然是人们努力的目标。
● 主动的“信息找人” 数据挖掘交友
人们还有一个梦想,希望能够象订阅报纸一样订阅Internet上的信息。只需事前在某个地方登记对哪些信息感兴趣,或者干脆连这一步都省略掉,由某种机制从用户的浏览历史行为中学习出用户的兴趣,然后只要有人在网络上发布了相关信息,就能立刻推送到用户手中,也就是个性化、主动化的“信息找人、按需服务”。
既然是“信息找人”,那么什么信息找什么人就是关键。每个用户都有自己特定的信息需求,设法获得这些信息需求,进而使用这些信息需求.............

  数据挖掘工具

资料全文下载 数据挖掘实验室

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:基于Web日志挖掘技术的智能Web站点研究
下一篇:运用动态分群方法在市场区隔上-以电信产业为例
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • 清华大学毕业设计论文
  • 数据挖掘中关联规则的研究与应用
  • 文本挖掘抢占商业智能掘金制高点
  • 基于元数据的Web 信息检索技术研究
  • Rough set 理论及其在数据挖掘中的应用:硕
  • 智能信息检索中的Web 挖掘研究
  • 入侵检测中的数据挖掘方法研究-博士研究生
  • 基于Web日志挖掘技术的智能Web站点研究
  • 聚类/分类理论研究及其在文本挖掘中的应用
  • 基于概念格和粗糙集的数据挖掘
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • 深圳天音通信公司购销存系统设计与部分实现
  • 清华大学毕业设计论文
  • 基于记忆演化的多Agent系统强化学习
  • 基于元数据的Web 信息检索技术研究
  • 车门附件布置知识库管理系统的研究与开发-
  • 入侵检测中的数据挖掘方法研究-博士研究生
  • 智能信息检索中的Web 挖掘研究
  • 数据挖掘在居民地和道路要素中的应用探讨
  • 数据挖掘中关联规则的研究与应用
  • 基于多Agent 系统的卫星故障诊断技术研究
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静