百亿引擎 破解中文搜索难题

中文引擎短板不少

  在今天,中文引擎早已成为网民使用最多的互联网产品之一,然而,收录不全却依然是各家中文引擎无法回避的短板。统计显示,目前中文网页有效数量大致在100亿到150亿之间,但主要中文引擎搜狗、百度和Google,其页面收录量却都在40亿到50亿之间,这也成了网民对中文引擎不满意的主要原因。

  此外,由于Web2.0概念的普及,博客、论坛、社区、圈子等应用的涌现,互联网上越来越多的用户从信息的获取者变成了信息的发布者。经评估,目前互联网上网页数量每天新增1%,更新10%,而目前中文搜索引擎市场上没有产品能够支持每天上亿网页的数据更新,导致用户认为搜索引擎只能找到非常陈旧的信息,加剧了用户对于中文搜索引擎的不满意程度。

  同时,面对如此巨大的网页收录量,很多关键字在搜索的时候,命中的结果都在百万千万数量级,大量的重复结果、作弊结果、无关结果,已经不可能再靠人眼一目十行的扫描来滤除。艾瑞市场咨询根据来自Keynote的数据显示,中国搜索引擎用户不满意的因素中,有50%的用户对搜索结果重复表示不满。同时,搜索结果排序欠佳、搜索结果太杂乱、搜索结果不合时宜的比例分别为43%、37%和36%。前十条搜索结果的不精准,成为了用户不满意中文搜索引擎的又一座大山。 数据挖掘实验室

  新版搜狗三招破题

  近日,搜狐方面宣布,搜狗网页搜索3.0版将于2007年1月1日面世,新版搜狗企图用三招克制中文引擎目前所存在的短板弊端。

  第一招

  全 收录百亿网页

  由于搜狗起步较晚,因此在2004年8月发布的时候,数据量只有2亿,用了两年时间,在2006年8月份的时候,搜狗成功支持了50亿中文网页的查询,成为了全球首个中文网页收录量达到50亿的搜索引擎。即将发布的搜狗3.0,采用了自主研发的并行协同抓取技术,数据量拓展目标更是锁定在了100亿。值得一提的是,由于采用了自行开发的文件系统和数据库,搜狗大幅提升了服务器利用率,用远少于竞争对手的投入,就达到了收录百亿网页目标。

  第二招

  新 每天更新五亿网页

  不同的网页,更新速度差异巨大,比如新闻网站,每天都会有大量新内容产生;而一个显示圆周率的网站,可能三年都不会更新一次。因此,在抓取速度上,搜狗通过智能分析技术,对于不同网站、网页采取了差异化的抓取策略,充分利用了带宽资源来抓取高时效性信息,确保互联网上的最新资讯能够在第一时间被用户检索到。

  此外,依托于搜狐自己的媒体资讯平台,搜狗能直接获取到最新的高质量新闻内容,在很大程度上保证了搜狗对于及时性超快的响应,成为搜狗网页搜索独一无二的优势。在网页搜索3.0平台上,每天搜狗的服务器集群并行更新超过五亿的网页。

数据挖掘研究院



  第三招

  准 评测指标业内领先

  众所周知,Google较之于第一代搜索引擎(如Yahoo! Directory)在搜索结果的准确性上有大幅提高,很大程度上得益于它名为“Page Rank”的网页排名算法。在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就应当高。这就是Page Rank的核心思想。但是,由于Google对于中文互联网的收录量不足,因此对于链接关系的考量不够全面,导致其中文搜索效果不如英文。

  搜狗在搜索结果的排名上采用了被业界广泛认可的搜狗网页评级体系。网页评级是搜狗衡量网页重要性的指标,不仅考察了网页之间链接关系,同时考察了链接质量、链接之间的相关性等特性,是机器根据Sogou Rank算法自动计算出来的。网页评级越高,该网页在搜索中越容易被检索到。

  搜狗网页评级依托搜狗百亿中文网页的储备,分析最全的中文互联网链接库,确保评级的客观公正。由于有了网页评级体系的保证,搜狗的搜索结果能够做到更加精准。
[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:2006搜索引擎市场百度69%谷歌14.9%
下一篇:谷歌驳艾瑞:客观的报告才有利市场有序发展
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • Mercator: A Scalable, Extensible Web Cra
  • 什么是垂直搜索引擎(之二)
  • Writing a web crawler
  • 互联网搜索的未来
  • 国家版权局版权司副司长许超:关于搜索引擎
  • 百度数分钟内闪电裁员 企业软件事业部遭抛
  • 我对垂直搜索引擎的几点认识
  • Google Patent Filings by the Dozen
  • Manageability - Open Source Web Crawlers
  • 微软卡位第三代搜索技术 认为Google将很快
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • 谷歌宣布进军可替代能源 计划投资4.4万亿美
  • 搜索大战成Web 2.0操作系统之争
  • 7月美国搜索市场环比增长2% 雅虎微软成输家
  • 网页面向搜索引擎的搜索引擎优化
  • 史上最具技术创新的10大搜索引擎
  • Google如何预测下一届美国总统
  • 微软1亿美元收购语义搜索引擎Powerset
  • 很黄很暴力:人肉搜索引擎
  • OpenSocial只不过是Google公关骗局
  • 数据之美 百度GOOGLE统计的秘密
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静