RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

Spider 浅见

来源: 作者:hammer_shi 时间:2007-12-26 点击:
Google的spider的却很好,掌握了平衡和度。百度的有些霸道,以前我做过统计,百度对我的网站最高日抓取3万个页面,如果我的服务器是以流量
计费的话那么浪费就太大了。

从以前的相关资料看,Google的技术多借助standford的,包括 google的 Sitemap 等都可以从standford的论文中找
到原型。

对于负载平衡这块,我觉得有篇论文的idea不错,就是利用独立管理服务器做分配器,对集群机器中url列表进行散列并进行位相分配,由分配器控制保证
抓取web页面时同一位相时间集群内所有线程只有一个线程访问一个独立的服务器。当然也可以采用分IP区间段的方式使用不同spider服务器抓取不同
的ip地址,当然这样可能效率要低些。

数据挖掘实验室

就我的认识来看,spider研究只有模拟真实环境才能得到好的结果,一两台服务器优化的话比较困难,这也就是国内spider相关论文比国外的少很多
的原因。

可能有的地方说的不正确,因为近期对spider没有看多少资料,错误或不当的地方请大家指出。

数据挖掘研究院

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?