计费的话那么浪费就太大了。
从以前的相关资料看,Google的技术多借助standford的,包括 google的 Sitemap 等都可以从standford的论文中找
到原型。
对于负载平衡这块,我觉得有篇论文的idea不错,就是利用独立管理服务器做分配器,对集群机器中url列表进行散列并进行位相分配,由分配器控制保证
抓取web页面时同一位相时间集群内所有线程只有一个线程访问一个独立的服务器。当然也可以采用分IP区间段的方式使用不同spider服务器抓取不同
的ip地址,当然这样可能效率要低些。
就我的认识来看,spider研究只有模拟真实环境才能得到好的结果,一两台服务器优化的话比较困难,这也就是国内spider相关论文比国外的少很多
的原因。
可能有的地方说的不正确,因为近期对spider没有看多少资料,错误或不当的地方请大家指出。

