如题> 采集文章入库,你怎么样来防止重复采集,呵呵,菜鸟问题,懂的老鸟菜鸟们过来帮帮忙.谢谢!!!那看怎么采了,不走回头路就不会采到重复的了。http://tech.163.com/special/000915I8/importantMore.html
例如你对这个页面的新闻进行采集,但是他会经常的更新,比如,这次的100条,到了下次就是105条了.?我只要采集更新的这5条???
这个时候你可能需要做一个记号了,把最后采集的一个给记录一下,下次采的时候,先找到这个然后采5条。然后再拿更新的记录来和这条标记的记录进行比较??????有点迷糊,能不能留个q或者msn请教一下.我是把所有采集过的地址保存,然后新采集过程中将URL进行比对,没有的话才采集。。。

