RSS
热门关键字:  数据挖掘  人工智能  数据仓库  搜索引擎  数据挖掘导论

请教:php新闻文章采集如何防止重复?

来源: 作者: 时间:2008-02-19 点击:

如题> 采集文章入库,你怎么样来防止重复采集,呵呵,菜鸟问题,懂的老鸟菜鸟们过来帮帮忙.谢谢!!!

那看怎么采了,不走回头路就不会采到重复的了。

http://tech.163.com/special/000915I8/importantMore.html
例如你对这个页面的新闻进行采集,但是他会经常的更新,比如,这次的100条,到了下次就是105条了.?我只要采集更新的这5条???

这个时候你可能需要做一个记号了,把最后采集的一个给记录一下,下次采的时候,先找到这个然后采5条。

然后再拿更新的记录来和这条标记的记录进行比较??????有点迷糊,能不能留个q或者msn请教一下.

我是把所有采集过的地址保存,然后新采集过程中将URL进行比对,没有的话才采集。。。

Create By Any-Extract(WL-AE) 数据挖掘研究院

上一篇:php问题 很诡异
下一篇:php网站
最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?