【缺陷】 OsChina社区数据不够实时 正常
如何判断网站是否更新了列表页?咱们的更新爬取和增量爬取是否应该区分开来进行?现有的一些搜索引擎或者类似爬虫对是如何实现的请志星调研一下
王老师:SO的数据更新特别快,所以是特殊对待的,隔较短时间就去重新爬列表页的前几页。其他的网站更新相对较慢,列表页的重爬间隔统一设定为一天;针对王老师提出的问题,可以这样改进一下:一旦网站更新了一个列表页就重新爬,不用等到一天再重爬,这样的话,数据的实时性会增加一些(由于咱们的系统中没有url去重模块,所以重爬速率太快的话,会导致过多的重复的详细页的url)。相应的其他系统模块也根据实际情况适应调整一下。
© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号
加入QQ群
关注微信APP
预览