11?1648889181

【缺陷】 OsChina社区数据不够实时 正常


王涛添加于 2015-08-11 11:12
SO社区数据能够达到一小时,但是OsChina社区数据一天前的还没有进入系统。问题可能出在爬取策略设定部分,对OsChina的爬取时间间隔太长,或者更新列表页爬取太多导致没有及时将所有详情页面抓取下来
回复(2)
  • 11?1648889181
    王涛 9年前

    如何判断网站是否更新了列表页?咱们的更新爬取和增量爬取是否应该区分开来进行?现有的一些搜索引擎或者类似爬虫对是如何实现的请志星调研一下

  • 3213?1442652660
    LiZX 9年前

    王老师:SO的数据更新特别快,所以是特殊对待的,隔较短时间就去重新爬列表页的前几页。其他的网站更新相对较慢,列表页的重爬间隔统一设定为一天;针对王老师提出的问题,可以这样改进一下:一旦网站更新了一个列表页就重新爬,不用等到一天再重爬,这样的话,数据的实时性会增加一些(由于咱们的系统中没有url去重模块,所以重爬速率太快的话,会导致过多的重复的详细页的url)。相应的其他系统模块也根据实际情况适应调整一下。

0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 LiZX
  • 里程碑 --
  • 开始日期 2015-08-11
  • 结束日期 2015-08-12
  • 预计工时(H) 0.00 小时
  • 完成度 0%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×