15715?1491492894

【功能】 【爬虫】ossean爬虫全面替换成pyspider版 正常


张智雄添加于 2017-09-05 10:42


基于webmagic的ossean爬虫因占用过大,经常出现爬虫进程被挤掉的情况,需要频繁检查服务器上的爬虫进程,此情况尤其以stackoverflow站点爬虫为甚。改用pyspider编写ossean爬虫,测试运行期间未出现中断现象,稳定性较webmagic版的爬虫有了很大提升,现已经将爬虫完全迁移至新版。

新爬虫可以通过消息队列机制实现分布式部署,现投入4台服务器进行数据爬取工作。每一台机器的占用情况:在爬虫组件及爬取站点全开的情况下,总占用约为300M,为旧爬虫占用的二分之一至三分之一(实际上,组件全开并不必要)。新爬虫还可动态地添加或删除服务器节点,管理十分方便。

目前,stackoverflow站点每5分钟进行一次新帖抓取,可以捕捉到该站点的实时更新,其余站点依更新速度的不同,抓取间隔均进行了合适的调整。至此尚未出现稳定性问题。

回复(1)
  • 15715?1491492894
    张智雄 6年前

    跟踪缺陷 变更为 功能

0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 --
  • 里程碑 --
  • 开始日期 2017-09-05
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 0%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×