【缺陷】 lupaworld的bbs抽取问题逻辑有问题,应该只保存主贴内容 正常
> gyiang 写到: > 回复也内容根据@Song 观察结果,不需要抽取。 > 主贴是指hthread-[0-9]+-1-1.html 注意1-1。 > 之前爬取,把回复内容也给爬下来了。 经分析发现主帖并不是thread-[0-9]+-1-1.html ,而是thread-[0-9]+-1-[0-9]+.html .
状态 从 正在解决 变更为 已解决
% 完成 从 20 变更为 100
已解决,数据正在重新爬取中。
状态 从 新增 变更为 正在解决
% 完成 从 0 变更为 20
正在进行修改。
© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号
加入QQ群
关注微信APP
预览