3091?1442652665

【缺陷】 关于OSSEAN数据流重构的问题 正常


湛云添加于 2015-11-05 16:19

    目前的数据流过程为:爬取 -> 抽取 -> 筛选 -> 汇总 -> 去重 -> 分析 -> 服务。

    筛选主要是对于项目来说,由于筛选条件变化会影响后续的去重、分析等过程,因此考虑将筛选放到去重之后、分析之前,这样带来的好处是我们可以相对方便的根据业务逻辑来调整筛选条件。但同时带来的问题是先汇总去重再筛选使得要去重的数据量成倍增加,即我们需要对上百万的项目进行去重。

    另,考虑对各社区的分表数据汇总时会舍弃一些分表中特有的字段,如果以后需要用到这些字段的数据就需要在汇总之后的各个环节增加该字段并流入数据,过程较复杂。

回复
0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 湛云
  • 里程碑 --
  • 开始日期 2015-11-05
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 0%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×