15522?1470618394

【任务】 github汇总去重初探 正常


刘移州添加于 2017-01-18 22:46

人工查找相同项目过程,搜索平台githubopenhub

1、查找项目关键字yii,得到如下结果

2、根据项目名称,初步判断,Github的第一个项目与Openhub的第一个项目为同一项目

3、分别查看详情,通过以下特征,确定为同一项目

         1)、两个平台中项目homepage均指向  http://www.yiiframework.com

         2)、两个平台显示,项目的核心开发语言相同,为PHP

                   3)、github中项目描述信息包含Openhub中项目名称全名

                  

                   4)暂无

 

 

  去重实现思路

    1、沿用现有策略,Homepage相同的视为同一项目,抽取识别度高的名称作为项目名,如yii的项目名称为Yii PHP Framework。(会有如下情况,github中,不同项目但homepage相同,如yii/yii2github被视为不同项目,而在openhub中同一个homepage的项目名称为Yii PHP Framework,可将这两个项目名称作为别名)

2、用项目名称查找重复项目,如果核心开发语言相同的,则视为重复项目

3、使用1步的别名,查找与别名重复的项目

4、根据描述信息+项目标签的相似度判断重复项目


初步整理,待结合实际项目运行情况完善优化

回复(1)
  • 11?1648889181
    王涛 8年前

    有几个问题:

    1. 需要首先利用OSSEAN现有的别名识别机制,先基于Github项目描述分析其项目可能存在的别名。

    2. ,这里通过项目名应该是1,2,3都可能是yii那个项目。所以才需要判断到底哪一个项目是和openhub中yii项目是同一个项目,才需要做后续步骤的判断。否则如果通过名称就直接能够发现是第一个了,就不需要后面的步骤了

    3。上述步骤逻辑不清晰。


0?1470885445
登录后可添加回复
  • 当前状态 正在解决
  • 选定优先级 正常
  • 指派给 --
  • 里程碑 --
  • 开始日期 2017-01-18
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 0%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×