项目简介

本数据集是什么?

本数据集是国家重点研发计划“基于大数据的软件智能开发方法和环境”公布的软件工程研究数据集系列之一,主要是将知识分享社区StackOverflow和协同开发社区GitHub中用户关联起来的跨社区数据集。

 

本数据集为什么?

研究人员在进行GitHubStackOverflow相关数据分析时,可能会涉及到用户的跨社区行为。我们根据StackOverflow中用户的email hash信息和GitHub中用户的email信息将两社区中用户关联起来,进而辅助开源的跨社区研究。

 

本数据集有什么?

利用StackExchange 20128月公开数据集和GHTorrent 20163月公开数据集,得到关联用户表(采用ARFF语法):

 

@RELATION    stackoverflow_github_users  % 关联用户表

@ATTRIBUTE      stackoverflow_user_id                  % StackOverflow社区中对应用户id

@ATTRIBUTE      github_user_id                              % GitHub社区中对应用户id

@ATTRIBUTE      email                                             % 用户的email信息

@ATTRIBUTE      emailHash                                     % email加密后的结果

 

特别声明

此数据集目前只采用了注册邮箱匹配的方法,并且过滤掉了已经删除的用户或是虚假用户。同时,此数据集的其他扩展方法正在研究中,并且会在相关工作得到工业界认可后对外公布。敬请谅解和期待。

如需使用该数据集,请引用文章:

Zhang X, Wang T, Yin G, et al. DevRec: A Developer Recommendation System for Open Source Repositories[M]// Mastering Scale and Complexity in Software Reuse. 2017.

 

联系我们

如有其它问题请在数据发布平台进行沟通,我们会及时响应,谢谢!

数据发布平台链接:https://www.trustie.net/statistics/714

本数据集直接下载地址: GitHub StackOverflow关联用户数据集

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 Submit

加入QQ群

关注微信APP


×