本数据集是国家重点研发计划“基于大数据的软件智能开发方法和环境”公布的软件工程研究数据集系列之一,主要是将知识分享社区StackOverflow和协同开发社区GitHub中用户关联起来的跨社区数据集。
研究人员在进行GitHub或StackOverflow相关数据分析时,可能会涉及到用户的跨社区行为。我们根据StackOverflow中用户的email hash信息和GitHub中用户的email信息将两社区中用户关联起来,进而辅助开源的跨社区研究。
利用StackExchange 2012年8月公开数据集和GHTorrent 2016年3月公开数据集,得到关联用户表(采用ARFF语法):
@RELATION stackoverflow_github_users % 关联用户表
@ATTRIBUTE stackoverflow_user_id % StackOverflow社区中对应用户id
@ATTRIBUTE github_user_id % GitHub社区中对应用户id
@ATTRIBUTE email % 用户的email信息
@ATTRIBUTE emailHash % email加密后的结果
此数据集目前只采用了注册邮箱匹配的方法,并且过滤掉了已经删除的用户或是虚假用户。同时,此数据集的其他扩展方法正在研究中,并且会在相关工作得到工业界认可后对外公布。敬请谅解和期待。
如需使用该数据集,请引用文章:
Zhang X, Wang T, Yin G, et al. DevRec: A Developer Recommendation System for Open Source Repositories[M]// Mastering Scale and Complexity in Software Reuse. 2017.
如有其它问题请在数据发布平台进行沟通,我们会及时响应,谢谢!
数据发布平台链接:https://www.trustie.net/statistics/714
本数据集直接下载地址: GitHub StackOverflow关联用户数据集