项目简介

本数据集是什么?

本数据集是国家重点研发计划“基于大数据的软件智能开发方法和环境”公布的软件工程研究数据集系列之一,主要是对GitHub上Pull-request(PR)评论的类别标注集。


本数据集为什么?

审阅者在审查PR的时候,会以评论的形式留下相关意见。在这些评论中当中往往包含评论者不同的意见。我们依据相关研究和实际调研为这些评论建立了层次化类别体系,根据这个分类体系,我们对PR的评论进行了人工标注。


本数据集什么?

Rails的一部分PR、PR的评论以及评论的标注。具体表结构如下(采用ARFF语法):


@RELATION    rails_prj_prs         % pull-request表
@ATTRIBUTE   id                           % 主键
@ATTRIBUTE   title                        PR在Github上的标题
@ATTRIBUTE   description             PR在Github上的描述
@ATTRIBUTE   comment_count     PR的评论数
@ATTRIBUTE   author_name          PR提交者在Github上的用户名
@ATTRIBUTE   created_at               %  PR的创建时间

@RELATION  rails_prj_comments    pull-reqeust评论表
@ATTRIBUTE   id                                % 主键
@ATTRIBUTE   pr_id                           % 该评论对应的PR的id
@ATTRIBUTE   author_name              % 评论者在Github的用户名
@ATTRIBUTE   comment_body           % 评论的文本信息
@ATTRIBUTE   comment_type            % 评论的类型(0表示代码级评论;1表示普通评论)

@RELATION  rails_label_history      评论标注表
@ATTRIBUTE   id                                % 主键
@ATTRIBUTE   comment_id               % 对应的评论id
@ATTRIBUTE   label                           % 人工标注的类别标号


特别声明

此数据集正被用于我们的研究之中,因此具体的类别体系和类别编号暂时不方便公开。完整的数据集将在相关研究公开发表并得到业界认可后对外公布,敬请谅解和期待。

联系我们
如有其它问题请在数据发布平台进行沟通,我们会及时响应,谢谢!
数据发布平台链接:https://www.trustie.net/projects/2455
本数据集直接下载地址:GitHub Pull-Request评论的标注集


© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×