Many AI researchers are publishing code, data and other resources that accompany their papers in GitHub repositories. In this paper, we refer to these repositories as academic AI repositories. Our preliminary study shows that highly cited papers are more likely to have popular academic AI repositories (and vice versa). Hence, in this study, we perform an empirical study on academic AI repositories to highlight good software engineering practices of popular academic AI repositories for AI researchers. We collect 1,149 academic AI repositories, in which we label the top 20% repositories that have the most number of stars as popular, and we label the bottom 70% repositories as unpopular. The remaining 10% repositories are set as a gap between popular and unpopular academic AI repositories. We propose 21 features to characterize the software engineering practices of academic AI repositories. Our experimental results show that popular and unpopular academic AI repositories are statistically significantly different in 11 of the studied features---indicating that the two groups of repositories have significantly different software engineering practices. Furthermore, we find that the number of links to other GitHub repositories in the README file, the number of images in the README file and the inclusion of a license are the most important features for differentiating the two groups of academic AI repositories. Our dataset and code are made publicly available to share with the community.


翻译:许多大赦国际研究人员正在GitHub 库中发表其论文的代码、数据和其他资源。本文中,我们将这些储存库称为学术AI储存库。我们的初步研究显示,大量引用的文件更有可能拥有受欢迎的AI储存库(反之亦然)。因此,我们在本研究中对学术AI储存库进行了经验研究,以突出大赦国际研究人员流行的AI储存库的良好软件工程做法。我们收集了1 149个学术AI储存库,其中我们把最前20%的恒星数量标为最受欢迎的,我们把底部70%的储存库标为不受欢迎的。其余10%的储存库被设为受欢迎和不受欢迎的AI储存库之间的空白。我们提出了21个特征来描述学术AI储存库的软件工程做法。我们的实验结果显示,在所研究的11个特征中,流行和不受欢迎的AI储存库在统计上差别很大,表明这两个储存库的软件工程做法大不相同。此外,我们发现在README档案中与其他GitHub储存库的链接数量是最重要的,RADME档案中图像的数目和我们所拥有的学术数据库中最重要的部分。

0
下载
关闭预览

相关内容

《工程》是中国工程院(CAE)于2015年推出的国际开放存取期刊。其目的是提供一个高水平的平台,传播和分享工程研发的前沿进展、当前主要研究成果和关键成果;报告工程科学的进展,讨论工程发展的热点、兴趣领域、挑战和前景,在工程中考虑人与环境的福祉和伦理道德,鼓励具有深远经济和社会意义的工程突破和创新,使之达到国际先进水平,成为新的生产力,从而改变世界,造福人类,创造新的未来。 期刊链接:https://www.sciencedirect.com/journal/engineering
应用机器学习书稿,361页pdf
专知会员服务
58+阅读 · 2020年11月24日
【干货书】数据科学家统计实战,附代码与409页pdf
专知会员服务
59+阅读 · 2020年11月6日
《可解释的机器学习-interpretable-ml》238页pdf
专知会员服务
201+阅读 · 2020年2月24日
【电子书】Flutter实战305页PDF免费下载
专知会员服务
22+阅读 · 2019年11月7日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
人工智能 | ISAIR 2019诚邀稿件(推荐SCI期刊)
Call4Papers
6+阅读 · 2019年4月1日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
【推荐】深度学习思维导图
机器学习研究会
15+阅读 · 2017年8月20日
Text Recognition in the Wild: A Survey
Arxiv
0+阅读 · 2020年12月3日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
VIP会员
相关VIP内容
应用机器学习书稿,361页pdf
专知会员服务
58+阅读 · 2020年11月24日
【干货书】数据科学家统计实战,附代码与409页pdf
专知会员服务
59+阅读 · 2020年11月6日
《可解释的机器学习-interpretable-ml》238页pdf
专知会员服务
201+阅读 · 2020年2月24日
【电子书】Flutter实战305页PDF免费下载
专知会员服务
22+阅读 · 2019年11月7日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
人工智能 | ISAIR 2019诚邀稿件(推荐SCI期刊)
Call4Papers
6+阅读 · 2019年4月1日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
【推荐】深度学习思维导图
机器学习研究会
15+阅读 · 2017年8月20日
Top
微信扫码咨询专知VIP会员