Traceability between published scientific breakthroughs and their implementation is essential, especially in the case of open-source scientific software which implements bleeding-edge science in its code. However, aligning the link between GitHub repositories and academic papers can prove difficult, and the current practice of establishing and maintaining such links remains unknown. This paper investigates the role of academic paper references contained in these repositories. We conduct a large-scale study of 20 thousand GitHub repositories that make references to academic papers. We use a mixed-methods approach to identify public access, traceability and evolutionary aspects of the links. Although referencing a paper is not typical, we find that a vast majority of referenced academic papers are public access. These repositories tend to be affiliated with academic communities. More than half of the papers do not link back to any repository. We find that academic papers from top-tier SE venues are not likely to reference a repository, but when they do, they usually link to a GitHub software repository. In a network of arXiv papers and referenced repositories, we find that the most referenced papers are (i) highly-cited in academia and (ii) are referenced by repositories written in different programming languages.


翻译:出版的科学突破及其实施之间的可追溯性至关重要,特别是在使用源源开放的科学软件在其代码中运用出血的尖端科学,但将GitHub储存库和学术论文之间的联系结合起来可能证明是困难的,而目前建立和维护这种联系的做法仍然不为人所知。本文调查了这些储存库中学术论文参考的作用。我们对20 000 GitHub储存库进行了大规模研究,该数据库参考了学术论文。我们采用混合方法确定这些链接的公共存取、可追溯性和进化方面。我们发现,尽管引用的文件并非典型,但绝大多数参考的学术论文都是公开存取的。这些文献库往往与学术界有联系。一半以上的文件并不与任何储存库有联系。我们发现,来自SE顶层的学术论文不太可能参考存放库,但当它们参考了学术文献库时,通常与GitHub软件储存库有联系。在ArXiv文件和参考储存库的网络中,我们发现,最参考的文件(i)在学术界有高度引用,并且(ii)以不同编程语言查阅。

0
下载
关闭预览

相关内容

GitHub.com 使用 Git 作为版本控制系统(version control system)提供在线源码托管的服务,同时是个有社交功能的开发者社区。 国外类似服务: Bitbucket.com
Gitlab.com
国内类似服务:
Coding.net
【数据科学导论书】Introduction to Datascience,253页pdf
专知会员服务
47+阅读 · 2021年11月15日
应用机器学习书稿,361页pdf
专知会员服务
57+阅读 · 2020年11月24日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
75+阅读 · 2020年7月26日
机器学习入门的经验与建议
专知会员服务
89+阅读 · 2019年10月10日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
37+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
45+阅读 · 2019年9月24日
计算机 | 中低难度国际会议信息8条
Call4Papers
9+阅读 · 2019年6月19日
计算机 | 中低难度国际会议信息6条
Call4Papers
7+阅读 · 2019年5月16日
计算机类 | 低难度国际会议信息6条
Call4Papers
6+阅读 · 2019年4月28日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
计算机 | USENIX Security 2020等国际会议信息5条
Call4Papers
7+阅读 · 2019年4月25日
人工智能 | NIPS 2019等国际会议信息8条
Call4Papers
7+阅读 · 2019年3月21日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
人工智能 | PRICAI 2019等国际会议信息9条
Call4Papers
6+阅读 · 2018年12月13日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
Arxiv
0+阅读 · 2021年11月26日
A Comprehensive Survey on Transfer Learning
Arxiv
117+阅读 · 2019年11月7日
VIP会员
相关VIP内容
【数据科学导论书】Introduction to Datascience,253页pdf
专知会员服务
47+阅读 · 2021年11月15日
应用机器学习书稿,361页pdf
专知会员服务
57+阅读 · 2020年11月24日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
75+阅读 · 2020年7月26日
机器学习入门的经验与建议
专知会员服务
89+阅读 · 2019年10月10日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
37+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
45+阅读 · 2019年9月24日
相关资讯
计算机 | 中低难度国际会议信息8条
Call4Papers
9+阅读 · 2019年6月19日
计算机 | 中低难度国际会议信息6条
Call4Papers
7+阅读 · 2019年5月16日
计算机类 | 低难度国际会议信息6条
Call4Papers
6+阅读 · 2019年4月28日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
计算机 | USENIX Security 2020等国际会议信息5条
Call4Papers
7+阅读 · 2019年4月25日
人工智能 | NIPS 2019等国际会议信息8条
Call4Papers
7+阅读 · 2019年3月21日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
人工智能 | PRICAI 2019等国际会议信息9条
Call4Papers
6+阅读 · 2018年12月13日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
Top
微信扫码咨询专知VIP会员