Large Language Models have gained remarkable interest in industry and academia. The increasing interest in LLMs in academia is also reflected in the number of publications on this topic over the last years. For instance, alone 78 of the around 425 publications at ICSE 2024 performed experiments with LLMs. Conducting empirical studies with LLMs remains challenging and raises questions on how to achieve reproducible results, for both other researchers and practitioners. One important step towards excelling in empirical research on LLMs and their application is to first understand to what extent current research results are eventually reproducible and what factors may impede reproducibility. This investigation is within the scope of our work. We contribute an analysis of the reproducibility of LLM-centric studies, provide insights into the factors impeding reproducibility, and discuss suggestions on how to improve the current state. In particular, we studied the 86 articles describing LLM-centric studies, published at ICSE 2024 and ASE 2024. Of the 86 articles, 18 provided research artefacts and used OpenAI models. We attempted to replicate those 18 studies. Of the 18 studies, only five were fit for reproduction. For none of the five studies, we were able to fully reproduce the results. Two studies seemed to be partially reproducible, and three studies did not seem to be reproducible. Our results highlight not only the need for stricter research artefact evaluations but also for more robust study designs to ensure the reproducible value of future publications.


翻译:大语言模型在工业界和学术界引起了广泛关注。学术界对LLMs日益增长的兴趣也反映在近年来相关主题的出版物数量上。例如,仅ICSE 2024约425篇论文中就有78篇进行了LLM实验。使用LLMs开展实证研究仍具挑战性,并引发了对如何为其他研究者和实践者实现可复现结果的疑问。在LLMs及其应用的实证研究中取得突破的重要前提是:首先理解当前研究成果最终可复现的程度,以及哪些因素可能阻碍可复现性。本研究的范畴正在于此。我们对以LLM为核心的研究进行了可复现性分析,揭示了阻碍可复现性的因素,并就如何改善现状提出了建议。具体而言,我们研究了发表于ICSE 2024和ASE 2024的86篇以LLM为核心的研究论文。其中18篇提供了研究构件并使用了OpenAI模型。我们尝试复现了这18项研究。在这18项研究中,仅5项具备复现条件。而在这5项研究中,我们未能完全复现任何一项的结果。两项研究似乎部分可复现,三项研究则基本不可复现。我们的结果不仅凸显了加强研究构件评估的必要性,也表明需要更稳健的研究设计来确保未来出版物的可复现价值。

0
下载
关闭预览

相关内容

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员