The development of LLM-based autonomous agents for end-to-end software development represents a significant paradigm shift in software engineering. However, the scientific evaluation of these systems is hampered by significant challenges, including overly simplistic benchmarks and the difficulty of conducting fair comparisons between different agent architectures due to confounding implementation variables. To address these limitations, we first construct a challenging and dynamically curated E2EDevBench to simulate realistic development scenarios. Second, we propose a hybrid evaluation framework that combines test-case-based functional assessment with fine-grained, LLM-based requirement verification. Using this framework, we conduct a controlled empirical study on three representative agent architectures implemented upon a unified foundation to isolate the impact of workflow design. Our findings reveal that state-of-the-art agents can fulfill approximately 50\% of requirements on \bench{}, but their success is critically dependent on the architectural strategy for task decomposition and collaboration. Furthermore, our analysis indicates that the primary bottleneck is the omission of requirements and inadequate self-verification. This work provides the community with a more realistic benchmark, a comprehensive evaluation framework, and crucial insights into the current capabilities and core challenges of software development agents, guiding future research toward enhancing requirement comprehension and planning.


翻译:基于大语言模型的端到端软件开发自主智能体的发展代表了软件工程领域一次重大的范式转变。然而,这些系统的科学评估面临着显著挑战,包括基准测试过于简化,以及由于混杂的实现变量导致不同智能体架构之间难以进行公平比较。为应对这些局限,我们首先构建了一个具有挑战性且动态维护的E2EDevBench基准,以模拟真实的开发场景。其次,我们提出了一种混合评估框架,该框架结合了基于测试用例的功能性评估与细粒度、基于大语言模型的需求验证。利用该框架,我们在统一基础上实现的三种代表性智能体架构上进行了受控实证研究,以分离工作流设计的影响。我们的研究结果表明,最先进的智能体在\\bench{}上能够满足约50%的需求,但其成功关键依赖于任务分解与协作的架构策略。此外,分析表明主要瓶颈在于需求遗漏与自我验证不足。本工作为社区提供了一个更贴近现实的基准、一个全面的评估框架,以及对软件开发智能体当前能力与核心挑战的关键见解,为未来研究指明了增强需求理解与规划的方向。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
《大语言模型驱动的智能红队测试》
专知会员服务
12+阅读 · 11月26日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员