Benchmarks like SWE-bench have standardized the evaluation of Large Language Models (LLMs) on repository-level software engineering tasks. However, these efforts remain limited by manual curation, static datasets, and a focus on Python-based bug fixes. We introduce SWE-Bench++, an automated framework that generates repository-level coding tasks from open-source GitHub projects. Unlike synthetic approaches, our pipeline harvests live pull requests to cover both bug fixes and feature requests across 11 languages. SWE-Bench++ turns GitHub pull requests (PRs) into reproducible, execution-based tasks via four stages: programmatic sourcing, environment synthesis, test oracle extraction, and quality assurance. A final hint-guided trajectory synthesis step converts instances that strong models fail on into training trajectories. Our initial benchmark consists of 11,133 instances from 3,971 repositories across 11 languages. On a subset of 1,782 instances of this benchmark, today's strongest models perform as follows: claude-sonnet-4.5 achieves 36.20% pass@10, gpt-5-2025-08-07 34.57%, gemini/gemini-2.5-pro 24.92%, and gpt-4o 16.89%. We further demonstrate the utility of our dataset by showing that fine-tuning on SWE-Bench++ instances yields measurable improvements on the SWE-bench Multilingual benchmark. SWE-Bench++ provides a scalable, multilingual benchmark for evaluating and improving repository-level code generation.


翻译:诸如SWE-bench等基准测试已经标准化了大型语言模型(LLMs)在仓库级软件工程任务上的评估。然而,这些工作仍受限于人工标注、静态数据集以及仅关注基于Python的错误修复。本文提出SWE-Bench++,这是一个从开源GitHub项目中自动生成仓库级编码任务的框架。与合成方法不同,我们的流水线通过采集实时拉取请求来覆盖11种编程语言的错误修复与功能需求。SWE-Bench++通过四个阶段将GitHub拉取请求(PRs)转化为可复现的、基于执行的任务:程序化采集、环境合成、测试预言提取与质量保证。最后的提示引导轨迹合成步骤将强模型未能解决的实例转化为训练轨迹。我们的初始基准包含来自3,971个仓库的11,133个实例,涵盖11种编程语言。在该基准的1,782个实例子集上,当前最强模型的表现如下:claude-sonnet-4.5达到36.20% pass@10,gpt-5-2025-08-07为34.57%,gemini/gemini-2.5-pro为24.92%,gpt-4o为16.89%。我们进一步通过实验证明,在SWE-Bench++实例上进行微调可在SWE-bench Multilingual基准上带来可度量的性能提升。SWE-Bench++为评估和改进仓库级代码生成提供了一个可扩展、多语言的基准。

0
下载
关闭预览

相关内容

ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员