Large language models (LLMs) are transforming automated program repair (APR) through agent-based approaches that localize bugs, generate patches, and verify fixes. However, the lack of high-quality, scalable training datasets, especially those with verifiable outputs and intermediate reasoning traces-limits progress, particularly for open-source models. In this work, we present SWE-Synth, a framework for synthesizing realistic, verifiable, and process-aware bug-fix datasets at the repository level. SWE-Synth leverages LLM agents to simulate debugging workflows, producing not only bug-fix pairs but also test cases and structured repair trajectories. Compared to manually curated datasets, our method scales with minimal human effort while preserving contextual richness and correctness. Experiments show that models trained on SWE-Synth outperform those trained on real-world datasets by 2.3% on SWE-Bench Lite. Our results highlight the potential of synthetic, agent-generated data to advance the state of the art in APR and software engineering automation.


翻译:大语言模型(LLMs)正通过基于智能体的方法(包括缺陷定位、补丁生成与修复验证)变革自动化程序修复(APR)领域。然而,高质量、可扩展训练数据集的缺乏——特别是那些包含可验证输出与中间推理轨迹的数据——制约了该领域的发展,对于开源模型尤为明显。本研究提出SWE-Synth框架,可在代码仓库层级合成具有真实性、可验证性且过程感知的缺陷修复数据集。该框架利用LLM智能体模拟调试工作流,不仅生成缺陷-修复配对,还产出测试用例与结构化修复轨迹。相较于人工标注数据集,本方法能以极低人工成本实现规模化扩展,同时保持上下文丰富性与正确性。实验表明,基于SWE-Synth训练的模型在SWE-Bench Lite基准上较基于真实世界数据集训练的模型性能提升2.3%。我们的研究结果凸显了合成化智能体生成数据在推动APR与软件工程自动化技术发展方面的潜力。

0
下载
关闭预览

相关内容

RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
自生成兵棋AI:基于大型语言模型的双层Agent任务规划
专知会员服务
89+阅读 · 2024年4月11日
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
自生成兵棋AI:基于大型语言模型的双层Agent任务规划
专知会员服务
89+阅读 · 2024年4月11日
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员