Sensitive information leakage in code repositories has emerged as a critical security challenge. Traditional detection methods that rely on regular expressions, fingerprint features, and high-entropy calculations often suffer from high false-positive rates. This not only reduces detection efficiency but also significantly increases the manual screening burden on developers. Recent advances in large language models (LLMs) and multi-agent collaborative architectures have demonstrated remarkable potential for tackling complex tasks, offering a novel technological perspective for sensitive information detection. In response to these challenges, we propose Argus, a multi-agent collaborative framework for detecting sensitive information. Argus employs a three-tier detection mechanism that integrates key content, file context, and project reference relationships to effectively reduce false positives and enhance overall detection accuracy. To comprehensively evaluate Argus in real-world repository environments, we developed two new benchmarks, one to assess genuine leak detection capabilities and another to evaluate false-positive filtering performance. Experimental results show that Argus achieves up to 94.86% accuracy in leak detection, with a precision of 96.36%, recall of 94.64%, and an F1 score of 0.955. Moreover, the analysis of 97 real repositories incurred a total cost of only 2.2$. All code implementations and related datasets are publicly available at https://github.com/TheBinKing/Argus-Guard for further research and application.


翻译:代码仓库中的敏感信息泄露已成为一项关键的安全挑战。依赖正则表达式、指纹特征和高熵计算的传统检测方法通常存在高误报率的问题。这不仅降低了检测效率,还显著增加了开发人员的人工筛查负担。近期,大语言模型(LLMs)和多智能体协同架构的进展在处理复杂任务方面展现出显著潜力,为敏感信息检测提供了新颖的技术视角。针对这些挑战,我们提出了Argus,一种用于检测敏感信息的多智能体协同框架。Argus采用三层检测机制,整合关键内容、文件上下文和项目引用关系,以有效降低误报并提升整体检测精度。为了在真实仓库环境中全面评估Argus,我们开发了两个新的基准测试:一个用于评估真实泄露检测能力,另一个用于评估误报过滤性能。实验结果表明,Argus在泄露检测中达到了最高94.86%的准确率,精确率为96.36%,召回率为94.64%,F1分数为0.955。此外,对97个真实仓库的分析总成本仅为2.2美元。所有代码实现及相关数据集已在https://github.com/TheBinKing/Argus-Guard公开,以供进一步研究和应用。

0
下载
关闭预览

相关内容

Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员