Binary Function Similarity Detection (BFSD) is a foundational technique in software security, underpinning a wide range of applications including vulnerability detection, malware analysis. Recent advances in AI-based BFSD tools have led to significant performance improvements. However, existing evaluations of these tools suffer from three key limitations: a lack of in-depth analysis of performance-influencing factors, an absence of realistic application analysis, and reliance on small-scale or low-quality datasets. In this paper, we present the first large-scale empirical study of AI-based BFSD tools to address these gaps. We construct two high-quality and diverse datasets: BinAtlas, comprising 12,453 binaries and over 7 million functions for capability evaluation; and BinAres, containing 12,291 binaries and 54 real-world 1-day vulnerabilities for evaluating vulnerability detection performance in practical IoT firmware settings. Using these datasets, we evaluate nine representative BFSD tools, analyze the challenges and limitations of existing BFSD tools, and investigate the consistency among BFSD tools. We also propose an actionable strategy for combining BFSD tools to enhance overall performance (an improvement of 13.4%). Our study not only advances the practical adoption of BFSD tools but also provides valuable resources and insights to guide future research in scalable and automated binary similarity detection.


翻译:二进制函数相似性检测(BFSD)是软件安全领域的一项基础技术,为漏洞检测、恶意软件分析等广泛应用提供支撑。近年来,基于人工智能的BFSD工具取得了显著的性能提升。然而,现有评估存在三个关键局限:缺乏对性能影响因素的深入分析、缺少实际应用场景分析,以及依赖小规模或低质量数据集。本文首次开展大规模实证研究以填补这些空白。我们构建了两个高质量、多样化的数据集:用于能力评估的BinAtlas(包含12,453个二进制文件及超过700万个函数),以及用于评估实际物联网固件环境下漏洞检测性能的BinAres(包含12,291个二进制文件及54个真实世界1日漏洞)。基于这些数据集,我们评估了九种代表性BFSD工具,分析了现有工具的挑战与局限,并探究了不同BFSD工具间的一致性。同时,我们提出了一种可操作的BFSD工具组合策略以提升整体性能(性能提升13.4%)。本研究不仅推动了BFSD工具的实际应用,还为未来可扩展、自动化的二进制相似性检测研究提供了宝贵的资源与洞见。

0
下载
关闭预览

相关内容

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准
专知会员服务
44+阅读 · 2022年1月6日
深度学习目标检测方法综述
专知会员服务
280+阅读 · 2020年8月1日
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员