Large-scale, standardized datasets for Advanced Persistent Threat (APT) research are scarce, and inconsistent actor aliases and redundant samples hinder reproducibility. This paper presents APT-ClaritySet and its construction pipeline that normalizes threat actor aliases (reconciling approximately 11.22\% of inconsistent names) and applies graph-feature deduplication -- reducing the subset of statically analyzable executables by 47.55\% while retaining behaviorally distinct variants. APT-ClaritySet comprises: (i) APT-ClaritySet-Full, the complete pre-deduplication collection with 34{,}363 malware samples attributed to 305 APT groups (2006 - early 2025); (ii) APT-ClaritySet-Unique, the deduplicated release with 25{,}923 unique samples spanning 303 groups and standardized attributions; and (iii) APT-ClaritySet-FuncReuse, a function-level resource that includes 324{,}538 function-reuse clusters (FRCs) enabling measurement of inter-/intra-group sharing, evolution, and tooling lineage. By releasing these components and detailing the alias normalization and scalable deduplication pipeline, this work provides a high-fidelity, reproducible foundation for quantitative studies of APT patterns, evolution, and attribution.


翻译:针对高级持续性威胁(APT)研究的大规模标准化数据集稀缺,且不一致的攻击者别名与冗余样本阻碍了研究的可复现性。本文提出了APT-ClaritySet及其构建流程,该流程规范化了威胁行为体别名(约11.22%的不一致名称得到统一),并应用基于图特征的去重方法——将可静态分析的可执行文件子集减少47.55%,同时保留行为上不同的变体。APT-ClaritySet包含:(i)APT-ClaritySet-Full,即去重前的完整集合,包含34,363个归属于305个APT组织(2006年至2025年初)的恶意软件样本;(ii)APT-ClaritySet-Unique,即去重后的发布版本,包含25,923个独特样本,涵盖303个组织并采用标准化归因;(iii)APT-ClaritySet-FuncReuse,一个函数级别的资源,包含324,538个函数重用簇(FRCs),可用于衡量组织间/组织内的代码共享、演化及工具谱系。通过发布这些组件并详细阐述别名规范化与可扩展的去重流程,本研究为APT模式、演化及归因的定量分析提供了一个高保真、可复现的基础。

0
下载
关闭预览

相关内容

【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员