Malware detection in real-world settings must deal with evolving threats, limited labeling budgets, and uncertain predictions. Traditional classifiers, without additional mechanisms, struggle to maintain performance under concept drift in malware domains, as their supervised learning formulation cannot optimize when to defer decisions to manual labeling and adaptation. Modern malware detection pipelines combine classifiers with monthly active learning (AL) and rejection mechanisms to mitigate the impact of concept drift. In this work, we develop a novel formulation of malware detection as a one-step Markov Decision Process and train a deep reinforcement learning (DRL) agent, simultaneously optimizing sample classification performance and rejecting high-risk samples for manual labeling. We evaluated the joint detection and drift mitigation policy learned by the DRL-based Malware Detection (DRMD) agent through time-aware evaluations on Android malware datasets subject to realistic drift requiring multi-year performance stability. The policies learned under these conditions achieve a higher Area Under Time (AUT) performance compared to standard classification approaches used in the domain, showing improved resilience to concept drift. Specifically, the DRMD agent achieved an average AUT improvement of 8.66 and 10.90 for the classification-only and classification-rejection policies, respectively. Our results demonstrate for the first time that DRL can facilitate effective malware detection and improved resiliency to concept drift in the dynamic setting of Android malware detection.


翻译:现实环境中的恶意软件检测必须应对不断演变的威胁、有限的标注预算以及不确定的预测。传统分类器若缺乏额外机制,在恶意软件领域面临概念漂移时难以维持性能,因为其监督学习框架无法优化何时将决策推迟至人工标注与自适应过程。现代恶意软件检测流程通常将分类器与月度主动学习及样本拒斥机制相结合,以缓解概念漂移的影响。本研究提出一种新颖的恶意软件检测建模方法,将其构建为单步马尔可夫决策过程,并训练深度强化学习智能体,同步优化样本分类性能并将高风险样本拒斥以进行人工标注。我们通过在受真实概念漂移影响、需保持多年性能稳定的Android恶意软件数据集上进行时序感知评估,验证了基于深度强化学习的恶意软件检测智能体所学习的联合检测与漂移缓解策略。在此类条件下学习到的策略,相较于该领域常用的标准分类方法,实现了更高的时间曲线下面积性能指标,展现出对概念漂移更强的适应能力。具体而言,DRMD智能体在纯分类任务与分类-拒斥联合任务中,平均AUT分别提升了8.66和10.90。我们的研究首次证明,在动态变化的Android恶意软件检测场景中,深度强化学习能够有效提升恶意软件检测效能并增强对概念漂移的抵御能力。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
《使用静态污点分析检测恶意代码》CMU最新30页slides
专知会员服务
21+阅读 · 2023年10月11日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员