Machine learning-based supervised classifiers are widely used for security tasks, and their improvement has been largely focused on algorithmic advancements. We argue that data challenges that negatively impact the performance of these classifiers have received limited attention. We address the following research question: Can developments in Generative AI (GenAI) address these data challenges and improve classifier performance? We propose augmenting training datasets with synthetic data generated using GenAI techniques to improve classifier generalization. We evaluate this approach across 7 diverse security tasks using 6 state-of-the-art GenAI methods and introduce a novel GenAI scheme called Nimai that enables highly controlled data synthesis. We find that GenAI techniques can significantly improve the performance of security classifiers, achieving improvements of up to 32.6% even in severely data-constrained settings (only ~180 training samples). Furthermore, we demonstrate that GenAI can facilitate rapid adaptation to concept drift post-deployment, requiring minimal labeling in the adjustment process. Despite successes, our study finds that some GenAI schemes struggle to initialize (train and produce data) on certain security tasks. We also identify characteristics of specific tasks, such as noisy labels, overlapping class distributions, and sparse feature vectors, which hinder performance boost using GenAI. We believe that our study will drive the development of future GenAI tools designed for security tasks.


翻译:基于机器学习的监督分类器在安防任务中应用广泛,其性能提升主要聚焦于算法进步。我们认为,对分类器性能产生负面影响的各类数据挑战尚未获得足够关注。本文探讨以下研究问题:生成式人工智能(GenAI)的发展能否应对这些数据挑战并提升分类器性能?我们提出通过GenAI技术生成合成数据以增强训练数据集,从而改善分类器的泛化能力。我们在7个不同安防任务中,使用6种前沿GenAI方法对该方案进行评估,并引入名为Nimai的新型GenAI方案,该方案支持高度可控的数据合成。研究发现,GenAI技术能显著提升安防分类器性能,即使在极端数据受限场景(仅约180个训练样本)下仍能实现最高32.6%的性能提升。此外,我们证明GenAI能够促进部署后对概念漂移的快速适应,且在调整过程中仅需极少量标注。尽管取得显著成效,本研究也发现部分GenAI方案在某些安防任务中存在初始化(训练与数据生成)困难。同时,我们识别出特定任务特征——如噪声标签、重叠的类别分布和稀疏特征向量——会阻碍GenAI带来的性能提升。我们相信,本研究将推动未来面向安防任务的GenAI工具开发。

0
下载
关闭预览

相关内容

一种Agent自主性风险评估框架 | 最新文献
专知会员服务
16+阅读 · 10月24日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员