The proliferation of Internet-of-things (IoT) infrastructures and the widespread adoption of traffic encryption present significant challenges, particularly in environments characterized by dynamic traffic patterns, constrained computational capabilities, and strict latency constraints. In this paper, we propose DMLITE, a diffusion model and large language model (LLM) integrated traffic embedding framework for network traffic detection within resource-limited IoT environments. The DMLITE overcomes these challenges through a tri-phase architecture including traffic visual preprocessing, diffusion-based multi-level feature extraction, and LLM-guided feature optimization. Specifically, the framework utilizes self-supervised diffusion models to capture both fine-grained and abstract patterns in encrypted traffic through multi-level feature fusion and contrastive learning with representative sample selection, thus enabling rapid adaptation to new traffic patterns with minimal labeled data. Furthermore, DMLITE incorporates LLMs to dynamically adjust particle swarm optimization parameters for intelligent feature selection by implementing a dual objective function that minimizes both classification error and variance across data distributions. Comprehensive experimental validation on benchmark datasets confirms the effectiveness of DMLITE, achieving classification accuracies of 98.87\%, 92.61\%, and 99.83\% on USTC-TFC, ISCX-VPN, and Edge-IIoTset datasets, respectively. This improves classification accuracy by an average of 3.7\% and reduces training time by an average of 41.9\% compared to the representative deep learning model.


翻译:物联网基础设施的普及与流量加密技术的广泛应用带来了显著挑战,尤其在具有动态流量模式、计算能力受限及严格延迟约束的环境中。本文提出DMLITE,一种面向资源受限物联网环境的扩散模型与大语言模型融合流量嵌入框架,用于网络流量检测。该框架通过包含流量可视化预处理、基于扩散的多级特征提取及LLM引导特征优化的三阶段架构应对上述挑战。具体而言,框架利用自监督扩散模型,通过多级特征融合与基于代表性样本选择的对比学习,捕获加密流量中的细粒度与抽象模式,从而能以最少标注数据快速适应新流量模式。此外,DMLITE引入LLM通过实现双目标函数(同时最小化分类误差与数据分布方差)动态调整粒子群优化参数,实现智能特征选择。在基准数据集上的综合实验验证了DMLITE的有效性,在USTC-TFC、ISCX-VPN和Edge-IIoTset数据集上分别达到98.87%、92.61%和99.83%的分类准确率。相较于代表性深度学习模型,平均分类准确率提升3.7%,训练时间平均减少41.9%。

0
下载
关闭预览

相关内容

【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
58+阅读 · 2024年1月19日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员