随着大语言模型(LLMs)推理能力的持续提升,基于LLM的智能体系统在灵活性与可解释性方面相较于传统系统展现出明显优势,因而受到越来越多的关注。然而,尽管智能体系统在学术研究和工业应用中都引发了广泛兴趣,这类系统与传统系统一样,仍频繁遭遇各类异常问题。这些异常带来了系统的不稳定性与安全隐患,阻碍了其进一步发展。因此,迫切需要一种全面而系统的智能体系统运维方法。遗憾的是,当前关于智能体系统运维的研究仍十分稀缺。为填补这一空白,本文对智能体系统的运维问题展开了系统性调研,旨在建立清晰的研究框架,定义关键挑战,并推动该领域的进一步发展。

具体而言,本文首先系统地定义了智能体系统中的异常现象,并将其划分为智能体内异常智能体间异常两大类。随后,我们提出了一种新颖且全面的智能体系统运维框架,命名为Agent System Operations(AgentOps)。该框架涵盖了四个关键阶段:监控(monitoring)异常检测(anomaly detection)根因分析(root cause analysis)异常处理(resolution),并对每一阶段进行了详细的定义与说明。

1 引言

随着 DeepSeek-R1 [35] 和 Claude [4] 等技术的出现,当前大语言模型(LLMs)的推理能力正持续增强。借助LLMs这一强大的认知引擎,现有的基于LLM的智能体系统,尤其是多智能体系统,已具备完成各种复杂任务与社会模拟的能力 [60],特别是在配备多样工具 [78] 的情况下。相比于传统的微服务架构系统 [75],智能体系统在自动化程度、可解释性以及灵活性方面更具优势。因此,智能体系统在学术研究与工业应用中迅速发展,越来越多的在线服务 [50](如客户支持与推荐系统)开始采用此类智能体系统。 然而,尽管智能体系统应用广泛,其本身仍存在诸多问题。与传统微服务系统相比,智能体系统所带来的更高灵活性也伴随着更多异常。例如,如图1所示,任务执行常因幻觉等问题而失败;在角色扮演场景中,对单一智能体的攻击可能导致整个模拟过程崩溃。因此,为保障智能体系统的安全性与稳定性,并推动其持续发展,亟需高效的运维机制。 虽然运维技术经历了从早期的人工操作,到基于规则的方法,再到人工智能运维(AIOps)的演进,但智能体系统与传统系统在本质上存在显著差异。基于LLM驱动的智能体在行为特性方面与硬编码的传统系统截然不同,主要体现在以下几点: 1. 智能体系统中异常类型更为多样; 1. 智能体系统对可观测性的要求高于传统系统,需特别关注LLM等模块; 1. 异常的多样性使得智能体系统难以采用统一的方法进行异常检测与根因分析; 1. 智能体系统中的异常处理过程更为复杂,需从多个视角进行考虑并持续优化。

因此,传统运维技术难以直接应用于智能体系统,亟需面向其特性的全新定制化运维技术。 目前,关于智能体系统运维策略的系统性研究仍相对匮乏,大多数研究仅关注智能体系统的某一局部方面,尚未全面探讨其整体运维挑战。例如,Durante 等人 [27] 对智能体的范式与分类进行了阐述;Chakraborty 等人 [12] 探讨了基础模型中的幻觉问题,包括其定义与检测方法;Deng 等人 [24] 聚焦于多智能体系统中的安全问题,主要研究外部恶意攻击,并将安全威胁划分为执行内部安全与交互安全;Shi 等人 [85] 针对 GUI 智能体中的安全问题及评估方法也进行了深入探讨。 为进一步推动智能体系统的发展,本文提出了智能体系统运维(Agent System Operations, AgentOps)的概念,这是一个专为智能体系统设计的全新运维框架。我们首先精确定义了智能体系统中的异常,并对其进行系统分类,主要划分为智能体内异常(intra-agent anomalies)智能体间异常(inter-agent anomalies)。这两个类别涵盖了智能体系统生命周期中的前执行阶段、执行阶段和后执行阶段。此外,我们借鉴传统运维实践,将智能体系统的运维过程划分为四个阶段:监控(monitoring)异常检测(anomaly detection)根因分析(root cause analysis)异常处理(resolution)。针对每一阶段,我们识别了智能体系统中所面临的新挑战,并提出了相应的定义与潜在解决方案。据我们所知,这是首个系统性提出“AgentOps”概念,并标准化其各个流程定义的工作。

成为VIP会员查看完整内容
2

相关内容

【新书】行动,规划与学习,622页pdf
专知会员服务
46+阅读 · 7月28日
重新思考不确定性:大语言模型时代的关键综述与分析
专知会员服务
37+阅读 · 2024年11月20日
大型视觉语言模型攻击综述:资源、进展与未来趋势
专知会员服务
29+阅读 · 2024年7月11日
边缘人工智能:分类法、系统综述及未来方向
专知会员服务
60+阅读 · 2024年7月8日
开放环境目标检测:挑战、解决方案与展望
专知会员服务
43+阅读 · 2024年3月28日
《分布外泛化评估》综述
专知会员服务
41+阅读 · 2024年3月6日
《大模型数据增强》综述
专知会员服务
116+阅读 · 2024年1月30日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
48+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
473+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
172+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
26+阅读 · 2019年3月5日
VIP会员
相关VIP内容
【新书】行动,规划与学习,622页pdf
专知会员服务
46+阅读 · 7月28日
重新思考不确定性:大语言模型时代的关键综述与分析
专知会员服务
37+阅读 · 2024年11月20日
大型视觉语言模型攻击综述:资源、进展与未来趋势
专知会员服务
29+阅读 · 2024年7月11日
边缘人工智能:分类法、系统综述及未来方向
专知会员服务
60+阅读 · 2024年7月8日
开放环境目标检测:挑战、解决方案与展望
专知会员服务
43+阅读 · 2024年3月28日
《分布外泛化评估》综述
专知会员服务
41+阅读 · 2024年3月6日
《大模型数据增强》综述
专知会员服务
116+阅读 · 2024年1月30日
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
48+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员