Open Agent Specification (Agent Spec) is a declarative language for defining AI agents and workflows in a way that is compatible across different AI frameworks, promoting portability and interoperability within AI Agent frameworks. Agent Spec aims to resolve the challenges of fragmented agent development by providing a common unified specification that allows AI agents to be designed once and deployed across various frameworks, improving interoperability and reusability, while reducing redundant efforts. Additionally, Agent Spec facilitates development tools and portability, allowing AI agents to be defined independently of their execution environment and enabling teams to exchange solutions without implementation-specific limitations. Agent Spec benefits four key groups: (i) Agent developers, who gain a superset of reusable components and design patterns, enabling them to leverage a broader range of functionalities; (ii) Agent framework and tool developers, who can use Agent Spec as an interchange format and therefore benefit from cross-framework and tool support; (iii) Researchers, who can achieve reproducible results and comparability, facilitating more reliable and consistent outcomes; (iv) Enterprises, which see faster prototype-to-deployment, increased productivity, and greater scalability and maintainability for their AI agent solutions. This technical report provides an overview of the technical foundations of Agent Spec, including motivation, benefits, and future work. We also introduce a standardized Evaluation harness to assess agent behavior and agentic workflows across runtimes (LangGraph, CrewAI, AutoGen, and WayFlow), using three different benchmarks (SimpleQA Verified, $\tau^2$-Bench and BIRD-SQL) - analogous to how HELM and related harnesses standardized LLM evaluation - so that performance, robustness, and efficiency can be compared consistently across frameworks.


翻译:开放智能体规范(Agent Spec)是一种声明式语言,用于定义人工智能智能体与工作流,其设计兼容不同的人工智能框架,旨在促进人工智能智能体框架间的可移植性与互操作性。Agent Spec 致力于解决智能体开发碎片化带来的挑战,通过提供一种统一的标准规范,使得人工智能智能体能够一次设计、跨多种框架部署,从而提升互操作性与复用性,同时减少重复开发工作。此外,Agent Spec 支持开发工具与可移植性,允许人工智能智能体独立于其执行环境进行定义,使团队能够在不受具体实现限制的情况下交换解决方案。Agent Spec 为四类关键群体带来益处:(i)智能体开发者:获得可复用组件与设计模式的超集,能够利用更广泛的功能;(ii)智能体框架与工具开发者:可将 Agent Spec 用作交换格式,从而受益于跨框架与工具的支持;(iii)研究人员:能够实现可复现的结果与可比性,有助于获得更可靠、一致的研究成果;(iv)企业:能够加速从原型到部署的进程,提升生产力,并增强其人工智能智能体解决方案的可扩展性与可维护性。本技术报告概述了 Agent Spec 的技术基础,包括其动机、优势与未来工作方向。我们还引入了一个标准化的评估工具集,用于评估跨运行时(LangGraph、CrewAI、AutoGen 和 WayFlow)的智能体行为与智能工作流,该工具集采用三种不同的基准测试(SimpleQA Verified、$\\tau^2$-Bench 和 BIRD-SQL)——类似于 HELM 及相关工具集对大型语言模型评估的标准化方式——从而能够在不同框架间一致地比较性能、鲁棒性与效率。

0
下载
关闭预览

相关内容

AI智能体编程:技术、挑战与机遇综述
专知会员服务
39+阅读 · 8月18日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月18日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员