2025年的IJCAI(International Joint Conference on Artificial Intelligence) 将于8月16日至8月22日在加拿大蒙特利尔召开。IJCAI是中国计算机学会推荐的A类国际学术会议,是人工智能领域最具权威性和影响力的学术会议之一。本次IJCAI 2025一共有5404篇投稿,录用1042篇,录用率19.3%。

来自IBM和耶鲁的研究人员给出《评估基于LLM的智能体:基础、最佳实践与开放挑战》教程,值得的关注!

概述

大型语言模型(LLM)智能体的快速发展引发了对其评估的日益关注,带来了诸多挑战与机遇。本教程提供了对LLM智能体评估的全面介绍,适合各类背景的参与者,即使他们之前对智能体、LLM、度量标准或基准测试了解较少。 我们将建立基础概念,探讨衡量关键智能体能力的主要基准,包括规划、工具使用、自我反思和记忆。我们将讨论针对不同类型智能体的评估策略,涵盖从基于Web和软件工程到对话式和科学应用的各类智能体。同时,我们还会介绍评估通用智能体的基准和排行榜,涵盖不同技能集。此外,我们还会回顾一些主流的智能体评估开发框架。最后,我们将展示该领域的新兴趋势,识别当前的局限性,并提出未来研究方向。 教程大纲(暂定)

本教程的时长为半天(3.5小时)。 第一部分:LLM智能体评估介绍(20分钟)

前置知识:LLM、智能体、LLM作为评估者、基准测试 * 什么是LLM智能体?它们为什么重要? * 从静态LLM到自主交互系统的转变。 * 为什么可靠的评估对实际部署至关重要?

第二部分:评估基础智能体能力(40分钟)

我们将讨论四大核心智能体能力:规划与多步骤推理、函数调用与工具使用、自我反思和记忆。每项能力的评估内容包括: * 能力概述及其重要性 * 评估该能力的挑战 * 常见评估方法(数据集、度量标准、基准测试)

基准测试示例:

规划与多步骤推理:GSM8K、HotpotQA、PlanBench * 函数调用与工具使用:ToolBench、API-Bank、BFCL * 自我反思:LLF-Bench、LLM-Evolve * 记忆:ReadAgent、MemGPT、StreamBench

第三部分:评估应用特定智能体(45分钟)

我们将回顾一些主要的应用特定智能体。每种类型的智能体评估包括: * 智能体类型概述、范围、任务及其现实应用 * 评估该类型智能体的挑战 * 常见评估方法(数据集、度量标准、环境)

基准测试示例:

Web智能体:MiniWob、WebShop、WebArena * 软件工程智能体:HumanEval、SWE-bench、IT-Bench * 科学智能体:ScienceQA、AAAR-1.0、CORE-Bench * 对话智能体:MultiWOZ、ABCD、τ-Bench

第四部分:通用智能体评估(25分钟)

评估不同技能的智能体,不仅限于特定应用 * 基准测试:GAIA、AgentBench、OSWorld * 聚焦多步骤推理、问题解决与工具使用

第五部分:智能体评估框架(40分钟)

框架作为开发、完善和持续监控的工具 * 当前框架中的评估特性与能力:

多层次粒度 * 数据生成 * A/B比较 * 当前能力中的主要缺口 * 类Gym环境:控制的动态仿真环境

第六部分:关键见解与未来方向(25分钟)

当前趋势:向具有挑战性、现实和实时的基准测试转变 * 未来方向:

使用标准化度量标准进行细粒度评估 * 成本与效率度量 * 扩展与自动化评估 * 安全性与合规性 * 可靠智能体评估在各行业中的应用 * 负责任的AI开发与部署的重要性

第七部分:开放讨论(15分钟)

目标受众与前提条件

本教程将展示当前的最新进展与前沿研究,但也适合入门级听众。 前提条件:

熟悉大型语言模型(LLM)及其能力 * 对智能体的基本了解,包括其角色与功能

本教程最适合以下人群: * 对智能体评估不熟悉的研究人员 * 曾在智能体评估的某个方面有所研究,但不熟悉整体框架的研究人员 * 处理评估挑战的基准开发人员 * 在特定领域应用中部署智能体的从业人员 * 广泛研究LLM智能体当前能力、风险与局限性的研究人员

成为VIP会员查看完整内容
25

相关内容

【ECCV2024研讨】多模态智能体,74页ppt
专知会员服务
29+阅读 · 2024年10月3日
【AAAI2024教程】多目标学习 - 基础与应用,197页ppt
专知会员服务
55+阅读 · 2024年3月2日
【AAAI2024教程】大模型知识编辑,192页ppt
专知会员服务
79+阅读 · 2024年2月29日
【AAAI2024教程】图反事实可解释性:全面的景观,100页ppt
【AAAI2023教程】大规模深度学习优化技术,109页ppt
专知会员服务
61+阅读 · 2023年2月10日
CCAI 2019|视觉语音语言多模态论坛嘉宾介绍
中国人工智能学会
12+阅读 · 2019年9月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员