NeurIPS 是关于机器学习和计算神经科学的国际会议,宗旨是促进人工智能和机器学习研究进展的交流。NeurIPS 2025 会议将于12月2日至12月7日在圣地亚哥会议中心召开。

理解 AI 系统行为已成为确保安全性、可信性以及在各类应用中有效部署的关键。 为应对这一挑战,三个主要研究社区提出了不同的可解释性方法: * 可解释人工智能(Explainable AI) 聚焦于特征归因,旨在理解哪些输入特征驱动了模型决策; * 数据中心人工智能(Data-Centric AI) 强调数据归因,用于分析训练样本如何塑造模型行为; * 机制可解释性(Mechanistic Interpretability) 研究组件归因,旨在解释模型内部组件如何对输出作出贡献。

这三大方向的共同目标都是从不同维度更好地理解 AI 系统,它们之间的主要区别在于研究视角而非方法本身。 本教程首先介绍基本概念与历史背景,阐述可解释性为何重要,以及自早期以来该领域是如何演进的。第一部分技术深度解析将涵盖事后解释方法、数据中心解释技术、机制可解释性方法,并通过一个统一框架展示这些方法共享的基本技术,如扰动、梯度与局部线性近似等。 第二部分技术深度解析则聚焦于内生可解释模型(inherently interpretable models),并在可解释性的语境下澄清推理型(chain-of-thought)大语言模型与自解释型 LLM 的概念,同时介绍构建内生可解释 LLM 的相关技术。我们还将展示可使这些方法易于实践者使用的开源工具。 此外,我们强调了解释性研究中前景广阔的未来研究方向,以及其在更广泛的 AI 领域中所引发的趋势,包括模型编辑、模型操控(steering)与监管方面的应用。通过对算法、真实案例与实践指南的全面覆盖,参与者将不仅获得对最先进方法的深刻技术理解,还将掌握在实际 AI 应用中有效使用可解释性技术的实践技能。

成为VIP会员查看完整内容
27

相关内容

【NeurIPS2025教程】大语言模型规划
专知会员服务
19+阅读 · 12月5日
生成式推荐综述:数据、模型与任务
专知会员服务
17+阅读 · 11月4日
【CMU博士论文】以人为中心的强化学习
专知会员服务
21+阅读 · 8月16日
用于自动驾驶的生成式人工智能:前沿与机遇
专知会员服务
25+阅读 · 5月16日
【EMNLP2024教程】语言智能体:基础、前景和风险
专知会员服务
42+阅读 · 2024年11月19日
【吴恩达报告】以数据为中心的人工智能技巧
专知会员服务
57+阅读 · 2022年3月21日
【干货书】可解释人工智能(xAI)方法和深度元学习模型
专知会员服务
62+阅读 · 2020年9月13日
手把手教你如何部署深度学习模型
全球人工智能
18+阅读 · 2018年2月5日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Arxiv
177+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员