【NeurIPS2025教程】解释人工智能模型：可解释人工智能、数据中心人工智能与机制可解释性的方法与机遇 - 专知VIP

会员服务 ·

17

NeurIPS 2025 · 可解释人工智能 · 机制可解释性 ·

【NeurIPS2025教程】解释人工智能模型：可解释人工智能、数据中心人工智能与机制可解释性的方法与机遇

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

NeurIPS 是关于机器学习和计算神经科学的国际会议，宗旨是促进人工智能和机器学习研究进展的交流。NeurIPS 2025 会议将于12月2日至12月7日在圣地亚哥会议中心召开。

理解 AI 系统行为已成为确保安全性、可信性以及在各类应用中有效部署的关键。 为应对这一挑战，三个主要研究社区提出了不同的可解释性方法： * 可解释人工智能（Explainable AI） 聚焦于特征归因，旨在理解哪些输入特征驱动了模型决策； * 数据中心人工智能（Data-Centric AI） 强调数据归因，用于分析训练样本如何塑造模型行为； * 机制可解释性（Mechanistic Interpretability） 研究组件归因，旨在解释模型内部组件如何对输出作出贡献。

这三大方向的共同目标都是从不同维度更好地理解 AI 系统，它们之间的主要区别在于研究视角而非方法本身。本教程首先介绍基本概念与历史背景，阐述可解释性为何重要，以及自早期以来该领域是如何演进的。第一部分技术深度解析将涵盖事后解释方法、数据中心解释技术、机制可解释性方法，并通过一个统一框架展示这些方法共享的基本技术，如扰动、梯度与局部线性近似等。 第二部分技术深度解析则聚焦于内生可解释模型（inherently interpretable models），并在可解释性的语境下澄清推理型（chain-of-thought）大语言模型与自解释型 LLM 的概念，同时介绍构建内生可解释 LLM 的相关技术。我们还将展示可使这些方法易于实践者使用的开源工具。此外，我们强调了解释性研究中前景广阔的未来研究方向，以及其在更广泛的 AI 领域中所引发的趋势，包括模型编辑、模型操控（steering）与监管方面的应用。通过对算法、真实案例与实践指南的全面覆盖，参与者将不仅获得对最先进方法的深刻技术理解，还将掌握在实际 AI 应用中有效使用可解释性技术的实践技能。

成为VIP会员查看完整内容

27

相关内容

NeurIPS 2025

【NeurIPS2025教程】大语言模型规划

【NeurIPS2025教程】大语言模型规划

专知会员服务

19+阅读 · 12月5日

NeurIPS 2025 教程：深度学习训练不稳定性的理论洞见

NeurIPS 2025 教程：深度学习训练不稳定性的理论洞见

专知会员服务

8+阅读 · 12月5日

生成式推荐综述：数据、模型与任务

生成式推荐综述：数据、模型与任务

专知会员服务

17+阅读 · 11月4日

【CMU博士论文】以人为中心的强化学习

【CMU博士论文】以人为中心的强化学习

专知会员服务

21+阅读 · 8月16日

用于自动驾驶的生成式人工智能：前沿与机遇

用于自动驾驶的生成式人工智能：前沿与机遇

专知会员服务

25+阅读 · 5月16日

【EMNLP2024教程】语言智能体：基础、前景和风险

【EMNLP2024教程】语言智能体：基础、前景和风险

专知会员服务

42+阅读 · 2024年11月19日

【2023新书】负责任人工智能：创建值得信赖的AI系统的最佳实践

【2023新书】负责任人工智能：创建值得信赖的AI系统的最佳实践

专知会员服务

30+阅读 · 2023年10月27日

机器学习如何做科学发现？牛津大学Moseley博士论文《基于物理信息的机器学习: 概念到实际应用》,268页详述科学机器学习内涵

机器学习如何做科学发现？牛津大学Moseley博士论文《基于物理信息的机器学习: 概念到实际应用》,268页详述科学机器学习内涵

专知会员服务

102+阅读 · 2022年9月27日

【吴恩达报告】以数据为中心的人工智能技巧

【吴恩达报告】以数据为中心的人工智能技巧

专知会员服务

57+阅读 · 2022年3月21日

【干货书】可解释人工智能(xAI)方法和深度元学习模型

【干货书】可解释人工智能(xAI)方法和深度元学习模型

专知会员服务

62+阅读 · 2020年9月13日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

25+阅读 · 2022年11月24日

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

专知

10+阅读 · 2022年11月3日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

专知

16+阅读 · 2020年10月13日

【干货书】Python机器学习导论，340页pdf数据科学家指南

【干货书】Python机器学习导论，340页pdf数据科学家指南

专知

97+阅读 · 2020年6月4日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

专知

21+阅读 · 2018年9月7日

手把手教你如何部署深度学习模型

手把手教你如何部署深度学习模型

全球人工智能

18+阅读 · 2018年2月5日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

云端融合计算环境下QoS敏感的任务调度机制研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

29+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

223+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

可解释人工智能

机制可解释性

相关VIP内容

【NeurIPS2025教程】大语言模型规划

【NeurIPS2025教程】大语言模型规划

专知会员服务

19+阅读 · 12月5日

NeurIPS 2025 教程：深度学习训练不稳定性的理论洞见

NeurIPS 2025 教程：深度学习训练不稳定性的理论洞见

专知会员服务

8+阅读 · 12月5日

生成式推荐综述：数据、模型与任务

生成式推荐综述：数据、模型与任务

专知会员服务

17+阅读 · 11月4日

【CMU博士论文】以人为中心的强化学习

【CMU博士论文】以人为中心的强化学习

专知会员服务

21+阅读 · 8月16日

用于自动驾驶的生成式人工智能：前沿与机遇

用于自动驾驶的生成式人工智能：前沿与机遇

专知会员服务

25+阅读 · 5月16日

【EMNLP2024教程】语言智能体：基础、前景和风险

【EMNLP2024教程】语言智能体：基础、前景和风险

专知会员服务

42+阅读 · 2024年11月19日

【2023新书】负责任人工智能：创建值得信赖的AI系统的最佳实践

【2023新书】负责任人工智能：创建值得信赖的AI系统的最佳实践

专知会员服务

30+阅读 · 2023年10月27日

机器学习如何做科学发现？牛津大学Moseley博士论文《基于物理信息的机器学习: 概念到实际应用》,268页详述科学机器学习内涵

机器学习如何做科学发现？牛津大学Moseley博士论文《基于物理信息的机器学习: 概念到实际应用》,268页详述科学机器学习内涵

专知会员服务

102+阅读 · 2022年9月27日

【吴恩达报告】以数据为中心的人工智能技巧

【吴恩达报告】以数据为中心的人工智能技巧

专知会员服务

57+阅读 · 2022年3月21日

【干货书】可解释人工智能(xAI)方法和深度元学习模型

【干货书】可解释人工智能(xAI)方法和深度元学习模型

专知会员服务

62+阅读 · 2020年9月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《为多域数字战场变革装甲力量》报告

《多域训练：利用开放标准将太空与网络域同陆、海、空域训练相整合》报告

面向城市战：欧美徒步作战新装备

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

25+阅读 · 2022年11月24日

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

专知

10+阅读 · 2022年11月3日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

专知

16+阅读 · 2020年10月13日

【干货书】Python机器学习导论，340页pdf数据科学家指南

【干货书】Python机器学习导论，340页pdf数据科学家指南

专知

97+阅读 · 2020年6月4日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

专知

21+阅读 · 2018年9月7日

手把手教你如何部署深度学习模型

手把手教你如何部署深度学习模型

全球人工智能

18+阅读 · 2018年2月5日

相关基金

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

云端融合计算环境下QoS敏感的任务调度机制研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

29+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

223+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员