机械可解释性(Mechanistic Interpretability,简称 MI)是可解释性研究中一项新兴的子领域,其目标是通过对神经网络模型内部计算过程的逆向工程,来理解模型的工作机制。近年来,MI 在解释基于 Transformer 的语言模型(Language Models, LMs)方面引起了广泛关注,催生了诸多新颖的研究洞见,但同时也带来了新的挑战。鉴于该主题正迅速吸引机器学习与人工智能社区的高度兴趣,本教程旨在为语言模型的 MI 研究提供一个全面的综述内容,包括其发展背景、具体实现与评估技术、基于 MI 的研究发现与应用,以及未来面临的挑战。 本次教程将特别基于主讲人精心整理的《MI 初学者路线图》(Beginner's Roadmap to MI)展开,旨在帮助刚接触 MI 的研究者快速入门,并在其语言模型应用中有效利用 MI 技术。

成为VIP会员查看完整内容
2

相关内容

非Transformer不可?最新《状态空间模型(SSM)》综述
专知会员服务
73+阅读 · 2024年4月16日
【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习
专知会员服务
24+阅读 · 2022年2月27日
知识图谱KG在NLP的十年研究进展综述
专知
16+阅读 · 2022年10月4日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
473+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员