上海交大张拳石:神经网络的可解释性,从经验主义到数学建模

2019 年 6 月 26 日 AI100
上海交大张拳石:神经网络的可解释性,从经验主义到数学建模


作者 | 张拳石

来源 | 转载自知乎Qs.Zhang张拳石


本来想把题目取为“从炼丹到化学”,但是这样的题目太言过其实,远不是近期可以做到的,学术研究需要严谨。但是,寻找适当的数学工具去建模深度神经网络表达能力和训练能力,将基于经验主义的调参式深度学习,逐渐过渡为基于一些评测指标定量指导的深度学习, 是新一代人工智能需要面对的课题,也是在当前深度学习浑浑噩噩的大背景中的一些新的希望。


这篇短文旨在介绍团队近期的ICML工作——”Towards a Deep and Unified Understanding of Deep Neural Models in NLP”(这篇先介绍NLP领域,以后有时间再介绍类似思想解释CV网络的论文)。这是我与微软亚洲研究院合作的一篇论文。其中,微软研究院的王希廷研究员在NLP方向有丰富经验,王老师和关超宇同学在这个课题上做出了非常巨大的贡献,这里再三感谢。


大家说神经网络是“黑箱”,其含义至少有以下两个方面:一、神经网络特征或决策逻辑在语义层面难以理解;二、缺少数学工具去诊断与评测网络的特征表达能力(比如,去解释深度模型所建模的知识量、其泛化能力和收敛速度),进而解释目前不同神经网络模型的信息处理特点。


过去我的研究一直关注第一个方面,而这篇ICML论文同时关注以上两个方面——针对不同自然语言应用的神经网络,寻找恰当的数学工具去建模其中层特征所建模的信息量,并可视化其中层特征的信息分布,进而解释不同模型的性能差异。


其实,我一直希望去建模神经网络的特征表达能力,但是又一直迟迟不愿意下手去做。究其原因,无非是找不到一套优美的数学建模方法。深度学习研究及其应用很多已经被人诟病为“经验主义”与“拍脑袋”,我不能让其解释性算法也沦为经验主义式的拍脑袋——不然解释性工作还有什么意义。

研究的难点在于对神经网络表达能力的评测指标需要具备“普适性”和“一贯性”。首先,这里“普适性”是指解释性指标需要定义在某种通用的数学概念之上,保证与既有数学体系有尽可能多的连接,而与此同时,解释性指标需要建立在尽可能少的条件假设之上,指标的计算算法尽可能独立于神经网络结构和目标任务的选择。


其次,这里的“一贯性”指评测指标需要客观的反应特征表达能力,并实现广泛的比较,比如


  1. 诊断与比较同一神经网络中不同层之间语义信息的继承与遗忘;

  2. 诊断与比较针对同一任务的不同神经网络的任意层之间的语义信息分

  3. 比较针对不同任务的不同神经网络的信息处理特点。


具体来说,在某个NLP应用中,当输入某句话x=[x1,x2,…,xn]到目标神经网络时,我们可以把神经网络的信息处理过程,看成对输入单词信息的逐层遗忘的过程。即,网络特征每经过一层传递,就会损失一些信息,而神经网络的作用就是尽可能多的遗忘与目标任务无关的信息,而保留与目标任务相关的信息。于是,相对于目标任务的信噪比会逐层上升,保证了目标任务的分类性能。


我们提出一套算法,测量每一中层特征f中所包含的输入句子的信息量,即H(X|F=f)。当假设各单词信息相互独立时,我们可以把句子层面的信息量分解为各个单词的信息量H(X|F=f) = H(X1=x1|F=f) + H(X2=x2|F=f) + … + H(Xn=xn|F=f). 这评测指标在形式上是不是与信息瓶颈理论相关?但其实两者还是有明显的区别的。信息瓶颈理论关注全部样本上的输入特征与中层特征的互信息,而我们仅针对某一特定输入,细粒度地研究每个单词的信息遗忘程度。


其实,我们可以从两个不同的角度,计算出两组不同的熵H(X|F=f)。(1)如果我们只关注真实自然语言的低维流形,那么p(X=x|F=f)的计算比较容易,可以将p建模为一个decoder,即用中层特征f去重建输入句子x。(2)在这篇文章中,我们其实选取了第二个角度:我们不关注真实语言的分布,而考虑整个特征空间的分布,即x可以取值为噪声。在计算p(X=x,F=f) = p(X=x) p(F=f|X=x)时,我们需要考虑“哪些噪声输入也可以生成同样的特征f”。举个toy example,当输入句子是"How are you?"时,明显“are”是废话,可以从“How XXX you?”中猜得。这时,如果仅从真实句子分布出发,考虑句子重建,那些话佐料(“are” “is” “an”)将被很好的重建。而真实研究选取了第二个角度,即我们关注的是哪些单词被神经网络遗忘了,发现原来“How XYZ you?”也可以生成与“How are you?”一样的特征。


这时,H(X|F=f)所体现的是,在中层特征f的计算过程中,哪些单词的信息在层间传递的过程中逐渐被神经网络所忽略——将这些单词的信息替换为噪声,也不会影响其中层特征。这种情况下,信息量H(X|F=f)不是直接就可以求出来的,如何计算信息量也是这个课题的难点。具体求解的公式推导可以看论文,知乎上只放文字,不谈公式。


首先,从“普适性”的角度来看,中层特征中输入句子的信息量(输入句子的信息的遗忘程度)是信息论中基本定义,它只关注中层特征背后的“知识量”,而不受网络模型参数大小、中层特征值的大小、中层卷积核顺序影响。其次,从“一贯性”的角度来看,“信息量”可以客观反映层间信息快递能力,实现稳定的跨层比较。如下图所示,基于梯度的评测标准,无法为不同中间层给出一贯的稳定的评测。





下图比较了不同可视化方法在分析“reverse sequence”神经网络中层特征关注点的区别。我们基于输入单词信息量的方法,可以更加平滑自然的显示神经网络内部信息处理逻辑。



下图分析比较了不同可视化方法在诊断“情感语义分类”应用的神经网络中层特征关注点的区别。我们基于输入单词信息量的方法,可以更加平滑自然的显示神经网络内部信息处理逻辑。






基于神经网络中层信息量指标,分析不同神经网络模型的处理能力。我们分析比较了四种在NLP中常用的深度学习模型,即BERT, Transformer, LSTM, 和CNN。在各NLP任务中, BERT模型往往表现最好,Transformer模型次之。


如下图所示,我们发现相比于LSTM和CNN,基于预训练参数的BERT模型和Transformer模型往往可以更加精确地找到与任务相关的目标单词,而CNN和LSTM往往使用大范围的邻接单词去做预测。



进一步,如下图所示,BERT模型在预测过程中往往使用具有实际意义的单词作为分类依据,而其他模型把更多的注意力放在了and the is 等缺少实际意义的单词上。





如下图所示,BERT模型在L3-L4层就已经遗忘了EOS单词,往往在第5到12层逐渐遗忘其他与情感语义分析无关的单词。相比于其他模型,BERT模型在单词选择上更有针对性。





我们的方法可以进一步细粒度地分析,各个单词的信息遗忘。BERT模型对各种细粒度信息保留的效果最好。


十多年前刚刚接触AI时总感觉最难的是独立找课题,后来发现追着热点还是很容易拍脑袋想出一堆新题目,再后来发现真正想做的课题越来越少,虽然AI领域中学者们的投稿量一直指数增长。


回国以后,身份从博后变成了老师,带的学生增加了不少,工作量也翻倍了,所以一直没有时间写文章与大家分享一些新的工作,如果有时间还会与大家分享更多的研究,包括这篇文章后续的众多算法。信息量在CV方向应用的论文,以及基于这些技术衍生出的课题,我稍后有空再写。


作者介绍:


张拳石,上海交通大学副教授。2009年获北京大学机器智能学士学位,并于2011年和2014年获得日本东京大学空间信息科学中心理科硕士和博士学位。2014年至2018年,他是加州大学洛杉矶分校的博士后研究员,师从朱松纯教授。他的研究兴趣涵盖计算机视觉和机器学习。目前,他正在领导一个可解释AI小组,相关主题包括可解释神经网络、预训练神经网络解释,以及无监督/弱监督学习。


原文链接:https://zhuanlan.zhihu.com/p/67831834


(*本文为 AI科技大本营转载文章,转载请联系原作者)


精彩推荐


参与投稿加入作者群,成为全宇宙最优秀的技术人~



大会开幕倒计时5天!


2019以太坊技术及应用大会特邀以太坊创始人V神与众多海内外知名技术专家齐聚北京,聚焦区块链技术,把握时代机遇,深耕行业应用,共话以太坊2.0新生态。即刻扫码,享优惠票价。



推荐阅读


你点的每个“在看”,我都认真当成了喜欢
登录查看更多
5

相关内容

上海交通大学John Hopcroft Center副教授,研究方向主要包括计算机视觉与机器学习。张拳石于2014年获得日本东京大学博士学位,之后去美国加州大学洛杉矶分校担任博士后研究员。2018年9月,张拳石入职上海交通大学,担任副教授。目前张拳石领导上海交通大学与加州大学洛杉矶分校两个科研团队,从事神经网络可解释性的研究,并担任AAAI-19 Workshop on Network Interpretability for Deep Learning和 CVPR-19 Workshop on Explainable AI的共同主席.

深度学习方法对各种医学诊断任务都非常有效,甚至在其中一些任务上击败了人类专家。然而,算法的黑箱特性限制了临床应用。最近的可解释性研究旨在揭示对模型决策影响最大的特征。这一领域的大多数文献综述都集中在分类学、伦理学和解释的需要上。本文综述了可解释的深度学习在不同医学成像任务中的应用。本文从一个为临床最终用户设计系统的深度学习研究者的实际立场出发,讨论了各种方法、临床部署的挑战和需要进一步研究的领域。

成为VIP会员查看完整内容
0
60

目标检测的任务是从图像中精确且高效地识别、定位出大量预定义类别的物体实例。随着深度学习的广泛应用,目标检测的精确度和效率都得到了较大提升,但基于深度学习的目标检测仍面临改进与优化主流目标检测算法的性能、提高小目标物体检测精度、实现多类别物体检测、轻量化检测模型等关键技术的挑战。针对上述挑战,本文在广泛文献调研的基础上,从双阶段、单阶段目标检测算法的改进与结合的角度分析了改进与优化主流目标检测算法的方法,从骨干网络、增加视觉感受野、特征融合、级联卷积神经网络和模型的训练方式的角度分析了提升小目标检测精度的方法,从训练方式和网络结构的角度分析了用于多类别物体检测的方法,从网络结构的角度分析了用于轻量化检测模型的方法。此外,对目标检测的通用数据集进行了详细介绍,从4个方面对该领域代表性算法的性能表现进行了对比分析,对目标检测中待解决的问题与未来研究方向做出预测和展望。目标检测研究是计算机视觉和模式识别中备受青睐的热点,仍然有更多高精度和高效的算法相继提出,未来将朝着更多的研究方向发展。

成为VIP会员查看完整内容
0
74

神经网络与深度学习,复旦大学邱锡鹏老师。近年来,以机器学习、知识图谱为代表的人工智能技术逐渐变得普及。从车牌识别、人脸识别、语音识别、智能问答、推荐系统到自动驾驶,人们在日常生活中都可能有意无意地使用到了人工智能技术。这些技术的背后都离不开人工智能领域研究者们的长期努力。特别是最近这几年,得益于数据的增多、计算能力的增强、学习算法的成熟以及应用场景的丰富,越来越多的人开始关注这一个“崭新”的研究领域:深度学习。深度学习以神经网络为主要模型,一开始用来解决机器学习中的表示学习问题。但是由于其强大的能力,深度学习越来越多地用来解决一些通用人工智能问题,比如推理、决策等。目前,深度学习技术在学术界和工业界取得了广泛的成功,受到高度重视,并掀起新一轮的人工智能热潮。

本课程主要介绍神经网络与深度学习中的基础知识、主要模型(前馈网络、卷积网络、循环网络等)以及在计算机视觉、自然语言处理等领域的应用。

本书的写作目的是使得读者能够掌握神经网络与深度学习技术的基本原理,知其然还要知其所以然。全书共 15 章。第 1 章是绪论,介绍人工智能、机器学习、深度学习的概要,使读者对相关知识进行全面的了解。第2、3章介绍机器学习的基础知识。第4、5、6章分别讲述三种主要的神经网络模型:前馈神经 网络、卷积神经网络和循环神经网络。第7章介绍神经网络的优化与正则化方法。第8章介绍神经网络中的注意力机制和外部记忆。第9章简要介绍一些无监督学习方法。第10章介绍一些模型独立的机器学习方法:集成学习、自训练、协同训练多任务学习、迁移学习、终身学习、元学习等,这些都是目前深度学习的难点和热点问题。第11章介绍概率图模型的基本概念,为后面的章节进行铺垫。第12章介绍两种早期的深度学习模型:玻尔兹曼机和深度信念网络。第13章介绍最近两年发展十分迅速的深度生成模型:变分自编码器和生成对抗网络。第14章介绍深度强化学习的知识。第15章介绍应用十分广泛的序列生成模型。

  • 绪论
  • 机器学习概述
  • 线性模型
  • 前馈神经网络
  • 卷积神经网络
  • 循环神经网络
  • 网络优化与正则化
  • 注意力机制与外部记忆
  • 无监督学习
  • 模型独立的学习方式
  • 概率图模型
  • 深度信念网络
  • 深度生成模型
  • 深度强化学习
  • 序列生成模型 一个过时版本:词嵌入与语言模型
  • 数学基础
成为VIP会员查看完整内容
0
52
小贴士
相关资讯
图神经网络火了?谈下它的普适性与局限性
机器之心
16+阅读 · 2019年7月29日
神经网络可解释性对具体应用的推动
专知
7+阅读 · 2018年6月8日
赛尔原创 | 开放域中文知识图谱《大词林》
哈工大SCIR
63+阅读 · 2018年4月16日
神经网络可解释性最新进展
专知
10+阅读 · 2018年3月10日
为什么“高大上”的算法工程师变成了数据民工?
数据挖掘入门与实战
5+阅读 · 2018年2月25日
干货|7步掌握基于Keras的深度学习!
全球人工智能
3+阅读 · 2017年11月14日
【深度】可解释性与deep learning的发展
机器学习研究会
5+阅读 · 2017年10月15日
相关论文
Anna Rohrbach,Lisa Anne Hendricks,Kaylee Burns,Trevor Darrell,Kate Saenko
3+阅读 · 2019年3月29日
Alexei Baevski,Sergey Edunov,Yinhan Liu,Luke Zettlemoyer,Michael Auli
6+阅读 · 2019年3月19日
Multi-Task Deep Neural Networks for Natural Language Understanding
Xiaodong Liu,Pengcheng He,Weizhu Chen,Jianfeng Gao
3+阅读 · 2019年1月31日
Bo-Jian Hou,Zhi-Hua Zhou
16+阅读 · 2018年10月25日
Tianyi Liu,Shiyang Li,Jianping Shi,Enlu Zhou,Tuo Zhao
3+阅读 · 2018年10月1日
Image Captioning based on Deep Reinforcement Learning
Haichao Shi,Peng Li,Bo Wang,Zhenyu Wang
6+阅读 · 2018年9月13日
Alexander Kuhnle,Ann Copestake
3+阅读 · 2018年5月12日
Hongyu Xu,Xutao Lv,Xiaoyu Wang,Zhou Ren,Navaneeth Bodla,Rama Chellappa
3+阅读 · 2018年3月27日
Mantong Zhou,Minlie Huang,Xiaoyan Zhu
12+阅读 · 2018年1月15日
Top