【导读】牛津大学的博士生Oana-Maria Camburu撰写了毕业论文《解释神经网络 (Explaining Deep Neural Networks)》,系统性介绍了深度神经网络可解释性方面的工作,值得关注。

作者介绍:

Oana-Maria Camburu,来自罗马尼亚,目前是牛津大学的博士生,主修机器学习、人工智能等方向。

Explaining Deep Neural Networks

深度神经网络在计算机视觉、自然语言处理和语音识别等不同领域取得了革命性的成功,因此越来越受欢迎。然而,这些模型的决策过程通常是无法向用户解释的。在各种领域,如医疗保健、金融或法律,了解人工智能系统所做决策背后的原因至关重要。因此,最近研究了几个解释神经模型的方向。

在这篇论文中,我研究了解释深层神经网络的两个主要方向。第一个方向由基于特征的事后解释方法组成,也就是说,这些方法旨在解释一个已经训练过的固定模型(事后解释),并提供输入特征方面的解释,例如文本标记和图像的超级像素(基于特征的)。第二个方向由生成自然语言解释的自解释神经模型组成,也就是说,模型有一个内置模块,为模型的预测生成解释。在这些方面的贡献如下:

  • 首先,我揭示了仅使用输入特征来解释即使是微不足道的模型也存在一定的困难。我表明,尽管有明显的隐含假设,即解释方法应该寻找一种特定的基于真实值特征的解释,但对于预测通常有不止一种这样的解释。我还展示了两类流行的解释方法,它们针对的是不同类型的事实基础解释,但没有明确地提及它。此外,我还指出,有时这两种解释都不足以提供一个实例上决策过程的完整视图。

  • 其次,我还介绍了一个框架,用于自动验证基于特征的事后解释方法对模型的决策过程的准确性。这个框架依赖于一种特定类型的模型的使用,这种模型有望提供对其决策过程的洞察。我分析了这种方法的潜在局限性,并介绍了减轻这些局限性的方法。引入的验证框架是通用的,可以在不同的任务和域上实例化,以提供现成的完整性测试,这些测试可用于测试基于特性的后特殊解释方法。我在一个情绪分析任务上实例化了这个框架,并提供了完备性测试s1,在此基础上我展示了三种流行的解释方法的性能。

  • 第三,为了探索为预测生成自然语言解释的自解释神经模型的发展方向,我在有影响力的斯坦福自然语言推断(SNLI)数据集之上收集了一个巨大的数据集,数据集约为570K人类编写的自然语言解释。我把这个解释扩充数据集称为e-SNLI。我做了一系列的实验来研究神经模型在测试时产生正确的自然语言解释的能力,以及在训练时提供自然语言解释的好处。

  • 第四,我指出,目前那些为自己的预测生成自然语言解释的自解释模型,可能会产生不一致的解释,比如“图像中有一只狗。”以及“同一幅图片中没有狗”。不一致的解释要么表明解释没有忠实地描述模型的决策过程,要么表明模型学习了一个有缺陷的决策过程。我将介绍一个简单而有效的对抗性框架,用于在生成不一致的自然语言解释时检查模型的完整性。此外,作为框架的一部分,我解决了使用精确目标序列的对抗性攻击的问题,这是一个以前在序列到序列攻击中没有解决的场景,它对于自然语言处理中的其他任务很有用。我将这个框架应用到e-SNLI上的一个最新的神经模型上,并表明这个模型会产生大量的不一致性。

这项工作为获得更稳健的神经模型以及对预测的可靠解释铺平了道路。

地址: https://arxiv.org/abs/2010.01496

成为VIP会员查看完整内容
0
99

相关内容

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

数据科学是设计从大量数据中提取知识的算法和管道。时间序列分析是数据科学的一个领域,它感兴趣的是分析按时间顺序排列的数值序列。时间序列特别有趣,因为它让我们能够可视化和理解一个过程在一段时间内的演变。他们的分析可以揭示数据之间的趋势、关系和相似性。存在大量以时间序列形式包含数据的领域:医疗保健(心电图、血糖等)、活动识别、遥感、金融(股票市场价格)、工业(传感器)等。

在数据挖掘中,分类是一项受监督的任务,它涉及从组织到类中的带标签的数据中学习模型,以便预测新实例的正确标签。时间序列分类包括构造用于自动标注时间序列数据的算法。例如,使用健康患者或心脏病患者的一组标记的心电图,目标是训练一个模型,能够预测新的心电图是否包含病理。时间序列数据的时序方面需要算法的发展,这些算法能够利用这种时间特性,从而使传统表格数据现有的现成机器学习模型在解决底层任务时处于次优状态。

在这种背景下,近年来,深度学习已经成为解决监督分类任务的最有效方法之一,特别是在计算机视觉领域。本论文的主要目的是研究和发展专门为分类时间序列数据而构建的深度神经网络。因此,我们进行了第一次大规模的实验研究,这使我们能够比较现有的深度学习方法,并将它们与其他基于非深度学习的先进方法进行比较。随后,我们在这一领域做出了大量的贡献,特别是在迁移学习、数据增强、集成和对抗性攻击的背景下。最后,我们还提出了一种新的架构,基于著名的Inception 网络(谷歌),它是目前最有效的架构之一。

我们在包含超过100个数据集的基准测试上进行的实验使我们能够验证我们的贡献的性能。最后,我们还展示了深度学习方法在外科数据科学领域的相关性,我们提出了一种可解释的方法,以便从运动学多变量时间序列数据评估外科技能。

深度学习序列分类概述

在过去的二十年中,TSC被认为是数据挖掘中最具挑战性的问题之一(Yang and Wu, 2006; Esling and Agon, 2012)。随着时间数据可用性的增加(Silva et al.,2018),自2015年以来已有数百种TSC算法被提出(Bagnall et al.,2017)。由于时间序列数据具有自然的时间顺序,几乎在每一个需要某种人类认知过程的任务中都存在时间序列数据(Langkvist, Karlsson, and Loutfi, 2014)。事实上,任何使用考虑到排序概念的已注册数据的分类问题都可以被视为TSC问题(Cristian Borges Gamboa, 2017)。时间序列在许多实际应用中都遇到过,包括医疗保健(Gogolou等,2018)和人类活动识别(Wang et al.,2018;到声学场景分类(Nwe, Dat, and Ma, 2017)和网络安全(Susto, Cenedese, and Terzi, 2018)。此外,UCR/UEA档案中数据集类型的多样性(Dau等,2019;Bagnall et al,2017)(最大的时间序列数据集储存库)展示了TSC问题的不同应用。

成为VIP会员查看完整内容
0
52

近年来,深度学习彻底改变了机器学习和计算机视觉。许多经典的计算机视觉任务(例如目标检测和语义分割),传统上非常具有挑战性,现在可以使用监督深度学习技术来解决。虽然监督学习是一个强大的工具,当标签数据是可用的,并考虑的任务有明确的输出,这些条件并不总是满足。在这种情况下,生成建模给出了一个很有前途的方法。与纯粹的判别型模型相比,生成型模型可以处理不确定性,甚至在没有标签训练数据的情况下也可以学习强大的模型。然而, 虽然目前的方法生成建模取得可喜的成果, 他们遭受两个方面,限制他们的表现力: (i) 为图像数据建模的一些最成功的方法不再使用优化算法来训练,而是使用其动力学尚未被很好理解的算法,(ii) 生成模型往往受到输出表示的内存需求的限制。我们在本文中解决了这两个问题:在第一部分中,我们介绍了一个理论,它使我们能够更好地理解生成式对抗网络(GANs)的训练动力学,这是生成式建模最有前途的方法之一。我们通过引入可解析理解的GAN训练的最小示例问题来解决这个问题。随后,我们逐渐增加了这些示例的复杂性。通过这样做,我们对GANs的训练动力学有了新的认识,并推出了新的正则化器,也适用于一般的GANs。新的正则化器使我们能够——第一次——以百万像素的分辨率训练GAN,而不必逐渐增加训练分布的分辨率。在本论文的第二部分,我们考虑生成模型的三维输出表示和三维重建技术。通过将隐式表示法引入深度学习,我们能够在不牺牲表现力的情况下将许多2D领域的技术扩展到3D领域。

https://publikationen.uni-tuebingen.de/xmlui/handle/10900/106074

成为VIP会员查看完整内容
0
22

可解释的机器学习模型和算法是越来越受到研究、应用和管理人员关注的重要课题。许多先进的深度神经网络(DNNs)经常被认为是黑盒。研究人员希望能够解释DNN已经学到的东西,以便识别偏差和失败模型,并改进模型。在本教程中,我们将全面介绍分析深度神经网络的方法,并深入了解这些XAI方法如何帮助我们理解时间序列数据。

http://xai.kaist.ac.kr/Tutorial/2020/

成为VIP会员查看完整内容
0
91

凸优化作为一个数学问题已经被研究了一个多世纪,并在许多应用领域的实践中应用了大约半个世纪,包括控制、金融、信号处理、数据挖掘和机器学习。本文主要研究凸优化的几个问题,以及机器学习的具体应用。

成为VIP会员查看完整内容
0
60

深度学习方法对各种医学诊断任务都非常有效,甚至在其中一些任务上击败了人类专家。然而,算法的黑箱特性限制了临床应用。最近的可解释性研究旨在揭示对模型决策影响最大的特征。这一领域的大多数文献综述都集中在分类学、伦理学和解释的需要上。本文综述了可解释的深度学习在不同医学成像任务中的应用。本文从一个为临床最终用户设计系统的深度学习研究者的实际立场出发,讨论了各种方法、临床部署的挑战和需要进一步研究的领域。

成为VIP会员查看完整内容
0
48

【导读】图神经网络依然是当下的研究热点之一。DeepMind研究科学家Petar Veličković在Twitter上开放了自己的剑桥大学博士论文《深度神经网络结构的》,共有147页pdf,里面涵盖了出名的图神经网络GAT和Deep Graph Infomax的经典工作。

Petar Veličković,DeepMind研究科学家。在Pietro Lio的指导下获得了剑桥大学的计算机科学博士学位。我的研究兴趣包括设计操作非平凡结构数据(如图)的神经网络架构,以及它们在算法推理和计算生物学中的应用。特别地,我是Graph Attention Network(图注意力网络)的第一作者和Deep Graph Infomax的第一作者。我的研究已经在ZDNet等媒体上发表。

https://petar-v.com/

深层神经网络结构的复兴

摘要:

使用深度神经网络的机器学习(“深度学习”)允许直接从原始输入数据学习复杂特征,完全消除了学习流程中手工“硬编码”的特征提取。这促使了计算机视觉,自然语言处理,强化学习和生成模型的相关任务性能的提升。这些成功案例几乎都是与大量带有标记的训练样本(“大数据”)密切相关的,这些示例展示了简单的网格状结构(例如文本或图像),可通过卷积或循环层加以利用。这是因为神经网络的自由度非常大,使得它们的泛化能力容易受到过度拟合等影响。然而,在许多领域,广泛的数据收集并不总是合适的,负担得起的,甚至是可行的。此外,数据通常以更复杂的结构组织起来——大多数现有的方法都会简单地抛弃这种结构。这类任务的例子在生物医学领域非常丰富。我假设,如果深度学习要在这样的环境中充分发挥其潜力,我们需要重新考虑“硬编码”方法——通过结构性归纳偏差,将输入数据中的固有结构假设直接整合到我们的架构和学习算法中。在本文中,我通过开发三个注入结构的神经网络架构(操作稀疏多模态和图结构的数据)和一个基于结构的图神经网络学习算法直接验证了这一假设,证明了超越传统基线模型和算法的性能提升。

地址:

https://www.repository.cam.ac.uk/handle/1810/292230

论文结构:

本文主要贡献的概述。首先,提出了两种具有特殊结构诱导偏差的多模态学习早期融合模型;一个用于网格结构输入模式(X‐CNN[176]),另一个用于顺序输入模式(X‐LSTM[177])。接下来,图卷积层的理想结构偏差在图注意力网络(GAT[174])模型中得到了应用,并且第一次同时得到了满意的结果。最后,通过Deep Graph Infomax (DGI[175])算法成功地引入了局部互信息最大化,将其作为一个无监督学习目标用于图的结构输入,允许在学习节点表示时结合图卷积编码器引入非常强大的结构诱导偏差。

成为VIP会员查看完整内容
0
45

论文摘要:

教机器理解人类语言文档是人工智能中最难以捉摸和长期存在的挑战之一。本文探讨了阅读理解的问题:如何构建计算机系统来阅读文章和回答理解问题。一方面,我们认为阅读理解是评价计算机系统对人类语言理解程度的一项重要任务。另一方面,如果我们能够构建高性能的阅读理解系统,那么它将成为问答和对话系统等应用的关键技术。本文以神经阅读理解为研究对象:一种基于深度神经网络的阅读理解模型。与传统的稀疏的、手工设计的基于特征的模型相比,这些端到端神经模型在学习丰富的语言现象方面更加有效,并且在所有现代阅读理解基准上的表现都有很大的提高。本文由两部分组成。第一部分是对神经阅读理解的本质进行概括,介绍我们在构建有效的神经阅读理解模型方面所做的努力,更重要的是了解神经阅读理解模型实际学到了什么,以及解决当前任务需要什么样的语言理解深度。我们还总结了该领域的最新进展,讨论了该领域的未来发展方向和有待解决的问题。在本文的第二部分,我们探讨了如何在最近神经阅读理解成功的基础上建立实际应用。特别是,我们开创了两个新的研究方向:1)如何将信息检索技术与神经阅读理解相结合,解决大规模开放领域的问题;(2)如何从当前的单圈、跨步阅读理解模式中构建会话问答系统。我们在DrQA和CoQA项目中实现了这些想法,并证明了这些方法的有效性。我们相信他们对推动未来的语言技术有很大帮助。

成为VIP会员查看完整内容
0
20
小贴士
相关论文
Kristijonas Cyras,Ramamurthy Badrinath,Swarup Kumar Mohalik,Anusha Mujumdar,Alexandros Nikou,Alessandro Previti,Vaishnavi Sundararajan,Aneta Vulgarakis Feljan
10+阅读 · 9月1日
Ning Ma,Jiajun Bu,Jieyu Yang,Zhen Zhang,Chengwei Yao,Zhi Yu
16+阅读 · 3月18日
Yingtian Zou,Jiashi Feng
4+阅读 · 2019年4月19日
Golnaz Ghiasi,Tsung-Yi Lin,Ruoming Pang,Quoc V. Le
6+阅读 · 2019年4月16日
Graph Neural Networks: A Review of Methods and Applications
Jie Zhou,Ganqu Cui,Zhengyan Zhang,Cheng Yang,Zhiyuan Liu,Lifeng Wang,Changcheng Li,Maosong Sun
7+阅读 · 2019年3月7日
Mobile big data analysis with machine learning
Jiyang Xie,Zeyu Song,Yupeng Li,Zhanyu Ma
5+阅读 · 2018年8月2日
Han Hu,Jiayuan Gu,Zheng Zhang,Jifeng Dai,Yichen Wei
3+阅读 · 2018年6月14日
Zhanxiang Feng,Jianhuang Lai,Xiaohua Xie
7+阅读 · 2018年3月30日
Lei Zhang,Shuai Wang,Bing Liu
22+阅读 · 2018年1月24日
Top