Modern neural network architectures can leverage large amounts of data to generalize well within the training distribution. However, they are less capable of systematic generalization to data drawn from unseen but related distributions, a feat that is hypothesized to require compositional reasoning and reuse of knowledge. In this work, we present Neural Interpreters, an architecture that factorizes inference in a self-attention network as a system of modules, which we call \emph{functions}. Inputs to the model are routed through a sequence of functions in a way that is end-to-end learned. The proposed architecture can flexibly compose computation along width and depth, and lends itself well to capacity extension after training. To demonstrate the versatility of Neural Interpreters, we evaluate it in two distinct settings: image classification and visual abstract reasoning on Raven Progressive Matrices. In the former, we show that Neural Interpreters perform on par with the vision transformer using fewer parameters, while being transferrable to a new task in a sample efficient manner. In the latter, we find that Neural Interpreters are competitive with respect to the state-of-the-art in terms of systematic generalization


翻译:现代神经网络结构能够利用大量数据,在培训分布范围内进行广泛推广。然而,它们更没有能力系统地对从无形但相关分布中提取的数据进行系统化的概括,而这种功能被假定为需要构成推理和知识再利用的精华。在这项工作中,我们提出神经解释器,这种结构将自控网络中的推论作为一种模块系统,我们称之为“emph{函数}”;对模型的投入通过一个功能序列,以从尾到尾学习的方式进行。拟议的结构可以灵活地按照宽和深度进行计算,并在培训后很好地扩展能力。为了展示神经解释器的多功能,我们用两种不同的环境来评估它:图像分类和对Rave 进步矩阵的视觉抽象推理。在前一种情况下,我们用较少的参数来显示神经解释器在与视觉变异器相当地工作,同时可以以抽样有效的方式转移到一项新的任务。在后一种情况下,我们发现神经解释器在系统化方面具有竞争力,在系统化的状态上具有竞争力。

7
下载
关闭预览

相关内容

《可解释的机器学习-interpretable-ml》238页pdf
专知会员服务
195+阅读 · 2020年2月24日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
19+阅读 · 2018年10月25日
Arxiv
21+阅读 · 2018年2月14日
Arxiv
3+阅读 · 2018年1月10日
Arxiv
4+阅读 · 2017年11月14日
VIP会员
相关VIP内容
《可解释的机器学习-interpretable-ml》238页pdf
专知会员服务
195+阅读 · 2020年2月24日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Top
微信扫码咨询专知VIP会员