胶囊 (向量神经) 网络

2018 年 1 月 10 日 机器学习研究会
0
引言


斯蒂文认为机器学习有时候像婴儿学习,特别是在物体识别上。比如婴儿首先学会识别边界和颜色,然后将这些信息用于识别形状和图形等更复杂的实体。比如在人脸识别上,他们学会从眼睛和嘴巴开始识别最终到整个面孔。当他们看一个人的形象时,他们大脑认出了两只眼睛,一只鼻子和一只嘴巴,当认出所有这些存在于脸上的实体,并且觉得“这看起来像一个人”。


斯蒂文首先给他的女儿悠悠看了以下图片,看她是否能自己学会认识图中的人(金·卡戴珊)。



斯蒂文接下来用几张图来考她:


悠悠

图中有两只眼睛一个鼻子一张嘴巴,图中的物体是个人。

斯蒂文

正确!


悠悠

图中有两只眼睛一个鼻子一张嘴巴,图中的物体是个人。

斯蒂文

错误!嘴巴长到眼睛上还是个人吗?



悠悠

图中有一大块都是黑色的,图中的物体好像是头发。

斯蒂文

错误!这只是把第一张图颠倒一下,怎么就变成头发了?


斯蒂文很失望,觉得她第二、三张都应该答对,但是他对悠悠要求太高了,要知道现在深度学习里流行的卷积神经网络 (convolutional neural network, CNN) 给出的答案也和悠悠一样,如下:



第一张 CNN 给出的答案是人,概率为 0.88,正确;第二张 CNN 给出的答案也是人,概率为 0.90 ,开玩笑在?第三张 CNN 给出的答案是黑发,概率为 0.79 ,呵呵,和悠悠一样天真。

 

CNN 弄错的两张图也是因为它的两个缺陷:

 

  1. CNN 对物体之间的空间关系 (spatial relationship) 的识别能力不强,比如卡戴珊的嘴巴和眼睛换位置了还被识别成人?

  2. CNN 对物体旋转之后的识别能力不强 (微微旋转还可以),比如卡戴珊倒过来就被识别成头发了?

 

Convolutional neural networks are doomed. -- Hinton


大神 Hinton 如此说道“卷积神经网络要完蛋了”,因此他最近也提出了一个 Capsule 的东西,直译成胶囊。但是这个翻译丢失了很多重要的东西,个人认为叫做向量神经元 (vector neuron) 甚至张量神经元 (tensor neuron) 更贴切。正式介绍 Capsule 的这篇文章在 2017 年 11 月 7 日才出来,论文名字叫《Dynamic Routing Between Capsules》,有兴趣的同学跟我走一遭吧。

目录

第一章 - 前戏王


    1.1 物体姿态

    1.2 不变性和同变性

    1.3 全连接层

    1.4 卷积神经网络


第二章 - 理论皇


    2.1 胶囊定义

    2.2 神经元类比

    2.3 工作原理

    2.4 动态路由

    2.5 网络结构


第三章 - 实践狼


    3.1 帆船房子

    3.2 代码解析


总结和下帖预告



1
前戏王


1.1

物体姿态


为了正确的分类和识别物体,保持物体部分之间的分层姿态 (hierarchical pose) 关系是很重要的。姿态主要包括平移 (translation)、旋转 (rotation) 和放缩 (scale) 三种形式。


在拍摄人物时,我们调动照相机的角度从 3D 的人生成 2D 的照片。照出来的人物照角度多种多样,但人是个整体 (脸和身体对于人的相对位置不会变)。因此我们不想定义相对于相机的所有对象 (脸和身体),而将它们定义一个相对稳定的坐标系 (coordinate frame) 中,然后仅仅通过转动相机来照出不同角度的照片。


在创建这些图形时,我们首先会定义脸和身体相对于人的位置,更进一层,我们会定义眼睛和嘴巴对于相对于脸的位置,但不是相对于人的位置。因为之前已经有了脸相对于人的位置,现在又有了眼睛相对于脸的位置,那么也有了眼睛相对于人的位置。本质上,你将有层次的创建一个完整的人,而所需要的数学工具就是姿态矩阵 (pose matrix),这个矩阵定义所有对象相对于照相机的视点 (viewpoint),并且还表示了部件与整体之间的关系。


In order to correctly do classification and object recognition, it is important to preserve hierarchical pose relationships between object parts. -- Hinton


Hinton 认为,为了正确地进行分类和对象识别,重要的是保持对象部分之间的分层姿态关系。后面讲到的 Capsule 就符合这个重要直觉,它结合了对象之间的相对关系,并以姿态矩阵来表示。


完整内容请点击 “阅读原文”


转自:王的机器

登录查看更多
7

相关内容

在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
42+阅读 · 2020年7月7日
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
73+阅读 · 2020年6月25日
【纽约大学】最新《离散数学》笔记,451页pdf
专知会员服务
123+阅读 · 2020年5月26日
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
65+阅读 · 2020年2月29日
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
50+阅读 · 2020年2月19日
专知会员服务
25+阅读 · 2020年2月15日
【教程】可视化CapsNet,详解Hinton等人提出的胶囊概念与原理
GAN生成式对抗网络
8+阅读 · 2018年4月11日
看完这篇,别说你还不懂Hinton大神的胶囊网络
人工智能头条
8+阅读 · 2018年3月28日
三味Capsule:矩阵Capsule与EM路由
PaperWeekly
10+阅读 · 2018年3月2日
CapsNet入门系列之四:胶囊网络架构
论智
12+阅读 · 2018年2月23日
万众期待:Hinton团队开源CapsNet源码
专知
6+阅读 · 2018年2月1日
漫谈Capsule Network基本原理
深度学习每日摘要
8+阅读 · 2017年12月6日
CapsNet入门系列之三:囊间动态路由算法
论智
12+阅读 · 2017年12月1日
CapsNet入门系列之二:胶囊如何工作
论智
11+阅读 · 2017年11月22日
CapsNet入门系列之一:胶囊网络背后的直觉
论智
8+阅读 · 2017年11月20日
Neural Response Generation with Meta-Words
Arxiv
6+阅读 · 2019年6月14日
Arxiv
23+阅读 · 2018年10月1日
Arxiv
4+阅读 · 2018年9月25日
Text classification using capsules
Arxiv
5+阅读 · 2018年8月12日
VIP会员
相关VIP内容
专知会员服务
42+阅读 · 2020年7月7日
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
73+阅读 · 2020年6月25日
【纽约大学】最新《离散数学》笔记,451页pdf
专知会员服务
123+阅读 · 2020年5月26日
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
65+阅读 · 2020年2月29日
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
50+阅读 · 2020年2月19日
专知会员服务
25+阅读 · 2020年2月15日
相关资讯
【教程】可视化CapsNet,详解Hinton等人提出的胶囊概念与原理
GAN生成式对抗网络
8+阅读 · 2018年4月11日
看完这篇,别说你还不懂Hinton大神的胶囊网络
人工智能头条
8+阅读 · 2018年3月28日
三味Capsule:矩阵Capsule与EM路由
PaperWeekly
10+阅读 · 2018年3月2日
CapsNet入门系列之四:胶囊网络架构
论智
12+阅读 · 2018年2月23日
万众期待:Hinton团队开源CapsNet源码
专知
6+阅读 · 2018年2月1日
漫谈Capsule Network基本原理
深度学习每日摘要
8+阅读 · 2017年12月6日
CapsNet入门系列之三:囊间动态路由算法
论智
12+阅读 · 2017年12月1日
CapsNet入门系列之二:胶囊如何工作
论智
11+阅读 · 2017年11月22日
CapsNet入门系列之一:胶囊网络背后的直觉
论智
8+阅读 · 2017年11月20日
Top
微信扫码咨询专知VIP会员