【论文笔记】用于动作识别的空间残差层和密集连接块增强的时空图卷积网络

2020 年 1 月 13 日 专知


导读




近期的研究表明,利用图卷积网络(GCN)对人体的动态关节特征进行建模是基于骨骼的动作识别的一种开创性方法。然而,如何对相关骨架信息进行建模和综合利用仍然是一个悬而未决的问题。为了捕捉丰富的时空信息,更有效地利用特征,文中引入了空间残差层和密集块增强的时空图卷积网络,在降低复杂度的同时提取更精确、丰富的时空特征。




贡献



这篇文章的主要贡献如下:

1)文中提出了一个跨域空间残差层,可以有效的捕获时空信息;

2)提出了一种密集连接块用于ST-GCN学习全局信息,提高特征的鲁棒性;

3)空间残差层和密集连接块增强的时空图卷积网络在两个基准数据集上具有相当或优于最新方法的性能。




方法概述






准备工作


图的定义


在一个图G = (V,E)中,V是节点的集合,E是边的集合,连接相邻的节点。A是图的邻接矩阵。如果第i个与第j个节点间存在连接,则A_{i,j}=1,否则A_{i,j}=0.图G的归一化邻接矩阵定义为:

其中:

  • D是图G的度矩阵


对于每一个骨架数据,整个人体骨架构成一个图形结构,其中骨架的关节和骨胳是图形的点和边,使用特征矩阵表示关节的坐标信息(可以是2D或3D坐标(x,y)或者(x,y,z)),特征矩阵表示为:


X∈R^{n*d*T}


其中:

  • n是一帧中的关节数

  • d是关节空间坐标的维度

  • T表示一个视频中的帧数

  • X_t = X_{:,:,t}是第t帧的关节位置信息

  • X^i_t = X_{i,:,:,t}是第i的节点的在第t帧的关节位置信息


时空图卷积网络


让X∈R^{n*d_in}为关节的输入特征,Y∈R^{n*d_out}为通过图卷积操作获得的输出特征,图卷积操作可以计算为:

其中:

  • ~A是归一化的邻接矩阵,可以计算为:

  • M∈R^{n*n}与W∈R^{n*d_out}是可训练权重表示边与节点的重要性




时空图卷积新的结构


基于原来的时空图卷积网络,文中提出了一个新的时空图卷积框架——空间残差层和密集连接块增强的时空图卷积网络(SDGCN)


空间残差层(SRL)


为了更有效地学习时空信息,文中在时空GCN层的输入和输出之间引入了一种二维空间残差结构(绿色块),如下图所示:



加入空间残差结构的时空图卷积可以计算为:

其中:

  • B表示时间卷积核

  • X表示输入特征

  • Y表示时空图卷积的输出特征


密集连接块(DBC)


从DenseNet中受到启发,文中在时空图卷积网络中引入了密集连接,下图为一个密集连接块的示例,每一个SRL层的输入特征都与先前的SRL层的输出特征有关。

在每个密集连接块中,每一层都已连接到所有后续层,对于第l层,输出特征表示为:

其中:

  • [x_0,x_1,.,x_{l−1}]是第0,1,.,l−1层的所有输出特征的串联

  • C是空间残差层(SRL)操作


模型框架


通过将空间残留层和密集连接块结合在一起,可以形成改进的时空图卷积的最终的体系结构,表示为SDGCN。如下图所示,几个空间残差层(图中的圆圈)组成一个密集连接块。

整个网络结构由3个密集连接块组成,并且文中设置了两中不同的框架,右侧框架(DCB2)中每个模块由三个密集连接块组成,每个密集连接包含四个空间残差层。而在左侧框架(DCB1)中,除了第一个连接块与右侧一致之外,之后两个块的层数都减少到了三层。




实验


数据集


1)Kinetics:是从YouTube收集的动作识别数据集,有400个类,并且划分为24万个训练样本和2万个验证样本。该数据集只包含视频数据,需要使用OpenPose工具箱来获取骨架数据,包含每帧图片的18个关节点的二维坐标和置信度分数


2)NTU-RGB+D:是由三台摄像机拍摄的56,800个动作样本,该数据包括,RGB视频、深度图序列、3D骨架和红外视频,3D骨架包括在视频的每帧中标记的25个关节点的空间位置的三维坐标。


实验结果


为了探索空间残差层与密集连接的效果,文中使用STGCN作为基准模型,分别在两个数据集上对比了只包含这两个模块的模型的结果,从表1与表2中我们可以得到与原始STGCN相比,空间残差层与密集连接对于动作识别的准确率都有所提升。

文中也在两个数据集上对比了SDGCN与其它基准模型的效果,如表3与表4所示,可以看到2s-SDGCN的性能优与大部分的基准模型。




结论


为了提高基于骨架的动作识别性能,文中提出了一种统一的时空图卷积网络框架SDGCN。该方法通过引入跨域空间图残差层和密集连接块,充分利用了时空信息。提高了时空信息处理的有效性。它可以很容易地并入主流的时空图网络。



专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看5000+AI主题知识资料
登录查看更多
2

相关内容

【KDD2020】自适应多通道图卷积神经网络
专知会员服务
119+阅读 · 2020年7月9日
【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐
专知会员服务
72+阅读 · 2020年6月1日
【IJCAI2020】图神经网络预测结构化实体交互
专知会员服务
42+阅读 · 2020年5月13日
【CVPR2020】图神经网络中的几何原理连接
专知会员服务
56+阅读 · 2020年4月8日
【CVPR2020】L2 ^GCN:图卷积网络的分层学习高效训练
专知会员服务
37+阅读 · 2020年3月31日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
【论文笔记】Graph U-Nets
专知
80+阅读 · 2019年11月25日
【论文笔记】自注意力图池化
专知
80+阅读 · 2019年11月18日
【论文笔记】图卷积的解释性技术
专知
18+阅读 · 2019年9月28日
图卷积在基于骨架的动作识别中的应用
极市平台
24+阅读 · 2019年6月4日
3D-LaneNet: end-to-end 3D multiple lane detection
Arxiv
7+阅读 · 2018年11月26日
Arxiv
4+阅读 · 2018年1月29日
VIP会员
相关VIP内容
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
119+阅读 · 2020年7月9日
【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐
专知会员服务
72+阅读 · 2020年6月1日
【IJCAI2020】图神经网络预测结构化实体交互
专知会员服务
42+阅读 · 2020年5月13日
【CVPR2020】图神经网络中的几何原理连接
专知会员服务
56+阅读 · 2020年4月8日
【CVPR2020】L2 ^GCN:图卷积网络的分层学习高效训练
专知会员服务
37+阅读 · 2020年3月31日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
相关资讯
【论文笔记】Graph U-Nets
专知
80+阅读 · 2019年11月25日
【论文笔记】自注意力图池化
专知
80+阅读 · 2019年11月18日
【论文笔记】图卷积的解释性技术
专知
18+阅读 · 2019年9月28日
图卷积在基于骨架的动作识别中的应用
极市平台
24+阅读 · 2019年6月4日
Top
微信扫码咨询专知VIP会员