【CV-Pose estimation】王晓刚教授团队论文PyraNet阅读笔记

2017 年 12 月 16 日 极市平台 陈泰红
↑ 点击蓝字关注极市平台 识别先机 创造未来



来源:知乎专栏《深度学习从入门到放弃》


论文连接:https://arxiv.org/abs/1708.01101

源代码:https://github.com/bearpaw/PyraNet


Motivation


该论文是香港中文科技大学王晓刚教授团队之作,目前在MPII官网在Single Person领域,PCKh @ 0.5 evaluation measure,已取得state-of-the-art水平。


计算机视觉处理人体姿态估计的挑战在于,随着摄像头视角变化,人体不同部位的图像会发生显著性尺度变化(离摄像头越近的人体部位,看上去越大,图片中占用像素越多)。单纯低层次或高层次特征是无意义的,需要用特征金字塔网络来融合多层特征,改进CNN特征提取,这也是为什么特征金字塔在目标识别和人体姿态识别领域得到广泛使用。论文在Stacked Hourglass基础上,提出PRMs模型和研究多分支网络的权重初始化方法。本文将会分析论文如何实现改进,从什么方面考虑问题,力求在论文基础上更上一层楼。


论文主要有以下贡献:

1、提出Pyramid Residual Module,金字塔残差模块,它通过学习DCNNs中的特征金字塔来增强深度模型的尺度的不变性,而模型复杂度只有很小的增加。

2、研究具有多个输入或多个输出分支图层的DCNNs初始化问题,提出有效的初始化方案,可用于inception和ResNets等模型。

3、解决由identity mapping引起的激活方差积累的问题。



Architecture


Framework



Stacked Hourglass Networks由多个 stacked hourglass 模块组成,通过重复进行bottom-up, top-down提取特征,是Human Pose Estimation领域经典模型。论文延续了stacked hourglass这种思路,对细节进行了补充。我们还是先对比论文提供的模型PyraNet和经典模型Stacked Hourglass的区别。


1、Stacked Hourglass Networks网络开始是步长为2,filters为7×7的Conv层,其后是residual模块和一串Max Pooling层,将分辨率由256x256降到64x64。其后两个hourglass模块。

论文提出的PyraNet,同样使用两个hourglass模块。hourglass之前是conv+PRM + Pool+PRM同样是256x256降低到64x64的分辨率。

2、Hourglass结构中增加 Score maps(使用score maps表示人体关节的位置)和convolution。

3、Stacked Hourglass使用的残差模块是1x1,1x3卷积以及维度变化,而论文中PyraNet残差模块PRMs包括BN-ReLU-1x1Conv、BN-ReLU-3x3Conv、BN-ReLU-3x3 Dilated Conv、Upsampling、Downsampling。论文中一口气提出四种PRMs。从模型结构来看,主体思想相同,PyraNet在残差模块更丰富一些,或许可以提取更多的特征。

4、论文使用fractional max-pooling代替max-pooling。简单来说,max-pooling是均匀方形池化,fractional max-pooling是不均匀方格池化。max-pooling能带来性能的提升?表示怀疑。

5、论文使用更多的分支,复杂度增加10%,是因为“由于分辨率较小的特征包含的信息相对较少”,论文中小分支使用较少的信息特征通道。


Initialization Multi-Branch Networks

Specifically, if several multi-branch layers are stacked together without other operations (e.g., batch normalization,convolution, ReLU, etc.), the output variance would be increased approximately Ql Ci(l) times by using Xavier or MSR initialization。


在多分支并行情况下,论文宣称残差模块identity mappings 恒等映射,使用Xavier和MSR初始化网络,方差成倍数增加。但是使用BN+ReLU+conv 1x1替换identity mappings,阻止了方差爆炸。



Experiment


论文模型在The MPII human posedataset和The Leeds Sports Poses (LSP)两个数据集测试和验证。


根据标注身体的位置和规模,输入图像裁剪到256×256分辨率。对于LSP测试集,我们 只需使用图像中心作为身体位置,并通过图像大小来估计人体比例。训练数据通过缩放,旋转,翻转和添加颜色实现数据集增广。所有模型都使用Torch在4 Titan X GPUs进行训练,RMSProp优化模型,mini-batch size =16(4 per GPU) ,epochs=200 。The learning rate初始化7×10e-4,并且在150th和170th epoch除以10。


具体实验数据可参看原论文。



Conclusion


16,17年主流算法都是根据Stacked Hourglass延伸,但是本论文和Stacked Hourglass结构太多相似之处!主要创新点是PRMs,也就是残差网络设计。用实验说明identity mappings不如BN+ReLU+conv 1x1。使用fractional max-pooling代替max-pooling真有性能提升?表示怀疑。


*推荐文章*

论文|实时多人姿态估计(含代码)


加入极市Email List (http://extremevision.mikecrm.com/pdKKGSx,获取极市最新项目需求,以及前沿视觉资讯等。

登录查看更多
6

相关内容

论文(Paper)是专知网站核心资料文档,包括全球顶级期刊、顶级会议论文,及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊,CCF-A、B、C三类。通过人机协作方式,汇编、挖掘后呈现于专知网站。
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
73+阅读 · 2020年6月25日
【纽约大学】最新《离散数学》笔记,451页pdf
专知会员服务
123+阅读 · 2020年5月26日
【快讯】KDD2020论文出炉,216篇上榜, 你的paper中了吗?
专知会员服务
50+阅读 · 2020年5月16日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
五篇 ICCV 2019 的【图神经网络(GNN)+CV】相关论文
专知会员服务
14+阅读 · 2020年1月9日
已删除
将门创投
14+阅读 · 2019年5月29日
CVPR 2018 论文简单笔记(部分,待更新)
计算机视觉战队
6+阅读 · 2018年6月20日
CVPR 2018 笔记
计算机视觉战队
3+阅读 · 2018年5月25日
Fast R-CNN
数据挖掘入门与实战
3+阅读 · 2018年4月20日
论文笔记:PTAV
统计学习与视觉计算组
3+阅读 · 2017年9月23日
专栏 | CVPR 2017论文解读:特征金字塔网络FPN
机器之心
8+阅读 · 2017年7月25日
3D Face Modeling from Diverse Raw Scan Data
Arxiv
5+阅读 · 2019年2月13日
Labeling Panoramas with Spherical Hourglass Networks
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
Arxiv
8+阅读 · 2018年5月17日
VIP会员
相关资讯
已删除
将门创投
14+阅读 · 2019年5月29日
CVPR 2018 论文简单笔记(部分,待更新)
计算机视觉战队
6+阅读 · 2018年6月20日
CVPR 2018 笔记
计算机视觉战队
3+阅读 · 2018年5月25日
Fast R-CNN
数据挖掘入门与实战
3+阅读 · 2018年4月20日
论文笔记:PTAV
统计学习与视觉计算组
3+阅读 · 2017年9月23日
专栏 | CVPR 2017论文解读:特征金字塔网络FPN
机器之心
8+阅读 · 2017年7月25日
Top
微信扫码咨询专知VIP会员