【CV-Pose estimation】王晓刚教授团队论文PyraNet阅读笔记

会员服务 ·

【CV-Pose estimation】王晓刚教授团队论文PyraNet阅读笔记

2017 年 12 月 16 日 极市平台 陈泰红

↑ 点击蓝字关注极市平台识别先机创造未来

来源：知乎专栏《深度学习从入门到放弃》

论文连接：https://arxiv.org/abs/1708.01101

源代码：https://github.com/bearpaw/PyraNet

Motivation

该论文是香港中文科技大学王晓刚教授团队之作，目前在MPII官网在Single Person领域，PCKh @ 0.5 evaluation measure，已取得state-of-the-art水平。

计算机视觉处理人体姿态估计的挑战在于，随着摄像头视角变化，人体不同部位的图像会发生显著性尺度变化（离摄像头越近的人体部位，看上去越大，图片中占用像素越多）。单纯低层次或高层次特征是无意义的，需要用特征金字塔网络来融合多层特征，改进CNN特征提取，这也是为什么特征金字塔在目标识别和人体姿态识别领域得到广泛使用。论文在Stacked Hourglass基础上，提出PRMs模型和研究多分支网络的权重初始化方法。本文将会分析论文如何实现改进，从什么方面考虑问题，力求在论文基础上更上一层楼。

论文主要有以下贡献：

1、提出Pyramid Residual Module，金字塔残差模块，它通过学习DCNNs中的特征金字塔来增强深度模型的尺度的不变性，而模型复杂度只有很小的增加。

2、研究具有多个输入或多个输出分支图层的DCNNs初始化问题，提出有效的初始化方案，可用于inception和ResNets等模型。

3、解决由identity mapping引起的激活方差积累的问题。

Architecture

Framework

Stacked Hourglass Networks由多个 stacked hourglass 模块组成，通过重复进行bottom-up, top-down提取特征，是Human Pose Estimation领域经典模型。论文延续了stacked hourglass这种思路，对细节进行了补充。我们还是先对比论文提供的模型PyraNet和经典模型Stacked Hourglass的区别。

1、Stacked Hourglass Networks网络开始是步长为2，filters为7×7的Conv层，其后是residual模块和一串Max Pooling层，将分辨率由256x256降到64x64。其后两个hourglass模块。

论文提出的PyraNet，同样使用两个hourglass模块。hourglass之前是conv+PRM + Pool+PRM同样是256x256降低到64x64的分辨率。

2、Hourglass结构中增加 Score maps（使用score maps表示人体关节的位置）和convolution。

3、Stacked Hourglass使用的残差模块是1x1,1x3卷积以及维度变化，而论文中PyraNet残差模块PRMs包括BN-ReLU-1x1Conv、BN-ReLU-3x3Conv、BN-ReLU-3x3 Dilated Conv、Upsampling、Downsampling。论文中一口气提出四种PRMs。从模型结构来看，主体思想相同，PyraNet在残差模块更丰富一些，或许可以提取更多的特征。

4、论文使用fractional max-pooling代替max-pooling。简单来说，max-pooling是均匀方形池化，fractional max-pooling是不均匀方格池化。max-pooling能带来性能的提升？表示怀疑。

5、论文使用更多的分支，复杂度增加10%，是因为“由于分辨率较小的特征包含的信息相对较少”，论文中小分支使用较少的信息特征通道。

Initialization Multi-Branch Networks

Specifically, if several multi-branch layers are stacked together without other operations (e.g., batch normalization,convolution, ReLU, etc.), the output variance would be increased approximately Ql Ci(l) times by using Xavier or MSR initialization。

在多分支并行情况下，论文宣称残差模块identity mappings 恒等映射，使用Xavier和MSR初始化网络，方差成倍数增加。但是使用BN+ReLU+conv 1x1替换identity mappings，阻止了方差爆炸。

Experiment

论文模型在The MPII human posedataset和The Leeds Sports Poses (LSP)两个数据集测试和验证。

根据标注身体的位置和规模，输入图像裁剪到256×256分辨率。对于LSP测试集，我们只需使用图像中心作为身体位置，并通过图像大小来估计人体比例。训练数据通过缩放，旋转，翻转和添加颜色实现数据集增广。所有模型都使用Torch在4 Titan X GPUs进行训练，RMSProp优化模型，mini-batch size =16(4 per GPU) ，epochs=200 。The learning rate初始化7×10e-4，并且在150th和170th epoch除以10。

具体实验数据可参看原论文。

Conclusion

16,17年主流算法都是根据Stacked Hourglass延伸，但是本论文和Stacked Hourglass结构太多相似之处！主要创新点是PRMs，也就是残差网络设计。用实验说明identity mappings不如BN+ReLU+conv 1x1。使用fractional max-pooling代替max-pooling真有性能提升？表示怀疑。