In this paper, we concern on the bottom-up paradigm in multi-person pose estimation (MPPE). Most previous bottom-up methods try to consider the relation of instances to identify different body parts during the post processing, while ignoring to model the relation among instances or environment in the feature learning process. In addition, most existing works adopt the operations of upsampling and downsampling. During the sampling process, there will be a problem of misalignment with the source features, resulting in deviations in the keypoint features learned by the model. To overcome the above limitations, we propose a convolutional neural network for bottom-up human pose estimation. It invovles two basic modules: (i) Global Relation Modeling (GRM) module globally learns relation (e.g., environment context, instance interactive information) among region of image by fusing multiple stages features in the feature learning process. It combines with the spatial-channel attention mechanism, which focuses on achieving adaptability in spatial and channel dimensions. (ii) Multi-branch Feature Align (MFA) module aggregates features from multiple branches to align fused feature and obtain refined local keypoint representation. Our model has the ability to focus on different granularity from local to global regions, which significantly boosts the performance of the multi-person pose estimation. Our results on the COCO and CrowdPose datasets demonstrate that it is an efficient framework for multi-person pose estimation.


翻译:在本文中,我们关注多人姿势估计中的自下而上范例。大多数先前的自下而上方法尝试在后处理期间考虑实例之间的关系以识别不同的身体部位,而忽略了在特征学习过程中对实例之间或环境之间的关系建模。此外,大多数现有工作采用上取样和下取样的操作。在采样过程中,会出现与源特征不对齐的问题,从而导致模型学习到的关键点特征偏离。为克服上述限制,我们提出了一个卷积神经网络用于自下而上的人体姿势估计。它包括两个基本模块:(i)全局关系建模(GRM)模块在特征学习过程中全局学习(例如,环境上下文,实例交互信息)的区域之间的关系。它与空间通道注意机制相结合,侧重于在空间和通道维度上实现适应性。 (ii)多支路特征对齐(MFA)模块从多个分支聚合特征以对齐融合特征并获得精细化的本地关键点表示。我们的模型能够关注不同粒度的本地到全局区域,从而显著提高了多人姿势估计的性能。我们在COCO和CrowdPose数据集上的结果表明,它是一种有效的多人姿势估计框架。

0
下载
关闭预览

相关内容

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型
专知会员服务
14+阅读 · 2021年8月2日
【CVPR2021】重新思考BiSeNet让语义分割模型速度起飞
专知会员服务
32+阅读 · 2021年5月5日
CVPR 2021 Oral | 室内动态场景中的相机重定位
专知会员服务
15+阅读 · 2021年4月12日
专知会员服务
59+阅读 · 2021年3月17日
轻量attention模块:Spatial Group-wise Enhance
极市平台
15+阅读 · 2019年7月3日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
【泡泡一分钟】端到端的弱监督语义对齐
泡泡机器人SLAM
53+阅读 · 2018年4月5日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
10+阅读 · 2018年4月19日
VIP会员
相关VIP内容
相关资讯
轻量attention模块:Spatial Group-wise Enhance
极市平台
15+阅读 · 2019年7月3日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
【泡泡一分钟】端到端的弱监督语义对齐
泡泡机器人SLAM
53+阅读 · 2018年4月5日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员