ICIP 2019 开源论文 | 基于注意力网络的RGBD图像语义分割方法

2019 年 9 月 22 日 PaperWeekly

作者丨赵磊

单位丨北京林业大学硕士生

研究方向丨语义分割

本文已经被 ICIP 2019 (2019 IEEE International Conference on Image Processing) 接收，论文提出了一种全新的方法，基于时下流行的注意力机制，用于室内场景下的 RGBD 图像语义分割——通过利用图像深度信息，获得更好的语义分割效果，在包含 40 个类别的复杂室内场景通用数据集 NYUDv2 上取得了 SOTA 效果，mIoU 达到了 48.3%，论文主要的贡献在于注意力辅助模块和三平行分支的网络架构。

背景

当下图像语义分割的研究多关注室外场景，为自动驾驶等任务提供支持，而关注室内场景的研究较少，室内场景图像中目标亮度不均且在空间上存在较多的重叠，使用 RGBD 图像相较于 RGB 图像，能够取得较好的分割效果，RGBD 图像即 RGB 图像和深度（Depth）图像的结合，包括 RGB 三个通道和一个代表像素点与相机距离的深度通道共四个通道。

已有的 RGBD 图像语义分割方法有两种思路：一是利用两个编码器分别从 RGB 图像和深度图像中提取特征，结合之后进行上采样；二是在下采样阶段直接将两个特征融合处理。

前者不能将两种特征充分融合，后者没有考虑两种特征对最终结果的贡献程度，对于 RGB 图像信息和深度图像信息可能不充分对等的 RGBD 图像中，都不能取得较好的效果。为此论文提出了集成注意力机制的三平行分支架构的语义分割网络 ACNet，在通用数据集 NYUDv2 上取得了 SOTA 效果。

ACNet

ACNet 网络架构如下图所示：

两个基于 ResNet 的独立分支分别用于 RGB 图像和深度图像的特征提取，根据每一层特征所包含的信息量设计的多个注意力辅助模块（ACM，Attention Complementary Modules）来平衡特征的分布，使网络更加关注图像的有效区域，一个同样基于 ResNet 的独立分支用于融合 RGB 特征和深度特征，最后经过多次上采样得到分割结果。ACNet 在保持原始 RGBD 特征流的同时充分利用了融合后的特征，最后分几步进行上采样，下面具体来看。

注意力辅助模块-ACM

如上图所示，室内场景下的 RGBD 图像中，RGB 图像和深度图像的特征分布完全不同，为了使网络专注于目标的有效区域，论文设计了多个注意力辅助模块 ACMs，单个 ACM 结构如下图所示：

ACM 基于通道注意力机制，假定输入特征图

，首先应用全局平均池化，得到输出

，其中 C 代表通道数，H、W 分别表示特征图的高和宽，特征图的第 k 个通道可以表示为：

之后保持 Z 的通道数不变，通过一个点卷积 (1×1) 层，以挖掘通道之间的联系以确定其权重的分布，接着应用 sigmoid 激活方法得到

，与输入特征图 A 进行一次叉乘得到外积 U，一个具有更多有效信息的特征图。该阶段的过程可以表示为：

特征融合架构

为了过早或过晚融合 RGB 特征和深度特征，ACNet 设计的第三个独立分支逐阶段的进行特征融合，充分利用浅层和深层的特征，不仅保留了两个独立分支的特征信息，还能有效利用融合特征。

实验

ACM的分析

以 layer2 时的特征图为例，可视化如下图所示：

不同阶段的 ACM 得到的权重分布：

实验结果

实验结果如下图所示，相比结构更为复杂的 RGBD 图像分割领域的 SOTA 模型 CFN（RefineNet-152），使用 ResNet-50 的 ACNet 在 NYUDv2 数据集 mIoU 更高，达到了48.3%，在 SUN-RGBD 数据集上取得了与 CFN 相当的实验精度。

总结

论文提出用于室内场景下 RGBD 图像语义分割网络 ACNet，三分支架构和注意力辅助模块较好的平衡了 RGBD 图像中 RGB 图像特征和深度图像特征。在 SLAM 领域之外，利用包含更多的信息 RGBD 图像来提升语义分割效果的方式，同样可以用在室外场景分割中。论文虽然相比 SOTA 模型更为精简，但是仍不能满足实时的要求，这也是论文提出的方法未来的一个优化方向。

参考文献

[1] https://arxiv.org/abs/1905.10089

[2] https://github.com/anheidelonghu/ACNet

点击以下标题查看更多往期内容：

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文 & 源码

登录查看更多

相关内容

ICIP

关注 2

由IEEE信号处理学会主办的国际图像处理会议(ICIP)是展示理论、实验、应用图像和视频处理领域的技术进步和研究成果的主要论坛。该会议汇聚了来自世界各地的图像和视频处理领域的顶尖工程师和科学家。主题包括但不限于：感测，表示和建模、图像和视频分析和分段、合成，渲染和可视化、运动估计，配准和融合、图像和视频的感知和质量模型。官网地址：http://dblp.uni-trier.de/db/conf/icip/

基于深度学习的多标签生成研究进展

专知会员服务

147+阅读 · 2020年4月25日

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

专知会员服务

45+阅读 · 2020年4月17日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日