CVPR2018 视频显著性检测论文笔记 (1)

小李查

快乐女孩/程序媛/喜欢小栗旬

论文题目：Flow Guided Recurrent Neural Encoder for Video Salient Object Detection

论文创新点

由于卷积模块不具有记忆性，因此在视频显著性检测中，直接只用卷积之后的特征整合不能表示视频中各个帧的时间连续性。本文提出了一个基于光流的循环编码神经网络框架，该框架可以很好的保证视频显著性检测中的时间连续性和对之前视频帧的特征表示。
我们将光流网络整合到了提出的FGRNE框架之中，光流可以对每一帧的动作进行表示，每一帧的光流图将被继续使用，来预测一些在视频中发生剧烈变形的对象的未来动作。如图中的摩托车在视频播放的过程中发生了很大的变形，从很小一个物体变成的很大的一个物体，静态的模型对这类对象的显著性预测不是很理想。

3. 在提出的FGRNE模型中，使用了ConvLSTM进行特征的提取和编码。

ConvLSTM（复习）

FGRNE框架

FGRNE框架一共分为三个模块：动作计算和更新模块、动作变形模块、时间连续性特征编码模块。

由于FGRNE框架可以和静态图片显著性检测网络结合，因此最后输出的特征被送进一个静态显著性检测网络中，进行最终的显著性预测，本文为DSS网络。

动作计算和更新模块

对于给定的k（本文k=5）张连续的帧图片，t为当前帧，t-1为上一帧，依此类推。首先使用现成的光流网络FLowNet提取当前帧t到每一帧的光流，之后将光流按照图中的倒序输入ConvLSTM网络中得到对应的输出，这个输出结果是提炼之后的光流图。光流本身就是描述动作的变化趋势，根据ConvLSTM来预测这种动作转移的趋势。