视频预测领域有哪些最新研究进展？不妨看看这几篇顶会论文

2020 年 1 月 2 日 PaperWeekly

作者丨文永亮

学校丨哈尔滨工业大学（深圳）硕士生

研究方向丨视频预测、时空序列预测

ICCV 2019

这是卡耐基梅隆和 Facebook 的一篇 paper，这篇论文的关键在于分解实体预测再组成，我们观察到一个场景是由不同实体经历不同运动组成的，所以这里提出的方法是通过隐式预测独立实体的未来状态，同时推理它们之间的相互作用，并使用预测状态来构成未来的视频帧，从而实现了对实体分解组成的视频预测。

该论文使用了两个数据集，一个是包含可能掉落的堆叠物体 ShapeStacks，另一个包含人类在体育馆中进行活动的视频 Penn Action，并表明论文的方法可以在这些不同的环境中进行逼真的随机视频预测。

主要架构有下面三个部分组成：

1. Entity Predictor（实体预测模块）：预测每一个实体表示的未来状态；

2. Frame Decoder（帧解码器）：从实体表示中解码成 frame；

3. Encoder（编码器）：把 frame 编码成 u 作为 LSTM 的 cell-state 得到输出记录时序信息（最后其实就是 concat 进去，见如下）。

https://github.com/JudyYe/CVP/blob/c176a508e6cbddd60b932b76af8931f774e2efa0/cvp/graph.py#L349

obj_vecs = torch.cat([pose, bbox, diff_z], dim=-1)

模型将具有已知或者检测到的实体位置的图像作为输入。每个实体均表示为其位置和隐式特征。每个实体的表示为

，

表示为预测的位置，

表示为隐式特征，这样的分解方便我们高效地预测每一个实体的未来状态，给定当前实体表示形式和采样的潜在变量，我们的预测模块将在下一个时间步预测这些表示形式。我们所学的解码器将预测的表示组合为代表预测的未来的图像。在训练期间，使用潜在编码器模块使用初始帧和最终帧来推断潜在变量的分布。

分解的思想一般都用 mask 来体现，就是把变化的与不变的用掩码表示后在组合起来，预测变化的部分，这是分而治之的思想。

让

表示在 g 的网络结构下解码每一个实体的特征和空间掩码，让 W 表示类似 Spatial Transformer Networks 的空间变化网络，可以得到下面的实体的特征和掩码

和

。

通过权重掩码和各个特征的结合最后取平均，这样我们就得到图像级别的特征，即每一帧的特征，是常数的空间掩码（论文取值为 0.1），其组成的特征表示如下：

上面的公式很好理解，⊙ 是像素乘法，⊕ 是像素加法，

这个是加权后的背景特征与加权后的每个实体的特征的总和，最后除以权重和。这样就得到了解码的结果。

编码器的作用是把各帧

编码成 u，u 的分布服从标准正态分布

，所以需要拉近两者之间的 KL 散度，u 作为 cell-state 输入 LSTM 得到

表示时间序列的隐状态。

解码损失就是实体表示

经过解码与真实图像

的 L1 损失。

预测损失即为解码损失加上位置损失

。

其总的损失函数即三个损失的和。

ICLR 2019

当我们与环境中的对象进行交互时，我们可以轻松地想象我们的行为所产生的后果：推一颗球，它会滚走；扔一个花瓶，它会碎掉。视频预测中的主要挑战是问题的模棱两可，未来的发展方向似乎有太多。就像函数的导数能够预测该值附近的走向，当我们预测非常接近的未来时我们能够未来可期，可是当可能性的空间超出了几帧之后，并且该问题本质上变成了多模的，即预测就变得更多样了。

这篇把 GAN 和 VAE 都用在了视频预测里，其实 GAN-VAE 在生成方面早有人结合，只是在视频预测中没有人提出，其实提出的 SAVP 是 SV2P (Stochastic Variational Video Prediction) 和SVG-LP (Stochastic Video Generation with a Learned Prior) 的结合。

▲ SV2P网络结构

在训练期间，隐变量从中采样，对每一帧的生成都可以看作是对的重构，与被 Encoder 编码为隐变量，前一帧与隐变量经过 G 模型之后得到预测帧要计算与当前帧的 L1 损失，使其生成要尽量相似。

在测试阶段我们的隐变量从先验分布直接采样，与经过 G 生成下一帧的预测图，所以需要同时拉近与的分布，其 KL 散度如下：

所以 G 和 E 的目标函数如下：

L1 损失并不是很能反映图像的相似度，既然文章是 VAE 和 GAN 的结合，所以在下面提出了判别器去评判图片质量。论文指出单纯的 VAE 更容易产生模糊图，这里加入的判别器是能够分辨出生成视频序列与真实视频序列，这里是比较意想不到的地方，因为这里没有使用直接的图像判别器，而是判别生成序列与真实序列，其 D 判别器的网络结构是使用了 3D 卷积基于 SNGAN 的，G 生成器是使用了 convLSTM 捕捉时空序列信息。

最后总的损失函数如下：

下面是论文中的实验结果：

ICCV 2019

Non-Local ConvLSTM 是复旦大学和 B 站的论文，其实这篇不太算视频预测方向，这是使用了在 ConvLSTM 中使用 Non-Local 结合前一帧增强图像减少视频压缩的伪影，是视频压缩的领域，但是对我有些启发，Non-Local 最初就是用于视频分类的。

SSIM是用来评价整张图的质量，但是对于一张质量不好的图来说他的 patch 并不一定差，对于一张好图来说他的 patch 也不一定好，所以作者用 Non-Local 来捕捉两帧之间特征图间像素的相似性。

ConvLSTM 可以表示成下面的公式：

即 hidden state 是从上一次的 hidden state 和经过 ConvLSTM-cell 得到的。

而 NL-ConvLSTM 是在 ConvLSTM 的基础上加了 Non-local 的方法，可以表示如下：

其中是当前帧与前一帧的的相似矩阵，这里的 Non-Local 的操作是一种特殊的 attention，这不是 self-attention，是比较前一帧获得相似矩阵再计算 attention，NLWrap 操作可以用数学表达如下：

这里的公式估计论文写错了，我认为是：

但是由于 Non-local 计算量太大，作者提出了两阶段的 Non-Local 相似度估计，即池化之后做相似度计算如下：

CVPR 2019

这是清华大学的一篇 paper，作者 Yunbo Wang 也是 Eidetic 3D LSTM，PredRNN++，PredRNN 的作者，自然时空序列的发生过程常常是非平稳（ Non-Stationarity ）的，在低级的非平稳体现在像素之间的空间相关性或时序性，在高层语义特征的变化其实体现在降水预报中雷达回波的积累，形变或耗散。

上图是连续 20 帧雷达图变化，其中白色像素表示降水概率较高。第二、第三、最后一行：通过不同颜色的边框表明相应局部区域的像素值分布、均值和标准差的变化。蓝色和黄色框表明着生成的非平稳变化过程，红色框表明了消散的过程，绿色框为形变过程。

▲ 左边为ST-LSTM (Spatio-Temporal LSTM)，右边为加入了MIM模块的LSTM

这篇论文的主要工作就是构造了 MIM 模块代替遗忘门，其中这个模块分为两部分：MIM-N（非平稳模块），MIM-S（平稳模块）。

MIM-N 所有的门,,，和都用短期记忆的隐状态的帧差更新，因为这样强调了非平稳变换，最后得到特征差和作为 MIM-S 输入，MIM-S 会根据原记忆和特征差决定变化多少，如果很小，意味着并不是非平稳变化，即变化得平稳，MIM-S 很大程度会继续沿用；如果很大，则会重写记忆并且更关注于非平稳变化。

其数学表达式如下：

1. MIM-N：

2. MIM-S：

这一篇的实验做的很全面，其效果如下，均达到了 state-of-the-art：

Moving Mnist：

在数字集上的表现效果较好。

Radar Echo：

其实可以看到 MSE 在预测第五帧才有明显的优势，CSI-40 和 CSI-50 其实并没有明显优势。

总结

视频预测是结合了时空序列信息的预测，其关键在于如何利用时序信息，ConvLSTM 就是把卷积直接与 LSTM 结合记录时序信息，而在 VAE 相关的模型中时间序列被编码成隐变量拼接起来。除了修改 LSTM-cell 的结构（e.g. MIM）或者其他的网络结构尝试捕捉其他信息，我们常见的一种思想就是分而治之，把变与不变用掩码区分出来，有点像我之前解读的一篇 BANet，这里的 CVP 方法甚至对实体直接进行预测，这些都是比较好的想法。