CVPR2020 | 给人脸视频恢复模型带上耳朵

2020 年 7 月 9 日 中国图象图形学报

主题词

压缩视频恢复，人脸视频，音视频相关性，

多模态融合，视频编码结构信息

在视频内容中，社交媒体上的面对面通话、新闻广播、脱口秀等，人脸几乎是最常见且最显著的对象。然而，由于人类视觉系统对人脸的高敏感性，人脸视频中的压缩失真会非常明显且令人讨厌。

图图今天推荐的CVPR2020论文提供了解决方案。由上海交通大学、麦克马斯特大学与山东大学联合发表的论文《DAVD-Net: Deep Audio-Aided Video Decompression of Talking Heads》，提出了一种新颖的深度卷积神经网络构架，利用人脸讲话时音频与视频的相关性来去除人脸区域的压缩噪音，恢复出高质量的人脸视频。

论文信息

标题：DAVD-Net: Deep Audio-Aided Video Decompression of Talking Heads

作者：Xi Zhang, Xiaolin Wu*, Xinliang Zhai, Xianye Ben, Chengjie Tu

引用格式：X. Zhang, X. Wu, X. Zhai, X. Ben, C. Tu. "DAVD-Net: Deep Audio-Aided Video Decompression of Talking Heads." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.

PDF下载：https://openaccess.thecvf.com/content_CVPR_2020/papers/Zhang_DAVD-Net_Deep_Audio-Aided_Video_Decompression_of_Talking_Heads_CVPR_2020_paper.pdf

研究背景

在当今数字互连的社会中，视频压缩成为必不可少的技术。为了获得可接受的成本效益，流行的视频压缩方法（例如MPEG-4，H.264，HEVC）必须将视频数据压缩到足以节省带宽和存储空间的程度。对于高压缩率或低比特率，有损视频压缩不可避免地会产生令人讨厌的失真，例如块效应，模糊和锯齿噪音等。基于深度学习的视频去压缩噪音方法可以有效去除视频中的压缩失真，提高视频的主观质量。

论文专注于基于卷积神经网络的带有音频辅助信息的压缩人脸视频恢复。在生理上，面部肌肉，尤其是嘴唇上的肌肉，将声音和气流塑造成语音。这就是人们可以读唇语的原因，即使没有声音，也可以通过观看说话者的嘴唇运动来识别说话。

研究方法

本文探索如何利用人脸视频中的音频信息及编码结构信息，来提高极低码率下的人脸压缩视频的恢复效果。

图1 研究方法框架

1. 利用Bi-LSTM提取音频特征，并生成2-D的音频特征图，然后利用空间注意力模块将音频特征图与视频特征图融合；

2. 融合后的音频与视频特征图经过由残差模块（ResBlock）组成的恢复网络，输出重构的人脸视频帧；

3. 在输出之前，重构的视频帧由投影模块精炼，该投影模块通过视频压缩标准的变换域中的量化边界来约束解空间。

研究结果

论文在业界常用的Obama和Vox2两个数据集上进行了验证，发现音频信息和编码结构信息的加入可以有效提高人脸压缩视频的恢复效果。本研究还与目前最先进的视频去压缩噪音算法DKFN、MFQE和EDVR进行了对比，在PSNR指标上可以取得0.4dB左右的提升。实验结果见表1—表4。

图2展示了不同方法在Vox2数据集上的视觉对比结果。可以看出，与其他方法相比，我们提出的DAVD-Net可以更好地恢复面部特征（更清晰的牙齿，更锐利的嘴唇和肌肉轮廓），进一步证明了音频信息和编码结构信息可以有效提升人脸视频的恢复效果。

捕获.JPG

图2 不同方法在Vox2数据集上的视觉对比结果

研究结论

论文提出了一种新颖的DCNN架构，该架构可以利用音视频相关性来修复视频中人脸区域的压缩失真。我们还将视频压缩标准中编码器的结构信息嵌入到网络设计中，并在网络中引入一个约束投影模块以进一步提高恢复质量。实验表明，提出的DAVD-Net优于现有的视频去压缩噪音算法。

作者介绍

第一作者：张熙，博士生，上海交通大学图像通信与网络工程研究所。研究领域：图像处理，图像/视频压缩，计算机视觉。

E-mail: xzhang9308@gmail.com

通讯作者：武筱林，教授，博士生导师。加拿大麦克马斯特大学电子与计算机工程系。研究领域：图像处理，多媒体计算和通信，多媒体数据压缩、联合信源与信道编码。

E-mail: xwu@ece.mcmaster.ca

翟鑫亮，硕士，毕业于山东大学信息科学与工程学院。研究领域：图像处理，计算机视觉。

E-mail: xinliangzhai@126.com

贲晛烨，山东大学教授、博导。研究领域：图像处理，模式识别。

E-mail: benxianye@gmail.com

申明：本文发布的网站内容均不代表本号观点，本号旨在提供参考素材以便学习交流。

"图图Seminar" 直播活动

知网在线教学服务平台：

http://k.cnki.net/Room/Home/Index/181822

B站：

https://space.bilibili.com/27032291

往期目录

汪荣贵——机器学习基本知识体系与入门方法

陈强——从Cell封面论文谈AI研究中的实验数据问题

石争浩——从先验到深度：低见度图像增强

行知论坛——南理工行知论坛&图图Seminar：智能画质增强专题

孙显——遥感图像智能分析：方法与应用

章国锋——视觉SLAM在AR应用的关键性问题探讨

林宙辰——机器学习中优化算法前沿简介

下期直播预告

好文推荐

前沿进展 | 多媒体信号处理的数学理论

中国卫星遥感回首与展望

单目深度估计方法：现状与前瞻

目标跟踪40年，什么才是未来？

10篇CV综述速览计算机视觉新进展

算法集锦 | 深度学习在遥感图像处理中的六大应用

封面故事 | 从传统到深度：火灾烟雾识别综述

封面故事 | 光场数据压缩综述

学者观点 | 结合深度学习和半监督学习的遥感影像分类

编辑推荐 | 视频 + 地图！四维信息助力实景中国

深度学习+图像降噪，如何解决“卡脖子”问题？

❂ 专家报告

专家推荐|高维数据表示：由稀疏先验到深度模型

专家报告 | AI与影像“术”——医学影像在新冠肺炎中的应用

专家推荐|真假难辨还是虚幻迷离，参与介质图形绘制让人惊叹！

学者推荐 | 深度学习与高光谱图像分类【内含PPT 福利】

专家报告|深度学习+图像多模态融合

专家报告 | 类脑智能与类脑计算

实战例题！200+PPT带你看懂监督学习

118页PPT！机器学习模型参数与优化那些事儿~

专家开讲 | 机器学习究竟是什么？

❂ 论文写作

羡慕别人中了顶会？做到这些你也可以！

如何阅读一篇文献？

共享 | SAR图像船舶切片数据集

资源分享| 不知道如何获取最新的算法资讯？快来这里看一看

资源分享|热门IT资讯号推荐

本文系《中国图象图形学报》独家稿件

内容仅供学习交流

版权属于原作者

欢迎大家关注转发！

编辑：韩小荷

指导：梧桐君

审校：夏薇薇

总编辑：肖亮

声明

欢迎转发本号原创内容，任何形式的媒体或机构未经授权，不得转载和摘编。授权请在后台留言“机构名称+文章标题+转载/转发”联系本号。转载需标注原作者和信息来源为《中国图象图形学报》。本号转载信息旨在传播交流，内容为作者观点，不代表本号立场。未经允许，请勿二次转载。如涉及文字、图片等内容、版权和其他问题，请于文章发出20日内联系本号，我们将第一时间处理。《中国图象图形学报》拥有最终解释权。

尾巴.png