以算法重构视频技术前沿，超分辨率算法那些事

2020 年 8 月 11 日 计算机视觉life

今年，音视频场景异常火热，视频会议、视频社交、互动直播。而计算机视觉与这些场景有天然的契合点，能以各种形式落地在这些场景中，比如美颜、滤镜、图像分割，还有视频超分辨率。

仅以视频来讲，视频的AI模型网络深度更深、模型更大，但是处理流程却比较简单，没有像音频数据的时域和频域互转的前后处理过程。

目前在视频领域中，大家讨论最多的算法之一就是超分辨率算法。这个算法的功能就是把一张图片、视频实现高质量的放大。这个功能用普通的图片编辑或查看工具也可以实现，只是通过这些工具你得到的会是一张比较模糊的图片。但是，超分辨率算法与传统的图像放大算法的核心区别就在于，它能实现图像细节增强和去模糊。

两者会有大区别呢？我们可以看看下面这张图。左半张图是通过超分辨率算法放大后的，而右边是用图像浏览器修改尺寸放大的。传统的放大一般是使用线性插值来填充新的像素点，实际上就像是一种平滑处理，所以放大后会导致图片看起来很模糊，比如右边图中的尖毛看起来就会更模糊一点。

相较于传统的插值方式，超分辨算法就像是一种更智能的插值技术，在不同的纹理区域有不同的插值选择，而且插值的计算方式也更复杂。

这个应用下的网络模型一般是由卷积和反卷积，以及一些激活函数构成的。卷积层用于计算特征图，反卷积用于上采样计算新的像素点。这种模型结构的好处很明显，你可以输入任意大小的图片尺寸，最终都能得到一个固定系数放大后的输出图像。

那么这项技术对于音视频领域有什么意义呢？

最重要的意义在于，可以减少数据传输量，比如我可以只传输一个 360P 的视频数据，但是在你收到视频后，数据通过超分算法放大为 720P，然后渲染显示出来。你看，传输数据量变小了，对于带宽的压力小了，但你仍能看到高清视频。

但比较遗憾的是，目前这个技术在运用到实际场景时，还是存在很多让人意想不到的问题。我们还是拿“猫尾巴”做例子，可以看下面这张图，左半部分的红框中的条纹，是经过超分辨率神经网络模型处理后，额外产生的。这也是目前很多超分网络的通病。这是由于神经网络需要抗模糊和锐化图像，但这也会导致本来应该是平滑的区域，却出现锐化的条纹。

不仅如此，正如刚刚所说的，超分辨率算法模型还要面临算法复杂度、性能与质量的挑战。因为当我们将这些算法应用到不同实际运行环境中时，也会收到硬件设备性能等因素的限制。现在很多院校、机构、技术团队也都在做相关研究。相关的专业比赛也有不少。最近就有这么一场围绕“超分辨率图像性能”的技术挑战赛正在进行中。

近期，由声网 Agora、RTC 开发者社区联合DataCastle数据城堡，正式发布了超分辨率图像性能挑战赛，旨在吸引更多研究人员参与超分辨率算法的研究，推动超分辨率算法在RTE场景应用，促进工业界与学术界的深度合作。

主办方

声网Agora成立于2013年，是全球实时互动云行业开创者，是全球领先的专业服务商。声网Agora为开发者提供简单易用、高度可定制和广泛兼容的应用编程接口API，使得开发者不需要研发或自己构建底层基础设施，只需简单调用Agora API，即可在应用内构建多种实时音视频互动场景。2020年3月单月，声网Agora通过10,000多个活跃应用程序为100多个国家的终端用户提供超过400亿分钟的实时互动。

2019年，声网Agora举行AI in RTC-超分辨率挑战赛，吸引了参赛队伍784支，参赛人数1011人，作品提交次数高达1444次。参赛者覆盖北京大学、中国科学研究院、华中科技大学、华南理工大学、西安电子科技大学等知名高校，以及网易、中兴等知名互联网企业，影响超过数十万开发者和技术人才。