提画质、插广告、荐视频，“马栏山”杯国际音视频算法大赛怎么拿高分？这里有三大赛题攻略

会员服务 ·

提画质、插广告、荐视频，“马栏山”杯国际音视频算法大赛怎么拿高分？这里有三大赛题攻略

2020 年 6 月 5 日 机器之心

我们先来玩一个「大家来找茬」的游戏，看看下边这两幅图有哪里不一样。

很明显，电视里播放的内容变了，由左边的电视剧变成了右边的广告。但如果只看右边这个画面，我们可能很难察觉有人在电视上「动了手脚」。

这就是当前流行的视频动态广告技术，它基于视频特定点位跟踪，能够将广告视觉元素自然而精准地融合到原视频中，达到以假乱真的效果。

和换脸一样，视频特定点位跟踪也属于 AI 的范畴，而且是「马栏山」杯国际音视频算法大赛的赛题之一。除此之外，参赛者还可以选择视频推荐和画质损伤修复赛道。

看到这里，有人可能要说，「就这？我也能做！」如果你也这么想，为什么不报名参赛呢？

截至今日，首届「马栏山」杯国际音视频算法大赛参赛队伍已破千。

参赛队伍来自国内外知名高校与企业，包括麻省理工学院、卡内基梅隆大学、东京大学、早稻田大学、帝国理工学院以及清华、北大等著名院校，以及诸多业内知名企业。

其中，北京大学、清华大学、电子科技大学、北京邮电大学、中南大学、中国科学院大学等都有数十支队伍参赛。

机器之心了解到，目前排在前 15 名的队伍来，90 后占据主力（约 84.6%），其次是 80 后（约 14.6%），但也出现了 00 后的身影。所以，无论你来自何方，年龄几何，都可以前来 PK。

想得高分？看这里

此次算法大赛聚焦图像、推荐、画质优化三大领域，设置了包括视频特定点位追踪、视频推荐、画质损伤修复三大赛题。从大赛官网的排行榜来看，每个榜单都还有提升的空间。为了帮助大家取得更好的成绩，机器之心为大家梳理一下每个赛题的题目要求和解题思路。

赛题一：视频特定点位跟踪

视频特定点位跟踪技术常用于视频动态广告植入，如文章开头的动图所示。如果技术足够成熟，观众可能都察觉不到视频中夹杂着广告，也就不会对广告植入产生排斥心理。因此，这种方式可以提升视频平台的变现能力。

但要做出这种「以假乱真」的效果并不容易，算法设计者需要考虑光影、景深、遮挡等各种因素。在此题中，大赛主办方给出了视频片段数据，参赛者需要以此为基础来设计一种有效的植入方案，使得广告自然而然地融入到原始视频中，不对观众产生干扰。

需要强调的是，这道赛题最主要的难点在于如何定位与跟踪。

在跟踪方面，机器之心建议参考深度学习中的视频跟踪类算法，如 SiamMask、SLAM 算法等。

在 SiamMask 中，研究者展示了如何在统一框架下，实时执行视觉追踪与半监督目标分割。在训练完成后，SiamMask 只依赖一个初始化的边界框，就能实时生成未知类别的目标分割掩码，并以每秒 55 帧的速率实时更新掩码。

论文地址： https://arxiv.org/pdf/1812.05050.pdf

SiamMask 的实时分割与追踪效果。

去年 9 月，约克大学的研究者又在 SiamMask 的基础上进行了改进，提出了 SiamMask E，将帧率提高到了 80。

论文地址： https://arxiv.org/pdf/1907.03892.pdf

项目地址： https://github.com/baoxinchen/siammask_e

在视频目标分割方面，大家可以参考悉尼大学等机构的研究者提出的 RANet。

论文地址： https://arxiv.org/pdf/1908.06647.pdf

代码地址： https://github.com/Storife/RANet

另外，大赛出题方还为大家提供了该赛道的官方 demo： https://github.com/MgtvAi/PointsTrackDemo

赛题二：视频推荐

视频推荐也是平台变现的关键一环。好的视频推荐可以让客户停留更长的时间，对平台的依赖程度也会随之增加，是各大视频平台的主战场之一。

该赛题的原型就来自芒果 TV 真实的场景需求。出题方包装了一个经典的 TopN 推荐问题，还提供完备的特征信息，能够真实地反映实际业务中多模态数据的特性。

这一赛题的难点主要分为四个方面：特征工程、模型选取、训练方式和参数调优，这里仅简单梳理一下前两点。

特征工程包括特征提取、特征清洗等步骤。特征提取旨在提取到更丰富、粒度更细、更有表达性的特征，实现方式包括交叉组合、行为特征挖掘、统计过去一段时间内点击与未点击的比率等。特征清洗包括补全、归一化、去噪声等，可以尝试去除离散点、数据归一化等方法。

机器之心也为大家找到了一些可以参考文章：

https://zhuanlan.zhihu.com/p/52202704

https://zhuanlan.zhihu.com/p/23356953

https://zhuanlan.zhihu.com/p/40133477

在模型选取方面，大家可以选择以梯度提升决策树（GBDT）为代表的传统方式，也可以选取以 DeepFM、DSTN、DIN、DIEN 等为代表的深度学习模型。

该赛道官方 demo： https://github.com/MgtvAi/CompetitionRcDemo

赛题三：画质损伤修复

我们在电视、网络上看到的视频往往要经过拍摄、后期、导出、编码压缩等一系列复杂过程。在这一过程中，摄像机噪声、编码压缩振铃效应、编码压缩块现象、编码压缩细节丢失等问题都会对视频的画质形成严峻挑战。因此，在此赛题中，参赛者要对画质受到损伤的视频提出有效的修复方案，将低画质视频恢复为高画质视频。要想做到这一点，参赛者需要解决噪声、压缩振铃效应、块效应、细节缺失四类复合问题。

与该赛题有较高相关性的经典网络是 ARCNN，由香港中文大学的 Chao Dong 发表于 2015 年。这个网络主要有四个步骤，分别为特征提取、特征增强、映射、重构。除了特征增强层，其余部分和另外一个经典网络 SRCNN 是一样的。前两层可以看做一个更强的特征提取层，学习过程用 SGD 下降，然后用 MSE 做损失函数。

ARCNN 架构。

论文链接： https://arxiv.org/abs/1504.06993

参加这个比赛会有哪些收获？

如果你参加过 Kaggle 比赛，想必你对数据竞赛能够带来的收获有着非常直观的体验，比如现金奖励、实战经验、团队合作经验…… 这些，你在此次大赛都有机会获得，而且还有机会获取一份特殊 offer。

首先来看一下奖励。每道赛题排名 Top10 的队伍（如果分数排名相同，取提交时间优先的队伍）都将获得「团队奖励大礼包」：

视频特定点位跟踪赛题：第一名 32 万元、第二名 8 万元、第三名 3 万元、第四 - 第十名分别获得 7000 元以及对应证书；
视频推荐赛题：第一名 24 万元、第二名 6 万元、第三名 2.5 万元、第四 - 第十名分别获得 5000 元以及对应证书；
画质损伤修复赛题：第一名 24 万元、第二名 6 万元、第三名 2.5 万元、第四 - 第十名分别获得 5000 元以及对应证书。

其次是实战经验。大赛赛题均来自视频产业的真实需求，以视频业实际业务需求为基础，还原了业务场景需求，直击产业痛点难题。参与比赛，选手不仅可以深入学习和提升自己的算法技能，还能更多实践人工智能在视频行业的实际应用，累积行业实践经验与加强工程落地能力。而且，优秀的算法模型将有可能直接被应用到芒果 TV 的实际业务中。

然后是团队合作经验。该大赛要求参赛者以个人或者不超过三人的战队形式参赛，可自由组建队伍。参赛者能够与来自全球最优秀的 AI 高手交流竞技。

最后，在这场比赛中获得好成绩的在校学生还有机会加入芒果 TV「青芒计划」，获得「Special Offer」。

「青芒计划」是由芒果 TV 推出的面向海内外高等院校应届优秀毕业生的芒果新人培养计划。在该竞赛中，每道赛题竞赛结果前五名将获得青芒直通卡；第六名到第十名则可以获得青芒面试直通卡，拥有「VIP」面试权限。

现在距离比赛结束还有一段时间，看完此攻略想要加入的同学可继续报名。

点击「阅读原文」，参与报名。

登录查看更多