字节跳动 2019 ICME 双赛道冠军团队方案分享

2019 年 8 月 12 日 PaperWeekly

ICME 2019 短视频内容理解与推荐竞赛的颁奖仪式上个月在 ICME 大会上举办。此次竞赛由字节跳动与 ICME 联合举办，分为两个赛道，共有 2397 名参赛者组成 1025 支队伍参赛。

本文将首先回顾赛题，并邀请了两个赛道的冠军介绍模型与方法。

赛题背景

近年来，机器学习在图像识别、语音识别等领域取得了重大进步，但在视频内容理解领域仍有许多问题需要探索。一图胜千言，仅一张图片就包含大量信息，难以用几个词来描述，更何况是短视频这种富媒体形态。

与此同时，视频已经逐渐成为互联网上的火爆应用。目前，视频流量已经占到网络总流量的 80%。其中，TikTok 和抖音等短视频应用的崛起也对视频数据的丰富贡献了重要的力量。

将深度学习应用于视频理解的方向上已经有很多积极的成果。早在 2014 年，Andrej Karpathy 等人就利用卷积神经网络对大规模的视频数据进行分类（Large-scale Video Classification with Convolutional Neural Networks）。他们提取出了每帧的特征，并将特征在不同时间上融合在一起，完成视频分类的工作。

对视频进行自然语言处理也是一个很重要的方向，因为在视频索引、自动影评生成，以及为视障人士生成视频描述等领域都有重要应用。注意力机制可以被用来识别视频中关键的 segment，也可以让深度学习网络关注图片和视频序列的某个部分。也就是说，在用卷积神经网络提取每帧特征后，再用 LSTM 挖掘它们之间的时序关系。J. Donahue 等人在 CVPR 2015 上的论文 Long-term Recurrent Convolutional Networks for Visual Recognition and Description 就描述了相关的技术，并为视频生成了自然语言描述。

赛题描述

TikTok 是全球领先的短视频平台，致力于建立一个用户分享和创作表达的短视频社区。2018 年，TikTok 成为全球下载量最大的应用之一。本次比赛由字节跳动公司旗下的 TikTok 短视频 APP 提供脱敏数据。

本次竞赛提供多模态的短视频内容特征，包括视觉特征、文本特征和音频特征，同时提供了脱敏后的用户点击、喜爱、关注等交互行为数据。参赛者需要通过一个视频及用户交互行为数据集对用户兴趣进行建模，然后预测该用户在另一视频数据集上的点击行为。

竞赛最终根据参赛者提交的模型和预测结果，通过构建深度学习模型，预测测试数据中每个用户 id 在对应作品 id 上是否浏览完作品和是否对作品点赞的概率加权结果。本次比赛使用 AUC（ROC 曲线下面积）作为评估指标。AUC 越高，代表结果越优，排名越靠前。

赛道1：大规模数据集，亿级别的数据信息。

赛道2：小规模数据集，千万级别的数据信息。

Sent-Track冠军团队自述

团队介绍

“我叫楼马晶，明略科技算法研究员，队伍的另外两名队友包括吴亚熙和练质彬。吴亚熙是京东的算法工程师，他和我是长期一起做数据挖掘比赛，我们一起获得过 2016 年的 CCF-BDCI 二等奖、第三届阿里云安全算法挑战赛亚军等比赛成绩。练质彬来自华南师范大学，是研究生二年级的学生，是这次比赛认识的新朋友，在比赛后期加入我们队伍。”

参赛经历与模型介绍

我们一直比较关注各大数据挖掘比赛的平台，在 biendata 上发现了这个比赛。

这个比赛吸引我们的有三个点：

1. 该比赛提供包含面部特征，视频内容特征，标题特征和 BGM 特征在内的多模态数据。我们想通过这个比赛学习如何将这些数据与用户的交互数据结合在一起；

2. 该比赛的任务是预测用户浏览完某作品的概率和点赞某作品的概率，属于一个多任务的问题，这样的目标在其他数据挖掘比赛中并不常见；

3. 这个比赛提供了巨量的真实场景实际业务的数据。

我们主要用了 lightGBM 和 DNN：

lightGBM特征工程

1. 原始特征

我们使用的原始特征包括 channel，duration，face，title，video 和 audio 特征。其中对 title 特征先做 TF-IDF，再通过 SVD 降维到 16 维，对 video 和 audio 特征，用 k-means 进行聚类，生成该 item 对应的 video 和 audio 类型，以及将原始 128 维特征通过 PCA 降维到 16 维。

2. 历史表现特征

这部分的特征包括 user、item、author、music、device 各自历史出现的次数、finish 次数及频率、like 次数及频率、交叉统计特征、用户 finish 的 item 平均 duration，以及最大 duration 等特征。

3. 当前特征

当前特征包括 user、item、author、music 在当前时间段内中出现的次数，交叉统计，在用户观看的 item 列表中 item 热度排序、author 热度排序，用户观看的 item 列表的平均时长等等。

4. 时间特征

在 track1 中，time 是非常重要的信息，我们对此设计了部分特征，例如 user 同一个 time 中，item 的个数、item 的 duration 之和、与下一个 time 的时间间隔等等，取得了较大的提升。

在这一部分，我们的经验是： 1. 通过数据探索去发现最有效的特征，由于这次比赛的数据量实在太大，盲目堆特征的话，会得不偿失； 2. 并不一定需要拿所有数据来训练，我们采用的是选择最接近测试集的三部分训练集，分别训练模型，然后对结果进行融合的方法。

DNN模型

我们的网络结构如上图所示，设计该网络结构的核心思路就是将阿里巴巴的 DeepInterestNetwork 和 xdeepfm 结合起来，图中左边部分就是 DIN 部分，中间部分是 xdeepfm，右边部分展示了我们如何处理 audio 和 video 特征。

在这一部分中，我们所用的 trick：

1. 我们用 deepwalk 的方法去训练得到 item_id 的 embeddingvector，且在 DNN 的训练中，我们就把 deepwalk 得到的 embeddingvector 给固定住，不在继续训练，这样一来减少了训练时间，二来我们也发现如果不固定住，模型效果会变差；

2. 在 DIN 部分，我们将只要与用户有过交互的 item 就作为该用户的 interestingitem，并没有要求必须是 finish 或 like，原因是：如果将用户 finish 或 like 的 item 作为 interestingitem，这样的 item 本身就很少，模型没办法从中提取出用户的兴趣信息；

3. 我们将 audio 和 video 的特征也作为 filed 加入到 xdeepfm 中，具体的做法是，先把原始的 128 维特征降到和其他 id 的 embeddingvector 相同的维度，然后拼在一起，加入到 xdeepfm 部分的 embeddinglayer 中。

颁奖与总结

非常荣幸可以到现场参加答辩和颁奖，在现场认识了其他几个获奖队伍的朋友，还有字节跳动的各位技术大牛评委，在相互交流中学到了很多东西。

参与比赛也给我们带来了提升。在科研方面，在比赛初期的准备工作中，我们比较广泛地学习了最近在 CTR 预估以及推荐系统方面比较火的论文，有的在这次比赛中用上的，有的没有用上，无论有没有用上，都是非常好的知识储备。在工作方面，现实业务中其实也有多模态的数据，但是很多情况下被忽视了，通过这次比赛，我们学到了如何处理多模态数据的经验。

Bag-Track冠军自述

团队介绍

“团队只有我一个人。我叫朱麟，博士毕业于中国科学技术大学模式识别专业，现于携程担任算法专家职务，主要负责酒店排序推荐算法的研发创新。”

参赛经历与模型介绍

我主要从微信公众号推送知道此比赛。选择此比赛主要是因为相比于同期比赛，该比赛参与人数较多，具备较好竞争性，同时主办方也准备了包含多种模态数据的大型数据集供建模使用，有比较大的发挥空间。

比赛中成功的尝试主要有三方面：首先，通过矩阵分解等协同过滤方法，提取了用户和短视频的连续向量表示，可以更好有效地学习用户 id 和短视频 id 所蕴含的信息；其次，通过独立神经网络将多种高维多媒体信息压缩为低维特征，方便后续模型学习；最后，通过样本重采样方法，解决了学习过程中的正负样本不平衡问题，提高了模型精度。

失败的尝试主要为神经网络的端对端训练方面，虽然理论上通过合适的架构，神经网络可以直接端对端地学习所有原始输入信息和预测目标之间的关系，但在这次比赛中，端对端神经网络预测精度始终无法超越基于整合手工特征和前面提到的神经网络抽取到的局部特征的 GBDT 模型，原因值得进一步探索。

颁奖与总结

本次比赛主要在数据分析、快速模型迭代、多模态数据整合等方面，能力有了较大提高。

点击以下标题查看更多往期内容：

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 获取最新论文推荐

登录查看更多

相关内容

ICME

关注 0

IEEE多媒体与博览会国际会议（ICME）每年有大约1,000名作者和500名参与者参加，这是由四个IEEE协会主办的联盟多媒体会议。它是一个促进交流多媒体最新进展的论坛从电路和系统，通信，计算机和信号处理社区的研究和开发角度来看的技术，系统和应用程序。官网地址：http://dblp.uni-trier.de/db/conf/icmcs/

【CVPR2020高分接受论文-3个strong accept-商汤港中文】FineGym:用于细粒度动作理解的分层视频数据集

专知会员服务

25+阅读 · 2020年4月15日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

[WWW2020-腾讯QQ看点团队]未来上下文建模会话推荐，Modeling Future Contexts

专知会员服务

37+阅读 · 2020年2月21日

社交机器人的挑战性问题，清华大学计算机系黄民烈副教授，SMP 2019 前沿技术讲习班第十五期（CIPS ATT 15）

专知会员服务

21+阅读 · 2019年10月23日