【KDD2017】阿里论文解读，深度学习、分布式系统、大规模图计算等

2017 年 8 月 12 日 新智元

1 新智元 KDD 专栏

来源：阿里集团和蚂蚁金服

编辑：闻菲

【新智元导读】2017 年的数据挖掘顶会 KDD 开幕在即，新智元带来阿里集团和蚂蚁金服在本届会议发表的 5 篇论文。其中，介绍阿里内部分布式学习系统“鲲鹏”的论文，还有淘宝智能排序算法 CLOSE 的论文，都将以口头报告的形式发表。

KDD 的英文全称是 Knowledge Discovery and Data Mining，即知识发现与数据挖掘，由美国计算机协会 ACM 下的数据挖掘分会举办，是国际数据挖掘领域的顶级会议，每年有大量来自世界各地的学术界和工业界人士参与此盛会。KDD 2017 共吸引全世界 1144 篇论文投递，收录 216 篇，包括清华、中科院、阿里在内的中国大陆学术界和工业界共被收录 25 篇。

在 2017 国际知识发现与数据挖掘大会（KDD）全球论文投稿中，阿里集团和蚂蚁金服共有 5 篇论文被大会收录，都在应用 Track（大会接收论文分 Research Track 和应用 Track），涵盖深度学习、大规模图计算、商品智能排序等多个研究领域，基于真实的业务场景或数据样本，文中部分方法结论已经在业务中运用。

例如，深度学习语义建模研究中提出了一种新的文本语义编码算法 conv-RNN，该模型在参考了较为常用的文本语义编码模型循环神经网络与卷积神经网络的同时，进行了进一步的文本语义编码优化，实现更为精准的文本分类和问答匹配，已经应用于阿里的智能音箱产品。

2 篇应用 Track 口头报告：展现大规模真实系统中的实际应用

鲲鹏：基于参数服务器的分布式学习系统及其在阿里和蚂蚁的应用

KunPeng: Parameter Server based Distributed Learning Systems and Its Applications in Alibaba and Ant

作者：周俊、李小龙、赵沛霖、陈超超等

近年来，由于大数据（TB 甚至 PB 量级）和大模型（数千亿甚至上万亿参数）的出现，无论是学术圈还是工业界，都亟需并行机器学习的能力。虽然有一些现有的分布式计算系统，如 Hadoop 和 Spark，它们为了支持机器学习算法并行化，提供了一些同步和粗粒度运算符（例如，Map，Reduce 和 Join 等），能够在一定程度上解决一些中小规模的问题，但这些系统很难让开发人员设计出更有效率且支持更大规模的机器学习算法。这促使我们设计一个通用的分布式平台，称为鲲鹏（KunPeng）。它结合了分布式系统和分布式优化算法的特性，处理复杂的大规模机器学习问题。

鲲鹏的架构：鲲鹏建立在阿里巴巴集团内部的大规模分布式 Apasra 平台上面，Robust Failover、Backup Instance，以及 DGA for Scheduling & Synchronization

具体来说，鲲鹏不仅封装了数据/模型并行、负载平衡、模型同步、稀疏表示、工业容错等特性，而且还提供了易于使用的接口，以使用户能够聚焦在机器学习核心逻辑上，降低使用成本并提升效率。在上千亿样本/特征的数据集上，测试结果表明，这样的设计在机器学习上带来了引人注目的性能改进，大幅提升了 LR、FTRL、GBDT、FM 和深度学习等算法的规模跟效率。鲲鹏已经在包括阿里巴巴的双11、广告、推荐、蚂蚁金服交易风险估算等上百个真实场景上线，并取得了令人鼓舞的效果。

实验中，鲲鹏在训练时间和存储方面都优于 Spark 和 MPI。

多层级联学习在大型电商排序系统的应用

Cascade Ranking for Operational E-commerce Search

作者：刘士琛、肖非、欧文武、司罗（阿里集团）

在大数据时代，大量应用都会涉及到对海量项目进行排序的工作。我们一方面需要得到尽量准确的排序结果，另一方面希望保证系统的性能以及用户的体验。过往大量的工作都集中在算法准确性方面（如各种 learning to rank 的方法）；只有不多的工作会考虑计算的性能，而且基本停留在小数据集和研究阶段。在电商场景，商品总量很多的同时（十亿级），query 的相关商品也可能很多（千万级）。在在线请求非常高的情况下，计算性能是必须考虑的，尤其是在“双11”等场景下请求量会数倍的增长。

为了同时保证排序的效果和效率以及用户体验，本文设计并实现了一种级联式搜索 CLOES：它的主要思想是将以此排序分成多个阶段，各阶段使用逐渐复杂的特征去得到逐渐准确的结果；在靠前阶段使用简单特征过滤显然不合要求的结果，在靠后阶段使用复杂特征辨别难以区分的结果；除此以外，算法结合电商场景的特殊性，严格限制了返回结果的延迟以及返回商品的数量，以保证用户的搜索体验。离线实验验证了算法的正确性以及有效性，对比传统的方法能提升准确率的同时大幅提升了计算性能；在去年双11，在新增了大量准确又耗时的计算特征（包括强化学习和深度学习特征）的情况下，算法极大保证了引擎的效率，使排序对引擎的压力下降 40%，同时排序效果有一定提升。（※该论文也有海报展示）

3 篇海报展示：智能调价算法、用户行为预测、问答及分类

淘宝展示广告中的 OCPC 智能调价算法

Optimized Cost per Click in Taobao Display Advertising

作者：朱晗、靳骏奇、李晗（阿里集团）

针对传统广告系统中广告主对粗粒度流量进行固定价格竞价的模式，该论文创新性提出了一种新的 OCPC（Optimized Cost per Click）智能调价算法。该方法智能调整每个流量上的广告主出价，实现更优的流量价值匹配，明显提升了广告主收益和广告系统的分配效率。同时立足于健康的经济生态和可持续的长远收益，该方法亮点在于不单优化了客户价值，还实现了用户体验、平台收益的整体优化和经济福利的权衡分配。该项技术现已在淘宝展示广告主要场景上全面应用并取得了明显的效果提升。

基于大规模图计算的本地算法对展示广告的行为预测

Local Algorithm for User Action Prediction Towards Display Ads

作者：杨红霞（阿里集团）、Yada Zhu（IBM Watson），Jingrui He（亚利桑那州立大学）

用户行为建模在计算广告中是至关重要的，它通过跟踪用户的在线行为建立用户的产品，然后根据用户的兴趣和需求提供相关的广告。准确的模型将导致更高的定位精度，从而提高广告效果。直观上，类似的用户往往对展示的广告具有类似的行为（例如，展示、点击、转换）。然而，据我们所知，以前的工作没有太多明确地调查各种类型的用户行为的相似之处，并且将它们纳入广告响应目标和预测中，主要是由于问题规模过大。

为弥合这一差距，本文中，我们使用二分图来表示历史用户行为，其中包括用户节点和广告客户活动节点，以及过去反映各种类型的用户-广告营销活动交互的边。基于这种表示，我们研究了用户行为建模和动作预测的随机步行本地算法，其计算复杂度仅取决于输出群集的大小，而不是整个图形。我们的目标是通过利用历史用户-用户 (user-user)，广告系列活动 (campaign-campaign) 和用户-活动 (user-campaign) 交互来改善行为预测。特别地，我们提出了伴随 ADNI 算法的二分图 AdvUserGraph。

ADNI 将 NIBBLE 算法扩展到 AdvUserGraph，并且能够将由感兴趣的用户组成的本地群集发现到特定的广告客户活动。我们还提出了ADNI的两个扩展，提高了效率。所提出的算法的性能表现在合成数据和世界领先的需求侧平台（Demand Side Platform），表明它们在预测极少数事件的有效性。

一种新的语义编码模型及其在智能问答及分类中的应用

A Hybrid Framework for Text Modeling with Convolutional RNN

作者：王成龙、姜飞俊、杨红霞（阿里集团）

在本文中，我们研发了卷积迭代神经网络（conv-RNN）的通用推理混合框架，用于文本的语义建模，无缝集成了从卷积和复现神经网络结构中提取语言信息的不同方面的优点从而加强新框架的理解力。此外，基于转换 RNN，我们还提出了一种新颖的句子分类模型和一个基于句子的答案选择模型，分别具有加强力的句子匹配和分类。我们在各种各样的数据集中验证了所提出的模型，包括两个具有挑战性的答案选择任务（AS）和用于句子分类（SC）的基准数据集。据我们所知，AS 和 SC 目前是最为完整的比较结果。我们在这些不同的挑战性任务和基准数据集中经验性地展示了转换 RNN 的优越性能，并总结了对其他最先进技术方法的表现的见解。

【号外】新智元正在进行新一轮招聘，飞往智能宇宙的最美飞船，还有N个座位

点击阅读原文可查看职位详情，期待你的加入~