KDD 2017奖项全公布，华人成最大赢家

2017 年 8 月 15 日 AI科技评论 AI科技评论

AI 科技评论按：本文由AI 科技评论记者奕欣、岑峰、张驰、三川联合编辑。

北京时间8月15日，在经过两天的Tutorial和Workshops后，KDD 2017于今天下午正式开幕。

开场，KDD 2017大会主席Stan Matwin向我们展示了一组数据：本次KDD共有来自51个国家1656名注册参会人员，是美国之外注册人数最多的一届，参会人数最多的五个国家依次是：美国、中国、加拿大、印度和日本。这次会议共收到有效投稿论文1143篇，颁发学生奖学金15.3万美元，均创下历史新高。KDD 2017获得了54.4万美金的赞助支持，金额达到有史以来的第二高。

论文详细收录名单如下：http://www.kdd.org/kdd2017/accepted-papers

随后，KDD 2017大会主席Stan Matwin与区域主席Evangelos Milios，被哈利法克斯市政府授予哈利法克斯大使奖。

大会副主席Faisal Farooq在发表致辞时，感谢了组委会的48位成员及158位辛勤付出的志愿者。

ACM SIGKDD主席裴健博士介绍了SIGKDD组织，目前SIGKDD共有1862位来自全球64个国家的活跃会员，拥有超过200万美元的经费。裴健博士在会上呼吁大家积极加入SIGKDD，成为其中的一员。

会上公布了KDD 2017的一系列数据：

今年的KDD研究类论文的审核总数为748篇，收录130篇，包括64篇oral，66篇poster，录用率分别占8.6%及8.8%。
而应用类论文共审核390篇，收录86篇，包括36篇oral，50篇poster，录用率分别占9.2%和12.6%。
论文提交数最多的国家是美国（占50%）与中国（占13%）。
论文中最受欢迎的话题是：时间与时序数据（temporal and time-series data），图算法（graph algorithms）。
Invited talk的关注领域：用数据科学理解行为，机器学习应用，智能系统和数据科学，管理与基准。

在随后的议程上，KDD 2017公布了最佳论文&最佳学生论文奖，最佳应用论文奖，以及最佳博士论文奖（见后文详细介绍）。

接下来进行了KDD Cup的颁奖。本次KDD Cup由阿里天池承办，名叫Convolution的团队包揽了两个比赛第一名，成员来自美团点评、微软中国和北京航空航天大学。关于这次比赛的结果，欢迎关注AI 科技评论的后续报道。

随后KDD对今年授予的三大核心奖项进行颁奖。2016年 AI 科技评论就针对当年的这三个奖项及获奖者进行逐一介绍，详情可参考《KDD2016各大奖项获奖名单解密》。

在热烈的掌声中，十年最佳论文奖／时间检验论文奖获得者 Thorsten Joachims 博士，杰出服务奖获得者、香港科技大学教授杨强博士，KDD创新奖获得者、西蒙弗雷泽大学教授裴健博士，依次上台领奖。AI 科技评论此前已对这三个奖项及得奖者做了详细介绍。

最后，裴健博士以《Pattern Mining Introspection and Prospective》（模式挖掘的回顾与展望）为主题做了大会报告，他以“啤酒与尿布”这一广为人知的案例说起，分享了他对于模式挖掘的最新研究成果和经验。

KDD的三大论文奖项包括，最佳论文&最佳学生论文奖（Best Paper & Best Student Paper Award）和最佳应用论文奖（Applied Data Science Best Paper Award），博士论文奖（Doctoral Dissertation Award）。

最佳论文&最佳学生论文奖

论文：Accelerating Innovation Through Analogy Mining

作者：Tom Hope，Joel Chan，Aniket Kittur，Dafna Shahaf

地址：http://www.kdd.org/kdd2017/papers/view/accelerating-innovation-through-analogy-mining

摘要：大型概念资源库（如美国专利数据库）可以向人们提供类似问题的解决方案的灵感，从而加速创新和发现。然而在这些庞大而凌乱的资源库中发现有用的信息，对于人类或自动化技术来说仍是一个挑战。传统的解决方法有，具有高度关系结构（如谓词演算表征）但非常稀疏，且成本很高的人工创建的数据库。更为简单的机器学习/信息检索相似性度量可以扩展到大型的自然语言数据集，但很难解释结构相似性，而这又是类比的核心。这篇论文探讨了学习更简单的结构表征的可行性和价值，特别是“问题模式”，它规定了产品的目的，以及实现该目的的机制。论文中的方法结合众包和CNN，提取产品描述中的目的和机制向量表示。论文表明，这些学习到的向量能比传统的信息检索方法，以更高精度和更快速度找到类比。在一个思想实验中，模型检索的类比能力提升了产生创意的可能性。研究结果表明，学习和利用较弱的结构表征，是大规模计算类比的有效方法。

Runner up论文：

Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data

作者：David Hallac, Sagar Vare, Stephen Boyd, Jure Leskovec

地址：https://arxiv.org/abs/1706.03161

最佳应用论文奖

论文：HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network

作者：Yanfang Ye，Shifu Hou，Yangqiu Song

地址：http://www.kdd.org/kdd2017/papers/view/hindroid-an-intelligent-android-malware-detection-system-based-on-structure

摘要：随着Android恶意软件的增长及其对用户的影响，Android恶意软件检测已成为网络安全日益重要的课题。Android恶意软件也越来越复杂，需要新防御技术从而保护用户免受威胁。这篇论文中，为了检测Android恶意软件，我们不再仅仅使用API调用，而是进一步分析它们之间的不同关系，并创建更高层次的语义，这就让攻击者更难逃避被检测。我们将Android应用，相关的API，及其与结构化异构信息网络（HIN）的丰富关系作为代表。然后我们使用基于元路径的方法来表征应用程序和API的语义相关性。我们使用每个元路径来制定Android应用的相似性度量，并使用多内核学习聚合不同的相似之处。然后通过学习算法自动加权每个元路径进行预测。据我们所知，这是使用结构化HIN进行Android恶意软件检测的最佳方法。对来自Comodo Cloud Security Center的实体样本收集进行综合实验，我们比较了各种恶意软件检测方法。实验结果表明，我们开发的HinDroid系统，胜过其他Android恶意软件检测技术。HinDroid已经被并入Comodo Mobile Security产品的扫描工具。

Runner up论文：

DeepSD: Generating High Resolution Climate Change Projections through Single Image Super-Resolution

作者：Thomas Vandal, Evan Kodra, Sangram Ganguly, Andrew Michaelis, Ramakrishna Nemani, Auroop R Ganguly

地址：https://arxiv.org/abs/1703.03126

博士论文奖

最佳论文：Local Modeling of Attributed Graphs: Algorithms and Applications

作者：Bryan Perozzi

地址：https://search.proquest.com/openview/cc84345c4e647328b7c4ea300b1367fd/1?pq-origsite=gscholar&cbl=18750&diss=y

摘要：对于在原始连接信息之外、有关联节点属性的图，在现实中遇到它们正变得常态化。社交网络就是个例子：既包含交友关系，又有兴趣和人口统计信息等用户属性。一个存在于蛋白质之间的交互网络，可能不仅有交互关系，还包含了蛋白质的基因表达层。这些信息就能用一个图来描述——其中用节点表示对象，用边缘表示它们之间的关系，与节点关联的特征向量表示属性。这种图数据通常被称作是属性图。这份论文聚焦于为属性图开发可扩展的算法与模型。这些数据可被看作是既离散（边缘）、又连续（嵌入节点之间的距离），我会从这两个角度探讨这个问题。

具体地，我展示了一个网上学习算法，利用最新的深度学习技术生成丰富的图嵌入。我通过这一新方法对多重社会关系进行编码，其结果对网络中的多标签分类和回归都非常有价值。

对于离散图所呈现出的反常社群，我展示了用来处理它们的本地算法。对于导致社群诞生的图属性（比如某社交网络中的用户共同兴趣），这些算法找出了它们的子集。该论文中，所有方法的可扩展性通过有限的图初始参数来保证，比如 ego networks 和truncated random walks，它们以每个顶点为中心对本地信息进行利用。另外，对图变量的范围进行限制，使得我的方法能进行简单的并行处理。这需要通过大数据处理商品工具来实现，比如MapReduce 和 Spark 。本研究的应用前景很广阔：包括数据挖掘、信息检索、用户画像、人口统计推理、线上广告以及诈骗识别。

Runner up论文：

User Behavior Modeling with Large-Scale Graph Analysis（作者：Alex Beutel，http://alexbeutel.com/papers/CMU-CS-16-105.pdf）

Mining Large Multi-Aspect Data: Algorithms and Applications（作者：Evangelos Papalexakis，http://www.vldb.org/2015/wp-content/uploads/2015/07/papalexakis.pdf）

Honorable Mention论文：

Computational Lens on Big Social and Information Network （作者：Yuxiao Dong，https://curate.nd.edu/show/qj72p556t40）

以上便是开幕式的全部内容，更多大会演讲详细内容敬请关注 AI 科技评论后续报道。

————— 给爱学习的你的福利 —————

CCF-ADL81：从脑机接口到脑机融合

顶级学术阵容，50+学术大牛

入门类脑计算知识，了解类脑智能前沿资讯

课程链接：http://www.mooc.ai/course/114

或点击文末阅读原文