过去五年KDD高产学者与高引论文TOP10榜单

2020 年 8 月 5 日 学术头条

作为世界数据挖掘领域最高级别国际会议，原定于 8 月 23 日~27 日在美国圣地亚哥举行的第 26 届 ACM SIGKDD，由于因疫情影响，将以线上形式举行。

一直以来，KDD 为来自学术界、企业界的研究人员和数据挖掘从业者提供了学术交流和展示研究成果的理想场所。而因其严苛的审稿与接收率，KDD 一直保持着它在数据挖掘领域的权威性和知名度。

KDD 2020 官方已经公布了本年度的论文录取情况，其中 Research Track 共收到 1279 篇论文，共有 216 篇接收，接收率为 16.8%；Applied Data Science Track共收到 756 篇论文，共有 121 篇被录用，接收率为 16%。

根据 KDD 近五年来的论文录用情况来看，KDD 的投稿数量呈逐年上升趋势，数据挖掘正受到越来越多学者的关注。其中，今年 Research Track 的接收率相较于去年有所提升，但仍然低于过去几年的接收率；而 Applied Data Science Track，近两年的接收率呈下降趋势。想要高中 KDD，可谓是难度是直线上升。

下面我们就来看看，根据 AMiner 平台对 KDD（2016-2019）过去五年来接收论文与学者数据的统计分析，KDD 收录论文的关键词、高产作者、高被引作者以及高被引用论文的具体情况。

论文关键词：

KDD 大会涉及的议题大多跨学科且应用广泛。过去五年，KDD 接收论文的关键词主要集中在机器学习、深度学习、社交网络、异常检测、多任务学习、数据科学等领域。关键词云图如下图所示。

收录学者特征：

根据 AMiner 对过去五来年 KDD 接收论文作者数据的分析，可以看出，男性作者占比达 84.53% ，女性作者仅占 15.47%。从学者分布情况来看，来自美国和中国的投稿学者远超过其他国家，分别占比 44.46%、26.78%，日本、印度、新加坡等国家分列第三至第五位。

高产作者与高引学者TOP10

高产作者TOP10

从这份榜单可以看出，排在前 10 的作者中华人学者就占据了 9 位，遥遥领先于其他国家。这些作者近五年来在 KDD 大多发表了 14 篇以上论文。

TOP1
熊辉，现任百度研究院副院长、百度商业智能实验室主任、百度机器人与自动驾驶实验室主任等，美国罗格斯-新泽西州立大学罗格斯商学院管理科学与信息系统系正教授（终身教授）、院长讲席教授，并担任中国科学技术大学大师讲席教授（客座），IEEE Fellow。熊辉教授一直致力于数据挖掘、大数据分析、商务智能、互联网证券和信息安全等领域的科学研究，近年来共发表高水平学术论文180余篇。

TOP1（并列）
叶杰平，滴滴人工智能实验室负责人，滴滴出行副总裁，美国密歇根大学教授，IEEE Fellow。美国明尼苏达大学博士毕业，主要从事机器学习、数据挖掘和大数据分析领域的研究。他在国际顶级期刊和会议发表高水平论文 200 余篇，引用次数超过 8000 次，担任包括 IEEETPAMI、DMKD、IEEETKDE、NIPS、ICML、KDD 等多个国际顶级期刊编委及国际顶级会议程序委员会主席和领域主席。

TOP2
崔鹏，清华大学计算机系长聘副教授，博士生导师。研究领域包括大数据环境下的因果推理与稳定预测、网络表征学习、社会动力学建模，及其在金融科技、智慧医疗及社交网络等场景中的应用。他已在数据挖掘及多媒体领域顶级国际期刊和会议上发表论文百余篇，并先后获得7项国际会议及期刊最佳论文奖，包括中国入选数据挖掘领域顶级国际会议 KDD 最佳论文专刊的首篇论文。

美国伊利诺伊大学香槟分校（UIUC）计算机系教授韩家炜，清华大学计算机系教授朱文武，清华大学计算机系教授唐杰，布法罗大学计算机科学与工程系副教授高静，伊利诺伊大学厄本那-香槟分校计算机科学系的副教授 Hanghang Tong，卡内基梅隆大学计算机科学系教授 Christos Faloutsos，京东集团副总裁、京东数字科技首席数据科学家郑宇也相继位列高产作者 TOP 榜单。

高引学者TOP10

这份高引学者榜单与高产作者有较大不同，不少国外学者上榜，其中高产作者中的崔鹏副教授与朱文武教授同样榜上有名。

TOP1
Carlos Guestrin 是华盛顿大学 Paul G. Allen 计算机科学与工程学院的亚马逊机器学习教授。他是 Turi（最初是 GraphLab Inc.）的联合创始人兼首席执行官，专注于大规模机器学习和图形分析的研究。他曾在 KDD、IPSN、VLDB、NIPS、、ICML 等多个顶级学术会议及期刊发表过多篇论文，曾荣获 IJCAI 计算机与思想奖和总统科学家与工程师早期职业奖（PECASE）。

TOP2
陈天奇是机器学习领域著名的青年华人学者之一，本科毕业于上海交通大学 ACM 班，硕士阶段也就读于上海交通大学，博士毕业于华盛顿大学计算机系，研究方向为大规模机器学习。他曾参与开发了 XGBoost、Apache MxNet、Apache TVM ( https://tvm.ai/ )等著名机器学习工具，是最大开源分布式机器学习项目 DMLC 的发起人之一。

TOP3
Jure Leskovec，斯坦福大学计算机科学系的副教授，也是图网络领域的专家，图表示学习方法 node2vec 和 GraphSAGE 作者之一。他还是 Pinterest 的首席科学家，以及 Chan Zuckerberg Initiative 慈善基金会的首席调查员。他的研究领域包括网络结构的统计建模、网络演化、以及信息、病毒等在网络上的传播，同时他还致力于文本挖掘和机器学习的应用等。

斯坦福大学计算机科学专业博士生 Aditya Grover，加利福尼亚大学欧文分校的计算机科学助理教授 Sameer Singh，微软研究院的研究员 Marco Túlio Ribeiro，清华大学副教授崔鹏，清华大学计算机系教授朱文武，比萨大学教授 Dino Pedreschi，比萨 ISTI-CNR 的研究员 Mirco Nanni 位列 TOP10。

高引论文TOP10榜单

TOP1：XGBoost: A Scalable Tree Boosting System
作者：Tianqi Chen，Carlos Guestrin
论文地址：https://aminer.cn/pub/573696046e3b12023e517cb1
被引用量：6033
这是陈天奇发表于 2016 年的文章，主要是大名鼎鼎的 XGBOOST 算法的介绍。XGBOOS T广泛用于各种比赛和实际应用中，是非常实用的算法。提升树是非常有效且广泛应用于机器学习的方法。在这篇论文中，作者描述了可扩展的、端到端的提升树系统，叫做 XGBoost。在很多机器学习的挑战中，数据科学家经常使用该系统实现卓越的效果。作者提出了一个针对稀疏数据的新颖方法----稀疏感知和加权的分位近似树。更重要的，他们提出了一些有效的方法来实现缓存，数据压缩，分片构建提升树系统。综合这些有效的特点，在数据规模超过 10 亿的情况下，XGBoost 要比当前的其它系统使用较少的资源。

TOP2：node2vec: Scalable Feature Learning for Networks
作者：Aditya Grover，Jure Leskovec
论文地址：https://aminer.cn/pub/57aa28de0a3ac518da9896d5
被引用量：3274
该文是斯坦福大学的 Aditya Grover、Jure Leskovec 发表于 2016 年的一篇文章。在论文中作者提出，基于网络中节点和边的预测任务中的特征工程总是很复杂，虽然表示学习的自动学习特征已经有很大的帮助，但现有的特征学习方式无法对网络中连接模式的多样性进行足够的捕捉。
本论文提出了一种对网络中的节点学习连续特征表达的框架——node2vec。在这个算法中，学习了一种结点映射到低维特征空间，同时最大限度的保留网络里结点的邻域（neighborhoods）。定义网络的结点邻域并涉及了一种（biased）偏置的随机游走过程，将这些随机游走转化为计算嵌入的方法是一种智能的优化方式。首先为每个节点分配一个随机层，（例如长度为N的高斯向量），然后对于每对源相邻节点，作者希望通过调整这些层来最大化它们的点积。同时最后，最小化随机节点对的点积，这样做的效果是学习了一组嵌入，这些嵌入倾向于在相同的遍历过程中高点积的节点。该文展示了 node2vec 相对于现有的最新技术在多标签分类和链接预测中，在几个来自不同领域的实际网络中的功效，代表了一种有效学习复杂网络中与任务无关的最新表示的新方法。

TOP3："Why Should I Trust You?": Explaining the Predictions of Any Classifier
作者：Marco Túlio Ribeiro，Sameer Singh，Carlos Guestrin
论文地址：https://aminer.cn/pub/573695fd6e3b12023e51117d
被引用量：3063
机器学习模型尽管已经得到了广泛采用，但大部分仍旧是黑箱。然而，理解预测背后的原因在评估该预测是否可信上是相当重要的，这是人们计划基于预测采取行动或选择是否需要部署一个新模型时的基础。这样的理解也能提供对模型的见解（insight），其可被用于将不值得信任的模型或预测转化得可信任。
在本论文中，作者提出了 LIME——一种可通过围绕预测局部地学习一个可解读的模型，从而以一种可解读的和可信的方式解释任何分类器的预测的全新解释技术。他们还提出了一种以非冗余方式通过给出代表性的单个预测及其解释来对模型进行解释的方法，这种方法将这一任务视作是一个子模块的优化问题（submodular optimization problem）。通过解释用于文本（如随机森林）和图像分类（如神经网络）的不同模型而证明了这些方法的灵活性。通过在多种需要信任的情形上进行了模拟的和以人类为对象的全新实验，从而展示了解释的实用性——这些任务需要一个人决定是否相信一个预测、在模型之间做出选择、改进不值得信任的分类器和确定一个分类器不应该被信任的原因。

TOP4：Trajectory pattern mining
作者：Fosca Giannotti，Mirco Nanni，Fabio Pinelli，Dino Pedreschi
论文地址：https://aminer.cn/pub/53e99853b7602d970208a525
被引用量：1174

TOP5：Structural Deep Network Embedding
作者：DAIXIN WANG，Peng Cui，Wenwu Zhu
论文地址：https://aminer.cn/pub/57aa28de0a3ac518da9896d6

被引用量：1063

TOP6：Collaborative Deep Learning for Recommender Systems
作者：Hao Wang，Naiyan Wang，Dit-Yan Yeung
论文地址：https://aminer.cn/pub/5550416845ce0a409eb3b00b
被引用量：925

TOP7：Intelligible Models for HealthCare: Predicting Pneumonia Risk and Hospital 30-day Readmission
Rich Caruana,
作者：Yin Lou，Johannes Gehrke，Paul Koch，Marc Sturm，Noemie Elhadad
论文地址：https://aminer.cn/pub/5736973b6e3b12023e62b254
被引用量：613

TOP8：Certifying and Removing Disparate Impact
作者：Michael Feldman，Sorelle A. Friedler，John Moeller，Carlos Scheidegger，Suresh Venkatasubramanian
论文地址：https://aminer.cn/pub/5736973c6e3b12023e62b9e5
被引用量：591

TOP9：metapath2vec: Scalable Representation Learning for Heterogeneous Networks
作者：Yuxiao Dong，Nitesh V. Chawla，Ananthram Swami
论文地址：https://aminer.cn/pub/59ae3c262bbe271c4c71f4a2
被引用量：562

TOP10：Inferring Networks of Substitutable and Complementary Products
作者：Julian J. McAuley，Rahul Pandey，Jure Leskovec
论文地址：https://aminer.cn/pub/5736973b6e3b12023e62b11d
被引用量：531

历届KDD详细数据可查看：https://aminer.cn/conference/5eeb1307b5261c744f15bcd3
KDD 2020 可查看：https://www.aminer.cn/conf/kdd2020