国内接收论文占四成,图神经网络大火,ACM CIKM2019最佳论文已出炉

11 月 6 日 机器之心

机器之心报道

机器之心编辑部
昨晚,在北京举行的信息检索顶会 ACM CKIM 2019 上,来自以色列的研究者获得了最佳论文奖项,阿里巴巴获最佳应用论文奖,最佳 Demo 奖则颁给了 IBM 的研究者。


ACM CIKM 全称为(ACM International Conference on Information and Knowledge Management),是国际计算机学会(ACM)主办的数据库、知识管理、信息检索领域的重要学术会议。自 1992 年首次举办以来,它已经在全球的 8 个国家举行过 27 次会议,今年的大会是 CIKM 第二次来到中国。


在 11 月 3 日到 7 日举行的大会中,Steve Maybank、韩家炜、裴健和石建萍等著名学者都将发表主题演讲。此外大会还有十余场行业演讲,以及讨论会议等活动。


本届大会吸引了超过 700 人前来参会,热度颇高。同时,众多华人学者和研究也成为了大会上的亮点。


国内学者占据四成


今年的 CIKM 收到 1676 篇提交论文(其中包括 1031 篇长论文和 471 篇短论文),经过同行评审,共有 202 篇长论文、107 篇短论文和 37 篇应用研究论文被接收。总接受率约为 21%。


为了促进人工智能、大数据等方向的业界研究,今年的大会论文也新增了应用论文 Track,与学界 Track 并列。所有的接收论文都有口头宣讲和海报展示。


「在学术研究取得一定进展之后,我们必须探讨如何把这些新技术转换到实际的问题中,」本届大会主席、澳大利亚科学院院士、悉尼大学教授陶大程表示。「这可以解决工业界此前无法解决的问题。在产业界,我们也可以从新的角度发现问题。」


在1700余篇提交论文中,来自中国的学术机构和公司占据了其中的 700 余篇,比例超过四成,成为了本届大会上提交论文数量最多的国家。


CIKM 2019 大会程序委员会主席、清华大学计算机科学与技术系副教授崔鹏说道:「近年来,国内学者在人工智能等领域的学术会议上正扮演着越来越重要的角色。在数据挖掘领域,近三年中国也呈崛起的态势。最近研究水平的进步,需要感谢政策环境的支持,以及相关产业发展的推动。」


把目光放到更远,其实华人在数据挖掘领域中一直以来都有着很大贡献。其中最为著名的当属 IEEE、ACM 院士,伊利诺伊大学香槟分校教授韩家炜,他被认为是数据挖掘的「开山鼻祖」,论文被引用量超过 17 万次,H-index 高达 171。数据挖掘顶级会议 KDD,就是在在韩家炜等人的推动下成为了重要的学术会议。今年,韩教授也作为程序委员会资深成员来到了大会现场。


「在数据挖掘领域里有很多著名的华人学者,包括韩家炜,俞士纶(Philip S. Yu)、Wang Ke、吴信东等等,」陶大程介绍道。「他们对推动数据挖掘的发展作出了杰出的贡献。纵观历史,华人在数据挖掘领域里起着非常重要的位置。」


最佳论文出炉


CIKM 2019 论文奖项分为三个:最佳研究论文、最佳应用论文与最佳 Demo。


最佳研究论文由来自以色列内盖夫本-古里安大学的 Noy Cohen 等人获得。



论文链接: http://www.cikm2019.net/attachments/papers/p821-cohen-shapiraA.pdf


摘要:近来,非机器学习人士也希望能够使用相关的算法进行应用。其中一个主要的挑战是,他们需要选择算法并用它来解决问题。如果能够选择正确的算法,在给定数据集、任务和评价方法的情况下可以使算法得到很好的效果。

本文中,研究者提出了一个名为 AutoGRD 的算法,这是一种新颖的元学习算法,用于算法推荐。AutoGRD 首先将数据表示为图,并将其隐式表示提取出来。提取出来的表示会被用来训练一个排序元模型,这个模型能够精确地对未见数据集提供表现最好的算法。研究者将这一算法在 250 个数据集上进行了测试,在分类和回归任务上都表现出了很高的性能,而且 AutoGRD 比现有的元学习 SOTA 模型和贝叶斯算法表现得都要好。


最佳研究论文第二名 由北大、微软研究院和阿里巴巴的研究者获得。


论文链接: http://www.cikm2019.net/attachments/papers/p409-longA.pdf


摘要: 为了描述现实世界无处不在的关系数据,网络数据已经广泛应用于复杂关系的建模中。因此,将顶点(vertice)映射到低维空间(即网络嵌入)适用于各种各样的预测任务。大量的研究利用了成对接近性(pairwise proximity),这是真实网络具有的特性。聚类性,即顶点倾向于形成各种规模的社区——由此形成一个囊括不同社区的层级结构,则是另一种属性。这类研究却没有引起研究者的关注。


在本文中,研究者提出了一种子空间网络嵌入框架(Subspace Network Embedding,SpaceNE),该框架保留了社区通过子空间形成的层级结构,并具有灵活的维数以及固有的层次结构,并且本质上是层次结构。此外,他们提出子空间能够解决表征层级社区的更多问题,包括稀疏性和空间扭曲。

最后,研究者提出了要降噪的子空间维数的约束条件,这些约束条件通过可微分函数进一步逼近,从而使联合优化成为可能。与此同时,他们还采用了逐层方案来减少由参数过度引起的开销。研究者进行了各种实验,结果证明了 SpaceNE 模型在解决社区层级结构方面是有效的。


最佳应用论文 作者来自阿里巴巴。


论文链接: https://arxiv.org/pdf/1908.10679.pdf


摘要:购物网站上的评论会影响到用户的购买决定,同时还会吸引到大批致力于误导买家的垃圾评论。二手商品交易网站闲鱼就饱受垃圾评论困扰。闲鱼的反垃圾评论系统面临两大挑战:数据的可扩展性以及垃圾评论者的敌对行为。

在这篇论文中,阿里的研究者提出了这些挑战的应对方案。他们提出了一个基于图卷积网络(GCN)的大规模反垃圾评论方法——GAS,用于检测闲鱼上的垃圾广告。这个模型结合了异构图和同构图来捕获内容的本地上下文和全局上下文。离线实验表明,他们提出的方法优于利用评论信息、用户特征和被浏览商品信息的基线方法。此外,他们还将模型部署在了闲鱼上,每天处理上百万的数据。在线性能也证明了模型的有效性。


最佳 Demo 奖项 颁给了 IBM 的研究者。


论文链接:https://arxiv.org/abs/1909.01606


摘要:深度学习(DL)模型正变得无处不在,但大多数软件开发者并非深度学习专家,因此很难用上蓬勃发展的 DL 模型。TensorFlow、pyTorch 等各种不兼容的 DL 编程框架的普遍使用使得这一情况变得更加糟糕。

为了解决这一问题,IBM 的研究者提出了一种名为 Model Asset Exchange(MAE)的系统,使得开发人员可以方便地利用当前最新的 DL 模型。无论底层的 DL 编程框架是什么,该模型都能提供一个开源的 Python 库(MAX 框架),该库封装 DL 模型,并使用标准化的 RESTful API 统一编程接口。这些 RESTful API 使得开发者能够在推理任务中利用封装的 DL 模型,无需完全理解不同的 DL 编程框架。利用 MAX,研究者封装并开源了来自不同研究领域的 30 多个 SOTA DL 模型,包括计算机视觉、自然语言处理和信号处理等。


图神经网络成为最大趋势


这届 CIKM 的主题是「赋能未来生活的人工智能」,可见以深度学习为主要动力的人工智能技术在信息提取、数据挖掘领域中已经成为了主流技术。


「当前,全世界各个国家都在制定自己的人工智能战略。不仅仅是中国,美国、英国、欧盟、澳大利亚都在制定自己的战略,」陶大程表示。「我们认为,未来它会渗透到生活的各个方面。人工智能其中主要是机器学习和深度学习,本届大会希望讨论深度学习和传统的统计学习在未来会有什么样的发展趋势。」


在大会上,很多学者都认为图神经网络方面的研究成为了最近一段时间以来,信息提取、数据挖掘中的热点,不过在这一方面,人们还有很多可以发展的方向。


「在图卷积神经网络(GCN)上我们使用的定义还是历史性的,还有很多事情要去做,」陶大程说道。「相较于传统算法,人们在图网络的理论分析上还有所欠缺,真正的发展还需要一些时间。目前,想要让图网络获得很好的效果,往往需要依赖于在参数和模型上的不断调整尝试。」


陶大程也表示,即便如此,图网络相对于传统算法还是展现出了很多优势,并在很多研究中已经取得了比较好的效果。


崔鹏教授则指出了图神经网络的局限性:「我们认为问题的核心在于处理拓扑结构,目前大家普遍的观点是 GCN 已经可以很好地处理其中的一部分了。但另一方面,我们也发现 GCN 擅长解决的是特征驱动——比如节点的标签是由节点本身的特征决定的,这方面 GCN 做得比较好,能够很好地抑制噪声;如果标签的产生并不是由特征驱动的,而是由拓扑结构决定的,则目前的图卷积神经网络就不一定能解决问题。」


在知识检索任务中,建立知识网络是解决用户检索需求的重要环节。面向未来,深度学习等技术还有很多挑战需要解决。「从学术研究的角度来看,AI 也到了十字路口,」崔鹏表示。「目前的人工智能热潮毋庸置疑是深度学习推动起来的。但到今天为止,我们也看到了很多问题,包括鲁棒性、可解释性、公平性等等。」


目前,ACM CIKM 2019 大会正在北京举行中。今明两天,大会主要围绕机器学习、深度学习方面的理论和应用,以及工业界在相关领域的研究进行研讨。机器之心也会关注后续内容,并为读者带来新的消息。



第三届机器之心「Synced Machine Intelligence Awards」年度奖项评选正在进行中。本次评选设置六大奖项重点关注人工智能公司的产品、应用案例和产业落地情况,基于真实客观的产业表现筛选出最值得关注的企业,为行业带来实际的参考价值。


参选报名日期 2019 年 10 月 23 日~2019 年 12 月 15 日
评审期 2019 年 12 月 16 日~2019 年 12 月 31 日
奖项公布 2020 年 1 月


点击 阅读原文 ,查看更多详情并报名参选。
登录查看更多
0+

相关内容

报告主题:图神经网络 (GNN) 算法及其应用

报告摘要:图神经网络将深度学习方法延伸到非欧几里得的图数据上,大大提高了图数据应用的精度。在这个报告中,我将简单回顾一下图卷积网络(GCN)并探讨如何提高GCN在图数据上的表示学习能力。我们的研究发现几个巧妙、简单的方法可以有效的提高GCN的表示能力,该方法可以等价表示为图注意力网络(GAT)。该方法的有效性在包括阿里巴巴等多个超大规模数据集上得到验证。

邀请嘉宾:唐杰,清华大学计算机系教授、系副主任,获杰青。研究兴趣包括:数据挖掘、社交网络和知识图谱。发表论文200余篇,引用10000余次(个人h-指数57)。主持研发了研究者社会网络挖掘系统AMiner,吸引了220个国家/地区1000多万独立IP访问。曾担任国际期刊ACM TKDD的执行主编和国际会议CIKM’16、WSDM’15的PC Chair、KDD’18大会副主席。作为第1完成人获北京市科技进步一等奖、中国人工智能学会科技进步一等奖、KDD杰出贡献奖。

2019-GNN-a-review-唐杰.pdf
13+
0+
小贴士
Top