国内接收论文占四成,图神经网络大火,ACM CIKM2019最佳论文已出炉

2019 年 11 月 6 日 机器之心

机器之心报道

机器之心编辑部
昨晚,在北京举行的信息检索顶会 ACM CKIM 2019 上,来自以色列的研究者获得了最佳论文奖项,阿里巴巴获最佳应用论文奖,最佳 Demo 奖则颁给了 IBM 的研究者。


ACM CIKM 全称为(ACM International Conference on Information and Knowledge Management),是国际计算机学会(ACM)主办的数据库、知识管理、信息检索领域的重要学术会议。自 1992 年首次举办以来,它已经在全球的 8 个国家举行过 27 次会议,今年的大会是 CIKM 第二次来到中国。


在 11 月 3 日到 7 日举行的大会中,Steve Maybank、韩家炜、裴健和石建萍等著名学者都将发表主题演讲。此外大会还有十余场行业演讲,以及讨论会议等活动。


本届大会吸引了超过 700 人前来参会,热度颇高。同时,众多华人学者和研究也成为了大会上的亮点。


国内学者占据四成


今年的 CIKM 收到 1676 篇提交论文(其中包括 1031 篇长论文和 471 篇短论文),经过同行评审,共有 202 篇长论文、107 篇短论文和 37 篇应用研究论文被接收。总接受率约为 21%。


为了促进人工智能、大数据等方向的业界研究,今年的大会论文也新增了应用论文 Track,与学界 Track 并列。所有的接收论文都有口头宣讲和海报展示。


「在学术研究取得一定进展之后,我们必须探讨如何把这些新技术转换到实际的问题中,」本届大会主席、澳大利亚科学院院士、悉尼大学教授陶大程表示。「这可以解决工业界此前无法解决的问题。在产业界,我们也可以从新的角度发现问题。」


在1700余篇提交论文中,来自中国的学术机构和公司占据了其中的 700 余篇,比例超过四成,成为了本届大会上提交论文数量最多的国家。


CIKM 2019 大会程序委员会主席、清华大学计算机科学与技术系副教授崔鹏说道:「近年来,国内学者在人工智能等领域的学术会议上正扮演着越来越重要的角色。在数据挖掘领域,近三年中国也呈崛起的态势。最近研究水平的进步,需要感谢政策环境的支持,以及相关产业发展的推动。」


把目光放到更远,其实华人在数据挖掘领域中一直以来都有着很大贡献。其中最为著名的当属 IEEE、ACM 院士,伊利诺伊大学香槟分校教授韩家炜,他被认为是数据挖掘的「开山鼻祖」,论文被引用量超过 17 万次,H-index 高达 171。数据挖掘顶级会议 KDD,就是在在韩家炜等人的推动下成为了重要的学术会议。今年,韩教授也作为程序委员会资深成员来到了大会现场。


「在数据挖掘领域里有很多著名的华人学者,包括韩家炜,俞士纶(Philip S. Yu)、Wang Ke、吴信东等等,」陶大程介绍道。「他们对推动数据挖掘的发展作出了杰出的贡献。纵观历史,华人在数据挖掘领域里起着非常重要的位置。」


最佳论文出炉


CIKM 2019 论文奖项分为三个:最佳研究论文、最佳应用论文与最佳 Demo。


最佳研究论文由来自以色列内盖夫本-古里安大学的 Noy Cohen 等人获得。



论文链接: http://www.cikm2019.net/attachments/papers/p821-cohen-shapiraA.pdf


摘要:近来,非机器学习人士也希望能够使用相关的算法进行应用。其中一个主要的挑战是,他们需要选择算法并用它来解决问题。如果能够选择正确的算法,在给定数据集、任务和评价方法的情况下可以使算法得到很好的效果。

本文中,研究者提出了一个名为 AutoGRD 的算法,这是一种新颖的元学习算法,用于算法推荐。AutoGRD 首先将数据表示为图,并将其隐式表示提取出来。提取出来的表示会被用来训练一个排序元模型,这个模型能够精确地对未见数据集提供表现最好的算法。研究者将这一算法在 250 个数据集上进行了测试,在分类和回归任务上都表现出了很高的性能,而且 AutoGRD 比现有的元学习 SOTA 模型和贝叶斯算法表现得都要好。


最佳研究论文第二名 由北大、微软研究院和阿里巴巴的研究者获得。


论文链接: http://www.cikm2019.net/attachments/papers/p409-longA.pdf


摘要: 为了描述现实世界无处不在的关系数据,网络数据已经广泛应用于复杂关系的建模中。因此,将顶点(vertice)映射到低维空间(即网络嵌入)适用于各种各样的预测任务。大量的研究利用了成对接近性(pairwise proximity),这是真实网络具有的特性。聚类性,即顶点倾向于形成各种规模的社区——由此形成一个囊括不同社区的层级结构,则是另一种属性。这类研究却没有引起研究者的关注。


在本文中,研究者提出了一种子空间网络嵌入框架(Subspace Network Embedding,SpaceNE),该框架保留了社区通过子空间形成的层级结构,并具有灵活的维数以及固有的层次结构,并且本质上是层次结构。此外,他们提出子空间能够解决表征层级社区的更多问题,包括稀疏性和空间扭曲。

最后,研究者提出了要降噪的子空间维数的约束条件,这些约束条件通过可微分函数进一步逼近,从而使联合优化成为可能。与此同时,他们还采用了逐层方案来减少由参数过度引起的开销。研究者进行了各种实验,结果证明了 SpaceNE 模型在解决社区层级结构方面是有效的。


最佳应用论文 作者来自阿里巴巴。


论文链接: https://arxiv.org/pdf/1908.10679.pdf


摘要:购物网站上的评论会影响到用户的购买决定,同时还会吸引到大批致力于误导买家的垃圾评论。二手商品交易网站闲鱼就饱受垃圾评论困扰。闲鱼的反垃圾评论系统面临两大挑战:数据的可扩展性以及垃圾评论者的敌对行为。

在这篇论文中,阿里的研究者提出了这些挑战的应对方案。他们提出了一个基于图卷积网络(GCN)的大规模反垃圾评论方法——GAS,用于检测闲鱼上的垃圾广告。这个模型结合了异构图和同构图来捕获内容的本地上下文和全局上下文。离线实验表明,他们提出的方法优于利用评论信息、用户特征和被浏览商品信息的基线方法。此外,他们还将模型部署在了闲鱼上,每天处理上百万的数据。在线性能也证明了模型的有效性。


最佳 Demo 奖项 颁给了 IBM 的研究者。


论文链接:https://arxiv.org/abs/1909.01606


摘要:深度学习(DL)模型正变得无处不在,但大多数软件开发者并非深度学习专家,因此很难用上蓬勃发展的 DL 模型。TensorFlow、pyTorch 等各种不兼容的 DL 编程框架的普遍使用使得这一情况变得更加糟糕。

为了解决这一问题,IBM 的研究者提出了一种名为 Model Asset Exchange(MAE)的系统,使得开发人员可以方便地利用当前最新的 DL 模型。无论底层的 DL 编程框架是什么,该模型都能提供一个开源的 Python 库(MAX 框架),该库封装 DL 模型,并使用标准化的 RESTful API 统一编程接口。这些 RESTful API 使得开发者能够在推理任务中利用封装的 DL 模型,无需完全理解不同的 DL 编程框架。利用 MAX,研究者封装并开源了来自不同研究领域的 30 多个 SOTA DL 模型,包括计算机视觉、自然语言处理和信号处理等。


图神经网络成为最大趋势


这届 CIKM 的主题是「赋能未来生活的人工智能」,可见以深度学习为主要动力的人工智能技术在信息提取、数据挖掘领域中已经成为了主流技术。


「当前,全世界各个国家都在制定自己的人工智能战略。不仅仅是中国,美国、英国、欧盟、澳大利亚都在制定自己的战略,」陶大程表示。「我们认为,未来它会渗透到生活的各个方面。人工智能其中主要是机器学习和深度学习,本届大会希望讨论深度学习和传统的统计学习在未来会有什么样的发展趋势。」


在大会上,很多学者都认为图神经网络方面的研究成为了最近一段时间以来,信息提取、数据挖掘中的热点,不过在这一方面,人们还有很多可以发展的方向。


「在图卷积神经网络(GCN)上我们使用的定义还是历史性的,还有很多事情要去做,」陶大程说道。「相较于传统算法,人们在图网络的理论分析上还有所欠缺,真正的发展还需要一些时间。目前,想要让图网络获得很好的效果,往往需要依赖于在参数和模型上的不断调整尝试。」


陶大程也表示,即便如此,图网络相对于传统算法还是展现出了很多优势,并在很多研究中已经取得了比较好的效果。


崔鹏教授则指出了图神经网络的局限性:「我们认为问题的核心在于处理拓扑结构,目前大家普遍的观点是 GCN 已经可以很好地处理其中的一部分了。但另一方面,我们也发现 GCN 擅长解决的是特征驱动——比如节点的标签是由节点本身的特征决定的,这方面 GCN 做得比较好,能够很好地抑制噪声;如果标签的产生并不是由特征驱动的,而是由拓扑结构决定的,则目前的图卷积神经网络就不一定能解决问题。」


在知识检索任务中,建立知识网络是解决用户检索需求的重要环节。面向未来,深度学习等技术还有很多挑战需要解决。「从学术研究的角度来看,AI 也到了十字路口,」崔鹏表示。「目前的人工智能热潮毋庸置疑是深度学习推动起来的。但到今天为止,我们也看到了很多问题,包括鲁棒性、可解释性、公平性等等。」


目前,ACM CIKM 2019 大会正在北京举行中。今明两天,大会主要围绕机器学习、深度学习方面的理论和应用,以及工业界在相关领域的研究进行研讨。机器之心也会关注后续内容,并为读者带来新的消息。



第三届机器之心「Synced Machine Intelligence Awards」年度奖项评选正在进行中。本次评选设置六大奖项重点关注人工智能公司的产品、应用案例和产业落地情况,基于真实客观的产业表现筛选出最值得关注的企业,为行业带来实际的参考价值。


参选报名日期 2019 年 10 月 23 日~2019 年 12 月 15 日
评审期 2019 年 12 月 16 日~2019 年 12 月 31 日
奖项公布 2020 年 1 月


点击 阅读原文 ,查看更多详情并报名参选。
登录查看更多
2

相关内容

【简介】近些年,将计算智能应用于金融业已经引起了学术界和金融界的广泛关注。研究人员发布了大量的研究成果和各种各样的模型。同时,在机器学习领域,深度学习在近期也引起了大量的关注,主要是因为这些经典的深度学习模型表现优于传统模型。金融是深度学习模型开始受到关注的一个特殊领域,然而,这个领域非常开放,仍然存在很多研究机会。在这篇综述中,我们尝试着提供一个已经开发好的,可用在金融应用当中的深度学习模型。我们不仅根据模型的实现进行了分类,还对这些深度学习模型进行了分析。此外,我们还旨在确定未来深度学习模型在金融领域有可能的实现,以及强调了该领域正在进行的研究。

原始链接:

https://arxiv.org/abs/2002.05786

介绍

股票市场预测、算法交易、信用风险评估、投资组合配置、资产定价和衍生品市场都是机器学习研究人员关注的领域,他们致力于开发出能够为金融业提供实时工作解决方案的模型。因此,目前文献中存在大量有关的出版物和实现。

然而,在机器学习领域中,深度学习是一个新兴的领域,并且每年都在快速增长。结果越来越多的深度学习金融模型开始出现在会议和期刊上。我们在这篇论文中关注的是目前在金融领域深度学习模型之间的不同之处。在这种方式下,依据各自的兴趣点研究人员和从业者可以决定他们应该走哪条路。

在这篇论文中,我们尝试着为下列研究中的问题提供答案:

  • 有哪些金融应用可以用到深度学习?
  • 当前在这些应用领域中的研究现状如何?
  • 从学术/工业研究的角度来看,哪些领域有很大的潜力?
  • 在不同的应用环境中哪些深度学习模型表现更好?
  • 深度学习模型和传统的机器学习技术相比如何?
  • 在金融领域深度学习研究的未来方向是什么?

金融领域中的机器学习

早在40年前,金融就一直是最受机器学习关注的应用领域之一。到目前为止,在金融的各个领域已经发表了成千上万的研究论文,整体的兴趣似乎不会很快消失。尽管这篇调查论文仅仅关注于深度学习的实现,但是我们希望通过引用过去20年的相关调查,为读者提供一些以前在金融领域关于机器学习研究的见解。

深度学习

深度学习是一种特定类型的机器学习,由多个ANN层组成。它为数据建模提供了高级别的抽象。目前,主要的深度学习模型有以下几种:

DMLP(深度多层感知机)、CNNs、RNNs、LSTM、RBMs(受限波兹曼机)、DBNs(Deep Belief Networks 和自编码器(AEs)。

成为VIP会员查看完整内容
0
19

会议介绍:

11月2日,由极视角主办,英特尔、UCloud作为合作伙伴的 CV101计算机视觉青年开发者技术与应用大会 在深圳福田盛大开幕。本次大会聚焦于人工智能落地应用最广的计算机视觉领域,汇聚全球极具代表性的行业专家及一流企业家,设技术演讲报告与前沿算法展示,吸引了近500位计算机视觉领域学者研究员、算法工程师、业界人士报名参与,共赴这场计算机视觉技术交流的盛宴。

主讲嘉宾

金连文,华南理工大学二级教授、博士生导师。

成为VIP会员查看完整内容
05-金连文-基于深度学习的文字识别 现状及展望(1).pdf
0
9
小贴士
Top