论文 | CIKM2017 最佳论文鉴赏

2017 年 12 月 19 日 机器学习研究会

导读:


ACM CIKM 2017全称是The 26th ACM International Conference on Information and Knowledge Management,是国际计算机学会(ACM)主办的数据库、知识管理、信息检索领域的重要学术会议。


本届CIKM于11月6日-10日在享有“花园城市”美誉的新加坡举办,蚂蚁金服多位小伙伴前往参会。会议共收到Full/Short Paper投稿1274篇,其中Full Paper投稿855篇,录用171篇(录用率20%);Short Paper投稿419篇,录用119篇 (28%),反映了数据库、知识管理、信息检索领域国际前沿的研究水平。


参会归来后,小编邀请了参会的同学与各位读者们第一时间分享了CIKM的参会感受。在接下来的CIKM系列分享中,你将会看到:CIKM最佳论文鉴赏,Network Embedding专题和Transfer Learning 专题。本篇文章是CIKM系列分享的第一篇:CIKM最佳论文鉴赏。其他内容将在明后天的稿件推送中发出,敬请期待。


前记

本届会议参会人数超过700人,来自全球40多个国家的研科研院所,以及谷歌、微软、FaceBook、亚马逊、阿里巴巴、腾讯、搜狗等国内外知名企业。


有几点值得一提:

  • 来自中国的参会者人数,居首!

  • 来自中国的论文作者人数,依然居首!

  • 特别给力的是,本届CIKM所有的Best Paper,Best Runner-ups Papers,Best Demo奖项毫无遗漏全部被华人学者包揽!


会议产出的3个Best奖项如下:

  • 最佳长论文奖:Hike: A Hybrid Human-Machine Method for Entity Alignment in Large-Scale Knowledge Bases(本篇文章将对这篇论文进行详细解读)

  • 最佳短论文奖:Text Coherence Analysis Based on Deep Neural Network

  • 最佳Demo奖:AliMe Assist: An Intelligent Assistant for Creating an Innovative E-commerce Experience - Feng-Lin Li; Minghui Qiu; Haiqing Chen; Xiongwei Wang ; Xing Gao; Jun Huang; Juwei Ren; Zhongzhou Zhao; Weipeng Zhao; Lei Wang; Guwei Jin ; Wei Chu


在这里再次祝贺阿里小蜜团队,以压倒性优势拿下最佳Demo奖!


最佳论文背景解读


今年的最佳长论文奖由清华大学的李国良老师团队获得,论文题为:Hike: A Hybrid Human-Machine Method for Entity Alignment in Large-Scale Knowledge Bases《一种基于人机协作的大型知识图谱对齐方法》。因为是最佳论文,本篇分享单独对该文章做细致解读。为了能让各位读者有所得,涉及的细节较多,篇幅较长。如果你只是想一瞥论文思路,并不打算深究细节,那么后续章节中只挑“快读”部分阅读即可。  


知识库是对客观世界的事物及其相互关系的一种形式化描述(包括实体、类和关系等,下图是2个知识库的示例,圆圈表示实体,实线矩形表示类,实体之间的箭头表示关系),其目的是让机器像人一样能够记忆、理解、推理,在知识管理、信息检索等领域具有广泛应用。目前很多国内外企业和高校已经建立数百个大型知识库(例如谷歌的Freebase等)。为了提高知识库的覆盖率和准确率,一个重要的任务是集成这些异构知识库。然而,由于这些知识库体量大、不一致性和不确定性高,目前自动化的知识库对齐方法质量不高,召回率低。 


文章提出一种新型的人机协作的方法(A Hybrid Human-Machine Method),解决大规模知识库(Knowledge Base)之间实体对齐(Entity Alignment)的问题,并拿到了优于已有的自动对齐方法的结果。实体对齐是知识库对齐的一个子任务,是要判断两个知识库K和K′中,哪些实体描述的是同样的东东,并把它们link起来,例如下图中的hhenry_walthall和henry_b_walthall属于同一实体。



大规模知识库之间的实体对齐问题,有很多挑战:

  • 知识库中拥有海量的实体,如果纯靠人工去标记实体并做对齐工作,不论从人工成本还是可行性方面看,都是很不现实的。

  • 有自动的实体对齐算法,但是召回率只达到70%,质量不高。


读后感受

通过仔细地品读整篇文章,个人觉得这个工作之所以能拿下最佳论文奖项,原因有如下几个方面:

  • 工作内容本身:围绕着“能应用于大规模数据集”这一目标,打出了一系列组合拳,包括实体划分(显著降低计算量,并让问题可并行计算)、偏序构建(使得未知问题的解可通过已知问题的答案推理得到)、问题选择+众包机制+推断算法(进一步降低计算量和花销)和错误容忍机制(提升质量),终使得实体对齐得以在大规模数据集落地。

  • 工作非常饱满:几乎每一个细节之处都处理得很精致,不马虎;环环相扣,不断提出问题和解决问题,读后有一种淋漓尽致的感觉。


当然,文章中也存在一些值得商榷的地方和影响阅读的小瑕疵,整体感觉是后半部分质量不及前半部分。但本篇分享不做细节勘误。如果你在细读原论文时有任何细节困惑,欢迎在本文评论区留言交流!


论文解读

下面正式进入对论文细节的解读。为避免概念混淆,请留意:

(1)下文提到的实体对,永远都是指分别来自2个知识库的实体构成的实体对,同一个知识库中不谈实体对。此外,所述实体对只单纯是成对的实体,并不意味着一定是“对齐的”实体。

(2)后文中根据语境,会交叉使用“实体对”和“问题”两种表述,记得它们是一样的东东,因为每个实体对(ei,ej)都对应着如下问题:这俩实体是否匹配?


Introduction


论文背景

随着World Wide Web的发展,有越来越多异构的大规模知识库(Knowledge Base)产生,比如DBPedia(一个从维基百科的词条里撷取出的结构化的知识库)、YAGO(从WordNet和维基百科等构成的知识库)等等。知识库广泛应用于自动问答(Question Answer)、语义搜索(Semantic Search)等领域。知识库有几种组成元素:实体(entity,如Alibaba Group),类(class,实体所属的类别,如Company),关系(relation,如Alibaba Group isA Company,isA即是关系),属性(property),字面值(iteral,如日期、数值等)等。不同的知识库是异构的,因此可以互为补充。例如DBPedia有很多实体(entity)但只有少量的class,而YAGO则拥有成千上万的class(见下表),倘若可以link这两个知识库,便可以起到互相补充以提高知识库覆盖度的作用。



通常,我们会以三元组(s,p,o)表达知识库中的一条条事实:s=subject ,可以是实体或类;o=object,可以是实体、类或字面值;p=predicate (谓词),可以是关系或属性。 


先贴一下方案的框架图,可以看到:输入是两个知识库K和K′,输出是两个知识库之间匹配的实体对,主要流程有Entity Partition,Partial Order Construction,Question Selection和Error Tolerance。



接下来,我们看看论文作者是如何环环相扣,以较小的计算量和花销解决实体对齐问题的。



转自:蚂蚁金服科技


完整内容请点击“阅读原文”

登录查看更多
4

相关内容

信息和知识管理会议(CIKM)为介绍和讨论信息和知识管理的研究以及数据和知识库方面的最新进展提供了一个国际论坛。会议的目的是确定未来知识和信息系统发展所面临的具有挑战性的问题,并通过征求和审查高质量的、应用的和理论的研究成果来确定未来的研究方向。会议的一个重要部分是讲习班计划,它侧重于及时的研究挑战和倡议。 官网地址:http://dblp.uni-trier.de/db/conf/cikm/
【快讯】KDD2020论文出炉,216篇上榜, 你的paper中了吗?
专知会员服务
50+阅读 · 2020年5月16日
近期必读的8篇 AAAI 2020【图神经网络(GNN)】相关论文
专知会员服务
76+阅读 · 2020年1月15日
AAAI2020接受论文列表,1591篇论文目录全集
专知会员服务
98+阅读 · 2020年1月12日
近期必读的5篇 WSDM 2020【图神经网络(GNN)】相关论文
专知会员服务
56+阅读 · 2020年1月10日
六篇 CIKM 2019 必读的【图神经网络(GNN)】长文论文
专知会员服务
37+阅读 · 2019年11月3日
AAAI 2020放榜,8800篇提交论文创纪录,接收率20.6%
机器之心
8+阅读 · 2019年11月11日
ICLR2019最佳论文出炉
专知
11+阅读 · 2019年5月6日
COLING 2018-最新论文最全分类-整理分享
深度学习与NLP
6+阅读 · 2018年7月6日
论文 | 2017CIKM - 迁移学习专题论文分享
机器学习研究会
6+阅读 · 2017年12月22日
论文|2017CIKM-Network Embedding专题论文分享
蚂蚁程序猿
8+阅读 · 2017年12月20日
ICCV 2017获奖论文公布 何恺明成为最大赢家! | 聚焦
网易智能菌
13+阅读 · 2017年10月25日
KDD 2017奖项全公布,华人成最大赢家
AI科技评论
9+阅读 · 2017年8月15日
AliCoCo: Alibaba E-commerce Cognitive Concept Net
Arxiv
13+阅读 · 2020年3月30日
Arxiv
29+阅读 · 2019年3月13日
Arxiv
21+阅读 · 2018年8月30日
Arxiv
6+阅读 · 2017年12月2日
VIP会员
相关资讯
AAAI 2020放榜,8800篇提交论文创纪录,接收率20.6%
机器之心
8+阅读 · 2019年11月11日
ICLR2019最佳论文出炉
专知
11+阅读 · 2019年5月6日
COLING 2018-最新论文最全分类-整理分享
深度学习与NLP
6+阅读 · 2018年7月6日
论文 | 2017CIKM - 迁移学习专题论文分享
机器学习研究会
6+阅读 · 2017年12月22日
论文|2017CIKM-Network Embedding专题论文分享
蚂蚁程序猿
8+阅读 · 2017年12月20日
ICCV 2017获奖论文公布 何恺明成为最大赢家! | 聚焦
网易智能菌
13+阅读 · 2017年10月25日
KDD 2017奖项全公布,华人成最大赢家
AI科技评论
9+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员