信息检索顶会SIGIR2020最佳论文公布，公平性排序学习获得最佳，清华摘得多个奖项

2020 年 7 月 30 日 专知

转载机器之心报道

编辑：魔王、杜伟、小舟

第 43 届国际计算机协会信息检索大会（ACM SIGIR）于本月 25 日举行。昨日，大会公布了最佳论文等奖项。来自清华大学的研究人员获得最佳论文荣誉提名奖、最佳短论文奖奖项。

ACM SIGIR 是信息检索领域的顶级学术会议，今年是第 43 届。据统计，SIGIR 2020 会议共收到投稿 1180 篇，接收 340 篇，接收率为 28.8%。其中长论文投稿 555 篇，接收 147 篇，接收率约为 26%；短文投稿 507 篇，接收 152 篇，接收率约为 30%。

SIGIR 2020 论文词云统计。

昨日，大会公布了最佳论文奖、最佳短论文奖、时间检验奖等奖项。

其中，来自柏林工业大学和康奈尔大学的研究者获得最佳论文奖，来自清华大学的研究者获得最佳论文提名奖。此外，最佳短论文奖和最佳短论文荣誉提名奖也分别出自清华团队。

接下来，我们来看获奖论文的具体内容。

最佳论文奖

SIGIR 2020 最佳论文奖由来自柏林工业大学和康奈尔大学的研究者摘得。

论文作者：Marco Morik（柏林工业大学）、Ashudeep Singh（康奈尔大学）、Jessica Hong（康奈尔大学）、Thorsten Joachims（康奈尔大学）
论文链接：https://dl.acm.org/doi/pdf/10.1145/3397271.3401100

排序算法是很多线上平台匹配用户与项目（如新闻、产品、音乐、视频等）的主要途径。在这类双边市场中，不仅用户可以从排序中获益，排序本身也决定了项目提供商（如出版商、卖家、艺术家等）的效益（如曝光度、收益等）。

但人们已经注意到，仅针对用户的效益进行优化（几乎所有 learning-to-rank 算法都是这样做的）对于项目提供商而言是不公平的。

因此，该研究提出 一种新型 learning-to-rank 方法，可以显式地对成组项目（如同一个出版商发布的文章）提供 merit-based 公平性保障。

具体而言，该研究提出了一种确保成组项目公平性的学习算法，它还可以同时基于隐式反馈数据学习排序函数。该算法以控制器的形式，集成公平性和效益的无偏估计器，在可用数据增多后可以对二者进行动态适应。

该研究提供了严谨的理论基础和收敛保证，此外实验结果表明，该算法具备高度的实用性和稳健性。

最佳论文荣誉提名奖

此次会议的最佳论文荣誉提名奖由清华大学团队获得，作者为张帆、毛佳昕、刘奕群、谢晓晖、马为之、张敏、马少平。

论文作者：Fan Zhang、Jiaxin Mao、Yiqun Liu、Xiaohui Xie、Weizhi Ma、Min Zhang、Shaoping Ma（均来自清华大学）
论文链接：https://dl.acm.org/doi/pdf/10.1145/3397271.3401162

评估指标在信息检索系统批量评估中发挥重要作用。评估指标基于用来描述用户与排序列表交互过程的用户模型，旨在将多个文档的相关性分数与系统效果和用户满意度估计联系起来。

因而，评估指标的有效性包括以下两个层面：

底层用户模型能否准确预测用户行为；
评估指标能否很好地度量用户满意度。

目前已有大量工作涉及不同评估指标的设计、评估和对比，但很少有研究探讨评估指标这两个层面的一致性。

具体而言，该研究想探讨与用户行为数据匹配良好的指标能否在估计用户满意度方面取得同样好的效果。

为此，该研究对比了不同指标在已经优化可以拟合用户行为的情况下，在估计用户满意度方面的性能。该研究在自己收集的数据集和公开可用的用户搜索行为数据集上进行了实验，结果表明能够拟合用户行为的评估指标在估计用户满意度反馈方面也能实现同样好的性能。

该研究还调查了评估指标校准过程的可信度，从而发现调参所需的数据量。该研究为用户行为建模和满意度度量之间的一致性提供了实验支持，同时也为评估指标的调参过程提供了指引。

最佳短论文奖

SIGIR 2020 最佳短论文奖由清华大学和微软的研究人员合作完成。

据北京智源人工智能研究院信息，第一作者于是（Shi Yu）是清华大学计算机系大三本科生。清华大学刘知远和 Microsoft Research AI 高级研究员熊辰炎为指导老师。

论文作者：Shi Yu（清华大学）、Jiahua Liu（清华大学）、Jingqin Yang（清华大学）、Chenyan Xiong（MSR AI）、Paul Bennett（MSR AI）、Jianfeng Gao（MSR AI）、Zhiyuan Liu（清华大学）
论文链接：https://dl.acm.org/doi/pdf/10.1145/3397271.3401323

对话查询重写（conversational query rewriting）的目的是，将简洁的对话查询形式化为可被现有信息检索系统高效处理的完全指定、上下文无关的查询。

该研究提出了一种对话查询重写的 few-shot 生成方法。研究者基于规则和自监督学习开发出两种方法，以使用大量临时搜索会话生成弱监督数据，并优化 GPT-2 以重写对话查询。

在 TREC Conversational Assistance Track 数据集上，该研究的弱监督 GPT-2 重写器仅使用非常少量的手动查询重写就能将准确率在原 SOTA 的基础上提升 12%。在零次学习（zero-shot learning）设置下，重写器仍然能够给出与之前的 SOTA 系统相当的结果。该研究的分析表明：GPT-2 能够高效掌握任务句法并学习捕获上下文依赖关系，即使在涉及到组引用（group reference）和 long-turn dependencies 的困难情况下也是如此。

最佳短论文荣誉提名奖

SIGIR 2020 最佳短论文荣誉提名奖由来自清华大学和中国科学技术大学的研究者合作完，成员来自于清华大学电子系金德鹏教授与李勇副教授的研究团队，论文第一作者和第二作者分别为硕士生常健新（Jianxin Chang）与博士生高宸（Chen Gao）。

此外，据北京智源人工智能研究院信息，中国科学技术大学何向南教授参与了该论文的合作和指导。

论文作者：Jianxin Chang（清华大学）、Chen Gao（清华大学）、Xiangnan He（中国科学技术大学）、Depeng Jin（清华大学）、Yong Li（清华大学）
论文链接：https://dl.acm.org/doi/pdf/10.1145/3397271.3401198

捆绑推荐（bundle recommendation）旨在给用户推荐一组可以一起购买的物品。

现有的方案是通过共享模型参数或以多任务学习方式，将用户 - 物品交互建模（user-item interaction modeling）集成到捆绑推荐中。但这种方式无法显式地对物品和物品组合之间的从属关系进行建模，并且在用户选择物品组合时无法探索决策。

该研究针对捆绑推荐提出了一种名为 BGCN（Bundle Graph Convolutional Network，捆绑图卷积网络）的图神经网络模型。BGCN 将用户 - 物品交互、用户 - 物品组合交互和物品组合 - 物品的从属关系统一到一张异构图里。以物品节点为桥梁，用户和物品组合节点之间的图卷积传播让学得的表征能够捕获物品层面的语义。通过基于 hard-negative 采样方法的训练，进一步区分用户对相似物品组合的细粒度偏好。

该研究在两个真实数据集上进行实验，结果表明 BGCN 获得了显著的性能提升，比 SOTA 方法高出 10.77% 到 23.18%。

时间检验奖

本届 ACM SIGIR 时间检验奖颁给了 SIGIR 2009 的一篇论文《Learning to Recommend with Social Trust Ensemble》，论文作者均来自香港中文大学。论文一作 Hao Ma 现任职于 Facebook AI。

论文作者：Hao Ma、Irwin King、Michael R. Lyu（均来自香港中文大学）
论文链接：https://www.cc.gatech.edu/~zha/CSE8801/CF/p203-ma.pdf

为了更准确、更真实地建模推荐系统，该研究提出了一种新型概率因子分析框架，它可以自然地将用户及其信任朋友的喜好融合在一起。在这个框架中，研究人员还创造了一个新术语「社会信任集合（Social Trust Ensemble）」，用来表示社会信任对推荐系统的限制。

复杂性分析表明，由于该方法随着观察值数量呈线性缩放，因而它可以应用到超大规模数据集中。此外，实验结果也表明，该方法的性能优于当时的 SOTA 方法。

基于社会信任集合的推荐模型示意图。

时间检验荣誉提名奖

此次会议还公布了两篇时间检验荣誉提名奖论文，分别为《A user browsing model to predict search engine click data from past observations》和《Selecting good expansion terms for pseudo-relevance feedback》。

论文 1：A User Browsing Model to Predict Search Engine Click Data from Past Observations

论文作者：Georges Dupret、Benjamin Piwowarski（均来自雅虎研究院拉美分部）
论文链接：https://dl.acm.org/doi/abs/10.1145/1390334.1390392

该研究提出了一组有关用户浏览行为的假设，这些假设可以估计一篇文档被看到的概率，从而提供文档相关性的无偏估计。为了训练、测试论文中提出的模型并将其与文献中其他最佳替代方案进行比较，研究者收集了大量真实数据，并进行了广泛的交叉验证实验。结果显示，该模型的性能显著优于以往所有的模型。

研究者从用户浏览行为中获得一些发现，并将其与 Joachims 等人的眼动追踪实验结论进行了对比。结果证实了，用户通常总是在点击文档之后即直接浏览该文档。该研究发现还解释了位于非常相关文档之后的文档更频繁地被点击的原因。

论文 2：Selecting Good Expansion Terms for Pseudo-relevance Feedback

论文作者：Guihong Cao（蒙特利尔大学）、Jian-Yun Nie（蒙特利尔大学）、Jianfeng Gao（美国雷德蒙德微软研究院）、Stephen Robertson（英国剑桥微软研究院）
论文链接：http://www-labs.iro.umontreal.ca/~nie/IFT6255/Cao-sigir-08.pdf

伪相关反馈（pseudo-relevance feedback）假设伪反馈文档中出现最频繁的词语有助于检索。

在本文中，研究者重新检验了这一假设，结果表明这一假设并不成立。传统方法中确定的很多扩展词确实与查询无关，并且对检索不利。该研究还表明，仅根据词语在反馈文档和整个集合中的分布，无法区分好的扩展词和坏的扩展词。因此，研究者提议集成一个词语分类过程（term classification process），以预测扩展词的有效性。这个过程中还可以集成多个其他功能。

在三个 TREC 数据集上的实验表明，利用词语分类可以显著提升检索效率。并且，根据词语对检索效率的可能影响，好的词语应该被直接识别出来。也就是说，该过程使用了监督学习，而不是无监督学习。

参考链接：https://mp.weixin.qq.com/s/Q_BAantx6kac_ldmtdDLxQ

专 · 知

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！