SIGIR 2020 捷报！智源学者贡献10%论文，解析信息检索最新突破

源来有你智引未来

https://2020.baai.ac.cn/?code=nKzJIppn (二维码自动识别)

与6位图灵奖得主和100多位专家

共同探讨人工智能的下一个十年

长按图片，内行盛会，首次免费注册

SIGIR是CCF推荐的A类国际学术会议，在信息检索领域享有很高的学术声誉。第43届国际计算机学会信息检索大会（The 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2020）计划于2020年7月25日-7月30日在中国西安（根据疫情情况可能调整为在线会议）召开。这次会议共收到来自555篇长文投稿，仅有147篇长文被录用，录用率约26%，其中有15篇来自智源学者们的工作，占比高达10%。

搜索引擎已经成为获得互联网情报与信息的主要入口，是信息化社会不可或缺的基础设施。随着人类与搜索引擎的协同进化，当前的搜索过程已经从简单的基于关键词匹配的信息查找与核对任务进化为一种需要人机紧密配合的协同认知过程。近年来，以对话式搜索引擎、智能信息助手、聊天机器人等为代表的互联网新产品形态逐渐兴起，使得用户获取网络信息的交互认知方式随之改变。这种改变使得传统的信息检索、问答、对话和推荐技术更加紧密的结合，对上下文情境信息和用户认知过程的深度理解提出了更高的要求。在此背景下，通过基于深度神经网络的排序模型和学习算法来进一步提升搜索和推荐质量，通过融合知识和多源信息提升系统可解释性与鲁棒性，通过融合上下文的个性化对话式用户建模和信息获取模型提升用户体验，基于新的信息获取过程的性能评价范式推动领域发展，成为了近年来信息检索领域的研究热点。智源学者在本年度ACM SIGIR会议上发表的一系列学术论文，就展现了这些方面的最新研究进展。为向大家展示智源学者们在信息检索领域的最新成果，我们按照融合知识和多源信息的信息检索与推荐、融合上下文的个性化对话式检索、新一代排序模型与学习算法、信息获取评价新范式这几个方向，将这15篇论文的内容要点汇编成文，以帮助大家进一步了解信息检索领域的最新趋势。

一、融合知识和多源信息的信息检索与推荐论文标题：

Jointly Non-Sampling Learning for Knowledge Graph Enhanced Recommendation

作者：陈冲，张敏，马为之，刘奕群（智源学者），马少平

论文简介：知识图谱包含丰富的信息可以用来提高对用户偏好的建模，并进一步提升商业推荐系统的准确性。然而现有的应用知识图谱的方法通常在表征学习时采用子图抽样的方式。因为抽样的非鲁棒性，模型往往无法收敛到最优的状态。在本文中，我们提出一个新颖的非抽样联合学习模型 JNSKR，并设计应用高效非抽样联合学习算法来高效地从整体数据中学习基于知识图谱的推荐系统任务。所设计的模型在训练效率及推荐性能上均显著优于现有的state-of-the-art的方法。

论文标题：KERL: A Knowledge-Guided Reinforcement Learning Model for Sequential Recommendation

作者：王鹏飞，范钰，夏龙，赵鑫（智源学者），牛少彰，Jimmy Huang

论文简介：近几年，序列推荐算法受到了广泛的关注。序列推荐的目的是根据用户的顺序交互行为，依次推荐下一个或接下来的几个物品，需要捕获并预测未来或长期的用户偏好，以便在生成准确的推荐。然而通过现有的方法，交互序列的长期或整体特征尚未得到很好的捕捉和建模。强化学习（RL）通过最大化长期回报为这一问题提供了一个可能的解决方案。但是，由于用户与项目的交互数据稀疏且复杂，直接将强化学习应用于序列推荐获得效果提升并不容易。针对已有研究的局限性和强化学习的特点，并受知识图（KG）的可用性及其在各种领域中的适用性的启发，本文使用知识建模与强化学习相结合的途径进行序列推荐的设计，提出了一种知识引导的强化学习模型，将知识图信息融合到RL框架中进行序列化推荐。研究发现，通过增加商品知识，在强化学习中引入同时适合序列推荐和知识的奖励机制等手段，能够让知识引导强化学习捕获并预测未来或长期的用户偏好。

论文标题：Make It a Chorus: Knowledge- and Time-aware Item Modeling for Sequential Recommendation

作者：王晨阳，马为之，张敏，刘奕群（智源学者），马少平

论文简介：现实生活中，用户的需求往往是动态变化的，目标商品与最近购买商品的关系以及具体的时间间隔都会影响当前的用户需求。举例来说，当用户刚购买过一种商品，同类商品的需求短时间内会有明显下降，而长时间后此类需求可能还会回升。在本文中，我们结合知识图谱的信息建模商品间的关系，同时对每个商品关系引入动态时间核函数，控制具有不同关系的历史交互对目标商品的影响程度，从知识增强和时间敏感两个层面更好地捕捉动态用户需求。实验表明所提出的Chorus模型在Top-K推荐性能上显著优于现有引入知识和时间动态性的方法。

论文标题：Beyond User Embedding Matrix: Learning to Hash for Modeling Large-Scale Users in Recommendation

作者：施韶韵，马为之，张敏，张永锋，于新星，单厚智，刘奕群（智源学者），马少平

论文简介：在推荐系统中，建模大规模用户和只有少量历史交互的用户是两个非常重要的挑战性问题。面对上亿的用户，存储用户偏好向量矩阵开销巨大。并且，在现实推荐系统中，有大量用户只有少量交互，改进对这些用户对建模有重要意义。在这篇工作中，我们提出一个新的用户表示方式，称为用户偏好哈希（PreHash），可被用来建模大规模用户，包括那些只有少量交互的用户。在PreHash中，有一系列桶来存储用户偏好，具有相似偏好的用户会用相似的桶来表示。桶的表示和用户被哈希到的桶会自动地被模型所学习。这样不仅大大降低了参数量，也使得具有较少交互的用户可以借鉴其他优质用户的偏好。并且，随着用户交互更多的商品，用户表示也可以动态变化。实验表明，PreHash可以和很多模型相结合，替代它们所使用的用户偏好向量矩阵，在多个大规模数据集上取得了效率和效果的改进。

论文标题：Sequential Recommendation with Self-attentive Multi-adversarial Network

作者：任瑞阳，刘兆洋，李雅亮，赵鑫（智源学者），王辉，丁博麟，文继荣（智源学者）

论文简介：近年来，深度学习技术使序列化推荐任务取得很多进展，但是由于神经网络的黑盒特性，它们在理解用户行为的转换模式上仍面临很大挑战。本文首次在序列化推荐任务中提出了对抗训练的框架，包括一个基于Transformer的生成器和用于评价用户交互序列合理性的判别器，研究表明，通过判别器的反馈，生成器可以获得更强的监督信号，提高序列化推荐的性能。同时，本文在判别侧引入了多个针对特定因素的判别器，可以从不同角度评估生成的交互序列，显式地对上下文信息进行建模，在进一步提升性能的同时，可以跟踪每个因素如何对用户决策产生影响。在三个公开数据集上的实验表明，我们提出的模型在性能和可解释性上都优于state-of-the-art的方法。

二、融合上下文的个性化对话式检索

论文标题：Employing Personal Word Embeddings for Personalized Search

作者：姚菁，窦志成（智源学者），文继荣（智源学者）论文简介：个性化搜索模型会根据用户兴趣对文档进行重排序以更好地满足用户的查询需求。大部分已有的个性化搜索模型遵循一个通用的方式：首先根据用户历史构建用户的兴趣画像，然后基于用户画像和文档之间的匹配程度对文档进行重排。在本文中，我们尝试从另一个角度出发来解决个性化搜索问题。自然语言中存在很多具有多种含义的词，比如“苹果”，而知识背景和兴趣爱好不同的用户往往对这些词的具体含义会有不同的理解。那么，对于不同的用户来说，同一个词就应该具有不同的语义和表示。基于这个想法，本文提出了基于个人词向量的个性化搜索模型（PEPS）。在模型中，我们利用各个用户个人的查询日志为其训练个性化词向量；然后分别获得查询和文档的个性化词表示向量和上下文表示向量；最后通过一个匹配模型来计算两者个性化表示之间的匹配得分。实验证明PEPS在效果上能显著优于现有的state-of-the-art的个性化搜索模型。

论文标题：Knowledge Enhanced Personalized Search

作者：卢淑祺，窦志成（智源学者），熊辰炎，王晓捷，文继荣（智源学者）

论文简介：基于实体的模型因其利用知识库包含的丰富的外部知识和实体之间的联系而在理解用户查询上有较好的效果。而在个性化搜索的场景中，用户查询往往是短小而语义不明确的，一方面利用用户的历史搜索，我们能更好地进行实体预链接，一方面利用链接的实体，能显示和更准确地表示用户的搜索意图。本文提出了结合基于实体的搜索模型与个性化搜索模型特性的模型KEPS，利用实体信息增强搜索结果个性化。模型利用用户历史对用户查询中的链接歧义进行判断，然后结合知识库中的实体外部知识对用户画像和搜索意图进行更准确地建模。所设计的模型在搜索结果排序的效果上显著优于现有的state-of-art的方法。

论文标题：Cascade or Recency: Constructing Better Evaluation Metrics for Session Search

作者：张帆，毛佳昕，刘奕群（智源学者），马为之，张敏，马少平

论文简介：在实际搜索场景中，用户需要不断与搜索系统进行交互。因此，会话级别搜索性能评价开始受到更多关注。然而，现有的会话级别搜索性能评价指标仍然沿用传统查询级别的评价框架，仅基于级联假设进行构建。最近的研究表明，认知心理学中的近因效应对于用户搜索会话的满意度有着重要影响。基于这一发现，本文将传统的级联假设与近因效应同时考虑到了会话级别性能评价模型的设计中，提出了新的会话级别评价指标。在两个不同的搜索会话数据集上的实验结果表明，本文提出的评价指标相比已有的评价指标与用户搜索会话满意度的相关性更高。此外，我们也发现在不同难度和复杂度的搜索任务下级联假设与近因效应的影响存在差异。

论文标题：Encoding History with Context-aware Representation Learning for Personalized Search

作者：周雨佳，窦志成（智源学者），文继荣（智源学者）

论文简介：个性化搜索的关键是根据用户的搜索历史来确定当前查询的意图。之前的个性化研究试图在历史数据的基础上建立用户画像来改进排序。但是，我们认为基于用户画像的方法并不能真正消除当前查询的歧义。它们在构建用户画像时仍然保留了部分语义上的偏差。在本文中，我们提出使用上下文感知的表示学习对历史进行编码，以增强当前查询的表示，这是确定用户当前信息需求的直接方法。具体来说，得益于transformer在结合上下文信息方面的优势，我们设计了一个查询消歧模型来分多个阶段解析当前查询的含义。此外，为了涵盖当前查询不足以表达意图的情况，我们训练了一种个性化语言模型，以根据现有查询预测用户意图。在两个子模型的交互作用下，我们可以生成当前查询的上下文感知表示，并根据该表示对结果进行重新排序。实验结果表明，与以前的方法相比，我们的模型有了很大的改进。

三、新一代排序模型与学习算法

论文标题：

SetRank: Learning a Permutation-Invariant Ranking Model for Information Retrieval.

作者：庞亮，徐君（智源学者），艾清遥，兰艳艳（智源学者），程学旗，文继荣（智源学者）

论文简介：信息检索中的排序学习旨在对给定文档集合的每个文档进行相关性排序。因此，理想的排序学习模型应该是从文档的集合到排列的映射，基于此需要满足两个关键要素：（1）应具有对跨文档交互进行建模，以捕获查询中上下文信息的能力；（2）应满足排列不变性，这意味着输入文档的任何排列都不会改变输出的排列。已有的排序学习方法，要么基于单变量评分函数，即分别对每个文档评分，未能建模跨文档交互；要么考虑顺序构建跨文档的多元评分函数，但不可避免地会牺牲排列不变性。为了解决上述问题，文继荣团队提出了SetRank排序学习模型，可在任意大小的文档集合上，定义的排列不变的排序学习函数。SetRank使用多头自我关注结构（及其Induced变种）作为其关键组件，以便学习集合中所有的文档的表达。自我关注机制不仅可以帮助SetRank从跨文档交互中捕获本地上下文信息，而且还可以学习输入文档的排列不变表示，从而实现排列不变的排序学习模型。在三个大型公开数据集的实验上，SetRank的性能明显优于包括传统的学习排名模型和最新的神经IR模型在内的基线模型。

论文标题：DVGAN:A Minimax Game for Search Result Diversification Combining Explicit and Implicit Features

作者：刘炯楠，窦志成（智源学者），王晓捷，卢淑祺，文继荣（智源学者）

论文简介：搜索结果多样化的目标是使得检索得到的结果能够尽量覆盖用户提出问题的所有子话题。最近的研究表明，通过自动学习多样化评分函数，监督学习的结果要好于传统方法。但是由于检索文档空间较大且与每个子话题相关的文档较少，如何选取好的训练样本是监督学习的重大挑战。在本文中，我们引入GAN来解决监督学习中选取训练样本的问题。同时GAN的引入使得我们可以在生成器和判定器中分别使用显性和隐性的模型,这样通过不同类型信息之间的交互，可以获得更好的多样化检索结果。

论文标题：A Matching over Matching Model for Similar Question Identification

作者：王子禛，范意兴，郭嘉丰（智源学者），杨柳，张儒清，兰艳艳（智源学者），程学旗，江汇，王筱钊

论文简介：相似问题识别是社区问答研究领域的一个核心问题。给定一个用户提问，相似问题识别旨在从社区问答库中找到语义相似的已有提问，从而大幅提升社区问答服务的效率，带来更好的用户体验。相似问题识别可以建模为一个文本匹配问题，然而由于问题长度较短和自然语言表达的多样性，问题相似匹配面临着极大的稀疏性挑战。为了缓解这一问题，引入社区中已有问题的答案是一个非常自然的做法。传统方法通过单边结构引入答案信息，即将答案视为问题的扩展表示用于匹配。但由于答案较长且内容更为丰富，这种方式可能带来不必要的噪声，从而导致匹配效果的下降。我们观测到相似的问题可以被答案中相似的部分解决，而不同的问题则不会。答案可以视为问题间的桥梁，而不仅仅是已有问题的扩展。基于这个观察，我们提出了一种通过双边结构引入已有答案的方式，称之为基于“匹配的匹配” （Match^2）模型。具体而言，这一模型通过比较不同问题在同一答案上匹配模式的相似程度来评估问题间的相似性。实验结果表明，本文所提出的模型可以有效引入答案中的信息，同时缓解答案中噪声带来的影响，显著优于现有的最佳匹配美平行。

论文标题：Reinforcement Learning to Rank with Pairwise Policy Gradient

作者：徐君（智源学者），曾玮，夏龙，兰艳艳（智源学者），殷大伟，程学旗，文继荣（智源学者）

论文简介：本文关注于基于强化学习（Reinforcement Learning，RL）的搜索排序问题。近年来，研究者们发现可以把搜索中的网页排序过程形式化为一个马尔可夫决策过程（Markov Decision Process，MDP）并通过强化学习中的策略梯度（Policy Gradient，PG）法进行求解，尽管已有的方法已经取得初步的成功，但传统的策略梯度法在进行梯度估计时直接利用采样得到的文档列表绝对性能分值，这在实际应用中导致了两个问题：1）搜索中网页排序的本质是比较，而绝对的性能分值无法反映出同一查询检索出的多个文档的相对优劣；2）基于绝对性能所估计出的随机梯度方差较高，延缓了学习效率并降低了排序准确度。为了解决上述问题，本文提出了一种新的策略梯度法Pairwise Policy Gradient（PPG），该方法在同一起点分别采样两个文档序列，从而实现了通过这两个序列实际性能的对比进行随机梯度估计。理论分析表明，PPG所估计生成的梯度无偏并具有较低的方差，从而确保了学习的准确率和收敛速度；实验结果表明，与已有方法相比，PPG在多样化和相关性排序任务中均取得了显著的性能提升。

四、信息获取评价新范式

论文标题：

Models Versus Satisfaction: Towards a Better Understanding of Evaluation Metrics

作者：张帆，毛佳昕，刘奕群（智源学者），谢晓晖，马为之，张敏，马少平

论文简介：现有的搜索评价指标在设计时都是基于一定的用户模型。因此，评价指标的有效性同时包括两个方面：评价指标背后的用户模型能否准确地预测用户行为；评价指标本身能否有效地衡量用户满意度。为了对基于用户模型的评价指标有更深入的理解，我们探究了评价指标在拟合用户行为和衡量用户满意度两方面表现的一致性。实验结果表明，基于用户点击行为拟合的评价指标与基于用户满意度拟合的评价指标的表现是非常接近的。此外，我们也验证了评价指标参数的可靠性，并对数据规模的需求进行了探究。这些实验结果为现有的“基于用户行为日志拟合评价指标参数”这一方法论提供了经验依据。

论文标题：Preference-based Evaluation Metrics for Web Image Search

作者：谢晓晖，毛佳昕，刘奕群（智源学者），Maarten de Rijke，陈海天，张敏, 马少平

论文简介：本文首次在互联网图片搜索环境下研究了用户偏好性判断和基于偏好性标注的评价体系构建。离线评价中常用的等级制相关性标注会受到相关性概念多元特点的影响，很难确定普适的级别数量和级别定义。相比之下，偏好性判断基于标注者的相对判断，研究表明偏好性标注更容易标注，迁移性强且具有更好的标注一致性和更好的标注质量。本文深入研究了互联网搜索环境下偏好性判断的特点，和其与相关性判断的关系。同时提出了一个基于偏好性判断的评价指标，该指标由偏好匹配，获胜率和坏例惩罚三部分组成。实验结果表明该评价指标在拟合系统级别的偏好性上显著优于原有的基于相关性的评价指标。

发布于 2020-05-25 11:44

信息检索

论文

AI顶会