Information retrieval (IR) systems play a critical role in navigating information overload across various applications. Existing IR benchmarks primarily focus on simple queries that are semantically analogous to single- and multi-hop relations, overlooking \emph{complex logical queries} involving first-order logic operations such as conjunction ($\land$), disjunction ($\lor$), and negation ($\lnot$). Thus, these benchmarks can not be used to sufficiently evaluate the performance of IR models on complex queries in real-world scenarios. To address this problem, we propose a novel method leveraging large language models (LLMs) to construct a new IR dataset \textbf{ComLQ} for \textbf{Com}plex \textbf{L}ogical \textbf{Q}ueries, which comprises 2,909 queries and 11,251 candidate passages. A key challenge in constructing the dataset lies in capturing the underlying logical structures within unstructured text. Therefore, by designing the subgraph-guided prompt with the subgraph indicator, an LLM (such as GPT-4o) is guided to generate queries with specific logical structures based on selected passages. All query-passage pairs in ComLQ are ensured \emph{structure conformity} and \emph{evidence distribution} through expert annotation. To better evaluate whether retrievers can handle queries with negation, we further propose a new evaluation metric, \textbf{Log-Scaled Negation Consistency} (\textbf{LSNC@$K$}). As a supplement to standard relevance-based metrics (such as nDCG and mAP), LSNC@$K$ measures whether top-$K$ retrieved passages violate negation conditions in queries. Our experimental results under zero-shot settings demonstrate existing retrieval models' limited performance on complex logical queries, especially on queries with negation, exposing their inferior capabilities of modeling exclusion.


翻译:信息检索(IR)系统在应对各类应用中的信息过载方面发挥着关键作用。现有的IR基准测试主要关注语义上类似于单跳和多跳关系的简单查询,忽视了涉及一阶逻辑运算(如合取($\\land$)、析取($\\lor$)和否定($\\lnot$))的复杂逻辑查询。因此,这些基准测试无法充分评估IR模型在现实场景中处理复杂查询的性能。为解决这一问题,我们提出一种利用大语言模型(LLMs)构建新型IR数据集的方法,即用于复杂逻辑查询的ComLQ数据集,该数据集包含2,909个查询和11,251个候选段落。构建数据集的一个关键挑战在于从非结构化文本中捕捉潜在的逻辑结构。为此,通过设计带有子图指示符的子图引导提示,可以引导LLM(如GPT-4o)基于选定段落生成具有特定逻辑结构的查询。ComLQ中的所有查询-段落对均通过专家标注确保了结构一致性和证据分布性。为更好地评估检索模型是否能处理含否定条件的查询,我们进一步提出一种新的评估指标——对数尺度否定一致性(LSNC@$K$)。作为标准基于相关性指标(如nDCG和mAP)的补充,LSNC@$K$用于衡量前$K$个检索段落是否违反查询中的否定条件。我们在零样本设置下的实验结果表明,现有检索模型在复杂逻辑查询(尤其是含否定条件的查询)上的性能有限,暴露出其在建模排除关系方面的不足。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员