Understanding semantic relations between two texts is crucial for many information and document management tasks, in which one must determine whether the content fully overlaps, is completely superseded by another document, or overlaps only partially, with unique information in each. Beyond establishing this relation, it is equally important to provide explainable outputs that specify which pieces of information are present, missing, or newly added between the text pair. In this study, we formally define semantic relations between two texts through the set-theoretic relation between their respective Answerable Question Sets (AQS), the sets of questions each text can answer. Under this formulation, Semantic Text Relation (STR), such as equivalence, inclusion, and mutual overlap, becomes a well-defined set relation between the corresponding texts' AQSs. The set differences between the AQSs also serve as an explanation or diagnostic tool for identifying how the information in the texts diverges. Using this definition, we construct a synthetic benchmark that captures fine-grained informational relations through controlled paraphrasing and deliberate information removal supported by AQS manipulations. We then use this dataset to evaluate several discriminative and generative models for classifying text pairs into STR categories, assessing how well different model architectures capture semantic relations beyond surface-level similarity. We publicly release both the dataset and the data generation code to support further research.


翻译:理解两个文本之间的语义关系对于许多信息和文档管理任务至关重要,这些任务需要确定内容是完全重叠、完全被另一文档取代,还是仅部分重叠且各自包含独特信息。除了建立这种关系外,提供可解释的输出同样重要,即明确指出文本对之间哪些信息存在、缺失或新增。在本研究中,我们通过各自可回答问题集(AQS,即每个文本能够回答的问题集合)之间的集合论关系,形式化定义了两个文本间的语义关系。在此框架下,语义文本关系(STR),如等价、包含和相互重叠,成为对应文本AQS之间明确定义的集合关系。AQS之间的集合差还可作为解释或诊断工具,用于识别文本信息如何产生分歧。基于此定义,我们构建了一个合成基准,通过受控释义和基于AQS操作的有意信息移除,捕捉细粒度的信息关系。随后,我们使用该数据集评估了多种判别式和生成式模型在将文本对分类为STR类别时的表现,以评估不同模型架构在捕捉超越表层相似性的语义关系方面的能力。我们公开发布了数据集和数据生成代码,以支持进一步研究。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员