Large Language Models (LLMs) frequently exhibit hallucinations, generating content that appears fluent and coherent but is factually incorrect. Such errors undermine trust and hinder their adoption in real-world applications. To address this challenge, two distinct research paradigms have emerged: model-centric Hallucination Detection (HD) and text-centric Fact Verification (FV). Despite sharing the same goal, these paradigms have evolved in isolation, using distinct assumptions, datasets, and evaluation protocols. This separation has created a research schism that hinders their collective progress. In this work, we take a decisive step toward bridging this divide. We introduce UniFact, a unified evaluation framework that enables direct, instance-level comparison between FV and HD by dynamically generating model outputs and corresponding factuality labels. Through large-scale experiments across multiple LLM families and detection methods, we reveal three key findings: (1) No paradigm is universally superior; (2) HD and FV capture complementary facets of factual errors; and (3) hybrid approaches that integrate both methods consistently achieve state-of-the-art performance. Beyond benchmarking, we provide the first in-depth analysis of why FV and HD diverged, as well as empirical evidence supporting the need for their unification. The comprehensive experimental results call for a new, integrated research agenda toward unifying Hallucination Detection and Fact Verification in LLMs. We have open-sourced all the code, data, and baseline implementation at: https://github.com/oneal2000/UniFact/


翻译:大型语言模型(LLMs)常出现幻觉现象,生成看似流畅连贯但事实错误的内容。此类错误损害了信任度,阻碍了其在实际应用中的采纳。为应对这一挑战,已形成两种不同的研究范式:以模型为中心的幻觉检测(HD)和以文本为中心的事实核查(FV)。尽管目标一致,这两种范式却在孤立中发展,采用不同的假设、数据集和评估协议。这种分离造成了研究裂痕,阻碍了它们的共同进展。本研究迈出了弥合这一鸿沟的关键一步。我们提出了UniFact,一个统一的评估框架,通过动态生成模型输出及相应的事实性标签,实现了FV与HD在实例层面的直接比较。通过对多个LLM系列和检测方法的大规模实验,我们揭示了三个关键发现:(1)没有一种范式具有普遍优越性;(2)HD与FV捕捉了事实错误的不同互补方面;(3)整合两种方法的混合方法始终能实现最先进的性能。除基准测试外,我们首次深入分析了FV与HD产生分歧的原因,并提供了支持二者统一必要性的实证证据。全面的实验结果呼吁制定一项新的、整合的研究议程,以推动LLMs中幻觉检测与事实核查的统一。我们已在https://github.com/oneal2000/UniFact/开源了所有代码、数据和基线实现。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Arxiv
0+阅读 · 11月17日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员