The diminishing ability of large language models (LLMs) to effectively utilize long-range context-the "lost-in-the-middle" phenomenon-poses a significant challenge in retrieval-based LLM applications. To study the impact of this phenomenon in a real-world application setting, we introduce GM-Extract, a novel benchmark dataset meticulously designed to evaluate LLM performance on retrieval of control variables. To accurately diagnose failure modes, we propose a simple yet elegant evaluation system using two distinct metrics: one for spatial retrieval capability (Document Metric) and the other for semantic retrieval capability (Variable Extraction Metric). We conduct a systematic evaluation of 7-8B parameter models on two multi-document tasks (key-value extraction and question-answering), demonstrating a significant change in retrieval performance simply by altering how the data is represented in the context window. While a distinct U-shaped curve was not consistently observed, our analysis reveals a clear pattern of performance across models, which we further correlate with perplexity scores. Furthermore, we perform a literature survey of mitigation methods, which we categorize into two distinct approaches: black-box and white-box methods. We then apply these techniques to our benchmark, finding that their efficacy is highly nuanced. Our evaluation highlights scenarios where these strategies successfully improve performance, as well as surprising cases where they lead to a negative impact, providing a comprehensive understanding of their utility in a practical context.


翻译:大语言模型在有效利用长距离上下文信息方面的能力衰减——即'中间迷失'现象——对基于检索的LLM应用构成了显著挑战。为在真实应用场景中研究该现象的影响,我们提出了GM-Extract:一个精心设计用于评估LLM在控制变量检索性能上的新型基准数据集。为精准诊断失效模式,我们设计了一套简洁而精妙的评估系统,采用两个独立指标:空间检索能力指标(文档度量)与语义检索能力指标(变量提取度量)。我们在两项多文档任务(键值提取与问答)上对7-8B参数模型进行了系统评估,结果表明仅通过改变上下文窗口中数据的呈现方式即可引起检索性能的显著变化。虽然未持续观测到明显的U型曲线,但我们的分析揭示了跨模型的一致性能规律,并进一步将其与困惑度得分相关联。此外,我们对现有缓解方法进行了文献综述,将其归纳为两类截然不同的技术路径:黑盒方法与白盒方法。随后将这些技术应用于我们的基准测试,发现其有效性存在高度情境依赖性。评估结果既揭示了这些策略成功提升性能的场景,也指出了其产生负面影响的意外案例,从而为实际应用中这些方法的效用提供了全面理解。

0
下载
关闭预览

相关内容

RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员