Large Language Models (LLMs) have achieved remarkable success across a wide range of natural language tasks, but often exhibit overconfidence and generate plausible yet incorrect answers. This overconfidence, especially in models undergone Reinforcement Learning from Human Feedback (RLHF), poses significant challenges for reliable uncertainty estimation and safe deployment. In this paper, we propose EAGLE (Expectation of AGgregated internaL bEief), a novel self-evaluation-based calibration method that leverages the internal hidden states of LLMs to derive more accurate confidence scores. Instead of relying on the model's final output, our approach extracts internal beliefs from multiple intermediate layers during self-evaluation. By aggregating these layer-wise beliefs and calculating the expectation over the resulting confidence score distribution, EAGLE produces a refined confidence score that more faithfully reflects the model's internal certainty. Extensive experiments on diverse datasets and LLMs demonstrate that EAGLE significantly improves calibration performance over existing baselines. We also provide an in-depth analysis of EAGLE, including a layer-wise examination of uncertainty patterns, a study of the impact of self-evaluation prompts, and an analysis of the effect of self-evaluation score range.


翻译:大语言模型(LLMs)在广泛的自然语言任务中取得了显著成功,但常常表现出过度自信,并生成看似合理但实则错误的答案。这种过度自信,特别是在经过人类反馈强化学习(RLHF)训练的模型中,对可靠的不确定性估计和安全部署构成了重大挑战。本文提出EAGLE(Expectation of AGgregated internaL bEief),一种新颖的基于自评估的校准方法,该方法利用LLMs的内部隐藏状态来推导更准确的置信度分数。我们的方法不依赖于模型的最终输出,而是在自评估过程中从多个中间层提取内部信念。通过聚合这些逐层信念并计算所得置信度分数分布的期望,EAGLE生成一个更忠实反映模型内部确定性的精炼置信度分数。在不同数据集和LLMs上的大量实验表明,EAGLE显著优于现有基线方法,提升了校准性能。我们还对EAGLE进行了深入分析,包括对不确定性模式的逐层检验、自评估提示影响的研究,以及自评估分数范围效应的分析。

0
下载
关闭预览

相关内容

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
【AAAI2023】面向领域自适应语义分割的几何感知网络
专知会员服务
21+阅读 · 2022年12月7日
AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员