LLM-as-judge evaluation has become the de facto standard for scaling model assessment, but the practice is statistically unsound: uncalibrated scores can invert preferences, naive confidence intervals on uncalibrated scores achieve near-0% coverage, and importance-weighted estimators collapse under limited overlap despite high effective sample size (ESS). We introduce Causal Judge Evaluation (CJE), a framework that fixes all three failures. On n=4,961 Chatbot Arena prompts (after filtering from 5k), CJE achieves 99% pairwise ranking accuracy at full sample size (94% averaged across configurations), matching oracle quality, at 14x lower cost (for ranking 5 policies) by calibrating a 16x cheaper judge on just 5% oracle labels (~250 labels). CJE combines three components: (i) AutoCal-R, reward calibration via mean-preserving isotonic regression; (ii) SIMCal-W, weight stabilization via stacking of S-monotone candidates; and (iii) Oracle-Uncertainty Aware (OUA) inference that propagates calibration uncertainty into confidence intervals. We formalize the Coverage-Limited Efficiency (CLE) diagnostic, which explains why IPS-style estimators fail even when ESS exceeds 90%: the logger rarely visits regions where target policies concentrate. Key findings: SNIPS inverts rankings even with reward calibration (38% pairwise, negative Kendall's tau) due to weight instability; calibrated IPS remains near-random (47%) despite weight stabilization, consistent with CLE; OUA improves coverage from near-0% to ~86% (Direct) and ~96% (stacked-DR), where naive intervals severely under-cover.


翻译:基于大语言模型的评委评估已成为扩展模型评估的事实标准,但该方法在统计上存在缺陷:未校准的评分可能导致偏好反转,基于未校准评分的朴素置信区间覆盖率趋近于零,且重要性加权估计器在有限重叠条件下会失效,尽管有效样本量较高。我们提出了因果评委评估框架,该框架同时解决了上述三个问题。在经筛选的4,961条Chatbot Arena提示数据上,CJE在完整样本量下实现了99%的配对排序准确率(各配置平均为94%),达到与人工标注相当的质量,同时通过仅使用5%人工标注数据校准成本降低16倍的评委模型,使5个策略的排序成本降低14倍。CJE包含三个核心组件:(i)AutoCal-R:通过保均值保序回归实现奖励校准;(ii)SIMCal-W:通过S单调候选模型的堆叠实现权重稳定化;(iii)Oracle-Uncertainty Aware推理:将校准不确定性传递至置信区间。我们形式化提出了覆盖率受限效率诊断准则,该准则解释了为何即使有效样本量超过90%,逆概率加权类估计器仍会失效:日志数据极少覆盖目标策略集中的区域。关键发现:SNIPS方法即使经过奖励校准仍会导致排序反转(配对准确率38%,肯德尔τ系数为负),这是由权重不稳定引起的;校准后的逆概率加权估计器尽管实现权重稳定,但准确率仍接近随机水平(47%),与CLE诊断一致;OUA推理将覆盖率从接近0%提升至约86%(直接估计)和约96%(堆叠双重稳健估计),而朴素置信区间存在严重欠覆盖问题。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【NeurIPS2019】图变换网络:Graph Transformer Network
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员