Separating signal from noise is central to experimental science. Applying well-established statistical method effectively to LLM evals requires consideration of their unique noise characteristics. We clearly define and measure three types of noise: prediction noise from generating different answers on a given question, data noise from sampling questions, and their combined total noise following the law of total variance. To emphasize relative comparisons and gain statistical power, we propose the all-pairs paired method, which applies the paired analysis to all pairs of LLMs and measures all the noise components based on millions of question-level predictions across many evals and settings. These measurements revealed clear patterns. First, each eval exhibits a characteristic and highly predictable total noise level across all model pairs. Second, paired prediction noise typically exceeds paired data noise, which means reducing prediction noise by averaging can significantly increase statistical power. These findings enable practitioners to assess significance without custom testing and to detect much smaller effects in controlled experiments.


翻译:从噪声中分离信号是实验科学的核心。将成熟的统计方法有效应用于大语言模型评估时,需考虑其独特的噪声特性。我们明确定义并测量了三种噪声类型:在给定问题上生成不同答案产生的预测噪声、从抽样问题中产生的数据噪声,以及遵循全方差定律的二者组合总噪声。为强调相对比较并提升统计功效,我们提出了全配对方法,该方法将配对分析应用于所有大语言模型对,并基于跨多个评估场景和设置的数百万条问题级预测数据,测量所有噪声分量。这些测量结果揭示了清晰的规律。首先,每个评估在所有模型对中均表现出特征明显且高度可预测的总噪声水平。其次,配对预测噪声通常超过配对数据噪声,这意味着通过平均化降低预测噪声能显著提升统计功效。这些发现使实践者能够在无需定制测试的情况下评估显著性,并在受控实验中检测到更微小的效应。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员