Personalized alignment from preference data has focused primarily on improving reward model (RM) accuracy, with the implicit assumption that better preference ranking translates to better personalized behavior. However, in deployment, computational constraints necessitate inference-time adaptation via reward-guided decoding (RGD) rather than per-user policy fine-tuning. This creates a critical but overlooked requirement: reward models must not only rank preferences accurately but also effectively guide token-level generation decisions. We demonstrate that standard RM accuracy fails catastrophically as a selection criterion for deployment-ready personalized alignment. Through systematic evaluation across three datasets, we introduce policy accuracy, a metric quantifying whether RGD scoring functions correctly discriminate between preferred and dispreferred responses. We show that RM accuracy correlates only weakly with this policy-level discrimination ability (Kendall's tau = 0.08--0.31). More critically, we introduce Pref-LaMP, the first personalized alignment benchmark with ground-truth user completions, enabling direct behavioral evaluation without circular reward-based metrics. On Pref-LaMP, we expose a complete decoupling between discrimination and generation: methods with 20-point RM accuracy differences produce almost identical output quality, and even methods achieving high discrimination fail to generate behaviorally aligned responses. Finally, simple in-context learning (ICL) dominates all reward-guided methods for models > 3B parameters, achieving 3-5 point ROUGE-1 gains over the best reward method at 7B scale. These findings show that the field optimizes proxy metrics that fail to predict deployment performance and do not translate preferences into real behavioral adaptation under deployment constraints.


翻译:个性化对齐研究主要聚焦于提升奖励模型(RM)的准确性,其隐含假设是更好的偏好排序能力能转化为更好的个性化行为。然而,在实际部署中,计算资源限制使得必须通过奖励引导解码(RGD)进行推理时适配,而非对每个用户进行策略微调。这产生了一个关键但被忽视的要求:奖励模型不仅需要准确排序偏好,还必须有效指导词元级别的生成决策。我们证明,标准的RM准确性作为面向部署的个性化对齐模型的选择标准存在严重缺陷。通过对三个数据集的系统性评估,我们引入了策略准确性这一指标,用于量化RGD评分函数是否能正确区分偏好与非偏好响应。我们发现,RM准确性与这种策略级别的区分能力仅存在微弱相关性(Kendall's tau = 0.08–0.31)。更重要的是,我们提出了Pref-LaMP,这是首个包含真实用户完成结果的个性化对齐基准,使得无需依赖循环的基于奖励的指标即可直接进行行为评估。在Pref-LaMP上,我们揭示了区分能力与生成能力之间的完全脱钩:RM准确性相差20个百分点的模型产生的输出质量几乎相同,甚至那些具有高区分能力的方法也未能生成行为对齐的响应。最后,对于参数量大于3B的模型,简单的上下文学习(ICL)在所有奖励引导方法中表现最优,在7B规模上,其ROUGE-1分数比最佳奖励方法高出3-5个百分点。这些发现表明,当前领域优化的代理指标无法预测部署性能,且在部署约束下未能将偏好转化为真实的行为适配。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年6月15日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员