使大语言模型(LLMs)与人类对齐是一项具有挑战性的任务,这主要源于人类偏好反馈本身具有多维性和复杂性。尽管现有方法通常将该问题建模为一个多目标优化问题,但它们往往忽视了人类实际的决策方式。有限理性理论表明,人类决策往往遵循“满意化”(satisficing)策略——即在优化主要目标的同时,使其他次要目标达到可接受的阈值水平(Simon, 1956)。
为弥合这一差距,并将“满意化对齐”的理念应用于推理阶段,我们提出了 SITAlign:一种用于推理时的大语言模型对齐框架,其核心思想是在最大化主要目标的同时,对次要目标设置基于阈值的约束条件,以实现多维对齐的实用性。我们从理论上分析了该满意化推理对齐方法的次优界限,并通过多个基准测试进行了实证验证。
例如,在 PKU-SafeRLHF 数据集上,以最大化 有用性(helpfulness) 为主要目标、并确保 无害性(harmlessness) 满足预设阈值为约束条件时,SITAlign 相较于现有最优的多目标解码策略,在 GPT-4 的“有用性奖励胜平率”(win-tie rate)指标上提升了 22.3%,同时仍然满足无害性阈值要求。 这一研究表明,基于有限理性的满意化对齐策略,不仅更贴近人类实际决策机制,还能在保证安全性的同时显著提升模型输出的效用性。