Models are susceptible to adversarially out-of-distribution (OOD) data despite large training-compute investments into their robustification. Zaremba et al. (2025) make progress on this problem at test time, showing LLM reasoning improves satisfaction of model specifications designed to thwart attacks, resulting in a correlation between reasoning effort and robustness to jailbreaks. However, this benefit of test compute fades when attackers are given access to gradients or multimodal inputs. We address this gap, clarifying that inference-compute offers benefits even in such cases. Our approach argues that compositional generalization, through which OOD data is understandable via its in-distribution (ID) components, enables adherence to defensive specifications on adversarially OOD inputs. Namely, we posit the Robustness from Inference Compute Hypothesis (RICH): inference-compute defenses profit as the model's training data better reflects the attacked data's components. We empirically support this hypothesis across vision language model and attack types, finding robustness gains from test-time compute if specification following on OOD data is unlocked by compositional generalization. For example, InternVL 3.5 gpt-oss 20B gains little robustness when its test compute is scaled, but such scaling adds significant robustness if we first robustify its vision encoder. This correlation of inference-compute's robustness benefit with base model robustness is the rich-get-richer dynamic of the RICH: attacked data components are more ID for robustified models, aiding compositional generalization to OOD data. Thus, we advise layering train-time and test-time defenses to obtain their synergistic benefit.


翻译:尽管在模型鲁棒化方面投入了大量训练计算资源,模型仍易受对抗性分布外(OOD)数据的影响。Zaremba等人(2025)在测试阶段针对此问题取得进展,表明大语言模型(LLM)的推理能力可提升抵御攻击的模型规范满足度,从而建立推理努力与抗越狱鲁棒性之间的相关性。然而,当攻击者能够获取梯度或多模态输入时,测试计算带来的这种优势会减弱。我们针对这一局限展开研究,阐明推理计算即使在此类情况下仍能提供效益。我们的方法指出,组合泛化能力——通过该能力,OOD数据可借助其分布内(ID)组件被理解——使得模型能够在对抗性OOD输入上遵循防御规范。具体而言,我们提出推理计算鲁棒性假说(RICH):当模型的训练数据更能反映被攻击数据的组成成分时,基于推理计算的防御将产生更大效益。我们通过视觉语言模型和多种攻击类型的实验验证该假说,发现若组合泛化能解锁模型对OOD数据的规范遵循能力,则测试阶段计算可带来鲁棒性提升。例如,InternVL 3.5 gpt-oss 20B在单纯增加测试计算时鲁棒性提升有限,但若先对其视觉编码器进行鲁棒化增强,则同等计算扩展可显著提升鲁棒性。推理计算的鲁棒性收益与基础模型鲁棒性之间的这种相关性,构成了RICH的“富者愈富”动态:被攻击数据的组成成分对鲁棒化模型更具ID特性,从而促进向OOD数据的组合泛化。因此,我们建议将训练阶段与测试阶段的防御措施分层结合,以获得协同增效的收益。

0
下载
关闭预览

相关内容

【AAAI2023】MAPS-KB:一个百万级概率明喻知识库
专知会员服务
10+阅读 · 2022年12月15日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
495+阅读 · 2023年3月31日
VIP会员
相关论文
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员