尽管多模态大型语言模型(MLLMs)已被广泛采用,但在遭遇分布偏移下的不熟悉查询时,其性能仍会下降。现有提升 MLLM 泛化能力的方法通常需要更多的指令数据或更大更先进的模型架构,这两者都会带来不小的人力与计算成本。本文从表征学习的角度出发,提出一种替代思路,以增强 MLLM 在分布偏移下的鲁棒性。受信息瓶颈(IB)原理启发,我们为 MLLM 推导了 IB 的变分下界,并据此设计了一种可行的实现——视觉指令瓶颈微调(Visual Instruction Bottleneck Tuning,Vittle)。随后,我们通过揭示 Vittle 与一种基于信息论的 MLLM 鲁棒性度量之间的联系,为该方法提供了理论论证。在涵盖 45 个数据集(其中包含 30 种偏移场景)的开放式与封闭式问答以及目标幻觉检测任务上的实证结果表明,Vittle 通过追求学习最小充分表征,能够持续提升 MLLM 在分布偏移下的鲁棒性。