高效且轻量地将预训练视觉-语言模型(Vision-Language Models,VLMs)通过本地客户端与中心服务器之间的协同交互适配至下游任务,是联邦学习中迅速兴起的研究方向。现有的自适应算法通常需要迭代式训练,这不仅带来了显著的通信开销,也增加了系统对潜在攻击的脆弱性。受一次性交互即可完成模型训练的“one-shot”联邦训练技术启发,开发一种轻量级的一次性联邦 VLM 自适应方法,以缓解上述问题,具有重要吸引力。 然而,当前的一次性联邦方法在对 VLMs 进行自适应时仍面临若干挑战:(1)未能充分利用 VLM 中丰富的多模态信息;(2)缺乏专门的自适应策略以系统性地应对严重的数据异质性;(3)需要客户端或服务器额外的训练资源。 为弥补这些空缺,我们提出了一种新颖的、用于 VLMs 的免训练一次性联邦自适应框架,称为 TOFA。为充分利用预训练 VLM 中具有高度泛化能力的多模态特征,TOFA 同时采用视觉与文本两个管线来提取任务相关的表示。在视觉管线中,一个层次化贝叶斯模型学习个性化、类别特定的原型分布;在文本管线中,TOFA 对本地生成的文本提示(prompts)进行评估,并进行全局对齐以提高鲁棒性。此外,我们还引入了一种自适应权重校准机制,用于结合两种模态的预测,从而在个性化与鲁棒性之间取得平衡,以更好地处理数据异质性。 我们的方法完全免训练,不依赖客户端或服务器端的额外训练资源。在多种联邦设置下、覆盖 9 个数据集的大量实验表明,所提出的 TOFA 方法具有优越的有效性。

成为VIP会员查看完整内容
0

相关内容

微信扫码咨询专知VIP会员