Vision-Language Models (VLMs) are a new family of models that align image content with natural language. Existing approaches typically fuse either (a) early: by mixing tokens/features inside the encoders, or (b) late: by comparing pooled embeddings. Many methods also tie fusion to an autoregressive decoder. However, the hidden states of both modalities already carry rich, modality-specific structure (spatial layout in vision; syntax and semantics in text), so directly aligning these states is a natural way to match what the two modalities "think". We propose a lightweight fusion module: a few cross-only, bidirectional attention layers placed near the top of both encoders. Each layer projects the vision and text encoder hidden-state sequences into a shared space, attends across modalities, and sends gated residual updates back, with simple stabilizers to improve alignment. The encoders remain non-causal and strong for understanding, while generation stays cleanly decoupled via an optional decoder. Across standard retrieval, VQA, and visual reasoning benchmarks, BRIDGE outperforms comparable VLMs while preserving the bi-encoder efficiency of contrastive models. We make our code publicly available at https://github.com/jfeinashley/BRIDGE.


翻译:视觉语言模型(VLMs)是一类将图像内容与自然语言对齐的新型模型。现有方法通常采用两种融合方式:(a)早期融合:在编码器内部混合标记/特征;或(b)晚期融合:通过比较池化后的嵌入表示。许多方法还将融合与自回归解码器绑定。然而,两种模态的隐藏状态本身已携带丰富的模态特定结构(视觉中的空间布局;文本中的句法与语义),因此直接对齐这些状态是匹配两种模态“认知”的自然方式。我们提出一种轻量级融合模块:在两种编码器顶部附近放置若干仅跨模态的双向注意力层。每层将视觉与文本编码器的隐藏状态序列投影至共享空间,执行跨模态注意力计算,并通过门控残差更新回传,辅以简单稳定器以提升对齐效果。编码器保持非因果特性并维持强大的理解能力,而生成任务则通过可选解码器保持清晰解耦。在标准检索、视觉问答(VQA)和视觉推理基准测试中,BRIDGE在保持对比模型双编码器效率的同时,性能优于同类VLM模型。我们的代码已公开于https://github.com/jfeinashley/BRIDGE。

0
下载
关闭预览

相关内容

【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 4月5日
【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 4月5日
【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员