The advent of Large Multimodal Models (LMMs) has significantly enhanced Large Language Models (LLMs) to process and interpret diverse data modalities (e.g., image and video). However, as input complexity increases, particularly with long video sequences, the number of required tokens has grown significantly, leading to quadratically computational costs. This has made the efficient compression of video tokens in LMMs, while maintaining performance integrity, a pressing research challenge. In this paper, we introduce CrossLMM, decoupling long video sequences from LMMs via a dual cross-attention mechanism, which substantially reduces visual token quantity with minimal performance degradation. Specifically, we first implement a significant token reduction from pretrained visual encoders through a pooling methodology. Then, within LLM layers, we employ a visual-to-visual cross-attention mechanism, wherein the pooled visual tokens function as queries against the original visual token set. This module enables more efficient token utilization while retaining fine-grained informational fidelity. In addition, we introduce a text-to-visual cross-attention mechanism, for which the text tokens are enhanced through interaction with the original visual tokens, enriching the visual comprehension of the text tokens. Comprehensive empirical evaluation demonstrates that our approach achieves comparable or superior performance across diverse video-based LMM benchmarks, despite utilizing substantially fewer computational resources.


翻译:大型多模态模型的出现显著增强了大型语言模型处理与解析多种数据模态的能力。然而,随着输入复杂度的增加,尤其是面对长视频序列时,所需令牌数量显著增长,导致计算成本呈二次方上升。这使得在保持性能完整性的前提下,高效压缩LMM中的视频令牌成为一个紧迫的研究挑战。本文提出CrossLMM,通过一种双重交叉注意力机制将长视频序列从LMM中解耦,从而在性能损失最小的情况下大幅减少视觉令牌数量。具体而言,我们首先通过池化方法从预训练视觉编码器中实现显著的令牌缩减。随后,在LLM层内部,我们采用一种视觉到视觉的交叉注意力机制,其中池化后的视觉令牌作为查询,与原始视觉令牌集进行交互。该模块能够在保留细粒度信息保真度的同时实现更高效的令牌利用。此外,我们引入了一种文本到视觉的交叉注意力机制,通过文本令牌与原始视觉令牌的交互来增强文本表示,从而丰富文本令牌的视觉理解能力。全面的实证评估表明,尽管所提方法使用的计算资源显著减少,但在多种基于视频的LMM基准测试中取得了可比甚至更优的性能。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员