【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架 - 专知VIP

会员服务 ·

1

多模态文档理解 · 大语言模型 · Transformer ·

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

当前的多模态大语言模型在处理长文档理解任务时，仍面临两大根本性挑战：海量无关内容造成的信息干扰，以及基于Transformer架构的二次计算复杂度。现有方法主要分为两类：通过令牌压缩牺牲细节粒度的方法，以及引入外部检索器导致系统复杂性增加且无法端到端优化的方案。为突破这些限制，我们通过深入分析发现：MLLMs呈现出类人的从粗到细推理模式——早期Transformer层广泛关注文档整体内容，而深层网络则聚焦于相关证据页面。基于这一发现，我们提出可以显式利用MLLMs固有的证据定位能力，在推理过程中执行检索操作，从而实现高效的长文档理解。为此，我们提出了URaG——一个简单而有效的统一检索生成框架。该框架通过引入轻量级跨模态检索模块，将早期Transformer层转换为高效证据选择器，能够精准识别并保留最相关页面，同时过滤无关内容。这种设计使得深层网络可以集中计算资源处理关键信息，在提升准确性的同时优化计算效率。大量实验表明，URaG在实现最优性能的同时，显著降低了44%-56%的计算开销。代码已开源：https://github.com/shi-yx/URaG

成为VIP会员查看完整内容

2

相关内容

多模态文档理解

多模态文档理解

【NeurIPS2025】SSTAG：面向文本属性图的结构感知自监督学习方法

【NeurIPS2025】SSTAG：面向文本属性图的结构感知自监督学习方法

专知会员服务

10+阅读 · 10月4日

【博士论文】面向下游任务的语言模型优化：一种后训练视角

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

20+阅读 · 7月6日

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

专知会员服务

12+阅读 · 7月4日

【CVPR2025】并非所有参数都重要：通过参数掩码提升扩散模型的生成能力

【CVPR2025】并非所有参数都重要：通过参数掩码提升扩散模型的生成能力

专知会员服务

12+阅读 · 5月9日

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

专知会员服务

35+阅读 · 1月5日

【NeurIPS 2024】分治与共识的结合：释放函数在代码生成中的强大力量

【NeurIPS 2024】分治与共识的结合：释放函数在代码生成中的强大力量

专知会员服务

15+阅读 · 2024年10月7日

【EMNLP2023】基于文本属性异构图的语言模型预训练

【EMNLP2023】基于文本属性异构图的语言模型预训练

专知会员服务

22+阅读 · 2023年10月21日

【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成

【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成

专知会员服务

66+阅读 · 2023年10月14日

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

专知会员服务

74+阅读 · 2020年9月25日

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

专知会员服务

28+阅读 · 2020年5月25日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

24+阅读 · 2022年5月4日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

PaperWeekly

10+阅读 · 2019年11月9日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

开放知识图谱

12+阅读 · 2018年12月13日

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

AI研习社

24+阅读 · 2018年1月31日

语义Web知识库补全关键技术研究

国家自然科学基金

17+阅读 · 2017年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

173+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

222+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

489+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

27+阅读 · 2023年1月13日

A Survey on Edge Intelligence

A Survey on Edge Intelligence

Arxiv

52+阅读 · 2020年3月26日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

13+阅读 · 2019年2月19日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

多模态文档理解

大语言模型

相关VIP内容

【NeurIPS2025】SSTAG：面向文本属性图的结构感知自监督学习方法

【NeurIPS2025】SSTAG：面向文本属性图的结构感知自监督学习方法

专知会员服务

10+阅读 · 10月4日

【博士论文】面向下游任务的语言模型优化：一种后训练视角

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

20+阅读 · 7月6日

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

专知会员服务

12+阅读 · 7月4日

【CVPR2025】并非所有参数都重要：通过参数掩码提升扩散模型的生成能力

【CVPR2025】并非所有参数都重要：通过参数掩码提升扩散模型的生成能力

专知会员服务

12+阅读 · 5月9日

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

专知会员服务

35+阅读 · 1月5日

【NeurIPS 2024】分治与共识的结合：释放函数在代码生成中的强大力量

【NeurIPS 2024】分治与共识的结合：释放函数在代码生成中的强大力量

专知会员服务

15+阅读 · 2024年10月7日

【EMNLP2023】基于文本属性异构图的语言模型预训练

【EMNLP2023】基于文本属性异构图的语言模型预训练

专知会员服务

22+阅读 · 2023年10月21日

【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成

【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成

专知会员服务

66+阅读 · 2023年10月14日

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

专知会员服务

74+阅读 · 2020年9月25日

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

专知会员服务

28+阅读 · 2020年5月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《机械化作战行动中的行动方案自主生成》

哈工大 SCIR 17 篇论文被 AAAI 2026 录用

《将国防采办系统转变为作战采办系统：以加速向作战人员交付急需能力》美国防部最新43页报告

提升有人舰艇杀伤力、生存力与作战效能：海上自主系统网状舰队的影响

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

24+阅读 · 2022年5月4日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

PaperWeekly

10+阅读 · 2019年11月9日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

开放知识图谱

12+阅读 · 2018年12月13日

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

AI研习社

24+阅读 · 2018年1月31日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

17+阅读 · 2017年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

173+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

222+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

489+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

27+阅读 · 2023年1月13日

A Survey on Edge Intelligence

A Survey on Edge Intelligence

Arxiv

52+阅读 · 2020年3月26日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

13+阅读 · 2019年2月19日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员