【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解 - 专知VIP

会员服务 ·

14

CVPR 2024 · 大型多模态模型 · 视频理解 ·

2024 年 4 月 9 日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着大型语言模型（LLMs）的成功，将视觉模型整合到LLMs中以构建视觉-语言基础模型近来引起了更多的关注。然而，现有的基于LLM的大型多模态模型（例如，Video-LLaMA，VideoChat）只能处理有限数量的帧来理解短视频。在这项研究中，我们主要关注设计一个高效且有效的模型用于长期视频理解。我们提出一种在线处理视频的方法，而不是像大多数现有工作那样尝试同时处理更多帧，并在内存库中存储过去的视频信息。这使得我们的模型能够参考历史视频内容进行长期分析，而不会超出LLMs的上下文长度限制或GPU内存限制。我们的内存库可以以现成的方式无缝集成到当前的多模态LLMs中。我们在各种视频理解任务上进行了广泛的实验，例如长视频理解、视频问题回答和视频字幕制作，我们的模型在多个数据集上都能实现最先进的性能。

成为VIP会员查看完整内容

21

相关内容

CVPR 2024

【AAAI2024】LAMM: 多模态提示学习的标签对齐

【AAAI2024】LAMM: 多模态提示学习的标签对齐

专知会员服务

41+阅读 · 2023年12月14日

【NeurIPS2023】PAXION：在视频-语言基础模型中修补动作知识

【NeurIPS2023】PAXION：在视频-语言基础模型中修补动作知识

专知会员服务

18+阅读 · 2023年9月24日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移

【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移

专知会员服务

26+阅读 · 2023年8月20日

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

22+阅读 · 2022年12月5日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

关于随机MAX SAT和(2+p)-SAT模型可满足阈值的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于三重态激子和稀土离子间能量传递的量子剪裁

国家自然科学基金

0+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

107+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

224+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

495+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

VIP会员

相关主题

大型多模态模型

相关VIP内容

【AAAI2024】LAMM: 多模态提示学习的标签对齐

【AAAI2024】LAMM: 多模态提示学习的标签对齐

专知会员服务

41+阅读 · 2023年12月14日

【NeurIPS2023】PAXION：在视频-语言基础模型中修补动作知识

【NeurIPS2023】PAXION：在视频-语言基础模型中修补动作知识

专知会员服务

18+阅读 · 2023年9月24日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移

【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移

专知会员服务

26+阅读 · 2023年8月20日

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

22+阅读 · 2022年12月5日

热门VIP内容

开通专知VIP会员享更多权益服务

因果强化学习的统一框架：综述、分类体系、算法与应用

《无人机系统 - 反无人机系统：测试方法》364页

【MIT博士论文】语言模型的推理时学习算法

美军低成本无人作战攻击系统（LUCAS）：扩大无人机战争规模

相关资讯

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

相关基金

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

关于随机MAX SAT和(2+p)-SAT模型可满足阈值的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于三重态激子和稀土离子间能量传递的量子剪裁

国家自然科学基金

0+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

相关论文

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

107+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

224+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

495+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

微信扫码咨询专知VIP会员