【CVPR2024】VidLA: 大规模视频-语言对齐 - 专知VIP

会员服务 ·

11

CVPR 2024 · VidLA · 视频语言对齐 · 视频理解 ·

【CVPR2024】VidLA: 大规模视频-语言对齐

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在这篇论文中，我们提出了VidLA，一种大规模视频语言对齐的方法。之前的视频语言对齐方法有两个主要的局限性。首先，它们无法捕捉短距离和长距离的时间依赖性，并且通常采用复杂的层次化深度网络架构，这些架构难以与现有的预训练图像-文本基础模型集成。为了有效地解决这一限制，我们保持了网络架构的简单性，并使用了一组在层次化方式中在不同时间分辨率上操作的数据令牌，以解释视频的时间层次性特点。通过采用简单的双塔架构，我们能够将我们的视频语言模型初始化为预训练的图像-文本基础模型，从而提高最终性能。其次，现有的视频语言对齐工作由于缺乏语义对齐的大规模训练数据而面临困难。为了克服这一点，我们利用最近的大型语言模型（LLMs）来策划迄今为止最大的视频语言数据集，以获得更好的视觉基础。此外，与只包含短片段的现有视频-文本数据集不同，我们的数据集富含不同持续时间的视频片段，以帮助我们的时间层次化数据令牌在不同的时间尺度上提取更好的表示。总的来说，实证结果表明，我们提出的方法在多个检索基准测试上超越了最先进的方法，特别是在较长视频上，并且在分类基准测试上也表现出竞争力。

成为VIP会员查看完整内容

18

相关内容

CVPR 2024

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

专知会员服务

17+阅读 · 4月10日

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

专知会员服务

27+阅读 · 3月10日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

38+阅读 · 2023年4月11日

ChatAug: 利用ChatGPT进行文本数据增强

ChatAug: 利用ChatGPT进行文本数据增强

专知会员服务

80+阅读 · 2023年3月4日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

23+阅读 · 2022年7月8日

UTC: 用于视觉对话的任务间对比学习的统一Transformer

UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知会员服务

13+阅读 · 2022年5月4日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

14+阅读 · 2021年11月14日

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

专知会员服务

18+阅读 · 2021年2月12日

【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐

【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐

专知会员服务

72+阅读 · 2020年6月1日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

28+阅读 · 2020年3月26日

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

29+阅读 · 2023年4月13日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

16+阅读 · 2021年10月25日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

Python图像处理，366页pdf，Image Operators Image Processing in Python

Python图像处理，366页pdf，Image Operators Image Processing in Python

专知

15+阅读 · 2020年7月23日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

18+阅读 · 2020年6月28日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

244+阅读 · 2019年11月18日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

13+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

“数据-知识”驱动的大区域高分辨率遥感影像多尺度分割并行计算方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

图像感兴趣区域提取及加密研究

国家自然科学基金

0+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

133+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

30+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

72+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

140+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

326+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

54+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

56+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

115+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

38+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

16+阅读 · 2023年3月17日

VIP会员

相关主题

视频语言对齐

相关VIP内容

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

专知会员服务

17+阅读 · 4月10日

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

专知会员服务

27+阅读 · 3月10日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

38+阅读 · 2023年4月11日

ChatAug: 利用ChatGPT进行文本数据增强

ChatAug: 利用ChatGPT进行文本数据增强

专知会员服务

80+阅读 · 2023年3月4日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

23+阅读 · 2022年7月8日

UTC: 用于视觉对话的任务间对比学习的统一Transformer

UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知会员服务

13+阅读 · 2022年5月4日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

14+阅读 · 2021年11月14日

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

专知会员服务

18+阅读 · 2021年2月12日

【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐

【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐

专知会员服务

72+阅读 · 2020年6月1日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

28+阅读 · 2020年3月26日

热门VIP内容

相关资讯

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

29+阅读 · 2023年4月13日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

16+阅读 · 2021年10月25日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

Python图像处理，366页pdf，Image Operators Image Processing in Python

Python图像处理，366页pdf，Image Operators Image Processing in Python

专知

15+阅读 · 2020年7月23日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

18+阅读 · 2020年6月28日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

244+阅读 · 2019年11月18日

相关基金

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

13+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

“数据-知识”驱动的大区域高分辨率遥感影像多尺度分割并行计算方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

图像感兴趣区域提取及加密研究

国家自然科学基金

0+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

133+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

30+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

72+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

140+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

326+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

54+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

56+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

115+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

38+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

16+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员