【CVPR2023】SViTT:稀疏视频文本Transformers的时间学习 - 专知VIP

会员服务 ·

15

CVPR 2023 · SViTT · Transformers · 时间学习 ·

2023 年 4 月 19 日

【CVPR2023】SViTT:稀疏视频文本Transformers的时间学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视频-文本Transformer学会跨帧建模时间关系吗?尽管具有巨大的容量和丰富的多模态训练数据，但最近的工作表明视频文本模型倾向于基于框架的空间表示，而时间推理在很大程度上仍未得到解决。本文确定了视频文本transformer时间学习中的几个关键挑战:有限网络大小的时空权衡;多帧建模中的维数灾难问题以及随着剪接长度的增加语义信息的收益递减。在这些发现的指导下，本文提出SViTT，一种稀疏视频-文本架构，执行多帧推理，成本明显低于朴素密集注意力transformer。与基于图的网络类似，SViTT采用了两种形式的稀疏性:边的稀疏性，限制了自注意力中token之间的查询键通信，以及节点的稀疏性，丢弃了没有信息的视觉token。SViTT使用随剪辑长度增加模型稀疏性的课程进行训练，在多个视频-文本检索和问答基准上优于密集transformer基线，计算成本很小。

项目页面:http://svcl.ucsd.edu/projects/svitt。

成为VIP会员查看完整内容

23

相关内容

CVPR 2023

CVPR 2023大会将于 6 月 18 日至 22 日在温哥华会议中心举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。 CVPR 2023 共收到 9155 份提交，比去年增加了 12%，创下新纪录，今年接收了 2360 篇论文，接收率为 25.78%。作为对比，去年有 8100 多篇有效投稿，大会接收了 2067 篇，接收率为 25%。

【KDD2023】学习语言表示用于序列推荐

【KDD2023】学习语言表示用于序列推荐

专知会员服务

9+阅读 · 2023年5月27日

【CVPR2023】带缺失模态多模态提示的视觉识别

【CVPR2023】带缺失模态多模态提示的视觉识别

专知会员服务

22+阅读 · 2023年3月10日

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

专知会员服务

20+阅读 · 2023年3月1日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知会员服务

20+阅读 · 2022年4月21日

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

15+阅读 · 2022年4月8日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

31+阅读 · 2022年3月3日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

29+阅读 · 2021年7月30日

【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理

【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理

专知会员服务

27+阅读 · 2021年4月17日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

16+阅读 · 2021年3月24日

【CVPR2021】空间一致性表示学习

专知会员服务

61+阅读 · 2021年3月12日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

4+阅读 · 2023年4月11日

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知

1+阅读 · 2023年4月9日

【AAAI2023】用单塔Transformer统一视觉语言表示空间

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知

1+阅读 · 2022年11月27日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知

0+阅读 · 2022年7月8日

何恺明团队的“视频版本MAE”，高效视频预训练！Mask Ratio高达90%时效果也很好！

何恺明团队的“视频版本MAE”，高效视频预训练！Mask Ratio高达90%时效果也很好！

夕小瑶的卖萌屋

0+阅读 · 2022年6月14日

CVPR 2022 | 基于序列对比学习的长视频逐帧动作表示

CVPR 2022 | 基于序列对比学习的长视频逐帧动作表示

PaperWeekly

1+阅读 · 2022年6月9日

小样本学习下的Transformer：基于谱聚类层和标签代理学习

小样本学习下的Transformer：基于谱聚类层和标签代理学习

PaperWeekly

5+阅读 · 2022年6月6日

ACL 2022 | 无监督句表示的去偏对比学习

ACL 2022 | 无监督句表示的去偏对比学习

RUC AI Box

0+阅读 · 2022年6月4日

【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?

【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?

专知

0+阅读 · 2022年5月31日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

基于神经信息的稀疏深度认知建模及驾驶行为验证

国家自然科学基金

1+阅读 · 2014年12月31日

视觉学习与人脑可塑性

国家自然科学基金

1+阅读 · 2014年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

6+阅读 · 2013年12月31日

空间关联图的表达和生成算法研究

国家自然科学基金

1+阅读 · 2011年12月31日

精神分裂症记忆障碍的脑网络组学研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于搜索的高效视频标注技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于分布式键值对网络存储的消息传递程序重播技术研究

国家自然科学基金

1+阅读 · 2010年12月31日

基于密集图像/视频采样的三维重建技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

发音运动学习对发展性口吃者异常神经网络重组的脑成像研究

国家自然科学基金

0+阅读 · 2009年12月31日

Membership in moment cones and quiver semi-invariants for bipartite quivers

Arxiv

0+阅读 · 2023年6月3日

OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection

Arxiv

0+阅读 · 2023年6月2日

Longest Common Subsequence with Gap Constraints

Arxiv

0+阅读 · 2023年6月2日

Boosting the Performance of Transformer Architectures for Semantic Textual Similarity

Arxiv

0+阅读 · 2023年6月1日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Directed Graph Embeddings in Pseudo-Riemannian Manifolds

Arxiv

12+阅读 · 2021年6月16日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

VIP会员

相关主题

相关VIP内容

【KDD2023】学习语言表示用于序列推荐

【KDD2023】学习语言表示用于序列推荐

专知会员服务

9+阅读 · 2023年5月27日

【CVPR2023】带缺失模态多模态提示的视觉识别

【CVPR2023】带缺失模态多模态提示的视觉识别

专知会员服务

22+阅读 · 2023年3月10日

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

专知会员服务

20+阅读 · 2023年3月1日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知会员服务

20+阅读 · 2022年4月21日

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

15+阅读 · 2022年4月8日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

31+阅读 · 2022年3月3日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

29+阅读 · 2021年7月30日

【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理

【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理

专知会员服务

27+阅读 · 2021年4月17日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

16+阅读 · 2021年3月24日

【CVPR2021】空间一致性表示学习

专知会员服务

61+阅读 · 2021年3月12日

热门VIP内容

相关资讯

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

4+阅读 · 2023年4月11日

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知

1+阅读 · 2023年4月9日

【AAAI2023】用单塔Transformer统一视觉语言表示空间

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知

1+阅读 · 2022年11月27日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知

0+阅读 · 2022年7月8日

何恺明团队的“视频版本MAE”，高效视频预训练！Mask Ratio高达90%时效果也很好！

何恺明团队的“视频版本MAE”，高效视频预训练！Mask Ratio高达90%时效果也很好！

夕小瑶的卖萌屋

0+阅读 · 2022年6月14日

CVPR 2022 | 基于序列对比学习的长视频逐帧动作表示

CVPR 2022 | 基于序列对比学习的长视频逐帧动作表示

PaperWeekly

1+阅读 · 2022年6月9日

小样本学习下的Transformer：基于谱聚类层和标签代理学习

小样本学习下的Transformer：基于谱聚类层和标签代理学习

PaperWeekly

5+阅读 · 2022年6月6日

ACL 2022 | 无监督句表示的去偏对比学习

ACL 2022 | 无监督句表示的去偏对比学习

RUC AI Box

0+阅读 · 2022年6月4日

【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?

【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?

专知

0+阅读 · 2022年5月31日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

相关基金

基于神经信息的稀疏深度认知建模及驾驶行为验证

国家自然科学基金

1+阅读 · 2014年12月31日

视觉学习与人脑可塑性

国家自然科学基金

1+阅读 · 2014年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

6+阅读 · 2013年12月31日

空间关联图的表达和生成算法研究

国家自然科学基金

1+阅读 · 2011年12月31日

精神分裂症记忆障碍的脑网络组学研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于搜索的高效视频标注技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于分布式键值对网络存储的消息传递程序重播技术研究

国家自然科学基金

1+阅读 · 2010年12月31日

基于密集图像/视频采样的三维重建技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

发音运动学习对发展性口吃者异常神经网络重组的脑成像研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Membership in moment cones and quiver semi-invariants for bipartite quivers

Arxiv

0+阅读 · 2023年6月3日

OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection

Arxiv

0+阅读 · 2023年6月2日

Longest Common Subsequence with Gap Constraints

Arxiv

0+阅读 · 2023年6月2日

Boosting the Performance of Transformer Architectures for Semantic Textual Similarity

Arxiv

0+阅读 · 2023年6月1日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Directed Graph Embeddings in Pseudo-Riemannian Manifolds

Arxiv

12+阅读 · 2021年6月16日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

微信扫码咨询专知VIP会员