MH-DETR: 带有跨模态Transformer的视频片段和精彩时刻检测 (MH-DETR: Video Moment and Highlight Detection with Cross-modal Transformer) - 专知论文

会员服务 ·

0

片段 · 跨模态 · 视频片段 · 模态 · 上下文 ·

2023 年 4 月 29 日

MH-DETR: Video Moment and Highlight Detection with Cross-modal Transformer

翻译：MH-DETR: 带有跨模态Transformer的视频片段和精彩时刻检测

Yifang Xu,Yunzhuo Sun,Yang Li,Yilei Shi,Xiaoxiang Zhu,Sidan Du

With the increasing demand for video understanding, video moment and highlight detection (MHD) has emerged as a critical research topic. MHD aims to localize all moments and predict clip-wise saliency scores simultaneously. Despite progress made by existing DETR-based methods, we observe that these methods coarsely fuse features from different modalities, which weakens the temporal intra-modal context and results in insufficient cross-modal interaction. To address this issue, we propose MH-DETR (Moment and Highlight Detection Transformer) tailored for MHD. Specifically, we introduce a simple yet efficient pooling operator within the uni-modal encoder to capture global intra-modal context. Moreover, to obtain temporally aligned cross-modal features, we design a plug-and-play cross-modal interaction module between the encoder and decoder, seamlessly integrating visual and textual features. Comprehensive experiments on QVHighlights, Charades-STA, Activity-Net, and TVSum datasets show that MH-DETR outperforms existing state-of-the-art methods, demonstrating its effectiveness and superiority. Our code is available at https://github.com/YoucanBaby/MH-DETR.

翻译：随着对视频理解的需求不断增加，视频片段和精彩时刻检测(MHD)已成为关键研究主题。 MHD旨在同时定位所有片段并预测剪辑级别的显着性分数。尽管现有的基于DETR的方法取得了进展，但我们观察到这些方法粗略地融合了来自不同模态的特征，这削弱了时态内部上下文并导致跨模态交互不足。为了解决这个问题，我们提出了MH-DETR（Moment and Highlight Detection Transformer），专门为MHD定制。具体而言，在单模编码器内引入了一种简单而有效的池化运算符，以捕获全局内部模态上下文。此外，为了获得时间上对齐的跨模态特征，我们设计了一个插拔式跨模态交互模块，将视觉和文本特征无缝集成在编码器和解码器之间。对QVHighlights、Charades-STA、Activity-Net和TVSum数据集的全面实验表明，MH-DETR优于现有的最先进方法，展示了其有效性和优越性。我们的代码可在https://github.com/YoucanBaby/MH-DETR上获得。

0

相关内容

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

专知会员服务

13+阅读 · 2022年3月19日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

专知会员服务

29+阅读 · 2022年3月6日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【AAAI2022】锚点DETR：基于transformer检测器的查询设计

【AAAI2022】锚点DETR：基于transformer检测器的查询设计

专知会员服务

13+阅读 · 2021年12月31日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

专知会员服务

38+阅读 · 2019年12月1日

ECCV 2022 | 底层视觉新任务：Blind Image Decomposition

ECCV 2022 | 底层视觉新任务：Blind Image Decomposition

PaperWeekly

0+阅读 · 2022年9月8日

CVPR 2019视频描述（video caption）相关论文总结

CVPR 2019视频描述（video caption）相关论文总结

极市平台

36+阅读 · 2019年10月16日

ICCV 2019 行为识别/视频理解论文汇总

ICCV 2019 行为识别/视频理解论文汇总

极市平台

15+阅读 · 2019年9月26日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

简评 | Video Action Recognition 的近期进展

简评 | Video Action Recognition 的近期进展

极市平台

20+阅读 · 2019年4月21日

CVPR2019论文抢鲜看！20篇涵盖目标检测、跨模态、视频处理、语义分割和姿态估计等方向论文

CVPR2019论文抢鲜看！20篇涵盖目标检测、跨模态、视频处理、语义分割和姿态估计等方向论文

专知

30+阅读 · 2019年3月3日

基于弱监督的视频时序动作检测的介绍

基于弱监督的视频时序动作检测的介绍

极市平台

30+阅读 · 2019年2月6日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

线粒体外膜电压依赖阴离子通道VDAC差异表达在母系遗传性高血压发病中的调控机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

ADS中检测快中子束的GEM探测器的研制

国家自然科学基金

0+阅读 · 2013年12月31日

Vlasov-Poisson-Boltzmann方程研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多模态神经影像的COMT和mu-阿片受体基因多态性对痛相关行为调节的脑机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

氮化物半导体THz电子器件关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

函数域中的Vinogradov中值定理

国家自然科学基金

0+阅读 · 2012年12月31日

几类守恒律双曲组弱解的适定性及长时间性态

国家自然科学基金

0+阅读 · 2012年12月31日

重组慢病毒介导PEDF基因诱导肾癌干细胞凋亡的分子成像研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于受体识别肽和细胞穿透肽的Survivin突变体T34A重组融合蛋白的靶向抗肿瘤效应研究

国家自然科学基金

0+阅读 · 2008年12月31日

Personalized Image Enhancement Featuring Masked Style Modeling

Arxiv

0+阅读 · 2023年6月15日

Single-Stage Visual Query Localization in Egocentric Videos

Arxiv

0+阅读 · 2023年6月15日

Arbitrary Shape Text Detection via Boundary Transformer

Arxiv

0+阅读 · 2023年6月13日

E2E-LOAD: End-to-End Long-form Online Action Detection

Arxiv

0+阅读 · 2023年6月13日

Action Recognition with Multi-stream Motion Modeling and Mutual Information Maximization

Arxiv

0+阅读 · 2023年6月13日

Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding

Arxiv

12+阅读 · 2021年12月30日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

VIP会员

文章信息

相关主题

相关VIP内容

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

专知会员服务

13+阅读 · 2022年3月19日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

专知会员服务

29+阅读 · 2022年3月6日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【AAAI2022】锚点DETR：基于transformer检测器的查询设计

【AAAI2022】锚点DETR：基于transformer检测器的查询设计

专知会员服务

13+阅读 · 2021年12月31日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

专知会员服务

38+阅读 · 2019年12月1日

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关资讯

ECCV 2022 | 底层视觉新任务：Blind Image Decomposition

ECCV 2022 | 底层视觉新任务：Blind Image Decomposition

PaperWeekly

0+阅读 · 2022年9月8日

CVPR 2019视频描述（video caption）相关论文总结

CVPR 2019视频描述（video caption）相关论文总结

极市平台

36+阅读 · 2019年10月16日

ICCV 2019 行为识别/视频理解论文汇总

ICCV 2019 行为识别/视频理解论文汇总

极市平台

15+阅读 · 2019年9月26日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

简评 | Video Action Recognition 的近期进展

简评 | Video Action Recognition 的近期进展

极市平台

20+阅读 · 2019年4月21日

CVPR2019论文抢鲜看！20篇涵盖目标检测、跨模态、视频处理、语义分割和姿态估计等方向论文

CVPR2019论文抢鲜看！20篇涵盖目标检测、跨模态、视频处理、语义分割和姿态估计等方向论文

专知

30+阅读 · 2019年3月3日

基于弱监督的视频时序动作检测的介绍

基于弱监督的视频时序动作检测的介绍

极市平台

30+阅读 · 2019年2月6日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

相关论文

Personalized Image Enhancement Featuring Masked Style Modeling

Arxiv

0+阅读 · 2023年6月15日

Single-Stage Visual Query Localization in Egocentric Videos

Arxiv

0+阅读 · 2023年6月15日

Arbitrary Shape Text Detection via Boundary Transformer

Arxiv

0+阅读 · 2023年6月13日

E2E-LOAD: End-to-End Long-form Online Action Detection

Arxiv

0+阅读 · 2023年6月13日

Action Recognition with Multi-stream Motion Modeling and Mutual Information Maximization

Arxiv

0+阅读 · 2023年6月13日

Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding

Arxiv

12+阅读 · 2021年12月30日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

相关基金

线粒体外膜电压依赖阴离子通道VDAC差异表达在母系遗传性高血压发病中的调控机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

ADS中检测快中子束的GEM探测器的研制

国家自然科学基金

0+阅读 · 2013年12月31日

Vlasov-Poisson-Boltzmann方程研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多模态神经影像的COMT和mu-阿片受体基因多态性对痛相关行为调节的脑机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

氮化物半导体THz电子器件关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

函数域中的Vinogradov中值定理

国家自然科学基金

0+阅读 · 2012年12月31日

几类守恒律双曲组弱解的适定性及长时间性态

国家自然科学基金

0+阅读 · 2012年12月31日

重组慢病毒介导PEDF基因诱导肾癌干细胞凋亡的分子成像研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于受体识别肽和细胞穿透肽的Survivin突变体T34A重组融合蛋白的靶向抗肿瘤效应研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员