【CVPR2022】语言作为查询的参考视频目标分割框架 - 专知VIP

会员服务 ·

4

CVPR 2022 · 视频目标分割 ·

2022 年 4 月 27 日

【CVPR2022】语言作为查询的参考视频目标分割框架

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

语言作为查询的参考视频目标分割框架

Language as Queries for Referring Video Object

这篇工作由字节跳动商业化技术团队与香港大学合作完成。文章提出了在参考视频目标分割（Referring Video Object Segmentation, RVOS）领域进行端到端分割的解决方案。参考视频目标分割（RVOS）任务需要在视频中将文本所指代的参考对象进行实例分割，与目前得到广泛研究的参考图像分割（RIS）相比，其文本描述不仅可以基于目标的外观特征或者空间关系，还可以对目标所进行的动作进行描述，这要求模型有着更强的时空建模能力，且保证分割目标在所有视频帧上的一致性；与传统的视频目标分割（VOS）任务相比，RVOS 任务在预测阶段没有给定分割目标的真值，从而增加了对目标进行正确精细分割的难度。

现有的 RVOS 方法往往都依赖于复杂的多阶段框架，以保证分割目标的一致性。为了解决以上问题，本文提出了一种基于 Transformer 的端到端 RVOS 框架 —— ReferFormer，其将语言描述作为查询条件，在视频中仅仅关注于参考目标，并采用动态卷积对目标进行分割；除此之外，通过连接不同帧上相对应的查询进行实例的整体输出，可自然地完成目标的追踪，无需任何后处理。该方法在四个 RVOS 数据集上（Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences, JHMDB-Sentences）均取得了当前最优的性能。

#rd: https://github.com/wjn922/ReferFormer

成为VIP会员查看完整内容

10

相关内容

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CVPR2022】循环动态嵌入的视频目标分割

【CVPR2022】循环动态嵌入的视频目标分割

专知会员服务

19+阅读 · 2022年5月16日

UTC: 用于视觉对话的任务间对比学习的统一Transformer

UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知会员服务

14+阅读 · 2022年5月4日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知会员服务

28+阅读 · 2022年3月16日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知会员服务

24+阅读 · 2022年2月6日

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

专知会员服务

13+阅读 · 2021年4月26日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

基于跨模态元迁移，美图&大连理工的参考视频目标分割方法只需单阶段

基于跨模态元迁移，美图&大连理工的参考视频目标分割方法只需单阶段

机器之心

0+阅读 · 2022年5月29日

【CVPR2022】UTC: 用于视觉对话的任务间对比学习的统一Transformer

【CVPR2022】UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知

6+阅读 · 2022年5月4日

CVPR 2022 | 结合短期动态、长期一致性，视频伪装物体检测框架，大幅超越SOTA

CVPR 2022 | 结合短期动态、长期一致性，视频伪装物体检测框架，大幅超越SOTA

极市平台

0+阅读 · 2022年5月2日

CVPR 2022 | 刷新4个SOTA！港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架

CVPR 2022 | 刷新4个SOTA！港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架

极市平台

0+阅读 · 2022年3月29日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知

0+阅读 · 2022年3月12日

CVPR 2022 | 多模态Transformer用于视频分割效果惊艳！MTTR：单GPU上速度高达76 FPS！

CVPR 2022 | 多模态Transformer用于视频分割效果惊艳！MTTR：单GPU上速度高达76 FPS！

CVer

0+阅读 · 2022年3月11日

打打字就能指挥算法视频抠图，Transformer掌握跨模态新技能，精度优于现有模型丨CVPR 2022

打打字就能指挥算法视频抠图，Transformer掌握跨模态新技能，精度优于现有模型丨CVPR 2022

量子位

0+阅读 · 2022年3月7日

单GPU每秒76帧，重叠对象也能完美分割，多模态Transformer用于视频分割效果惊艳

单GPU每秒76帧，重叠对象也能完美分割，多模态Transformer用于视频分割效果惊艳

机器之心

0+阅读 · 2022年3月7日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

一文带你入门视频目标分割（附数据集）

一文带你入门视频目标分割（附数据集）

THU数据派

19+阅读 · 2017年10月10日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

向量组合学习框架下基于依存混合树的中文语义解析研究

国家自然科学基金

3+阅读 · 2014年12月31日

具有不完全基数语义的语言偏好多准则分析技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于动态图模型与多元结构化在线学习的视觉目标跟踪

国家自然科学基金

0+阅读 · 2013年12月31日

汉语词法与句法结构的统一分析

国家自然科学基金

0+阅读 · 2012年12月31日

基于目标模型的横切关注点识别及语义连接点定义方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于字依存的中文精细结构标注及其学习算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于双语文档反馈的跨语言信息检索研究

国家自然科学基金

0+阅读 · 2008年12月31日

Efficient Human-in-the-loop System for Guiding DNNs Attention

Arxiv

0+阅读 · 2022年6月14日

Online Easy Example Mining for Weakly-supervised Gland Segmentation from Histology Images

Arxiv

0+阅读 · 2022年6月14日

Knowledge Distillation for Object Detection via Rank Mimicking and Prediction-guided Feature Imitation

Arxiv

11+阅读 · 2021年12月9日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

AliCoCo: Alibaba E-commerce Cognitive Concept Net

AliCoCo: Alibaba E-commerce Cognitive Concept Net

Arxiv

13+阅读 · 2020年3月30日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Cross-Modal Self-Attention Network for Referring Image Segmentation

Cross-Modal Self-Attention Network for Referring Image Segmentation

Arxiv

18+阅读 · 2019年4月9日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

VIP会员

相关主题

视频目标分割

相关VIP内容

【CVPR2022】循环动态嵌入的视频目标分割

【CVPR2022】循环动态嵌入的视频目标分割

专知会员服务

19+阅读 · 2022年5月16日

UTC: 用于视觉对话的任务间对比学习的统一Transformer

UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知会员服务

14+阅读 · 2022年5月4日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知会员服务

28+阅读 · 2022年3月16日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知会员服务

24+阅读 · 2022年2月6日

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

专知会员服务

13+阅读 · 2021年4月26日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能治理的未来

模态感知的特征匹配：单一模态与跨模态技术的全面综述

无监督行人重识别研究综述

【牛津博士论文】面向神经影像应用的可扩展且可解释的空间模型

相关资讯

基于跨模态元迁移，美图&大连理工的参考视频目标分割方法只需单阶段

基于跨模态元迁移，美图&大连理工的参考视频目标分割方法只需单阶段

机器之心

0+阅读 · 2022年5月29日

【CVPR2022】UTC: 用于视觉对话的任务间对比学习的统一Transformer

【CVPR2022】UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知

6+阅读 · 2022年5月4日

CVPR 2022 | 结合短期动态、长期一致性，视频伪装物体检测框架，大幅超越SOTA

CVPR 2022 | 结合短期动态、长期一致性，视频伪装物体检测框架，大幅超越SOTA

极市平台

0+阅读 · 2022年5月2日

CVPR 2022 | 刷新4个SOTA！港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架

CVPR 2022 | 刷新4个SOTA！港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架

极市平台

0+阅读 · 2022年3月29日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知

0+阅读 · 2022年3月12日

CVPR 2022 | 多模态Transformer用于视频分割效果惊艳！MTTR：单GPU上速度高达76 FPS！

CVPR 2022 | 多模态Transformer用于视频分割效果惊艳！MTTR：单GPU上速度高达76 FPS！

CVer

0+阅读 · 2022年3月11日

打打字就能指挥算法视频抠图，Transformer掌握跨模态新技能，精度优于现有模型丨CVPR 2022

打打字就能指挥算法视频抠图，Transformer掌握跨模态新技能，精度优于现有模型丨CVPR 2022

量子位

0+阅读 · 2022年3月7日

单GPU每秒76帧，重叠对象也能完美分割，多模态Transformer用于视频分割效果惊艳

单GPU每秒76帧，重叠对象也能完美分割，多模态Transformer用于视频分割效果惊艳

机器之心

0+阅读 · 2022年3月7日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

一文带你入门视频目标分割（附数据集）

一文带你入门视频目标分割（附数据集）

THU数据派

19+阅读 · 2017年10月10日

相关基金

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

向量组合学习框架下基于依存混合树的中文语义解析研究

国家自然科学基金

3+阅读 · 2014年12月31日

具有不完全基数语义的语言偏好多准则分析技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于动态图模型与多元结构化在线学习的视觉目标跟踪

国家自然科学基金

0+阅读 · 2013年12月31日

汉语词法与句法结构的统一分析

国家自然科学基金

0+阅读 · 2012年12月31日

基于目标模型的横切关注点识别及语义连接点定义方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于字依存的中文精细结构标注及其学习算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于双语文档反馈的跨语言信息检索研究

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

Efficient Human-in-the-loop System for Guiding DNNs Attention

Arxiv

0+阅读 · 2022年6月14日

Online Easy Example Mining for Weakly-supervised Gland Segmentation from Histology Images

Arxiv

0+阅读 · 2022年6月14日

Knowledge Distillation for Object Detection via Rank Mimicking and Prediction-guided Feature Imitation

Arxiv

11+阅读 · 2021年12月9日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

AliCoCo: Alibaba E-commerce Cognitive Concept Net

AliCoCo: Alibaba E-commerce Cognitive Concept Net

Arxiv

13+阅读 · 2020年3月30日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Cross-Modal Self-Attention Network for Referring Image Segmentation

Cross-Modal Self-Attention Network for Referring Image Segmentation

Arxiv

18+阅读 · 2019年4月9日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

微信扫码咨询专知VIP会员