Due to the lack of temporal annotation, current Weakly-supervised Temporal Action Localization (WTAL) methods are generally stuck into over-complete or incomplete localization. In this paper, we aim to leverage the text information to boost WTAL from two aspects, i.e., (a) the discriminative objective to enlarge the inter-class difference, thus reducing the over-complete; (b) the generative objective to enhance the intra-class integrity, thus finding more complete temporal boundaries. For the discriminative objective, we propose a Text-Segment Mining (TSM) mechanism, which constructs a text description based on the action class label, and regards the text as the query to mine all class-related segments. Without the temporal annotation of actions, TSM compares the text query with the entire videos across the dataset to mine the best matching segments while ignoring irrelevant ones. Due to the shared sub-actions in different categories of videos, merely applying TSM is too strict to neglect the semantic-related segments, which results in incomplete localization. We further introduce a generative objective named Video-text Language Completion (VLC), which focuses on all semantic-related segments from videos to complete the text sentence. We achieve the state-of-the-art performance on THUMOS14 and ActivityNet1.3. Surprisingly, we also find our proposed method can be seamlessly applied to existing methods, and improve their performances with a clear margin. The code is available at https://github.com/lgzlIlIlI/Boosting-WTAL.


翻译:由于缺乏时序注释,目前的弱监督时序动作定位(WTAL)方法通常陷入过分完整或不完整的问题。在本文中,我们旨在从两个方面利用文本信息来增强WTAL,即(a) 判别性目标以扩大类间差异,从而减少过分完整; (b) 生成性目标以增强类内完整性,从而找到更完整的时间边界。对于判别性目标,我们提出了一种文本段挖掘(TSM)机制,它基于动作类别标签构建文本描述,并将文本视为查询来挖掘所有与类别相关的段落。在没有动作的时间注释的情况下,TSM将文本查询与数据集中的整个视频进行比较以挖掘最佳匹配段落,同时忽略无关的段落。由于不同类别的视频中存在共享子动作,仅应用TSM过于严格以忽略语义相关的段落,这导致了不完整的定位。我们进一步引入了一个名为视频文本语言完成(VLC)的生成性目标,它专注于从视频中提取所有语义相关的段落以完成文本句子。我们在THUMOS14和ActivityNet1.3上实现了最先进的性能。令人惊讶的是,我们还发现我们提出的方法可以无缝地应用于现有方法,并以明显的优势提高它们的性能。代码可在 https://github.com/lgzlIlIlI/Boosting-WTAL 找到。

0
下载
关闭预览

相关内容

【ICML2022】时序自监督视频transformer
专知会员服务
30+阅读 · 2022年7月28日
浅聊对比学习(Contrastive Learning)
极市平台
2+阅读 · 2022年7月26日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月13日
VIP会员
相关VIP内容
【ICML2022】时序自监督视频transformer
专知会员服务
30+阅读 · 2022年7月28日
相关资讯
浅聊对比学习(Contrastive Learning)
极市平台
2+阅读 · 2022年7月26日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员