The temporal sentence grounding in video (TSGV) task is to locate a temporal moment from an untrimmed video, to match a language query, i.e., a sentence. Without considering bias in moment annotations (e.g., start and end positions in a video), many models tend to capture statistical regularities of the moment annotations, and do not well learn cross-modal reasoning between video and language query. In this paper, we propose two debiasing strategies, data debiasing and model debiasing, to "force" a TSGV model to capture cross-modal interactions. Data debiasing performs data oversampling through video truncation to balance moment temporal distribution in train set. Model debiasing leverages video-only and query-only models to capture the distribution bias, and forces the model to learn cross-modal interactions. Using VSLNet as the base model, we evaluate impact of the two strategies on two datasets that contain out-of-distribution test instances. Results show that both strategies are effective in improving model generalization capability. Equipped with both debiasing strategies, VSLNet achieves best results on both datasets.


翻译:在视频( TSGV) 任务中, 将时间句定位在未剪辑的视频( TSGV) 上, 以匹配语言查询, 即句子。 许多模型不考虑瞬间说明中的偏差( 例如, 在视频中的起始位置和结尾位置), 倾向于捕捉瞬间说明的统计规律性, 并且没有很好地学习视频和语言查询之间的跨模式推理。 在本文中, 我们提议了两种贬低策略, 数据偏差和模型偏差, 以“ 强制” TSGV 模型来捕捉跨模式的互动。 数据偏差表现了通过视频截断到平衡瞬间时间分布的数据。 模型偏差利用仅视频和仅查询的模型来捕捉分布偏差, 并迫使模型学习跨模式互动。 我们用 VSLNet 作为基础模型, 评估两个战略对包含分配外测试实例的两套数据集的影响。 结果显示, 这两种战略在改进模型概括能力方面都是最有效的。

0
下载
关闭预览

相关内容

【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
已删除
将门创投
8+阅读 · 2017年7月21日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
3+阅读 · 2017年11月21日
VIP会员
相关VIP内容
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
相关资讯
已删除
将门创投
8+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员