从视频到语言: 视频标题生成与描述研究综述论文(中文版)，23页pdf - 专知VIP

会员服务 ·

7

视频描述 · 卷积神经网络 · 循环神经网络 · 语段生成 · 情感表达 ·

2021 年 1 月 21 日

从视频到语言: 视频标题生成与描述研究综述论文(中文版)，23页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视频标题生成与描述是使用自然语言对视频进行总结与重新表达. 由于视频与语言之间存在异构特性, 其数据处理过程较为复杂. 本文主要对基于“编码-解码”架构的模型做了详细阐述, 以视频特征编码与使用方式为依据, 将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法, 并对各类模型进行了归纳与总结. 最后, 对当前存在的问题及可能趋势进行了总结与展望, 指出需要生成融合情感、逻辑等信息的结构化语段, 并在模型优化、数据集构建、评价指标等方面进行更为深入的研究.

成为VIP会员查看完整内容

44

相关内容

视频描述

跨媒体分析与推理技术研究综述

跨媒体分析与推理技术研究综述

专知会员服务

70+阅读 · 2021年3月11日

基于深度学习的文本分类技术研究进展(中文版)，11页pdf

专知会员服务

61+阅读 · 2021年2月22日

生成对抗网络及其在图像生成中的应用研究综述

专知会员服务

96+阅读 · 2021年2月6日

从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

67+阅读 · 2020年12月24日

三维人脸识别研究进展综述，12页pdf

专知会员服务

29+阅读 · 2020年12月16日

自动图像标注技术综述(中文版)，27页pdf

专知会员服务

39+阅读 · 2020年12月14日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知会员服务

194+阅读 · 2020年12月3日

深度生成模型综述(中文版)，43页pdf

专知会员服务

184+阅读 · 2020年11月23日

【复旦大学】从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

80+阅读 · 2020年9月10日

【文本分类大综述：从浅层到深度学习，35页pdf】

【文本分类大综述：从浅层到深度学习，35页pdf】

专知会员服务

188+阅读 · 2020年8月6日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

专知

59+阅读 · 2020年8月6日

最新《多任务学习》综述，39页pdf

最新《多任务学习》综述，39页pdf

专知

28+阅读 · 2020年7月10日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

50+阅读 · 2020年3月29日

能生成逼真图像的不只有 GAN

能生成逼真图像的不只有 GAN

机器学习算法与Python学习

8+阅读 · 2019年6月6日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

基于深度学习的NLP 32页最新进展综述，190篇参考文献

基于深度学习的NLP 32页最新进展综述，190篇参考文献

专知

19+阅读 · 2018年12月4日

Image Captioning 36页最新综述， 161篇参考文献

Image Captioning 36页最新综述， 161篇参考文献

专知

90+阅读 · 2018年10月23日

The Location of Optimal Object Colors with More Than Two Transitions

Arxiv

0+阅读 · 2021年3月16日

Dual Temporal Memory Network for Efficient Video Object Segmentation

Dual Temporal Memory Network for Efficient Video Object Segmentation

Arxiv

5+阅读 · 2020年3月13日

Proposal, Tracking and Segmentation (PTS): A Cascaded Network for Video Object Segmentation

Proposal, Tracking and Segmentation (PTS): A Cascaded Network for Video Object Segmentation

Arxiv

4+阅读 · 2019年7月4日

Multimodal Semantic Attention Network for Video Captioning

Arxiv

4+阅读 · 2019年5月8日

Learning Blind Video Temporal Consistency

Learning Blind Video Temporal Consistency

Arxiv

3+阅读 · 2018年8月1日

Feature Fusion through Multitask CNN for Large-scale Remote Sensing Image Segmentation

Feature Fusion through Multitask CNN for Large-scale Remote Sensing Image Segmentation

Arxiv

6+阅读 · 2018年7月24日

A Fully Convolutional Two-Stream Fusion Network for Interactive Image Segmentation

A Fully Convolutional Two-Stream Fusion Network for Interactive Image Segmentation

Arxiv

5+阅读 · 2018年7月6日

Semi-Supervised Multi-Organ Segmentation via Deep Multi-Planar Co-Training

Arxiv

5+阅读 · 2018年5月12日

ECO: Efficient Convolutional Network for Online Video Understanding

Arxiv

5+阅读 · 2018年5月7日

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

Arxiv

5+阅读 · 2018年4月3日

VIP会员

相关主题

卷积神经网络

循环神经网络

相关VIP内容

跨媒体分析与推理技术研究综述

跨媒体分析与推理技术研究综述

专知会员服务

70+阅读 · 2021年3月11日

基于深度学习的文本分类技术研究进展(中文版)，11页pdf

专知会员服务

61+阅读 · 2021年2月22日

生成对抗网络及其在图像生成中的应用研究综述

专知会员服务

96+阅读 · 2021年2月6日

从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

67+阅读 · 2020年12月24日

三维人脸识别研究进展综述，12页pdf

专知会员服务

29+阅读 · 2020年12月16日

自动图像标注技术综述(中文版)，27页pdf

专知会员服务

39+阅读 · 2020年12月14日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知会员服务

194+阅读 · 2020年12月3日

深度生成模型综述(中文版)，43页pdf

专知会员服务

184+阅读 · 2020年11月23日

【复旦大学】从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

80+阅读 · 2020年9月10日

【文本分类大综述：从浅层到深度学习，35页pdf】

【文本分类大综述：从浅层到深度学习，35页pdf】

专知会员服务

188+阅读 · 2020年8月6日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】移动计算摄影的神经场表示

大语言模型遇见法律人工智能：综述

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

美军用无人地面战车发展：现代战争中超越弹药的多元应用

相关资讯

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

专知

59+阅读 · 2020年8月6日

最新《多任务学习》综述，39页pdf

最新《多任务学习》综述，39页pdf

专知

28+阅读 · 2020年7月10日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

50+阅读 · 2020年3月29日

能生成逼真图像的不只有 GAN

能生成逼真图像的不只有 GAN

机器学习算法与Python学习

8+阅读 · 2019年6月6日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

基于深度学习的NLP 32页最新进展综述，190篇参考文献

基于深度学习的NLP 32页最新进展综述，190篇参考文献

专知

19+阅读 · 2018年12月4日

Image Captioning 36页最新综述， 161篇参考文献

Image Captioning 36页最新综述， 161篇参考文献

专知

90+阅读 · 2018年10月23日

相关论文

The Location of Optimal Object Colors with More Than Two Transitions

Arxiv

0+阅读 · 2021年3月16日

Dual Temporal Memory Network for Efficient Video Object Segmentation

Dual Temporal Memory Network for Efficient Video Object Segmentation

Arxiv

5+阅读 · 2020年3月13日

Proposal, Tracking and Segmentation (PTS): A Cascaded Network for Video Object Segmentation

Proposal, Tracking and Segmentation (PTS): A Cascaded Network for Video Object Segmentation

Arxiv

4+阅读 · 2019年7月4日

Multimodal Semantic Attention Network for Video Captioning

Arxiv

4+阅读 · 2019年5月8日

Learning Blind Video Temporal Consistency

Learning Blind Video Temporal Consistency

Arxiv

3+阅读 · 2018年8月1日

Feature Fusion through Multitask CNN for Large-scale Remote Sensing Image Segmentation

Feature Fusion through Multitask CNN for Large-scale Remote Sensing Image Segmentation

Arxiv

6+阅读 · 2018年7月24日

A Fully Convolutional Two-Stream Fusion Network for Interactive Image Segmentation

A Fully Convolutional Two-Stream Fusion Network for Interactive Image Segmentation

Arxiv

5+阅读 · 2018年7月6日

Semi-Supervised Multi-Organ Segmentation via Deep Multi-Planar Co-Training

Arxiv

5+阅读 · 2018年5月12日

ECO: Efficient Convolutional Network for Online Video Understanding

Arxiv

5+阅读 · 2018年5月7日

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

Arxiv

5+阅读 · 2018年4月3日

微信扫码咨询专知VIP会员