视频描述生成（Video Caption）论文 - 专知

会员服务 ·

视频描述生成（Video Caption）

视频描述生成（Video Caption）

视频描述生成（Video Caption），就是从视频中自动生成一段描述性文字

Hallucination Localization in Video Captioning

Arxiv

0+阅读 · 10月29日

LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision

Arxiv

0+阅读 · 10月27日

RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning

Arxiv

0+阅读 · 10月28日

VC4VG: Optimizing Video Captions for Text-to-Video Generation

Arxiv

0+阅读 · 10月28日

IF-VidCap: Can Video Caption Models Follow Instructions?

Arxiv

0+阅读 · 10月21日

Shot2Tactic-Caption: Multi-Scale Captioning of Badminton Videos for Tactical Understanding

Arxiv

0+阅读 · 10月16日

LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event Boundary Captioning

Arxiv

0+阅读 · 10月8日

Addressing the ID-Matching Challenge in Long Video Captioning

Arxiv

0+阅读 · 10月8日

Cap2Sum: Learning to Summarize Videos by Generating Captions

Arxiv

0+阅读 · 10月5日

Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction

Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction

Arxiv

0+阅读 · 10月3日

Dense Video Captioning using Graph-based Sentence Summarization

Arxiv

0+阅读 · 6月25日

UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks

Arxiv

0+阅读 · 7月15日

ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation

ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation

Arxiv

0+阅读 · 4月3日

CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval

Arxiv

0+阅读 · 3月18日

EVQAScore: A Fine-grained Metric for Video Question Answering Data Quality Evaluation

Arxiv

0+阅读 · 2月6日

参考链接

微信扫码咨询专知VIP会员