内容理解论文 - 专知

会员服务 ·

内容理解

对不同媒体的数据进行语义分析和关联建模

LLM-Powered Nuanced Video Attribute Annotation for Enhanced Recommendations

Arxiv

0+阅读 · 10月8日

Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion

Arxiv

0+阅读 · 10月2日

XGC-AVis: Towards Audio-Visual Content Understanding with a Multi-Agent Collaborative System

Arxiv

0+阅读 · 9月27日

Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion

Arxiv

0+阅读 · 3月21日

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval

Arxiv

0+阅读 · 2月10日

ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots

Arxiv

0+阅读 · 2月9日

Resource Allocation Driven by Large Models in Future Semantic-Aware Networks

Arxiv

0+阅读 · 1月23日

Legommenders: A Comprehensive Content-Based Recommendation Library with LLM Support

Arxiv

1+阅读 · 2024年12月20日

SparrowVQE: Visual Question Explanation for Course Content Understanding

Arxiv

0+阅读 · 2024年11月12日

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval

Arxiv

0+阅读 · 2024年10月15日

Teaching Human Behavior Improves Content Understanding Abilities Of LLMs

Arxiv

0+阅读 · 2024年10月10日

Deep Learning based Visually Rich Document Content Understanding: A Survey

Arxiv

0+阅读 · 2024年8月2日

SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses

Arxiv

0+阅读 · 2024年8月3日

SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses

Arxiv

0+阅读 · 2024年8月8日

SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses

Arxiv

0+阅读 · 2024年8月7日

参考链接

微信扫码咨询专知VIP会员