We introduce MAVERIX (Multimodal audiovisual Evaluation and Recognition IndeX), a unified benchmark to probe the video understanding in multimodal LLMs, encompassing video, audio, text inputs with human performance baselines. Although recent advancements in models with vision and audio understanding capabilities have shown substantial progress, the field lacks a standardized evaluation framework to thoroughly assess their cross-modality comprehension performance. MAVERIX curates 2,556 questions from 700 videos, in the form of both multiple-choice and open-ended formats, explicitly designed to evaluate multimodal models through questions that necessitate tight integration of video and audio information, spanning a broad spectrum of agentic scenarios. MAVERIX uniquely provides models with audiovisual questions, closely mimicking the multimodal perceptual experiences available to humans during inference and decision-making processes. To our knowledge, MAVERIX is the first benchmark aimed explicitly at assessing comprehensive audiovisual integration in such granularity. Experiments with state-of-the-art models, including Qwen 2.5 Omni and Gemini 2.5 Flash-Lite, show performance around 64% accuracy, while human experts reach near-ceiling performance of 92.8%, exposing a substantial gap to human-level comprehension. With standardized evaluation protocols, a rigorously annotated pipeline, and a public toolkit, MAVERIX establishes a challenging testbed for advancing audiovisual multimodal intelligence.


翻译:我们提出了MAVERIX(多模态视听评估与识别指数),这是一个统一的基准测试框架,旨在探究多模态大语言模型在视频理解方面的能力,涵盖视频、音频和文本输入,并建立了人类性能基线。尽管近期具备视觉与音频理解能力的模型取得了显著进展,但该领域仍缺乏标准化的评估框架来全面评估其跨模态理解性能。MAVERIX从700个视频中精心构建了2,556个问题,采用多项选择和开放式两种形式,这些问题专门设计用于通过需要紧密整合视频与音频信息的问题来评估多模态模型,覆盖了广泛的智能体场景。MAVERIX独特地为模型提供视听问题,高度模拟了人类在推理与决策过程中可获得的多模态感知体验。据我们所知,MAVERIX是首个明确旨在以如此精细粒度评估综合视听整合能力的基准测试。通过对包括Qwen 2.5 Omni和Gemini 2.5 Flash-Lite在内的前沿模型进行实验,结果显示其准确率约为64%,而人类专家则达到接近上限的92.8%性能,暴露出与人类水平理解之间的显著差距。凭借标准化的评估协议、严格标注的流程以及公开的工具包,MAVERIX为推进视听多模态智能建立了一个具有挑战性的测试平台。

0
下载
关闭预览

相关内容

【WWW2024】GraphPro:推荐系统中的图预训练与提示学习
专知会员服务
23+阅读 · 2024年1月26日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员