Recent Large Audio-Language Models (LALMs) exhibit impressive capabilities in understanding audio content for conversational QA tasks. However, these models struggle to accurately understand timestamps for temporal localization (e.g., Temporal Audio Grounding) and are restricted to short audio perception, leading to constrained capabilities on fine-grained tasks. We identify three key aspects that limit their temporal localization and long audio understanding: (i) timestamp representation, (ii) architecture, and (iii) data. To address this, we introduce TimeAudio, a novel method that empowers LALMs to connect their understanding of audio content with precise temporal perception. Specifically, we incorporate unique temporal markers to improve time-sensitive reasoning and apply an absolute time-aware encoding that explicitly grounds the acoustic features with absolute time information. Moreover, to achieve end-to-end long audio understanding, we introduce a segment-level token merging module to substantially reduce audio token redundancy and enhance the efficiency of information extraction. Due to the lack of suitable datasets and evaluation metrics, we consolidate existing audio datasets into a new dataset focused on temporal tasks and establish a series of metrics to evaluate the fine-grained performance. Evaluations show strong performance across a variety of fine-grained tasks, such as dense captioning, temporal grounding, and timeline speech summarization, demonstrating TimeAudio's robust temporal localization and reasoning capabilities.


翻译:近期的大型音频-语言模型在理解音频内容以进行对话式问答任务方面展现出令人印象深刻的能力。然而,这些模型在准确理解时间戳以实现时间定位(例如,时序音频定位)方面存在困难,且受限于短音频感知,导致在细粒度任务上的能力受限。我们识别出限制其时间定位和长音频理解的三个关键方面:(i)时间戳表示,(ii)架构,以及(iii)数据。为解决此问题,我们引入了TimeAudio,一种新颖的方法,使大型音频-语言模型能够将其对音频内容的理解与精确的时间感知相连接。具体而言,我们融入独特的时间标记以改进时间敏感推理,并应用绝对时间感知编码,将声学特征明确地与绝对时间信息对齐。此外,为实现端到端的长音频理解,我们引入了段级令牌合并模块,以显著减少音频令牌冗余并提升信息提取效率。由于缺乏合适的数据集和评估指标,我们将现有音频数据集整合为一个专注于时序任务的新数据集,并建立了一系列指标来评估细粒度性能。评估结果显示,在密集描述、时序定位和时序语音摘要等多种细粒度任务上均表现出色,证明了TimeAudio强大的时间定位和推理能力。

0
下载
关闭预览

相关内容

【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
【NeurIPS2023】PAXION:在视频-语言基础模型中修补动作知识
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月15日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员