This work introduces a new task, text-conditioned selective video-to-audio (V2A) generation, which produces only the user-intended sound from a multi-object video. This capability is especially crucial in multimedia production, where audio tracks are handled individually for each sound source for precise editing, mixing, and creative control. However, current approaches generate single source-mixed sounds at once, largely because visual features are entangled, and region cues or prompts often fail to specify the source. We propose SelVA, a novel text-conditioned V2A model that treats the text prompt as an explicit selector of target source and modulates video encoder to distinctly extract prompt-relevant video features. The proposed supplementary tokens promote cross-attention by suppressing text-irrelevant activations with efficient parameter tuning, yielding robust semantic and temporal grounding. SelVA further employs a self-augmentation scheme to overcome the lack of mono audio track supervision. We evaluate SelVA on VGG-MONOAUDIO, a curated benchmark of clean single-source videos for such a task. Extensive experiments and ablations consistently verify its effectiveness across audio quality, semantic alignment, and temporal synchronization. Code and demo are available at https://jnwnlee.github.io/selva-demo/.


翻译:本文提出了一项新任务:基于文本条件的选择性视频到音频(V2A)生成,其目标是从包含多对象的视频中仅生成用户意图的特定声音。这一能力在多媒体制作中尤为重要,因为音频轨道通常需要针对每个声源单独处理,以实现精确的编辑、混音和创意控制。然而,现有方法通常一次性生成混合的单一声源音频,这主要是由于视觉特征存在纠缠,且区域提示或文本提示往往难以明确指定目标声源。我们提出了SelVA,一种新颖的基于文本条件的V2A模型,它将文本提示视为目标声源的显式选择器,并通过调制视频编码器来清晰提取与提示相关的视频特征。所提出的补充令牌通过高效参数调优抑制文本无关的激活,从而促进跨注意力机制,实现鲁棒的语义与时序对齐。SelVA进一步采用自增强方案以克服单声道音频轨道监督数据的缺乏。我们在VGG-MONOAUDIO上评估了SelVA,这是一个为该项任务精心构建的纯净单一声源视频基准数据集。广泛的实验与消融研究一致验证了其在音频质量、语义对齐和时序同步方面的有效性。代码和演示可在https://jnwnlee.github.io/selva-demo/获取。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
Python图像处理,366页pdf,Image Operators Image Processing in Python
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员