Text-guided sound separation supports flexible audio editing across media and assistive applications, but existing models like AudioSep are too compute-heavy for edge deployment. Neural audio codec (NAC) models such as CodecFormer and SDCodec are compute-efficient but limited to fixed-class separation. We introduce CodecSep, the first NAC-based model for on-device universal, text-driven separation. CodecSep combines DAC compression with a Transformer masker modulated by CLAP-derived FiLM parameters. Across six open-domain benchmarks under matched training/prompt protocols, \textbf{CodecSep} surpasses \textbf{AudioSep} in separation fidelity (SI-SDR) while remaining competitive in perceptual quality (ViSQOL) and matching or exceeding fixed-stem baselines (TDANet, CodecFormer, SDCodec). In code-stream deployments, it needs just 1.35~GMACs end-to-end -- approximately $54\times$ less compute ($25\times$ architecture-only) than spectrogram-domain separators like AudioSep -- while remaining fully bitstream-compatible.


翻译:文本引导的声音分离支持跨媒体和辅助应用中的灵活音频编辑,但现有模型(如AudioSep)计算量过大,难以在边缘设备上部署。神经音频编解码器(NAC)模型(如CodecFormer和SDCodec)计算效率高,但仅限于固定类别的分离。我们提出了CodecSep,这是首个基于NAC的、适用于设备端通用文本驱动分离的模型。CodecSep结合了DAC压缩与由CLAP衍生的FiLM参数调制的Transformer掩码器。在匹配的训练/提示协议下,跨越六个开放领域基准测试,\\textbf{CodecSep}在分离保真度(SI-SDR)上超越了\\textbf{AudioSep},同时在感知质量(ViSQOL)上保持竞争力,并匹配或超越了固定声源基线(TDANet、CodecFormer、SDCodec)。在码流部署中,其端到端仅需1.35~GMACs计算量——相比频谱域分离器(如AudioSep)减少约$54\\times$(仅架构部分为$25\\times$)——同时保持完全的比特流兼容性。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员