Text-to-audio (TTA) generation with fine-grained control signals, e.g., precise timing control or intelligible speech content, has been explored in recent works. However, constrained by data scarcity, their generation performance at scale is still compromised. In this study, we recast controllable TTA generation as a multi-task learning problem and introduce a progressive diffusion modeling approach, ControlAudio. Our method adeptly fits distributions conditioned on more fine-grained information, including text, timing, and phoneme features, through a step-by-step strategy. First, we propose a data construction method spanning both annotation and simulation, augmenting condition information in the sequence of text, timing, and phoneme. Second, at the model training stage, we pretrain a diffusion transformer (DiT) on large-scale text-audio pairs, achieving scalable TTA generation, and then incrementally integrate the timing and phoneme features with unified semantic representations, expanding controllability. Finally, at the inference stage, we propose progressively guided generation, which sequentially emphasizes more fine-grained information, aligning inherently with the coarse-to-fine sampling nature of DiT. Extensive experiments show that ControlAudio achieves state-of-the-art performance in terms of temporal accuracy and speech clarity, significantly outperforming existing methods on both objective and subjective evaluations. Demo samples are available at: https://control-audio.github.io/Control-Audio.


翻译:具有细粒度控制信号(如精确时序控制或可理解语音内容)的文本到音频(TTA)生成已在近期研究中得到探索。然而,受限于数据稀缺性,其大规模生成性能仍存在不足。本研究将可控TTA生成重构为一个多任务学习问题,并提出一种渐进式扩散建模方法——ControlAudio。该方法通过分步策略,能够有效拟合以更细粒度信息(包括文本、时序和音素特征)为条件的分布。首先,我们提出一种涵盖标注与模拟的数据构建方法,按文本、时序和音素的顺序增强条件信息。其次,在模型训练阶段,我们基于大规模文本-音频对预训练扩散变换器(DiT),实现可扩展的TTA生成,随后逐步整合时序和音素特征与统一的语义表示,从而扩展可控性。最后,在推理阶段,我们提出渐进式引导生成方法,依次强化更细粒度的信息,这本质上与DiT从粗到细的采样特性相契合。大量实验表明,ControlAudio在时序准确性和语音清晰度方面均达到最先进性能,在客观与主观评估中显著优于现有方法。演示样本请访问:https://control-audio.github.io/Control-Audio。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员