Large speech generation models are evolving from single-speaker, short sentence synthesis to multi-speaker, long conversation geneartion. Current long-form speech generation models are predominately constrained to dyadic, turn-based interactions. To address this, we introduce JoyVoice, a novel anthropomorphic foundation model designed for flexible, boundary-free synthesis of up to eight speakers. Unlike conventional cascaded systems, JoyVoice employs a unified E2E-Transformer-DiT architecture that utilizes autoregressive hidden representations directly for diffusion inputs, enabling holistic end-to-end optimization. We further propose a MM-Tokenizer operating at a low bitrate of 12.5 Hz, which integrates multitask semantic and MMSE losses to effectively model both semantic and acoustic information. Additionally, the model incorporates robust text front-end processing via large-scale data perturbation. Experiments show that JoyVoice achieves state-of-the-art results in multilingual generation (Chinese, English, Japanese, Korean) and zero-shot voice cloning. JoyVoice achieves top-tier results on both the Seed-TTS-Eval Benchmark and multi-speaker long-form conversational voice cloning tasks, demonstrating superior audio quality and generalization. It achieves significant improvements in prosodic continuity for long-form speech, rhythm richness in multi-speaker conversations, paralinguistic naturalness, besides superior intelligibility. We encourage readers to listen to the demo at https://jea-speech.github.io/JoyVoice


翻译:大型语音生成模型正从单说话人短句合成向多说话人长对话生成演进。当前长语音生成模型主要受限于二元轮转式交互。为此,我们提出JoyVoice——一种新颖的拟人化基础模型,专为灵活、无边界地合成最多八位说话人而设计。与传统级联系统不同,JoyVoice采用统一的端到端Transformer-DiT架构,直接利用自回归隐层表征作为扩散模型输入,实现整体端到端优化。我们进一步提出以12.5Hz低比特率运行的MM-Tokenizer,通过整合多任务语义损失与MMSE损失,有效建模语义与声学信息。此外,模型通过大规模数据扰动实现了鲁棒的文本前端处理。实验表明,JoyVoice在多语言生成(中文、英文、日文、韩文)和零样本语音克隆任务中达到最先进水平。在Seed-TTS-Eval基准测试和多说话人长对话语音克隆任务中均取得顶尖结果,展现出卓越的音频质量与泛化能力。该模型在长语音的韵律连续性、多说话人对话的节奏丰富性、副语言自然度方面实现显著提升,同时保持优异的可懂度。我们建议读者通过https://jea-speech.github.io/JoyVoice访问演示音频。

0
下载
关闭预览

相关内容

读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员