Language Model (LM)-based generative modeling has emerged as a promising direction for TSE, offering potential for improved generalization and high-fidelity speech. We present GenTSE, a two-stage decoder-only generative LM approach for TSE: Stage-1 predicts coarse semantic tokens, and Stage-2 generates fine acoustic tokens. Separating semantics and acoustics stabilizes decoding and yields more faithful, content-aligned target speech. Both stages use continuous SSL or codec embeddings, offering richer context than discretized-prompt methods. To reduce exposure bias, we employ a Frozen-LM Conditioning training strategy that conditions the LMs on predicted tokens from earlier checkpoints to reduce the gap between teacher-forcing training and autoregressive inference. We further employ DPO to better align outputs with human perceptual preferences. Experiments on Libri2Mix show that GenTSE surpasses previous LM-based systems in speech quality, intelligibility, and speaker consistency.


翻译:基于语言模型(LM)的生成式建模已成为目标说话人提取(TSE)的一个有前景的方向,为改进泛化能力和实现高保真语音提供了潜力。我们提出了GenTSE,一种用于TSE的两阶段仅解码器生成式语言模型方法:第一阶段预测粗粒度语义标记,第二阶段生成细粒度声学标记。将语义与声学分离稳定了解码过程,并产生了更忠实、内容对齐的目标语音。两个阶段均使用连续的自监督学习或编解码器嵌入,相比离散提示方法提供了更丰富的上下文。为了减少暴露偏差,我们采用了一种冻结语言模型条件训练策略,该策略使语言模型以早期检查点预测的标记为条件,从而缩小教师强制训练与自回归推理之间的差距。我们进一步采用直接偏好优化(DPO)来更好地使输出与人类感知偏好对齐。在Libri2Mix数据集上的实验表明,GenTSE在语音质量、清晰度和说话人一致性方面超越了先前基于语言模型的系统。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员