The parallel advances in language modeling and speech representation learning have raised the prospect of learning language directly from speech without textual intermediates. This requires extracting semantic representations directly from speech. Our contributions are threefold. First, we introduce SpidR, a self-supervised speech representation model that efficiently learns representations with highly accessible phonetic information, which makes it particularly suited for textless spoken language modeling. It is trained on raw waveforms using a masked prediction objective combined with self-distillation and online clustering. The intermediate layers of the student model learn to predict assignments derived from the teacher's intermediate layers. This learning objective stabilizes the online clustering procedure compared to previous approaches, resulting in higher quality codebooks. SpidR outperforms wav2vec 2.0, HuBERT, WavLM, and DinoSR on downstream language modeling benchmarks (sWUGGY, sBLIMP, tSC). Second, we systematically evaluate across models and layers the correlation between speech unit quality (ABX, PNMI) and language modeling performance, validating these metrics as reliable proxies. Finally, SpidR significantly reduces pretraining time compared to HuBERT, requiring only one day of pretraining on 16 GPUs, instead of a week. This speedup is enabled by the pretraining method and an efficient codebase, which allows faster iteration and easier experimentation. We open-source the training code and model checkpoints at https://github.com/facebookresearch/spidr.


翻译:语言建模与语音表征学习的并行进展,使得无需文本中介直接从语音中学习语言的前景得以提升。这要求直接从语音中提取语义表征。我们的贡献有三方面。首先,我们引入了 SpidR,一种自监督语音表征模型,它能高效地学习具有高度可访问性语音信息的表征,这使其特别适用于无文本的口语语言建模。该模型使用掩码预测目标结合自蒸馏和在线聚类在原始波形上进行训练。学生模型的中间层学习预测源自教师模型中间层的分配。与先前方法相比,该学习目标稳定了在线聚类过程,从而产生了更高质量的码本。在下游语言建模基准(sWUGGY, sBLIMP, tSC)上,SpidR 的表现优于 wav2vec 2.0、HuBERT、WavLM 和 DinoSR。其次,我们系统性地评估了不同模型和层之间语音单元质量(ABX, PNMI)与语言建模性能的相关性,验证了这些指标作为可靠代理的有效性。最后,与 HuBERT 相比,SpidR 显著减少了预训练时间,仅需在 16 个 GPU 上预训练一天,而非一周。这一加速得益于预训练方法和高效的代码库,从而允许更快的迭代和更便捷的实验。我们在 https://github.com/facebookresearch/spidr 开源了训练代码和模型检查点。

0
下载
关闭预览

相关内容

【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员