音频领域有哪些有效embedding方法?

关注者
7
被浏览
4,108
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

音频领域好广,而且 Embedding 方法在我的理解里算是比较灵活的,写一下我了解应用在单声道音频领域的 Embedding 及相似方法,可能有些方法并没有叫自己是 Embedding ,但我觉得思想差不多就也写上来了,作为抛砖引玉。

  1. 说话人识别

说话人识别方向算是 Embedding 及其类似方法效果最好的一个领域,其实这也是可以预见的。说话人识别领域在3-4年前普遍使用的 baseline 是 i-vector,此模型关键就是通过 GMM 求每个说话人的均值超矢量然后降维表示说话人。很容易想到使用神经网络对 GMM 模型和 JFA 降维进行替换,设计神经网络模型提取 Speaker Embedding 一直是比较火的研究,经典论文:D-vector,Deep Speaker,X-vector。语音的几个顶会好像近年来都有 Program 专门讨论 Speaker Embedding 方向的研究,有兴趣可以去看看最新的研究。

2. 语音识别相关

ASR 里 Embedding 的方法效果没有那么突出,Speech to Vector 算是为数不多我了解在 ASR 领域使用 Embedding 方法的研究,思路主要在于通过音频直接学习 Word Embedding,不过这个领域就和NLP关系比较深了,而且个人觉得不是那么靠谱。

3. 语音前端的处理

Deep Clustering 是我了解的前端处理中使用了 Embedding 方法的模型。思路在于使用模型将每个 Time-Frequency Bin 转换为向量然后通过聚类方法分离不同说话人产生的 Time-Frequency Bin,从而达到分离不同说话人的效果。其实把这个向量取名 TF Embedding 没有任何违和感。