Despite the parallel challenges that audio and text domains face in evaluating generative model outputs, preference learning remains remarkably underexplored in audio applications. Through a PRISMA-guided systematic review of approximately 500 papers, we find that only 30 (6%) apply preference learning to audio tasks. Our analysis reveals a field in transition: pre-2021 works focused on emotion recognition using traditional ranking methods (rankSVM), while post-2021 studies have pivoted toward generation tasks employing modern RLHF frameworks. We identify three critical patterns: (1) the emergence of multi-dimensional evaluation strategies combining synthetic, automated, and human preferences; (2) inconsistent alignment between traditional metrics (WER, PESQ) and human judgments across different contexts; and (3) convergence on multi-stage training pipelines that combine reward signals. Our findings suggest that while preference learning shows promise for audio, particularly in capturing subjective qualities like naturalness and musicality, the field requires standardized benchmarks, higher-quality datasets, and systematic investigation of how temporal factors unique to audio impact preference learning frameworks.


翻译:尽管音频与文本领域在评估生成模型输出时面临相似的挑战,偏好学习在音频应用中的探索仍显著不足。通过对约500篇论文进行PRISMA指导的系统性综述,我们发现仅有30篇(6%)将偏好学习应用于音频任务。分析表明该领域正处于转型阶段:2021年前的研究主要利用传统排序方法(rankSVM)进行情感识别,而2021年后的研究则转向采用现代RLHF框架的生成任务。我们识别出三个关键模式:(1)结合合成偏好、自动化偏好与人类偏好的多维度评估策略正在兴起;(2)传统指标(WER、PESQ)与人类判断在不同情境下的对齐性存在不一致;(3)多阶段训练管道整合奖励信号的趋势逐渐趋同。研究结果表明,偏好学习在音频领域(尤其在捕捉自然度与音乐性等主观品质方面)展现出潜力,但该领域仍需建立标准化基准、更高质量的数据集,并系统性地探究音频特有的时序因素如何影响偏好学习框架。

0
下载
关闭预览

相关内容

【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员