We present Distributional RewArds for Generative OptimizatioN (DRAGON), a versatile framework for fine-tuning media generation models towards a desired outcome. Compared with traditional reinforcement learning with human feedback (RLHF) or pairwise preference approaches such as direct preference optimization (DPO), DRAGON is more flexible. It can optimize reward functions that evaluate either individual examples or distributions of them, making it compatible with a broad spectrum of instance-wise, instance-to-distribution, and distribution-to-distribution rewards. Leveraging this versatility, we construct novel reward functions by selecting an encoder and a set of reference examples to create an exemplar distribution. When cross-modal encoders such as CLAP are used, the reference may be of a different modality (text versus audio). Then, DRAGON gathers online and on-policy generations, scores them with the reward function to construct a positive demonstration set and a negative set, and leverages the contrast between the two finite sets to approximate distributional reward optimization. For evaluation, we fine-tune an audio-domain text-to-music diffusion model with 20 reward functions, including a custom music aesthetics model, CLAP score, Vendi diversity, and Frechet audio distance (FAD). We further compare instance-wise (per-song) and full-dataset FAD settings while ablating multiple FAD encoders and reference sets. Over all 20 target rewards, DRAGON achieves an 81.45% average win rate. Moreover, reward functions based on exemplar sets enhance generations and are comparable to model-based rewards. With an appropriate exemplar set, DRAGON achieves a 60.95% human-voted music quality win rate without training on human preference annotations. DRAGON is a new approach to designing and optimizing reward functions for improving human-perceived quality. Demos at https://ml-dragon.github.io/web


翻译:我们提出了分布奖励生成优化框架(DRAGON),这是一个用于微调媒体生成模型以实现期望目标的通用框架。与传统的基于人类反馈的强化学习(RLHF)或成对偏好方法(如直接偏好优化DPO)相比,DRAGON更为灵活。它可以优化评估单个样本或其分布情况的奖励函数,从而兼容广泛的实例级、实例到分布以及分布到分布的奖励类型。利用这种灵活性,我们通过选择编码器和一组参考样本来构建范例分布,从而创建新颖的奖励函数。当使用跨模态编码器(如CLAP)时,参考样本可以来自不同模态(例如文本与音频)。随后,DRAGON收集在线和同策略生成结果,通过奖励函数对其进行评分以构建正例示范集和负例集,并利用这两个有限集合之间的对比来近似分布奖励优化。为进行评估,我们使用20种奖励函数对音频领域的文本到音乐扩散模型进行微调,包括定制的音乐美学模型、CLAP分数、Vendi多样性指标和弗雷歇音频距离(FAD)。我们进一步比较了实例级(单曲)和全数据集FAD设置,同时消融分析了多种FAD编码器和参考集。在所有20个目标奖励中,DRAGON实现了81.45%的平均胜率。此外,基于范例集的奖励函数能够提升生成质量,其效果与基于模型的奖励相当。通过合适的范例集,DRAGON在未使用人类偏好标注训练的情况下,获得了60.95%的人类投票音乐质量胜率。DRAGON为提升人类感知质量提供了一种设计和优化奖励函数的新方法。演示详见 https://ml-dragon.github.io/web

0
下载
关闭预览

相关内容

LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员