Data valuation is critical in machine learning, as it helps enhance model transparency and protect data properties. Existing data valuation methods have primarily focused on discriminative models, neglecting deep generative models that have recently gained considerable attention. Similar to discriminative models, there is an urgent need to assess data contributions in deep generative models as well. However, previous data valuation approaches mainly relied on discriminative model performance metrics and required model retraining. Consequently, they cannot be applied directly and efficiently to recent deep generative models, such as generative adversarial networks and diffusion models, in practice. To bridge this gap, we formulate the data valuation problem in generative models from a similarity-matching perspective. Specifically, we introduce Generative Model Valuator (GMValuator), the first model-agnostic approach for any generative models, designed to provide data valuation for generation tasks. We have conducted extensive experiments to demonstrate the effectiveness of the proposed method. To the best of their knowledge, GMValuator is the first work that offers a training-free, post-hoc data valuation strategy for deep generative models.


翻译:数据估价对机器学习至关重要,它有助于增强模型的透明度并保护数据的特性。现有的数据估价方法主要集中在判别模型上,忽略了近来备受关注的深度生成模型。与判别模型类似,迫切需要评估深度生成模型中的数据贡献。然而,以前的数据估价方法主要依赖于判别模型的性能指标,并需要模型重训练。因此,它们不能直接和高效地应用于最近的深度生成模型,如生成对抗网络和扩散模型。为了填补这一空白,我们从一个相似-匹配的视角来形式化生成模型中的数据估价问题。具体而言,我们介绍了 GMValuator,这是第一个针对任何生成模型的模型无关方法,旨在为生成任务提供数据估价。我们进行了大量实验来证明所提出方法的有效性。据我们所知,GMValuator 是第一个提供仅依赖生成模型输出即可进行后处理的数据估价策略。

0
下载
关闭预览

相关内容

在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。
【ICDM 2022教程】图挖掘中的公平性:度量、算法和应用
专知会员服务
26+阅读 · 2022年12月26日
「基于联邦学习的推荐系统」最新2022研究综述
专知会员服务
71+阅读 · 2022年5月21日
专知会员服务
41+阅读 · 2021年1月18日
强化学习最新教程,17页pdf
专知会员服务
169+阅读 · 2019年10月11日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年6月7日
Arxiv
0+阅读 · 2023年6月2日
Arxiv
25+阅读 · 2021年3月20日
Advances and Open Problems in Federated Learning
Arxiv
18+阅读 · 2019年12月10日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员