Running machine learning algorithms on large and rapidly growing volumes of data are often computationally expensive, one common trick to reduce the size of a data set, and thus reduce the computational cost of machine learning algorithms, is \emph{probability sampling}. It creates a sampled data set by including each data point from the original data set with a known probability. Although the benefit of running machine learning algorithms on the reduced data set is obvious, one major concern is that the performance of the solution obtained from samples might be much worse than that of the optimal solution when using the full data set. In this paper, we examine the performance loss caused by probability sampling in the context of adaptive submodular maximization. We consider a easiest probability sampling method which selects each data point independently with probability $r\in[0,1]$. We define sampling gap as the largest ratio of the optimal solution obtained from the full data set and the optimal solution obtained from the samples, over independence systems. Our main contribution is to show that if the utility function is policywise submodular, then for a given sampling rate $r$, the sampling gap is both upper bounded and lower bounded by $1/r$. One immediate implication of our result is that if we can find an $\alpha$-approximation solution based on a sampled data set (which is sampled at sampling rate $r$), then this solution achieves an $\alpha r$ approximation ratio for the original problem when using the full data set. We also show that the property of policywise submodular can be found in a wide range of real-world applications, including pool-based active learning and adaptive viral marketing.


翻译:在大型和快速增长的数据量上运行机器学习算法往往计算费用昂贵,减少数据集规模从而降低机器学习算法计算成本的一个常见技巧是 emph{概率抽样}。它通过将原始数据集中的每个数据点纳入已知概率的原始数据集,创建了一组抽样数据。虽然运行机器学习算法对减少的数据集的好处是显而易见的,但一个主要关切是,在使用完整数据集时,从抽样中获得的解决方案的性能可能比最佳解决方案的性能要差得多。在本文中,我们研究了在适应性亚调模式最大化的背景下,通过抽样取样来减少数据集的概率,从而降低了机器学习成本成本成本。我们把抽样差距定义为从完整数据集和从抽样中获取的最佳解决方案的最大比率。我们的主要贡献是,如果使用基于政策性的亚值亚值的亚值,那么当我们找到一个基于美元的深度汇率时,则以美元为全基值的基值的汇率差距,包括以美元/美元为底值的基值的基值标值数据。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
应用机器学习书稿,361页pdf
专知会员服务
57+阅读 · 2020年11月24日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年6月7日
VIP会员
相关VIP内容
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员