A-Siz-Fits-全方位解决保守强盗问题 (A One-Size-Fits-All Solution to Conservative Bandit Problems) - 专知论文

会员服务 ·

0

赌博机/老虎机 · Performer · Better · 约束 · 学习器 ·

2020 年 12 月 15 日

A One-Size-Fits-All Solution to Conservative Bandit Problems

翻译：A-Siz-Fits-全方位解决保守强盗问题

Yihan Du,Siwei Wang,Longbo Huang

In this paper, we study a family of conservative bandit problems (CBPs) with sample-path reward constraints, i.e., the learner's reward performance must be at least as well as a given baseline at any time. We propose a One-Size-Fits-All solution to CBPs and present its applications to three encompassed problems, i.e. conservative multi-armed bandits (CMAB), conservative linear bandits (CLB) and conservative contextual combinatorial bandits (CCCB). Different from previous works which consider high probability constraints on the expected reward, we focus on a sample-path constraint on the actually received reward, and achieve better theoretical guarantees ($T$-independent additive regrets instead of $T$-dependent) and empirical performance. Furthermore, we extend the results and consider a novel conservative mean-variance bandit problem (MV-CBP), which measures the learning performance with both the expected reward and variability. For this extended problem, we provide a novel algorithm with $O(1/T)$ normalized additive regrets ($T$-independent in the cumulative form) and validate this result through empirical evaluation.

翻译：在本文中,我们研究了一组保守的土匪问题(CBPs),有抽样处理的奖赏限制,即学习者的奖赏表现必须至少和某一基准一样。我们建议对土匪采取“一成一全”的解决办法,并将其应用到三个包含的问题,即:保守的多武装强盗(CMAB)、保守的线性强盗(CLB)和保守的环境组合强盗(CCCB)。与以前认为对预期的奖赏有高概率限制的工程不同,我们侧重于对实际得到的奖赏的样本处理限制,并实现更好的理论保障(依靠T$的独立添加剂遗憾,而不是依赖$T$独立)和实证业绩。此外,我们推广了结果,并考虑了一个新的保守的中差带问题(MV-CBPP),用预期的奖赏和变异性衡量学习成绩。关于这一长期问题,我们提供了一种新型的算法,用$O(1/T)美元标准添加剂遗憾(在累积形式上依赖T$),并通过经验评估来验证这一结果。

0

相关内容

赌博机/老虎机

赌博机/老虎机

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

53+阅读 · 2020年9月7日

【KDD2020】稀疏优化的块分解算法

专知会员服务

21+阅读 · 2020年9月2日

最新《机器学习最优化》课程笔记，36页pdf，Optimization for Machine Learning

专知会员服务

170+阅读 · 2020年5月10日

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

专知会员服务

117+阅读 · 2020年3月25日

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

专知会员服务

46+阅读 · 2019年11月15日

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

专知会员服务

244+阅读 · 2019年10月21日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

【新书】Python编程基础，669页pdf

【新书】Python编程基础，669页pdf

专知会员服务

196+阅读 · 2019年10月10日

LibRec 精选：AutoML for Contextual Bandits

LibRec 精选：AutoML for Contextual Bandits

LibRec智能推荐

7+阅读 · 2019年9月19日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Msfvenom 常用生成 Payload 命令

Msfvenom 常用生成 Payload 命令

黑白之道

9+阅读 · 2019年2月23日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

LibRec 精选：推荐的可解释性[综述]

LibRec 精选：推荐的可解释性[综述]

LibRec智能推荐

10+阅读 · 2018年5月4日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【学习】(Python)SVM数据分类

【学习】(Python)SVM数据分类

机器学习研究会

6+阅读 · 2017年10月15日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

Convex regularization in statistical inverse learning problems

Convex regularization in statistical inverse learning problems

Arxiv

0+阅读 · 2021年2月18日

Adaptive Robust Kernels for Non-Linear Least Squares Problems

Adaptive Robust Kernels for Non-Linear Least Squares Problems

Arxiv

0+阅读 · 2021年2月18日

Boosting for Online Convex Optimization

Arxiv

0+阅读 · 2021年2月18日

COMBO: Conservative Offline Model-Based Policy Optimization

COMBO: Conservative Offline Model-Based Policy Optimization

Arxiv

1+阅读 · 2021年2月16日

Submodular Maximization subject to a Knapsack Constraint: Combinatorial Algorithms with Near-optimal Adaptive Complexity

Arxiv

0+阅读 · 2021年2月16日

A Momentum-Assisted Single-Timescale Stochastic Approximation Algorithm for Bilevel Optimization

Arxiv

0+阅读 · 2021年2月15日

Diffusion Approximations for a Class of Sequential Testing Problems

Arxiv

0+阅读 · 2021年2月13日

Pareto Optimal Model Selection in Linear Bandits

Arxiv

0+阅读 · 2021年2月12日

Adaptive Sampling for Fast Constrained Maximization of Submodular Function

Arxiv

0+阅读 · 2021年2月12日

Approximation Methods for Kernelized Bandits

Arxiv

0+阅读 · 2021年2月12日

VIP会员

文章信息

相关主题

赌博机/老虎机

相关VIP内容

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

53+阅读 · 2020年9月7日

【KDD2020】稀疏优化的块分解算法

专知会员服务

21+阅读 · 2020年9月2日

最新《机器学习最优化》课程笔记，36页pdf，Optimization for Machine Learning

专知会员服务

170+阅读 · 2020年5月10日

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

专知会员服务

117+阅读 · 2020年3月25日

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

专知会员服务

46+阅读 · 2019年11月15日

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

专知会员服务

244+阅读 · 2019年10月21日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

【新书】Python编程基础，669页pdf

【新书】Python编程基础，669页pdf

专知会员服务

196+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军特种作战条令》最新102页

《洛克希德SR-71“黑鸟”侦察机动力系统》21页slides

美空军作战实验室通过人工智能和指挥控制技术创新推进杀伤链

《指挥控制能力分析方法论》最新报告

相关资讯

LibRec 精选：AutoML for Contextual Bandits

LibRec 精选：AutoML for Contextual Bandits

LibRec智能推荐

7+阅读 · 2019年9月19日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Msfvenom 常用生成 Payload 命令

Msfvenom 常用生成 Payload 命令

黑白之道

9+阅读 · 2019年2月23日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

LibRec 精选：推荐的可解释性[综述]

LibRec 精选：推荐的可解释性[综述]

LibRec智能推荐

10+阅读 · 2018年5月4日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【学习】(Python)SVM数据分类

【学习】(Python)SVM数据分类

机器学习研究会

6+阅读 · 2017年10月15日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Convex regularization in statistical inverse learning problems

Convex regularization in statistical inverse learning problems

Arxiv

0+阅读 · 2021年2月18日

Adaptive Robust Kernels for Non-Linear Least Squares Problems

Adaptive Robust Kernels for Non-Linear Least Squares Problems

Arxiv

0+阅读 · 2021年2月18日

Boosting for Online Convex Optimization

Arxiv

0+阅读 · 2021年2月18日

COMBO: Conservative Offline Model-Based Policy Optimization

COMBO: Conservative Offline Model-Based Policy Optimization

Arxiv

1+阅读 · 2021年2月16日

Submodular Maximization subject to a Knapsack Constraint: Combinatorial Algorithms with Near-optimal Adaptive Complexity

Arxiv

0+阅读 · 2021年2月16日

A Momentum-Assisted Single-Timescale Stochastic Approximation Algorithm for Bilevel Optimization

Arxiv

0+阅读 · 2021年2月15日

Diffusion Approximations for a Class of Sequential Testing Problems

Arxiv

0+阅读 · 2021年2月13日

Pareto Optimal Model Selection in Linear Bandits

Arxiv

0+阅读 · 2021年2月12日

Adaptive Sampling for Fast Constrained Maximization of Submodular Function

Arxiv

0+阅读 · 2021年2月12日

Approximation Methods for Kernelized Bandits

Arxiv

0+阅读 · 2021年2月12日

微信扫码咨询专知VIP会员