We study the problem of best-arm identification (BAI) in contextual bandits in the fixed-budget setting. We propose a general successive elimination algorithm that proceeds in stages and eliminates a fixed fraction of suboptimal arms in each stage. This design takes advantage of the strengths of static and adaptive allocations. We analyze the algorithm in linear models and obtain a better error bound than prior work. We also apply it to generalized linear models (GLMs) and bound its error. This is the first BAI algorithm for GLMs in the fixed-budget setting. Our extensive numerical experiments show that our algorithm outperforms the state of art.


翻译:我们研究了在固定预算环境中背景强盗中的最佳武器识别(BAI)问题,我们建议采用一个总体连续消除算法,分阶段进行,在每个阶段消除一定的次优武器部分,这种设计利用静态和适应性分配的优势,我们用线性模型分析算法,并获得比先前工作更好的错误。我们还将它应用到通用线性模型(GLMs)中,并约束它的错误。这是在固定预算环境中对GLMs的第一个BAI算法。我们广泛的数字实验显示,我们的算法优于现代水平。

0
下载
关闭预览

相关内容

专知会员服务
23+阅读 · 2021年8月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
PTGAN for Person Re-Identification
统计学习与视觉计算组
4+阅读 · 2018年9月10日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
Arxiv
5+阅读 · 2018年6月12日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
PTGAN for Person Re-Identification
统计学习与视觉计算组
4+阅读 · 2018年9月10日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
Top
微信扫码咨询专知VIP会员