Generalized Linear Bandits (GLBs) are powerful extensions to the Linear Bandit (LB) setting, broadening the benefits of reward parametrization beyond linearity. In this paper we study GLBs in non-stationary environments, characterized by a general metric of non-stationarity known as the variation-budget or \emph{parameter-drift}, denoted $B_T$. While previous attempts have been made to extend LB algorithms to this setting, they overlook a salient feature of GLBs which flaws their results. In this work, we introduce a new algorithm that addresses this difficulty. We prove that under a geometric assumption on the action set, our approach enjoys a $\tilde{\mathcal{O}}(B_T^{1/3}T^{2/3})$ regret bound. In the general case, we show that it suffers at most a $\tilde{\mathcal{O}}(B_T^{1/5}T^{4/5})$ regret. At the core of our contribution is a generalization of the projection step introduced in Filippi et al. (2010), adapted to the non-stationary nature of the problem. Our analysis sheds light on central mechanisms inherited from the setting by explicitly splitting the treatment of the learning and tracking aspects of the problem.


翻译:通用线性强盗(GLBs)是线性强盗(LB)设置的有力延伸,扩大了奖励超线性强的优势。 在本文中,我们研究了非静止环境中的GLBs, 其特征是非静止环境的一般非常态度量,称为变换预算或=mph{parater-drift}, 意指$B_T美元。 虽然以前曾尝试将LB算法扩展至此环境, 但忽略了GLBs中一个突出的、影响其结果的特征。 在这项工作中,我们引入了一种解决这一困难的新算法。我们证明,在对整套行动进行几何假设的假设下,我们的方法享有一个非常态性的通用度度量值,称为变换预算或=mph{parmeter-drifter-drift}, 美元。 在一般情况下,我们显示它受损失的幅度最多为$tilde tphalcal{O}{(B____T ⁇ 1/5}T ⁇ 4/5} 。 在这项工作中,我们的贡献的核心在于我们所做出的一项预测性分析,即从菲利普和中央分析的不易变的阶段的阶段, 。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年10月31日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年8月17日
Efficient and Effective $L_0$ Feature Selection
Arxiv
5+阅读 · 2018年8月7日
Arxiv
3+阅读 · 2018年2月24日
Arxiv
3+阅读 · 2018年1月31日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
相关论文
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年8月17日
Efficient and Effective $L_0$ Feature Selection
Arxiv
5+阅读 · 2018年8月7日
Arxiv
3+阅读 · 2018年2月24日
Arxiv
3+阅读 · 2018年1月31日
Top
微信扫码咨询专知VIP会员