We study the regret minimization problem in the novel setting of generalized kernelized bandits (GKBs), where we optimize an unknown function $f^*$ belonging to a reproducing kernel Hilbert space (RKHS) having access to samples generated by an exponential family (EF) reward model whose mean is a non-linear function $μ(f^*)$. This setting extends both kernelized bandits (KBs) and generalized linear bandits (GLBs), providing a unified view of both settings. We propose an optimistic regret minimization algorithm, GKB-UCB, and we explain why existing self-normalized concentration inequalities used for KBs and GLBs do not allow to provide tight regret guarantees. For this reason, we devise a novel self-normalized Bernstein-like dimension-free inequality that applies to a Hilbert space of functions with bounded norm, representing a contribution of independent interest. Based on it, we analyze GKB-UCB, deriving a regret bound of order $\widetilde{O}( γ_T \sqrt{T/κ_*})$, being $T$ the learning horizon, $γ_T$ the maximal information gain, and $κ_*$ a term characterizing the magnitude of the expected reward non-linearity. Our result is tight in its dependence on $T$, $γ_T$, and $κ_*$ for both KBs and GLBs. Finally, we present a tractable version GKB-UCB, Trac-GKB-UCB, which attains similar regret guarantees, and we discuss its time and space complexity.


翻译:我们在广义核化赌博机(GKB)这一新颖设定下研究遗憾最小化问题,其中我们优化属于再生核希尔伯特空间(RKHS)的未知函数$f^*$,并通过指数族(EF)奖励模型生成的样本进行访问,该模型的均值是一个非线性函数$μ(f^*)$。这一设定扩展了核化赌博机(KB)和广义线性赌博机(GLB),为两者提供了统一的视角。我们提出了一种乐观的遗憾最小化算法GKB-UCB,并解释了为何现有的用于KB和GLB的自归一化集中不等式无法提供紧密的遗憾保证。为此,我们设计了一种新颖的自归一化伯恩斯坦型无维不等式,适用于具有有界范数的函数希尔伯特空间,这本身是一项具有独立意义的贡献。基于此,我们分析了GKB-UCB,推导出阶为$\widetilde{O}( γ_T \sqrt{T/κ_*})$的遗憾界,其中$T$为学习时域,$γ_T$为最大信息增益,$κ_*$为表征期望奖励非线性程度的项。我们的结果在$T$、$γ_T$和$κ_*$的依赖性上对于KB和GLB均是紧密的。最后,我们提出了一个可计算版本GKB-UCB,即Trac-GKB-UCB,它实现了相似的遗憾保证,并讨论了其时间和空间复杂度。

0
下载
关闭预览

相关内容

《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
专知会员服务
41+阅读 · 2021年2月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月16日
VIP会员
相关VIP内容
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
专知会员服务
41+阅读 · 2021年2月12日
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员