Contextual multi-armed bandits (CMAB) have been widely used for learning to filter and prioritize information according to a user's interest. In this work, we analyze top-K ranking under the CMAB framework where the top-K arms are chosen iteratively to maximize a reward. The context, which represents a set of observable factors related to the user, is used to increase prediction accuracy compared to a standard multi-armed bandit. Contextual bandit methods have mostly been studied under strict linearity assumptions, but we drop that assumption and learn non-linear stochastic reward functions with deep neural networks. We introduce a novel algorithm called the Deep Upper Confidence Bound (UCB) algorithm. Deep UCB balances exploration and exploitation with a separate neural network to model the learning convergence. We compare the performance of many bandit algorithms varying K over real-world data sets with high-dimensional data and non-linear reward functions. Empirical results show that the performance of Deep UCB often outperforms though it is sensitive to the problem and reward setup. Additionally, we prove theoretical regret bounds on Deep UCB giving convergence to optimality for the weak class of CMAB problems.


翻译:多武装大盗(CMAB)被广泛用于学习根据用户的兴趣筛选和优先排序信息。在这项工作中,我们分析了在CMAB框架下的顶级K级算法,即高K武器是迭接式选择,以获得最大限度的奖励。背景是一组与用户有关的可观测因素,用来提高预测准确性,与标准的多武装大盗相比。背景强盗方法大多是在严格的线性假设下研究的,但我们放弃了这一假设,并学习了深神经网络的非线性随机奖赏功能。我们引入了一种新型算法,称为深高层信任算法(UCB) 。深UCB平衡了探索和开发,与一个单独的神经网络进行平衡,以模拟学习趋同。我们用高维数据和非线性奖赏功能对许多不同的K型大盗算法的性进行了比较。实证结果显示,Deep UCB的性能往往超越了对问题敏感度和奖赏设置的完美性。此外,我们证明深UCB在深度UB的理论上有悔。

0
下载
关闭预览

相关内容

机器学习组合优化
专知会员服务
106+阅读 · 2021年2月16日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
LibRec 每周算法:Wide & Deep (by Google)
LibRec智能推荐
9+阅读 · 2017年10月25日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
Arxiv
7+阅读 · 2021年5月25日
VIP会员
相关VIP内容
机器学习组合优化
专知会员服务
106+阅读 · 2021年2月16日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
Top
微信扫码咨询专知VIP会员