We consider the problem of service placement at the network edge, in which a decision maker has to choose between $N$ services to host at the edge to satisfy the demands of end users. Our goal is to design adaptive algorithms to minimize the average service delivery latency for users. We pose the problem as a Markov decision process (MDP) in which the system state is given by describing, for each service, the number of users that are currently waiting at the edge to obtain the service. However, solving this $N$-services MDP is computationally expensive due to the curse of dimensionality. To overcome this challenge, we show that the optimal policy for a single-service MDP has an appealing threshold structure, and derive explicitly the Whittle indices for each service as a function of the number of requests from end users based on the theory of Whittle index policy. Since request arrival and service delivery rates are usually unknown and possibly time-varying, we then develop efficient learning augmented algorithms that fully utilize the structure of optimal policies with a low learning regret. The first of these is UCB-Whittle, and relies upon the principle of optimism in the face of uncertainty. The second algorithm, Q-learning-Whittle, utilizes Q-learning iterations for each service by using a two time scale stochastic approximation. We characterize the non-asymptotic performance of UCB-Whittle by analyzing its learning regret, and also analyze the convergence properties of Q-learning-Whittle. Simulation results show that the proposed policies yield excellent empirical performance.


翻译:我们考虑了网络边缘的服务安置问题,在网络边缘,决策者必须在其中选择以美元为主的服务中选择以美元为主的服务,以满足终端用户的需求。我们的目标是设计适应性算法,以尽量减少用户的平均服务延迟度。我们作为Markov 决策程序(MDP)提出问题,根据Whittle指数政策理论,系统状态通过描述每个服务处于最边缘的用户目前等待获得服务的人数来说明。然而,解决这个以美元为单位的服务周期MDP由于程度的诅咒而计算成本高昂。为了克服这一挑战,我们展示了单一服务MDP的最佳政策政策有吸引力的门槛结构,并明确提出了每项服务的惠特尔指数,这是终端用户根据Whittletle指数政策理论提出的要求数量的一种函数。由于每次服务到达和服务交付率通常不为人所知,而且可能具有时间差异,我们随后发展了高效的学习强化算法,充分利用最佳政策结构,但学习的遗憾程度较低。首先是UCB-Witlett,我们展示的是,在每一阶段学习成绩分析结果时,我们也不依赖它使用的乐观原则。

0
下载
关闭预览

相关内容

Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年3月7日
Arxiv
0+阅读 · 2021年3月5日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
6+阅读 · 2018年4月24日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员