In black-box optimization problems, we aim to maximize an unknown objective function, where the function is only accessible through feedbacks of an evaluation or simulation oracle. In real-life, the feedbacks of such oracles are often noisy and available after some unknown delay that may depend on the computation time of the oracle. Additionally, if the exact evaluations are expensive but coarse approximations are available at a lower cost, the feedbacks can have multi-fidelity. In order to address this problem, we propose a generic extension of hierarchical optimistic tree search (HOO), called ProCrastinated Tree Search (PCTS), that flexibly accommodates a delay and noise-tolerant bandit algorithm. We provide a generic proof technique to quantify regret of PCTS under delayed, noisy, and multi-fidelity feedbacks. Specifically, we derive regret bounds of PCTS enabled with delayed-UCB1 (DUCB1) and delayed-UCB-V (DUCBV) algorithms. Given a horizon $T$, PCTS retains the regret bound of non-delayed HOO for expected delay of $O(\log T)$ and worsens by $O(T^{\frac{1-\alpha}{d+2}})$ for expected delays of $O(T^{1-\alpha})$ for $\alpha \in (0,1]$. We experimentally validate on multiple synthetic functions and hyperparameter tuning problems that PCTS outperforms the state-of-the-art black-box optimization methods for feedbacks with different noise levels, delays, and fidelity.


翻译:在黑盒优化问题中,我们的目标是最大限度地增加一个未知的目标功能,即该功能只能通过评价或模拟器的反馈来获取。在现实生活中,这些神器的反馈往往很吵,在可能取决于神器的计算时间的某种不知名的延迟之后可以得到。此外,如果准确的评价费用昂贵,但粗略的近似以较低的成本提供,那么反馈可能具有多纤维性。为了解决这一问题,我们提议将等级乐观树搜索(HOO)(称为ProCrattic 树搜索(PCTS))的通用扩展,该功能可灵活地适应延迟和耐噪音的延迟。在现实生活中,这些神器的反馈往往很吵闹,在某种不知名的延迟、噪音和多纤维性反馈下,我们用延迟的UCBB1 (DUCB1) 和延迟的UCB-V (DCBV) 算法产生遗憾。鉴于地平价值为美元,PCTTT(PLT) 保留非延迟的HOOOO(美元)预期延迟的美元(T)和美元(O_Q_BAR_BAR_BAR) 的美元) 水平,以及美元(美元/美元)预期的货币-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-

0
下载
关闭预览

相关内容

在科学,计算和工程学中,黑盒是一种设备,系统或对象,可以根据其输入和输出(或传输特性)对其进行查看,而无需对其内部工作有任何了解。 它的实现是“不透明的”(黑色)。 几乎任何事物都可以被称为黑盒:晶体管,引擎,算法,人脑,机构或政府。为了使用典型的“黑匣子方法”来分析建模为开放系统的事物,仅考虑刺激/响应的行为,以推断(未知)盒子。 该黑匣子系统的通常表示形式是在该方框中居中的数据流程图。黑盒的对立面是一个内部组件或逻辑可用于检查的系统,通常将其称为白盒(有时也称为“透明盒”或“玻璃盒”)。
专知会员服务
25+阅读 · 2021年4月2日
专知会员服务
16+阅读 · 2020年12月4日
专知会员服务
52+阅读 · 2020年9月7日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
169+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
5+阅读 · 2017年11月22日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年12月3日
Arxiv
7+阅读 · 2021年5月25日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
8+阅读 · 2018年7月12日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
5+阅读 · 2017年11月22日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员