用于最佳武器识别最佳武器识别的量化强盗 (Quantile Bandits for Best Arms Identification) - 专知论文

会员服务 ·

0

赌博机/老虎机 · ARM · 可辨认的 · Bandits · 随机变量 ·

2021 年 6 月 11 日

Quantile Bandits for Best Arms Identification

翻译：用于最佳武器识别最佳武器识别的量化强盗

Mengyan Zhang,Cheng Soon Ong

from arxiv, Proceedings of the 38th International Conference on Machine Learning, 2021

We consider a variant of the best arm identification task in stochastic multi-armed bandits. Motivated by risk-averse decision-making problems, our goal is to identify a set of $m$ arms with the highest $\tau$-quantile values within a fixed budget. We prove asymmetric two-sided concentration inequalities for order statistics and quantiles of random variables that have non-decreasing hazard rate, which may be of independent interest. With these inequalities, we analyse a quantile version of Successive Accepts and Rejects (Q-SAR). We derive an upper bound for the probability of arm misidentification, the first justification of a quantile based algorithm for fixed budget multiple best arms identification. We show illustrative experiments for best arm identification.

翻译：我们考虑的是随机多武装匪徒中最佳武器识别任务的变体。我们受风险偏向决策问题的驱使,我们的目标是在固定预算内确定一套价值最高为$tau$-数量价值的美元武器。我们证明,对于有非下降危险率的随机变数的秩序统计和数种具有非下降危险率的随机变数来说,存在着不对称的双向集中不平等,这或许是独立的兴趣。我们分析了这些不平等,我们分析了“成功接受者和拒绝者”(Q-SAR)的量化版本。我们得出了一个以武器识别误差概率的上限,这是基于量化算法确定固定预算的多个最佳武器识别的第一个理由。我们展示了最佳武器识别的示范性实验。

0

相关内容

赌博机/老虎机

赌博机/老虎机

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

专知会员服务

135+阅读 · 2021年6月16日

【AAAI2021最佳论文】多智能体学习中的探索 - 利用

【AAAI2021最佳论文】多智能体学习中的探索 - 利用

专知会员服务

36+阅读 · 2021年2月6日

【斯坦福新书】决策算法，464页pdf，Algorithms for Decision Making

【斯坦福新书】决策算法，464页pdf，Algorithms for Decision Making

专知会员服务

124+阅读 · 2020年12月7日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

专知会员服务

13+阅读 · 2020年6月8日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知会员服务

97+阅读 · 2020年5月31日

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

专知会员服务

21+阅读 · 2019年12月2日

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

专知会员服务

85+阅读 · 2019年10月29日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

LibRec 精选：AutoML for Contextual Bandits

LibRec 精选：AutoML for Contextual Bandits

LibRec智能推荐

7+阅读 · 2019年9月19日

动物脑的好奇心和强化学习的好奇心

动物脑的好奇心和强化学习的好奇心

CreateAMind

10+阅读 · 2019年1月26日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【计算机类】期刊专刊/国际会议截稿信息6条

【计算机类】期刊专刊/国际会议截稿信息6条

Call4Papers

3+阅读 · 2017年10月13日

【学习】Hierarchical Softmax

【学习】Hierarchical Softmax

机器学习研究会

4+阅读 · 2017年8月6日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

Probability bound analysis: A novel approach for quantifying parameter uncertainty in decision-analytic modeling and cost-effectiveness analysis

Probability bound analysis: A novel approach for quantifying parameter uncertainty in decision-analytic modeling and cost-effectiveness analysis

Arxiv

1+阅读 · 2021年8月11日

Optimal learning of quantum Hamiltonians from high-temperature Gibbs states

Arxiv

0+阅读 · 2021年8月10日

Bandits with Partially Observable Confounded Data

Bandits with Partially Observable Confounded Data

Arxiv

0+阅读 · 2021年8月10日

Combinatorial Bandits under Strategic Manipulations

Combinatorial Bandits under Strategic Manipulations

Arxiv

0+阅读 · 2021年8月9日

Targeted Principal Components Regression

Arxiv

0+阅读 · 2021年8月9日

Faster Rates of Differentially Private Stochastic Convex Optimization

Arxiv

0+阅读 · 2021年8月7日

Quantum Quantile Mechanics: Solving Stochastic Differential Equations for Generating Time-Series

Quantum Quantile Mechanics: Solving Stochastic Differential Equations for Generating Time-Series

Arxiv

0+阅读 · 2021年8月6日

Analysis of nonconforming IFE methods and a new scheme for elliptic interface problems

Analysis of nonconforming IFE methods and a new scheme for elliptic interface problems

Arxiv

0+阅读 · 2021年8月6日

Extendibility limits the performance of quantum processors

Arxiv

0+阅读 · 2021年8月6日

Variance Reduction Methods for Sublinear Reinforcement Learning

Arxiv

4+阅读 · 2018年4月25日

VIP会员

文章信息

相关主题

赌博机/老虎机

相关VIP内容

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

专知会员服务

135+阅读 · 2021年6月16日

【AAAI2021最佳论文】多智能体学习中的探索 - 利用

【AAAI2021最佳论文】多智能体学习中的探索 - 利用

专知会员服务

36+阅读 · 2021年2月6日

【斯坦福新书】决策算法，464页pdf，Algorithms for Decision Making

【斯坦福新书】决策算法，464页pdf，Algorithms for Decision Making

专知会员服务

124+阅读 · 2020年12月7日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

专知会员服务

13+阅读 · 2020年6月8日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知会员服务

97+阅读 · 2020年5月31日

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

专知会员服务

21+阅读 · 2019年12月2日

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

专知会员服务

85+阅读 · 2019年10月29日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《使用量化测量将传感器节点关联到融合中心的算法设计》171页

军事前沿模型

提升军事训练能力的最佳人工智能模拟工具

《社交媒体信息作战》最新48页技术报告

相关资讯

LibRec 精选：AutoML for Contextual Bandits

LibRec 精选：AutoML for Contextual Bandits

LibRec智能推荐

7+阅读 · 2019年9月19日

动物脑的好奇心和强化学习的好奇心

动物脑的好奇心和强化学习的好奇心

CreateAMind

10+阅读 · 2019年1月26日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【计算机类】期刊专刊/国际会议截稿信息6条

【计算机类】期刊专刊/国际会议截稿信息6条

Call4Papers

3+阅读 · 2017年10月13日

【学习】Hierarchical Softmax

【学习】Hierarchical Softmax

机器学习研究会

4+阅读 · 2017年8月6日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Probability bound analysis: A novel approach for quantifying parameter uncertainty in decision-analytic modeling and cost-effectiveness analysis

Probability bound analysis: A novel approach for quantifying parameter uncertainty in decision-analytic modeling and cost-effectiveness analysis

Arxiv

1+阅读 · 2021年8月11日

Optimal learning of quantum Hamiltonians from high-temperature Gibbs states

Arxiv

0+阅读 · 2021年8月10日

Bandits with Partially Observable Confounded Data

Bandits with Partially Observable Confounded Data

Arxiv

0+阅读 · 2021年8月10日

Combinatorial Bandits under Strategic Manipulations

Combinatorial Bandits under Strategic Manipulations

Arxiv

0+阅读 · 2021年8月9日

Targeted Principal Components Regression

Arxiv

0+阅读 · 2021年8月9日

Faster Rates of Differentially Private Stochastic Convex Optimization

Arxiv

0+阅读 · 2021年8月7日

Quantum Quantile Mechanics: Solving Stochastic Differential Equations for Generating Time-Series

Quantum Quantile Mechanics: Solving Stochastic Differential Equations for Generating Time-Series

Arxiv

0+阅读 · 2021年8月6日

Analysis of nonconforming IFE methods and a new scheme for elliptic interface problems

Analysis of nonconforming IFE methods and a new scheme for elliptic interface problems

Arxiv

0+阅读 · 2021年8月6日

Extendibility limits the performance of quantum processors

Arxiv

0+阅读 · 2021年8月6日

Variance Reduction Methods for Sublinear Reinforcement Learning

Arxiv

4+阅读 · 2018年4月25日

微信扫码咨询专知VIP会员