This paper studies an instance of the multi-armed bandit (MAB) problem, specifically where several causal MABs operate chronologically in the same dynamical system. Practically the reward distribution of each bandit is governed by the same non-trivial dependence structure, which is a dynamic causal model. Dynamic because we allow for each causal MAB to depend on the preceding MAB and in doing so are able to transfer information between agents. Our contribution, the Chronological Causal Bandit (CCB), is useful in discrete decision-making settings where the causal effects are changing across time and can be informed by earlier interventions in the same system. In this paper, we present some early findings of the CCB as demonstrated on a toy problem.


翻译:本文研究了多武装土匪(MAB)问题的一个实例,具体地说,在同一个动态系统中,几个因果土匪(MAB)按时间顺序运作。实际上,每个土匪的奖励分配都受同样的非三重依赖结构的制约,这是一个动态因果模式。动态是因为我们允许每个因果土匪(MAB)依赖先前的MAB,并在这样做时能够在代理商之间传递信息。我们的贡献,即Chronlogic Causal Bandit(CCCB),在不同的决策环境中很有用,因为在这种环境中,因果效应会随着时间的变化而变化,并且可以通过同一系统中的早期干预来了解。我们在本文件中介绍了CB的一些早期发现,如关于一个小问题所证明的那样。

0
下载
关闭预览

相关内容

数据资产管理实践白皮书(5.0版)
专知会员服务
49+阅读 · 2022年1月11日
专知会员服务
91+阅读 · 2021年8月28日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
【DeepMind】强化学习教程,83页ppt
专知会员服务
149+阅读 · 2020年8月7日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
70+阅读 · 2020年8月2日
因果图,Causal Graphs,52页ppt
专知会员服务
240+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
177+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
169+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2022年2月4日
Arxiv
0+阅读 · 2022年2月3日
Arxiv
10+阅读 · 2021年11月3日
Arxiv
22+阅读 · 2018年8月3日
VIP会员
相关VIP内容
数据资产管理实践白皮书(5.0版)
专知会员服务
49+阅读 · 2022年1月11日
专知会员服务
91+阅读 · 2021年8月28日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
【DeepMind】强化学习教程,83页ppt
专知会员服务
149+阅读 · 2020年8月7日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
70+阅读 · 2020年8月2日
因果图,Causal Graphs,52页ppt
专知会员服务
240+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
177+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
169+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员