【AAAI2021最佳论文】多智能体学习中的探索 - 利用

2021 年 2 月 6 日 专知


探索 - 利用(exploration-exploitation)是多智能体学习(MAL)中强大而实用的工具,但其效果远未得到理解。为了探索这个目标,这篇论文研究了 Q 学习的平滑模拟。首先,研究者认为其学习模型是学习「探索 - 利用」的最佳模型,并提供了强大的理论依据。具体而言,该研究证明了平滑的 Q 学习在任意博弈中对于成本模型有 bounded regret,该成本模型能够明确捕获博弈和探索成本之间的平衡,并且始终收敛至量化响应均衡(QRE)集,即有限理性下博弈的标准解概念,适用于具有异构学习智能体的加权潜在博弈。

该研究的主要任务转向衡量「探索」对集体系统性能的影响。研究者在低维 MAL 系统中表征 QRE 表面的几何形状,并将该研究的发现与突变(分歧)理论联系起来。具体而言,随着探索超参数随着时间的演化,系统会经历相变。在此过程中,给定探索参数的无穷小变化,均衡的数量和稳定性可能会发生剧烈变化。在此基础上,该研究提供了一种形式理论处理方法,即如何调整探索参数能够可验证地产生均衡选择,同时对系统性能带来积极和消极(以及可能无限)的影响。

https://www.zhuanzhi.ai/paper/58dfd45f8af99a926fb48199e1447e9a



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“EMAL” 可以获取《【AAAI2021最佳论文】多智能体学习中的探索 - 利用》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
3

相关内容

【CVPR2021】背景鲁棒的自监督视频表征学习
专知会员服务
16+阅读 · 2021年3月13日
专知会员服务
34+阅读 · 2021年2月9日
【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
36+阅读 · 2021年1月24日
专知会员服务
107+阅读 · 2020年12月21日
【AAAI2021】 层次图胶囊网络
专知会员服务
80+阅读 · 2020年12月18日
专知会员服务
19+阅读 · 2020年12月9日
【AAAI2021】通过离散优化的可解释序列分类
专知会员服务
17+阅读 · 2020年12月5日
专知会员服务
16+阅读 · 2020年12月4日
专知会员服务
9+阅读 · 2020年11月12日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
Arxiv
6+阅读 · 2018年10月3日
Arxiv
6+阅读 · 2018年5月18日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
3+阅读 · 2018年4月10日
VIP会员
相关VIP内容
【CVPR2021】背景鲁棒的自监督视频表征学习
专知会员服务
16+阅读 · 2021年3月13日
专知会员服务
34+阅读 · 2021年2月9日
【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
36+阅读 · 2021年1月24日
专知会员服务
107+阅读 · 2020年12月21日
【AAAI2021】 层次图胶囊网络
专知会员服务
80+阅读 · 2020年12月18日
专知会员服务
19+阅读 · 2020年12月9日
【AAAI2021】通过离散优化的可解释序列分类
专知会员服务
17+阅读 · 2020年12月5日
专知会员服务
16+阅读 · 2020年12月4日
专知会员服务
9+阅读 · 2020年11月12日
Top
微信扫码咨询专知VIP会员