【AAAI2021最佳论文】多智能体学习中的探索 - 利用 - 专知

会员服务 ·

0

【AAAI2021最佳论文】多智能体学习中的探索 - 利用

2021 年 2 月 6 日 专知

探索 - 利用（exploration-exploitation）是多智能体学习（MAL）中强大而实用的工具，但其效果远未得到理解。为了探索这个目标，这篇论文研究了 Q 学习的平滑模拟。首先，研究者认为其学习模型是学习「探索 - 利用」的最佳模型，并提供了强大的理论依据。具体而言，该研究证明了平滑的 Q 学习在任意博弈中对于成本模型有 bounded regret，该成本模型能够明确捕获博弈和探索成本之间的平衡，并且始终收敛至量化响应均衡（QRE）集，即有限理性下博弈的标准解概念，适用于具有异构学习智能体的加权潜在博弈。

该研究的主要任务转向衡量「探索」对集体系统性能的影响。研究者在低维 MAL 系统中表征 QRE 表面的几何形状，并将该研究的发现与突变（分歧）理论联系起来。具体而言，随着探索超参数随着时间的演化，系统会经历相变。在此过程中，给定探索参数的无穷小变化，均衡的数量和稳定性可能会发生剧烈变化。在此基础上，该研究提供了一种形式理论处理方法，即如何调整探索参数能够可验证地产生均衡选择，同时对系统性能带来积极和消极（以及可能无限）的影响。

https://www.zhuanzhi.ai/paper/58dfd45f8af99a926fb48199e1447e9a

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“EMAL” 可以获取《【AAAI2021最佳论文】多智能体学习中的探索 - 利用》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

3

相关内容

多智能体学习

多智能体学习

【CVPR2021】背景鲁棒的自监督视频表征学习

【CVPR2021】背景鲁棒的自监督视频表征学习

专知会员服务

17+阅读 · 2021年3月13日

【AAAI2021】消费违约场景的因果学习

专知会员服务

35+阅读 · 2021年2月9日

【AAAI2021】时间关系建模与自监督的动作分割

【AAAI2021】时间关系建模与自监督的动作分割

专知会员服务

37+阅读 · 2021年1月24日

【AAAI2021】数据增强图神经网络

专知会员服务

108+阅读 · 2020年12月21日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【AAAI2021】近似梯度下降的学习图神经网络

专知会员服务

20+阅读 · 2020年12月9日

【AAAI2021】通过离散优化的可解释序列分类

【AAAI2021】通过离散优化的可解释序列分类

专知会员服务

18+阅读 · 2020年12月5日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

【NeurIPS2020】控制原语的持续学习:通过重置发现技能

专知会员服务

10+阅读 · 2020年11月12日

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

专知会员服务

19+阅读 · 2020年6月3日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【AAAI2021】近似梯度下降的学习图神经网络

【AAAI2021】近似梯度下降的学习图神经网络

专知

8+阅读 · 2020年12月9日

【快讯】AAAI2021结果出炉，1692篇上榜，你的paper中了吗？

【快讯】AAAI2021结果出炉，1692篇上榜，你的paper中了吗？

专知

14+阅读 · 2020年12月2日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

【ICML2020-Tutorial】无标签表示学习，222页ppt，DeepMind

【ICML2020-Tutorial】无标签表示学习，222页ppt，DeepMind

专知

30+阅读 · 2020年7月14日

【快讯】ECCV 2020论文出炉，1361篇上榜，你的paper中了吗？

【快讯】ECCV 2020论文出炉，1361篇上榜，你的paper中了吗？

专知

9+阅读 · 2020年7月3日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

【快讯】KDD2020论文出炉，216篇上榜，你的paper中了吗？

【快讯】KDD2020论文出炉，216篇上榜，你的paper中了吗？

专知

11+阅读 · 2020年5月16日

如何读一个成功的机器学习博士？这份ICLR2020指南为你指点迷津

如何读一个成功的机器学习博士？这份ICLR2020指南为你指点迷津

专知

5+阅读 · 2020年5月2日

【伯克利大学ICML2018强化学习80页教程】【附下载】

【伯克利大学ICML2018强化学习80页教程】【附下载】

专知

10+阅读 · 2018年7月21日

Automated Storytelling via Causal, Commonsense Plot Ordering

Arxiv

8+阅读 · 2020年12月30日

Interference and Generalization in Temporal Difference Learning

Arxiv

8+阅读 · 2020年3月13日

Inverse Visual Question Answering with Multi-Level Attentions

Inverse Visual Question Answering with Multi-Level Attentions

Arxiv

4+阅读 · 2019年9月17日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

Neural Ordinary Differential Equations

Arxiv

6+阅读 · 2018年10月3日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

MARS: Memory Attention-Aware Recommender System

Arxiv

6+阅读 · 2018年5月18日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

PEORL: Integrating Symbolic Planning and Hierarchical Reinforcement Learning for Robust Decision-Making

Arxiv

6+阅读 · 2018年4月20日

Camera Style Adaptation for Person Re-identification

Arxiv

3+阅读 · 2018年4月10日

VIP会员

相关主题

多智能体学习

相关VIP内容

【CVPR2021】背景鲁棒的自监督视频表征学习

【CVPR2021】背景鲁棒的自监督视频表征学习

专知会员服务

17+阅读 · 2021年3月13日

【AAAI2021】消费违约场景的因果学习

专知会员服务

35+阅读 · 2021年2月9日

【AAAI2021】时间关系建模与自监督的动作分割

【AAAI2021】时间关系建模与自监督的动作分割

专知会员服务

37+阅读 · 2021年1月24日

【AAAI2021】数据增强图神经网络

专知会员服务

108+阅读 · 2020年12月21日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【AAAI2021】近似梯度下降的学习图神经网络

专知会员服务

20+阅读 · 2020年12月9日

【AAAI2021】通过离散优化的可解释序列分类

【AAAI2021】通过离散优化的可解释序列分类

专知会员服务

18+阅读 · 2020年12月5日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

【NeurIPS2020】控制原语的持续学习:通过重置发现技能

专知会员服务

10+阅读 · 2020年11月12日

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

专知会员服务

19+阅读 · 2020年6月3日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【AAAI2021】近似梯度下降的学习图神经网络

【AAAI2021】近似梯度下降的学习图神经网络

专知

8+阅读 · 2020年12月9日

【快讯】AAAI2021结果出炉，1692篇上榜，你的paper中了吗？

【快讯】AAAI2021结果出炉，1692篇上榜，你的paper中了吗？

专知

14+阅读 · 2020年12月2日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

【ICML2020-Tutorial】无标签表示学习，222页ppt，DeepMind

【ICML2020-Tutorial】无标签表示学习，222页ppt，DeepMind

专知

30+阅读 · 2020年7月14日

【快讯】ECCV 2020论文出炉，1361篇上榜，你的paper中了吗？

【快讯】ECCV 2020论文出炉，1361篇上榜，你的paper中了吗？

专知

9+阅读 · 2020年7月3日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

【快讯】KDD2020论文出炉，216篇上榜，你的paper中了吗？

【快讯】KDD2020论文出炉，216篇上榜，你的paper中了吗？

专知

11+阅读 · 2020年5月16日

如何读一个成功的机器学习博士？这份ICLR2020指南为你指点迷津

如何读一个成功的机器学习博士？这份ICLR2020指南为你指点迷津

专知

5+阅读 · 2020年5月2日

【伯克利大学ICML2018强化学习80页教程】【附下载】

【伯克利大学ICML2018强化学习80页教程】【附下载】

专知

10+阅读 · 2018年7月21日

相关论文

Automated Storytelling via Causal, Commonsense Plot Ordering

Arxiv

8+阅读 · 2020年12月30日

Interference and Generalization in Temporal Difference Learning

Arxiv

8+阅读 · 2020年3月13日

Inverse Visual Question Answering with Multi-Level Attentions

Inverse Visual Question Answering with Multi-Level Attentions

Arxiv

4+阅读 · 2019年9月17日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

Neural Ordinary Differential Equations

Arxiv

6+阅读 · 2018年10月3日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

MARS: Memory Attention-Aware Recommender System

Arxiv

6+阅读 · 2018年5月18日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

PEORL: Integrating Symbolic Planning and Hierarchical Reinforcement Learning for Robust Decision-Making

Arxiv

6+阅读 · 2018年4月20日

Camera Style Adaptation for Person Re-identification

Arxiv

3+阅读 · 2018年4月10日

大家都在搜

大型语言模型

软件无线电

国防科技创新

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员