【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习 - 专知

会员服务 ·

0

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

2022 年 11 月 10 日 专知

我们研究了怎样的数据集假设可以解决离线的二人零和马尔可夫博弈。与离线单智能体马尔可夫决策过程形成鲜明对比的是，我们证明了在离线二人零和马尔可夫博弈中，单一策略集中假设对于学习纳什均衡(NE)策略是不够的。另一方面，我们提出了一个新的假设——单边集中，并设计了一个在此假设下被证明是有效的悲观型算法。此外，我们还证明单边集中假设对于学习NE策略是必要的。此外，我们的算法可以在不做任何修改的情况下，在具有均匀浓度假设的数据集和基于回合的马尔可夫博弈两种广泛研究的设置下，获得极大极小样本复杂度。我们的工作为理解离线多主体强化学习迈出了重要的第一步。

https://simonsfoundation.s3.amazonaws.com/share/mps/symposia/2022/NDiTML/NDiTML2022-%20Du.pdf

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“SORL” 就可以获取《【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

1

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知会员服务

105+阅读 · 2022年9月21日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

专知会员服务

61+阅读 · 2021年11月22日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

爱丁堡大学 | 量化算法交易中的深度强化学习：综述论文

专知会员服务

39+阅读 · 2021年7月7日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

专知

1+阅读 · 2022年12月1日

《多智能体交互的深度强化学习》爱丁堡大学10余为作者2022最新论文

《多智能体交互的深度强化学习》爱丁堡大学10余为作者2022最新论文

专知

5+阅读 · 2022年11月24日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知

6+阅读 · 2022年10月12日

【NeurIPS2022】分布式自适应元强化学习

【NeurIPS2022】分布式自适应元强化学习

专知

3+阅读 · 2022年10月8日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

专知

2+阅读 · 2022年9月23日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

【CMU硬核书】现代自适应控制与强化学习，166页pdf

【CMU硬核书】现代自适应控制与强化学习，166页pdf

专知

4+阅读 · 2022年8月30日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知

0+阅读 · 2022年8月13日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

集成专家意见的在线投资组合策略设计及竞争性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

零辅助数据MIMO雷达自适应检测问题研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于供应链视角的环境治理：策略选择与协同机制

国家自然科学基金

0+阅读 · 2014年12月31日

提高复杂环境下地面慢速目标检测性能的MIMO-STAP理论研究

国家自然科学基金

0+阅读 · 2013年12月31日

考虑零售商投资行为的动态定价策略研究

国家自然科学基金

0+阅读 · 2013年12月31日

耦合反应扩散神经网络的同步分析与控制

国家自然科学基金

0+阅读 · 2013年12月31日

移动机器人基于三维激光测距的室内场景认知与物体识别

国家自然科学基金

0+阅读 · 2012年12月31日

Livin-Fibronectin分子与生物力学信号偶联介导前列腺癌“抵抗-逃离”转移机制的研究

国家自然科学基金

0+阅读 · 2012年12月31日

DUCG动态立体因果图的构建和推理方法及其实验验证研究

国家自然科学基金

0+阅读 · 2012年12月31日

非期望效用与纳什均衡- - 基于行为决策理论视角

国家自然科学基金

4+阅读 · 2012年12月31日

Accelerating greedy algorithm for model reduction of complex systems by multi-fidelity error estimation

Accelerating greedy algorithm for model reduction of complex systems by multi-fidelity error estimation

Arxiv

0+阅读 · 2023年1月13日

Multilingual Detection of Check-Worthy Claims using World Languages and Adapter Fusion

Arxiv

0+阅读 · 2023年1月13日

A Survey on Uncertainty Reasoning and Quantification for Decision Making: Belief Theory Meets Deep Learning

Arxiv

30+阅读 · 2022年6月12日

Deep Long-Tailed Learning: A Survey

Arxiv

13+阅读 · 2021年10月9日

A Survey on Deep Domain Adaptation and Tiny Object Detection Challenges, Techniques and Datasets

Arxiv

17+阅读 · 2021年7月16日

A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions

Arxiv

21+阅读 · 2021年5月25日

Financial Time Series Representation Learning

Financial Time Series Representation Learning

Arxiv

10+阅读 · 2020年3月27日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

AliMe KBQA: Question Answering over Structured Knowledge for E-commerce Customer Service

AliMe KBQA: Question Answering over Structured Knowledge for E-commerce Customer Service

Arxiv

23+阅读 · 2019年12月12日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

VIP会员

相关主题

多智能体强化学习

华盛顿大学（University of Washington）

相关VIP内容

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知会员服务

105+阅读 · 2022年9月21日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

专知会员服务

61+阅读 · 2021年11月22日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

爱丁堡大学 | 量化算法交易中的深度强化学习：综述论文

专知会员服务

39+阅读 · 2021年7月7日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】面向可扩展深度神经网络的预测编码：理论与实践

如何快速获取数百万架无人机？

EMNLP 2025 | RTQA：递归思想求解复杂的时间知识图谱问答

组合式零样本学习综述

相关资讯

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

专知

1+阅读 · 2022年12月1日

《多智能体交互的深度强化学习》爱丁堡大学10余为作者2022最新论文

《多智能体交互的深度强化学习》爱丁堡大学10余为作者2022最新论文

专知

5+阅读 · 2022年11月24日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知

6+阅读 · 2022年10月12日

【NeurIPS2022】分布式自适应元强化学习

【NeurIPS2022】分布式自适应元强化学习

专知

3+阅读 · 2022年10月8日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

专知

2+阅读 · 2022年9月23日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

【CMU硬核书】现代自适应控制与强化学习，166页pdf

【CMU硬核书】现代自适应控制与强化学习，166页pdf

专知

4+阅读 · 2022年8月30日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知

0+阅读 · 2022年8月13日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

相关基金

集成专家意见的在线投资组合策略设计及竞争性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

零辅助数据MIMO雷达自适应检测问题研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于供应链视角的环境治理：策略选择与协同机制

国家自然科学基金

0+阅读 · 2014年12月31日

提高复杂环境下地面慢速目标检测性能的MIMO-STAP理论研究

国家自然科学基金

0+阅读 · 2013年12月31日

考虑零售商投资行为的动态定价策略研究

国家自然科学基金

0+阅读 · 2013年12月31日

耦合反应扩散神经网络的同步分析与控制

国家自然科学基金

0+阅读 · 2013年12月31日

移动机器人基于三维激光测距的室内场景认知与物体识别

国家自然科学基金

0+阅读 · 2012年12月31日

Livin-Fibronectin分子与生物力学信号偶联介导前列腺癌“抵抗-逃离”转移机制的研究

国家自然科学基金

0+阅读 · 2012年12月31日

DUCG动态立体因果图的构建和推理方法及其实验验证研究

国家自然科学基金

0+阅读 · 2012年12月31日

非期望效用与纳什均衡- - 基于行为决策理论视角

国家自然科学基金

4+阅读 · 2012年12月31日

相关论文

Accelerating greedy algorithm for model reduction of complex systems by multi-fidelity error estimation

Accelerating greedy algorithm for model reduction of complex systems by multi-fidelity error estimation

Arxiv

0+阅读 · 2023年1月13日

Multilingual Detection of Check-Worthy Claims using World Languages and Adapter Fusion

Arxiv

0+阅读 · 2023年1月13日

A Survey on Uncertainty Reasoning and Quantification for Decision Making: Belief Theory Meets Deep Learning

Arxiv

30+阅读 · 2022年6月12日

Deep Long-Tailed Learning: A Survey

Arxiv

13+阅读 · 2021年10月9日

A Survey on Deep Domain Adaptation and Tiny Object Detection Challenges, Techniques and Datasets

Arxiv

17+阅读 · 2021年7月16日

A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions

Arxiv

21+阅读 · 2021年5月25日

Financial Time Series Representation Learning

Financial Time Series Representation Learning

Arxiv

10+阅读 · 2020年3月27日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

AliMe KBQA: Question Answering over Structured Knowledge for E-commerce Customer Service

AliMe KBQA: Question Answering over Structured Knowledge for E-commerce Customer Service

Arxiv

23+阅读 · 2019年12月12日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

大家都在搜

朱克爱德华兹家族

大型语言模型

国防科技创新

蓝牙安全攻防

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

微信扫码咨询专知VIP会员