【AAAI2021】Lipschitz终生强化学习

2020 年 12 月 14 日 专知


我们研究了智能体在面临一系列强化学习任务时的知识转移问题。在马尔可夫决策过程之间引入了一种新的度量方法,证明了封闭式多目标决策具有封闭式最优值函数。形式上,最优值函数是关于任务空间的Lipschitz连续函数。根据这些理论结果,我们提出了一种终身RL的值转移方法,并利用该方法建立了一种收敛速度较好的PAC-MDP算法。我们在终身RL实验中说明了该方法的好处。


https://www.zhuanzhi.ai/paper/031fb6db56a53d5fc61281f327beddd5


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“LLRL” 就可以获取【AAAI2021】Lipschitz终生强化学习》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
4

相关内容

【CVPR2021】面向视频动作分割的高效网络结构搜索
专知会员服务
13+阅读 · 2021年3月14日
「元学习」最新AAAI2021-Tutorial,附视频与240页ppt
专知会员服务
114+阅读 · 2021年2月7日
【AAAI2021最佳论文】多智能体学习中的探索 - 利用
专知会员服务
35+阅读 · 2021年2月6日
【Yoshua Bengio】因果表示学习,附视频与72页ppt
专知会员服务
75+阅读 · 2021年1月7日
【AAAI2021】 层次图胶囊网络
专知会员服务
80+阅读 · 2020年12月18日
专知会员服务
28+阅读 · 2020年12月14日
【AAAI2021】小样本学习多标签意图检测
专知会员服务
54+阅读 · 2020年12月8日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
123+阅读 · 2020年7月20日
【ICML 2020 】小样本学习即领域迁移
专知
5+阅读 · 2020年6月26日
KDD2020接受论文列表!338篇论文都在这了
专知
20+阅读 · 2020年6月26日
经典书《斯坦福大学-多智能体系统》532页pdf
Arxiv
8+阅读 · 2020年8月30日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
4+阅读 · 2020年1月17日
Arxiv
8+阅读 · 2019年2月15日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Arxiv
3+阅读 · 2018年6月24日
VIP会员
相关VIP内容
【CVPR2021】面向视频动作分割的高效网络结构搜索
专知会员服务
13+阅读 · 2021年3月14日
「元学习」最新AAAI2021-Tutorial,附视频与240页ppt
专知会员服务
114+阅读 · 2021年2月7日
【AAAI2021最佳论文】多智能体学习中的探索 - 利用
专知会员服务
35+阅读 · 2021年2月6日
【Yoshua Bengio】因果表示学习,附视频与72页ppt
专知会员服务
75+阅读 · 2021年1月7日
【AAAI2021】 层次图胶囊网络
专知会员服务
80+阅读 · 2020年12月18日
专知会员服务
28+阅读 · 2020年12月14日
【AAAI2021】小样本学习多标签意图检测
专知会员服务
54+阅读 · 2020年12月8日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
123+阅读 · 2020年7月20日
Top
微信扫码咨询专知VIP会员