近年来,在控制和强化学习中出现了新的方法,这些方法结合了遗憾(regret )最小化和在线凸优化技术。由此产生的理论为控制和强化学习中一些长期存在的问题提供了可证明的保证:对数后悔和快速速率,没有系统知识的端到端LQG-LQR,带有对抗噪声的卡尔曼滤波,具有可证明的有限时间保证的黑盒控制,系统识别的紧下界,等等。

这些结果的主要创新之处在于在线控制模型将随机扰动替换为对抗性扰动,并以后悔最小为最优控制目标。我们将描述设置,以及基于梯度和依赖于新的凸松弛的新方法。

https://icml.cc/media/icml-2021/Slides/10838_XuEBWTU.pdf

成为VIP会员查看完整内容
20

相关内容

专知会员服务
79+阅读 · 2021年7月23日
专知会员服务
25+阅读 · 2021年6月15日
【PKDD2020教程】机器学习不确定性,附88页ppt与视频
专知会员服务
95+阅读 · 2020年10月18日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
129+阅读 · 2020年7月20日
少标签数据学习,54页ppt
专知会员服务
205+阅读 · 2020年5月22日
Arxiv
0+阅读 · 2021年9月24日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关主题
相关VIP内容
专知会员服务
79+阅读 · 2021年7月23日
专知会员服务
25+阅读 · 2021年6月15日
【PKDD2020教程】机器学习不确定性,附88页ppt与视频
专知会员服务
95+阅读 · 2020年10月18日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
129+阅读 · 2020年7月20日
少标签数据学习,54页ppt
专知会员服务
205+阅读 · 2020年5月22日
相关论文
Arxiv
0+阅读 · 2021年9月24日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
11+阅读 · 2018年5月13日
微信扫码咨询专知VIP会员