【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化,Temporal Difference Learning

2020 年 3 月 16 日 专知


我们研究了时间差分(TD)学习中泛化与干涉之间的关系。干涉被定义为两个不同梯度的内积,表示它们的对齐。这个量从对神经网络、参数共享和动态学习的各种观察中产生。我们发现,TD很容易导致低干扰、欠泛化参数,而在监督学习中,这种效应似乎是相反的。我们假设,原因可以追溯到相互作用之间的动态干扰和bootstrapping。这是由几个观察:支持经验之间的负面关系泛化间隙和干涉TD,引导对干扰的负面影响和当地的一致性目标,和信息的传播速度之间的对比在TD(0)和TD(λ)和回归蒙特卡罗政策评估等任务。我们希望这些新的发现能够指导未来更好的引导方法的发现。


https://www.zhuanzhi.ai/paper/2f0b380ba75a18c409cb583f87751b59



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“IGT” 就可以获取【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化,Temporal Difference Learning》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
78+阅读 · 2020年6月11日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
46+阅读 · 2020年1月23日
专知会员服务
53+阅读 · 2019年12月22日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
Learning by Abstraction: The Neural State Machine
Arxiv
6+阅读 · 2019年7月11日
Arxiv
3+阅读 · 2018年10月11日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员