【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning - 专知VIP

会员服务 ·

1

差分学习 · 推理 · 模型泛化 · 泛化 ·

2020 年 3 月 16 日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

我们研究了时间差分（TD）学习中泛化与干涉之间的关系。干涉被定义为两个不同梯度的内积，表示它们的对齐。这个量从对神经网络、参数共享和动态学习的各种观察中产生。我们发现，TD很容易导致低干扰、欠泛化参数，而在监督学习中，这种效应似乎是相反的。我们假设，原因可以追溯到相互作用之间的动态干扰和bootstrapping。这是由几个观察:支持经验之间的负面关系泛化间隙和干涉TD,引导对干扰的负面影响和当地的一致性目标,和信息的传播速度之间的对比在TD(0)和TD(λ)和回归蒙特卡罗政策评估等任务。我们希望这些新的发现能够指导未来更好的引导方法的发现。

成为VIP会员查看完整内容

26

相关内容

差分学习

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知会员服务

80+阅读 · 2020年6月11日

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

专知会员服务

21+阅读 · 2020年4月30日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读

专知会员服务

54+阅读 · 2019年12月22日

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

专知会员服务

175+阅读 · 2019年12月7日

【图灵奖Yoshua Bengio】ICLR2020论文：一个元转移的目标学习解开因果机制（A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms）

【图灵奖Yoshua Bengio】ICLR2020论文：一个元转移的目标学习解开因果机制（A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms）

专知会员服务

55+阅读 · 2019年9月26日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

图灵奖Yoshua Bengio ICLR 2020再出新作：通过元学习发掘因果机制

图灵奖Yoshua Bengio ICLR 2020再出新作：通过元学习发掘因果机制

学术头条

15+阅读 · 2019年12月25日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

论文浅尝 | 时序与因果关系联合推理

论文浅尝 | 时序与因果关系联合推理

开放知识图谱

35+阅读 · 2019年6月23日

推特800赞，DeepMind强化学习综述：她可以很快，但快从慢中来

推特800赞，DeepMind强化学习综述：她可以很快，但快从慢中来

量子位

6+阅读 · 2019年5月3日

你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

新智元

9+阅读 · 2019年3月20日

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

AI科技评论

7+阅读 · 2019年3月1日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

一文学习基于蒙特卡罗的强化学习方法（送书）

一文学习基于蒙特卡罗的强化学习方法（送书）

人工智能头条

7+阅读 · 2018年3月13日

学界 | DeepMind 16 篇 NIPS 2017 论文，全部信息都在这里了

学界 | DeepMind 16 篇 NIPS 2017 论文，全部信息都在这里了

AI科技评论

4+阅读 · 2017年12月2日

Interference and Generalization in Temporal Difference Learning

Arxiv

8+阅读 · 2020年3月13日

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Arxiv

12+阅读 · 2019年9月26日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Efficient Eligibility Traces for Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年10月23日

Learning under Misspecified Objective Spaces

Arxiv

3+阅读 · 2018年10月11日

Hierarchical Deep Multiagent Reinforcement Learning

Hierarchical Deep Multiagent Reinforcement Learning

Arxiv

8+阅读 · 2018年9月25日

Deep Reinforcement Learning in Ice Hockey for Context-Aware Player Evaluation

Deep Reinforcement Learning in Ice Hockey for Context-Aware Player Evaluation

Arxiv

5+阅读 · 2018年7月11日

Video Person Re-identification by Temporal Residual Learning

Arxiv

5+阅读 · 2018年2月22日

Spatial-Temporal Memory Networks for Video Object Detection

Arxiv

4+阅读 · 2017年12月18日

VIP会员

相关主题

相关VIP内容

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知会员服务

80+阅读 · 2020年6月11日

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

专知会员服务

21+阅读 · 2020年4月30日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读

专知会员服务

54+阅读 · 2019年12月22日

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

专知会员服务

175+阅读 · 2019年12月7日

【图灵奖Yoshua Bengio】ICLR2020论文：一个元转移的目标学习解开因果机制（A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms）

【图灵奖Yoshua Bengio】ICLR2020论文：一个元转移的目标学习解开因果机制（A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms）

专知会员服务

55+阅读 · 2019年9月26日

热门VIP内容

开通专知VIP会员享更多权益服务

数据驱动死亡：以色列AI战争机器如何锁定目标

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

ICML 2025 | BiAssemble: 双臂机器人几何拼合问题的协同可供性学习

ICML 2025杰出论文出炉：8篇获奖，南大研究者榜上有名

相关资讯

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

图灵奖Yoshua Bengio ICLR 2020再出新作：通过元学习发掘因果机制

图灵奖Yoshua Bengio ICLR 2020再出新作：通过元学习发掘因果机制

学术头条

15+阅读 · 2019年12月25日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

论文浅尝 | 时序与因果关系联合推理

论文浅尝 | 时序与因果关系联合推理

开放知识图谱

35+阅读 · 2019年6月23日

推特800赞，DeepMind强化学习综述：她可以很快，但快从慢中来

推特800赞，DeepMind强化学习综述：她可以很快，但快从慢中来

量子位

6+阅读 · 2019年5月3日

你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

新智元

9+阅读 · 2019年3月20日

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

AI科技评论

7+阅读 · 2019年3月1日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

一文学习基于蒙特卡罗的强化学习方法（送书）

一文学习基于蒙特卡罗的强化学习方法（送书）

人工智能头条

7+阅读 · 2018年3月13日

学界 | DeepMind 16 篇 NIPS 2017 论文，全部信息都在这里了

学界 | DeepMind 16 篇 NIPS 2017 论文，全部信息都在这里了

AI科技评论

4+阅读 · 2017年12月2日

相关论文

Interference and Generalization in Temporal Difference Learning

Arxiv

8+阅读 · 2020年3月13日

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Arxiv

12+阅读 · 2019年9月26日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Efficient Eligibility Traces for Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年10月23日

Learning under Misspecified Objective Spaces

Arxiv

3+阅读 · 2018年10月11日

Hierarchical Deep Multiagent Reinforcement Learning

Hierarchical Deep Multiagent Reinforcement Learning

Arxiv

8+阅读 · 2018年9月25日

Deep Reinforcement Learning in Ice Hockey for Context-Aware Player Evaluation

Deep Reinforcement Learning in Ice Hockey for Context-Aware Player Evaluation

Arxiv

5+阅读 · 2018年7月11日

Video Person Re-identification by Temporal Residual Learning

Arxiv

5+阅读 · 2018年2月22日

Spatial-Temporal Memory Networks for Video Object Detection

Arxiv

4+阅读 · 2017年12月18日

微信扫码咨询专知VIP会员