在多任务强化学习领域,模块化原则已被广泛采纳,该原则涉及将功能专业化到不同的模块中,并适当地组合它们,作为预防由于任务间冲突导致的性能降低的有希望的方法。但是,现有的多任务RL方法大多只在任务层面组合共享模块,忽略了任务内部可能存在的冲突。此外,这些方法没有考虑到,如果没有约束,某些模块可能会学到相似的功能,从而限制了模块化方法的表达能力和泛化能力。在这篇论文中,我们提出了具有时间注意力的对比模块(CMTA)方法来解决这些限制。CMTA通过对比学习使模块之间保持差异,并使用时间注意力在比任务层面更细的粒度上组合共享模块,从而减轻了任务内的负面转移,并提高了多任务RL的泛化能力和性能。我们在Meta-World上进行了实验,这是一个包含各种机器人操纵任务的多任务RL基准。实验结果显示,CMTA首次超越了单独学习每个任务,并在基线上取得了大幅的性能提升。

成为VIP会员查看完整内容
29

相关内容

【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
15+阅读 · 2022年3月17日
WSDM 2022 | 基于图神经网络的协同过滤设计空间研究
专知会员服务
36+阅读 · 2022年1月3日
专知会员服务
21+阅读 · 2021年9月27日
专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
36+阅读 · 2021年4月25日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
60+阅读 · 2021年4月21日
专知会员服务
34+阅读 · 2020年11月29日
【KDD2020】图神经网络生成式预训练
专知
20+阅读 · 2020年7月3日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2023年12月20日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
324+阅读 · 2023年3月31日
Arxiv
14+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
15+阅读 · 2022年3月17日
WSDM 2022 | 基于图神经网络的协同过滤设计空间研究
专知会员服务
36+阅读 · 2022年1月3日
专知会员服务
21+阅读 · 2021年9月27日
专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
36+阅读 · 2021年4月25日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
60+阅读 · 2021年4月21日
专知会员服务
34+阅读 · 2020年11月29日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员