To enable embodied agents to operate effectively over extended timeframes, it is crucial to develop models that form and access memories to stay contextualized in their environment. In the current paradigm of training transformer-based policies for embodied sequential decision-making tasks, visual inputs often overwhelm the context limits of transformers, while humans can maintain and utilize a lifetime of experience compressed as memories. Significant compression is possible in principle, as much of the input is irrelevant and can be abstracted. However, existing approaches predominantly focus on either recurrent models with fixed-size memory or transformers with full-context reliance. In this work, we propose Memo, a transformer-based architecture and training recipe for reinforcement learning (RL) on memory-intensive, long-horizon tasks. Memo incorporates the creation and retrieval of memory by interleaving periodic summarization tokens with the inputs of a model during training. We demonstrate Memo's effectiveness on a gridworld meta-RL benchmark and a multi-object navigation task in photo-realistic indoor settings. Memo outperforms naive long-context transformer baselines while being more compute and storage efficient. Additionally, Memo generalizes better to longer contexts at inference time and remains robust in streaming settings, where historical context must be truncated to fit inference constraints. Our code is available at: https://github.com/gunshi/memo.


翻译:为使具身智能体能在长时间范围内有效运作,开发能够形成并访问记忆以保持环境情境化的模型至关重要。在当前基于Transformer的策略训练范式下,用于具身序列决策任务的视觉输入常超出Transformer的上下文限制,而人类却能维持并利用压缩为记忆的终身经验。理论上大幅压缩是可行的,因为多数输入无关紧要且可被抽象化。然而,现有方法主要集中于固定内存大小的循环模型或完全依赖上下文的Transformer。本研究提出Memo——一种基于Transformer的架构及训练方案,用于内存密集型、长时程任务的强化学习(RL)。Memo通过在训练期间向模型输入中插入周期性摘要标记来实现记忆的创建与检索。我们在网格世界元RL基准测试和照片级真实室内环境的多目标导航任务中验证了Memo的有效性。Memo在计算和存储效率更高的同时,性能优于朴素的长上下文Transformer基线。此外,Memo在推理时对更长上下文的泛化能力更强,并在流式处理场景中保持鲁棒性——此类场景中历史上下文必须截断以适应推理限制。代码发布于:https://github.com/gunshi/memo。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员