Humans, even at a very early age, can learn visual concepts and understand geometry and layout through active interaction with the environment, and generalize their compositions to complete tasks described by natural languages in novel scenes. To mimic such capability, we propose Embodied Concept Learner (ECL) in an interactive 3D environment. Specifically, a robot agent can ground visual concepts, build semantic maps and plan actions to complete tasks by learning purely from human demonstrations and language instructions, without access to ground-truth semantic and depth supervisions from simulations. ECL consists of: (i) an instruction parser that translates the natural languages into executable programs; (ii) an embodied concept learner that grounds visual concepts based on language descriptions; (iii) a map constructor that estimates depth and constructs semantic maps by leveraging the learned concepts; and (iv) a program executor with deterministic policies to execute each program. ECL has several appealing benefits thanks to its modularized design. Firstly, it enables the robotic agent to learn semantics and depth unsupervisedly acting like babies, e.g., ground concepts through active interaction and perceive depth by disparities when moving forward. Secondly, ECL is fully transparent and step-by-step interpretable in long-term planning. Thirdly, ECL could be beneficial for the embodied instruction following (EIF), outperforming previous works on the ALFRED benchmark when the semantic label is not provided. Also, the learned concept can be reused for other downstream tasks, such as reasoning of object states. Project page: http://ecl.csail.mit.edu/


翻译:人类甚至在很小的年龄就能通过与环境的积极交互学习视觉概念,并且通过将其推广到描述新场景的自然语言来理解几何和布局。为了模仿这样的能力,我们在交互式的3D环境中提出了机身概念学习者(ECL)。具体来说,机器人代理可以通过仅仅通过人类演示和语言指令学习,而没有从模拟中获得语义和深度监督,从而基于语言描述进行视觉概念的接地、构建语义图并规划动作以完成任务。ECL包括:(i)指令解析器,它将自然语言转化为可执行程序;(ii)机身概念学习者,它基于语言描述来接地视觉概念;(iii)地图构造器,它通过利用学习到的概念来估算深度并构建语义地图;以及(iv)具有确定性策略的程序执行器来执行每个程序。ECL由于其模块化的设计具有几个吸引人的优点。首先,它使机器人代理能够像婴儿一样无监督地学习语义和深度,例如通过积极交互接地概念,并在前进时通过视差来感知深度。其次,ECL在长期规划方面是完全透明且逐步可解释的。第三,当不提供语义标签时,ECL可能对机身指令跟踪(EIF)有益,并在ALFRED基准测试中优于先前的作品。此外,学到的概念可以在其他下游任务中应用,例如推理对象状态。项目页面:http://ecl.csail.mit.edu/

0
下载
关闭预览

相关内容

【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
29+阅读 · 2022年3月12日
【NeurIPS2021】视觉语言导航的课程学习
专知会员服务
23+阅读 · 2021年11月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
量化金融强化学习论文集合
专知
13+阅读 · 2019年12月18日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
A Survey on Data Augmentation for Text Classification
VIP会员
相关VIP内容
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
29+阅读 · 2022年3月12日
【NeurIPS2021】视觉语言导航的课程学习
专知会员服务
23+阅读 · 2021年11月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
相关资讯
量化金融强化学习论文集合
专知
13+阅读 · 2019年12月18日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员