为了使机器人能够在家庭、办公室、厨房等多样化的自然环境中协助完成日常任务,关键在于开发能够在未见场景中泛化到新任务的策略。出于实用考虑,这些策略应能直接根据自然的任务描述(如语言指令)执行任务,而无需在测试时进行特定任务的适配。此外,这类策略应能够处理广泛的任务类型——例如操作可动关节物体、倒液体、重新定位物体和擦拭桌面等——而不需要像端到端模仿学习的主流范式那样,为每一个可能的任务都采集专门的机器人数据。由于在自然环境中收集大规模、多样化的机器人交互数据十分困难,因此这一要求并不现实。 虽然现有方法通常依赖大量示范数据来实现泛化,但本论文提出了有效利用网络数据来大规模扩展机器人交互数据集的方法。本文开创性地提出了一个新范式:通过将从大规模视频数据集中训练出的预测模型中的运动线索作为条件,显式地引导机器人策略,从而使策略能够执行包含新对象与新动作的任务,这些对象和动作在机器人专属数据中是未曾见过的。 我们在理论上形式化了将机器人策略因式分解的思想,即将其拆解为对具体身体结构无关的交互计划(可借助通用互联网数据进行训练),以及依赖具体身体结构执行的动作控制(在交互计划的条件下进行),后者相比之下是更容易解决的问题。贯穿全文,我们开发了基于通用目标/语言条件的策略,这些策略无需依赖特定任务或场景的启发式规则,即可完成多种任务。