机器学习的应用已经以无数全新的方式深刻影响了普通人的生活。机器人技术如今似乎也即将产生类似的巨大影响。然而,当前最先进的机器人系统——无论是 Boston Dynamics 的跑酷仿人机器人,还是 Google DeepMind 的折 T 恤机器人——仍然只是在其各自环境中的“专家”:要么依赖对场景的精密布置与充分建模,要么需要在完全相同的设置上收集数周乃至数月的数据。
在本论文中,我们的目标是构建能够“在任何地方都能正常工作”的通用智能机器人,并围绕**表征、数据与记忆(representation, data, memory)**三者在机器人系统中的相互作用展开研究。为了创建能够应对全球各地混乱、无结构环境中广泛而多样挑战的机器人,本论文重点探索三个基本方向。
首先,我们研究如何在机器人学习中优化数据的使用,因为数据作为“燃料”对构建具备广泛能力的机器学习系统至关重要。我们不仅构建了高效的、用于机器人感知的自监督表征,还提出了可扩展至大型、未筛选示范数据集的动作表征方法。
接着,我们深入研究如何构建能够在真实世界中采集并从数据中学习的系统——融合算法与硬件。这类系统使机器人能够在纽约等地的新家庭环境中实现小样本(few-shot),甚至是**零样本(zero-shot)**的行为泛化能力。
最后,为了让机器人具备可在更大时间尺度与空间尺度上延展的通用智能行为,我们提出了名为**时空语义记忆(spatio-semantic memory)**的神经数据结构。这些记忆模块使机器人在真实世界中的自主行为可以从数秒扩展到数小时,乃至更长时间。