Foundation models (FM) have unlocked powerful zero-shot capabilities in vision and language, yet their reliance on internet pretraining data leaves them brittle in unstructured, real-world settings. The messy, real-world data encountered during deployment (e.g. occluded or multilingual text) remains massively underrepresented in existing corpora. Robots, as embodied agents, are uniquely positioned to close this gap: they can act in physical environments to collect large-scale, real-world data that enriches FM training with precisely the examples current models lack. We introduce the Robot-Powered Data Flywheel, a framework that transforms robots from FM consumers into data generators. By deploying robots equipped with FMs in the wild, we enable a virtuous cycle: robots perform useful tasks while collecting real-world data that improves both domain-specific adaptation and domain-adjacent generalization. We instantiate this framework with Scanford, a mobile manipulator deployed in the East Asia Library for 2 weeks. Scanford autonomously scans shelves, identifies books using a vision-language model (VLM), and leverages the library catalog to label images without human annotation. This deployment both aids librarians and produces a dataset to finetune the underlying VLM, improving performance on the domain-specific in-the-wild library setting and on domain-adjacent multilingual OCR benchmarks. Using data collected from 2103 shelves, Scanford improves VLM performance on book identification from 32.0% to 71.8% and boosts domain-adjacent multilingual OCR from 24.8% to 46.6% (English) and 30.8% to 38.0% (Chinese), while saving an ~18.7 hrs of human time. These results highlight how robot-powered data flywheels can both reduce human effort in real deployments and unlock new pathways for continually adapting FMs to the messiness of reality. More details are at: https://scanford-robot.github.io


翻译:基础模型(FM)已在视觉和语言领域展现出强大的零样本能力,但其对互联网预训练数据的依赖使其在非结构化真实场景中表现脆弱。部署过程中遇到的杂乱真实数据(如遮挡或多语言文本)在现有语料库中代表性严重不足。机器人作为具身智能体,在弥补这一差距方面具有独特优势:它们能够在物理环境中行动,收集大规模真实世界数据,从而为基础模型的训练补充当前模型所缺乏的典型样本。本文提出机器人驱动的数据飞轮框架,将机器人从基础模型的消费者转变为数据生成者。通过在真实环境中部署配备基础模型的机器人,我们构建了一个良性循环:机器人在执行有用任务的同时收集真实数据,这些数据既能提升领域特定的适应能力,也能增强领域邻近的泛化性能。我们通过Scanford系统实例化了该框架——一台在东亚图书馆部署两周的移动操作机器人。Scanford自主扫描书架,利用视觉-语言模型(VLM)识别书籍,并借助图书馆目录实现无需人工标注的图像自动标注。此次部署既辅助了图书馆员工作,又生成了可用于微调底层视觉-语言模型的数据集,从而提升了模型在领域特定的真实图书馆场景中的性能,以及在领域邻近的多语言OCR基准测试中的表现。基于从2103个书架收集的数据,Scanford将书籍识别的视觉-语言模型准确率从32.0%提升至71.8%,并将领域邻近的多语言OCR准确率从24.8%提升至46.6%(英文)和从30.8%提升至38.0%(中文),同时节省了约18.7小时的人工时间。这些结果表明,机器人驱动的数据飞轮既能减少实际部署中的人力投入,又能为持续适应现实世界的复杂性开辟新路径。更多细节请访问:https://scanford-robot.github.io

0
下载
关闭预览

相关内容

机器人(英语:Robot)包括一切模拟人类行为或思想与模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人。在当代工业中,机器人指能自动运行任务的人造机器设备,用以取代或协助人类工作,一般会是机电设备,由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员