Vision-Language-Action (VLA) models have shown remarkable generalization by mapping web-scale knowledge to robotic control, yet they remain blind to physical contact. Consequently, they struggle with contact-rich manipulation tasks that require reasoning about force, texture, and slip. While some approaches incorporate low-dimensional tactile signals, they fail to capture the high-resolution dynamics essential for such interactions. To address this limitation, we introduce DreamTacVLA, a framework that grounds VLA models in contact physics by learning to feel the future. Our model adopts a hierarchical perception scheme in which high-resolution tactile images serve as micro-vision inputs coupled with wrist-camera local vision and third-person macro vision. To reconcile these multi-scale sensory streams, we first train a unified policy with a Hierarchical Spatial Alignment (HSA) loss that aligns tactile tokens with their spatial counterparts in the wrist and third-person views. To further deepen the model's understanding of fine-grained contact dynamics, we finetune the system with a tactile world model that predicts future tactile signals. To mitigate tactile data scarcity and the wear-prone nature of tactile sensors, we construct a hybrid large-scale dataset sourced from both high-fidelity digital twin and real-world experiments. By anticipating upcoming tactile states, DreamTacVLA acquires a rich model of contact physics and conditions its actions on both real observations and imagined consequences. Across contact-rich manipulation tasks, it outperforms state-of-the-art VLA baselines, achieving up to 95% success, highlighting the importance of understanding physical contact for robust, touch-aware robotic agents.


翻译:视觉-语言-动作(VLA)模型通过将网络规模的知识映射到机器人控制中展现了卓越的泛化能力,然而它们对物理接触仍缺乏感知。因此,这类模型在处理需要推理力、纹理和滑移的接触密集型操作任务时面临困难。尽管已有方法引入了低维触觉信号,但未能捕捉对此类交互至关重要的高分辨率动态信息。为克服这一局限,我们提出了DreamTacVLA框架,该框架通过学习感知未来,将VLA模型建立在接触物理学的根基之上。我们的模型采用分层感知方案:高分辨率触觉图像作为微视觉输入,与腕部摄像头的局部视觉及第三人称宏观视觉相结合。为协调这些多尺度感知流,我们首先通过分层空间对齐(HSA)损失训练统一策略,该损失将触觉标记与腕部和第三人称视角中的对应空间位置对齐。为进一步深化模型对细粒度接触动态的理解,我们使用触觉世界模型对系统进行微调,该模型能够预测未来的触觉信号。为缓解触觉数据稀缺及触觉传感器易磨损的问题,我们构建了混合大规模数据集,数据来源于高保真数字孪生和真实世界实验。通过预测即将到来的触觉状态,DreamTacVLA获得了丰富的接触物理模型,并将其动作建立在真实观测与想象结果的双重条件之上。在接触密集型操作任务中,该模型超越了最先进的VLA基线,成功率高达95%,凸显了理解物理接触对于构建鲁棒、具触觉感知的机器人智能体的重要性。

0
下载
关闭预览

相关内容

面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
21+阅读 · 2025年10月22日
【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 2025年8月5日
【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
专知会员服务
38+阅读 · 2021年10月14日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关VIP内容
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
21+阅读 · 2025年10月22日
【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 2025年8月5日
【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
专知会员服务
38+阅读 · 2021年10月14日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员