Tactile sensing offers rich and complementary information to vision and language, enabling robots to perceive fine-grained object properties. However, existing tactile sensors lack standardization, leading to redundant features that hinder cross-sensor generalization. Moreover, existing methods fail to fully integrate the intermediate communication among tactile, language, and vision modalities. To address this, we propose TLV-CoRe, a CLIP-based Tactile-Language-Vision Collaborative Representation learning method. TLV-CoRe introduces a Sensor-Aware Modulator to unify tactile features across different sensors and employs tactile-irrelevant decoupled learning to disentangle irrelevant tactile features. Additionally, a Unified Bridging Adapter is introduced to enhance tri-modal interaction within the shared representation space. To fairly evaluate the effectiveness of tactile models, we further propose the RSS evaluation framework, focusing on Robustness, Synergy, and Stability across different methods. Experimental results demonstrate that TLV-CoRe significantly improves sensor-agnostic representation learning and cross-modal alignment, offering a new direction for multimodal tactile representation.


翻译:触觉感知为视觉和语言提供了丰富且互补的信息,使机器人能够感知细粒度的物体属性。然而,现有触觉传感器缺乏标准化,导致冗余特征阻碍了跨传感器泛化。此外,现有方法未能充分整合触觉、语言与视觉模态之间的中间交互。为此,我们提出TLV-CoRe,一种基于CLIP的触觉-语言-视觉协同表征学习方法。TLV-CoRe引入了传感器感知调制器以统一不同传感器的触觉特征,并采用触觉无关解耦学习来分离无关的触觉特征。此外,通过引入统一桥接适配器以增强共享表征空间内的三模态交互。为公平评估触觉模型的有效性,我们进一步提出RSS评估框架,重点关注不同方法间的鲁棒性、协同性与稳定性。实验结果表明,TLV-CoRe显著提升了传感器无关的表征学习与跨模态对齐能力,为多模态触觉表征提供了新的研究方向。

0
下载
关闭预览

相关内容

【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理
专知会员服务
45+阅读 · 2024年1月24日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员