Agricultural robots are serving as powerful assistants across a wide range of agricultural tasks, nevertheless, still heavily relying on manual operations or railway systems for movement. The AgriVLN method and the A2A benchmark pioneeringly extend Vision-and-Language Navigation (VLN) to the agricultural domain, enabling a robot to navigate to a target position following a natural language instruction. Unlike human binocular vision, most agricultural robots are only given a single camera for monocular vision, which results in limited spatial perception. To bridge this gap, we present the method of Agricultural Vision-and-Language Navigation with Monocular Depth Estimation (MDE-AgriVLN), in which we propose the MDE module generating depth features from RGB images, to assist the decision-maker on reasoning. When evaluated on the A2A benchmark, our MDE-AgriVLN method successfully increases Success Rate from 0.23 to 0.32 and decreases Navigation Error from 4.43m to 4.08m, demonstrating the state-of-the-art performance in the agricultural VLN domain. Code: https://github.com/AlexTraveling/MDE-AgriVLN.


翻译:农业机器人正作为强大助手服务于广泛的农业任务,但其移动仍严重依赖人工操作或轨道系统。AgriVLN方法与A2A基准首次将视觉与语言导航(VLN)扩展至农业领域,使机器人能够依据自然语言指令导航至目标位置。与人类双目视觉不同,大多数农业机器人仅配备单摄像头实现单目视觉,导致空间感知能力受限。为弥补这一缺陷,我们提出基于单目深度估计的农业视觉与语言导航方法(MDE-AgriVLN),其中设计了可从RGB图像生成深度特征的MDE模块,以辅助决策系统进行推理。在A2A基准测试中,我们的MDE-AgriVLN方法将成功率从0.23提升至0.32,并将导航误差从4.43米降低至4.08米,展现了农业VLN领域的最先进性能。代码:https://github.com/AlexTraveling/MDE-AgriVLN。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员