Autonomous aerial systems increasingly rely on large language models (LLMs) for mission planning, perception, and decision-making, yet the lack of standardized and physically grounded benchmarks limits systematic evaluation of their reasoning capabilities. To address this gap, we introduce UAVBench, an open benchmark dataset comprising 50,000 validated UAV flight scenarios generated through taxonomy-guided LLM prompting and multi-stage safety validation. Each scenario is encoded in a structured JSON schema that includes mission objectives, vehicle configuration, environmental conditions, and quantitative risk labels, providing a unified representation of UAV operations across diverse domains. Building on this foundation, we present UAVBench_MCQ, a reasoning-oriented extension containing 50,000 multiple-choice questions spanning ten cognitive and ethical reasoning styles, ranging from aerodynamics and navigation to multi-agent coordination and integrated reasoning. This framework enables interpretable and machine-checkable assessment of UAV-specific cognition under realistic operational contexts. We evaluate 32 state-of-the-art LLMs, including GPT-5, ChatGPT-4o, Gemini 2.5 Flash, DeepSeek V3, Qwen3 235B, and ERNIE 4.5 300B, and find strong performance in perception and policy reasoning but persistent challenges in ethics-aware and resource-constrained decision-making. UAVBench establishes a reproducible and physically grounded foundation for benchmarking agentic AI in autonomous aerial systems and advancing next-generation UAV reasoning intelligence. To support open science and reproducibility, we release the UAVBench dataset, the UAVBench_MCQ benchmark, evaluation scripts, and all related materials on GitHub at https://github.com/maferrag/UAVBench


翻译:自主空中系统日益依赖大型语言模型(LLM)进行任务规划、感知与决策,但缺乏标准化且基于物理现实的基准限制了对其推理能力的系统评估。为填补这一空白,我们提出了UAVBench,这是一个包含50,000个经过验证的无人机飞行场景的开放基准数据集,这些场景通过分类学引导的LLM提示和多阶段安全验证生成。每个场景均以结构化JSON模式编码,涵盖任务目标、飞行器配置、环境条件和定量风险标签,为跨领域无人机操作提供了统一表征。在此基础上,我们进一步推出UAVBench_MCQ,这是一个面向推理的扩展集,包含50,000道多项选择题,覆盖十种认知与伦理推理风格,内容涉及空气动力学、导航、多智能体协调及综合推理等。该框架支持在真实操作环境下对无人机专用认知进行可解释且机器可验证的评估。我们评估了32个前沿LLM模型,包括GPT-5、ChatGPT-4o、Gemini 2.5 Flash、DeepSeek V3、Qwen3 235B和ERNIE 4.5 300B,发现其在感知与策略推理方面表现优异,但在伦理感知和资源受限的决策方面仍存在持续挑战。UAVBench为自主空中系统中智能体AI的基准测试及下一代无人机推理智能的发展奠定了可复现且基于物理现实的基础。为支持开放科学与可复现性,我们已在GitHub上发布UAVBench数据集、UAVBench_MCQ基准、评估脚本及相关材料,地址为:https://github.com/maferrag/UAVBench

0
下载
关闭预览

相关内容

国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员