When AI interacts with the physical world -- as a robot or an assistive agent -- new safety challenges emerge beyond those of purely ``digital AI". In such interactions, the potential for physical harm is direct and immediate. How well do state-of-the-art foundation models understand common-sense facts about physical safety, e.g. that a box may be too heavy to lift, or that a hot cup of coffee should not be handed to a child? In this paper, our contributions are three-fold: first, we develop a highly scalable approach to continuous physical safety benchmarking of Embodied AI systems, grounded in real-world injury narratives and operational safety constraints. To probe multi-modal safety understanding, we turn these narratives and constraints into photorealistic images and videos capturing transitions from safe to unsafe states, using advanced generative models. Secondly, we comprehensively analyze the ability of major foundation models to perceive risks, reason about safety, and trigger interventions; this yields multi-faceted insights into their deployment readiness for safety-critical agentic applications. Finally, we develop a post-training paradigm to teach models to explicitly reason about embodiment-specific safety constraints provided through system instructions. The resulting models generate thinking traces that make safety reasoning interpretable and transparent, achieving state of the art performance in constraint satisfaction evaluations. The benchmark is released at https://asimov-benchmark.github.io/v2


翻译:当AI与物理世界交互时——无论是作为机器人还是辅助智能体——其面临的安全挑战已超越纯粹的“数字AI”。在此类交互中,物理伤害的风险是直接且即时存在的。当前最先进的基础模型对物理安全的常识性认知达到何种程度?例如,能否理解箱子可能过重而无法抬起,或不应将热咖啡递给儿童?本文的贡献包含三个方面:首先,我们基于真实世界伤害案例与操作安全约束,开发了一种高度可扩展的持续物理安全基准测试方法,用于具身AI系统。为探究多模态安全理解能力,我们运用先进生成模型将这些案例与约束转化为捕捉从安全状态到危险状态转变的逼真图像与视频。其次,我们全面分析了主流基础模型在风险感知、安全推理及触发干预方面的能力,从而为其在安全关键型智能体应用中的部署准备度提供多维度洞察。最后,我们开发了一种后训练范式,通过系统指令教导模型显式推理特定于具身场景的安全约束。所得模型生成的思维轨迹使安全推理过程具备可解释性与透明度,在约束满足评估中达到最先进性能。基准测试发布于 https://asimov-benchmark.github.io/v2

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
机器人操作的“圣杯问题” -- Bin Picking
机器人学家
16+阅读 · 2018年8月2日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月15日
Arxiv
0+阅读 · 12月10日
Arxiv
0+阅读 · 11月21日
VIP会员
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员