物理AI中的静默故障:自主系统运行时动作授权文献综述

Hugging Face Daily Papers 论文

摘要

本文献综述识别并分析了物理AI系统中静默故障的问题,即黑箱模型可能在未被检测到的情况下执行有害动作。它提出了运行时防护功能分类法,并概述了安全自主系统的评估要求。

物理AI系统越来越多地将多模态观测、语言指令和学习的世界的表征映射为有物理后果的动作。机器人基础模型、视觉-语言-动作模型以及基于世界模型的自主系统能够决定移动车辆、机器人、无人机和工业机器的动作。这一转变暴露了一个传统AI内容审查或经典机器人安全无法完全涵盖的安全问题:黑箱模型可能在看似自信、合理且语义对齐的情况下发出有物理后果的动作。由此产生的故障可能是静默的,源于传感器漂移、遮挡、状态估计误差、分布偏移、幻觉可操作或无效的物理假设,直至下游硬件控制器检测到违规。 在具身基础模型、世界模型、机器人模拟、具身安全基准、安全控制、运行时保证、不确定性估计、验证和防护评估等领域,模型能力与安全机制大致沿着独立的技术路径发展。本综述归纳了一个反复出现的空白:该调查涵盖的任何单一研究方向都未能提供黑箱物理AI模型与物理执行之间的完整运行时授权边界。由此分析提出了一个有限问题形式化、静默物理动作故障的定义、运行时防护功能分类法以及用于比较防护作为物理AI保障机制的评估要求。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:36

论文页面 - 物理人工智能中的静默故障:自主系统运行时行为授权的文献综述

Source: https://huggingface.co/papers/2606.00090

摘要

物理人工智能系统面临安全挑战,黑盒模型可能在不被察觉的情况下执行有害行为,因此需要全面的运行时防护机制以确保安全操作。

物理人工智能系统(https://huggingface.co/papers?q=Physical%20AI%20systems)越来越多地将多模态观测、语言指令和学到的世界表征映射为具有物理后果的行为。机器人基础模型、视觉-语言-动作模型以及基于世界模型的自主系统可以决定移动车辆、机器人、无人机和工业机器的决策。这种转变暴露了一个传统AI内容审核或经典机器人安全无法完全覆盖的安全问题:黑盒模型可能发出具有物理后果的行为,同时看起来自信、合理且语义对齐。由此产生的故障可能是静默的,源于传感器漂移、遮挡、状态估计误差、分布偏移、幻觉可负担性或无效的物理假设,直到下游硬件控制器检测到违规。跨越具身基础模型(https://huggingface.co/papers?q=embodied%20foundation%20models)、世界模型(https://huggingface.co/papers?q=world%20models)、机器人仿真(https://huggingface.co/papers?q=robotics%20simulation)、具身安全基准(https://huggingface.co/papers?q=embodied%20safety%20benchmarks)、安全控制(https://huggingface.co/papers?q=safe%20control)、运行时保证(https://huggingface.co/papers?q=runtime%20assurance)、不确定性估计(https://huggingface.co/papers?q=uncertainty%20estimation)、验证(https://huggingface.co/papers?q=verification)和防护评估(https://huggingface.co/papers?q=guardrail%20evaluation),模型能力与安全机制在技术路径上基本独立发展。这里综合的一个反复出现的差距是,本综述中审查的没有一条单独的技术流能够提供黑盒物理人工智能模型与物理执行之间的完整运行时授权边界。由此产生的分析提出了一个有界的问题表述、对静默物理行为故障(https://huggingface.co/papers?q=silent%20physical-action%20failure)的定义、运行时防护功能(https://huggingface.co/papers?q=runtime%20guardrail%20functions)的分类学,以及用于比较防护作为物理人工智能保障机制的评估要求。

查看arXiv页面(https://arxiv.org/abs/2606.00090) 查看PDF(https://arxiv.org/pdf/2606.00090) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.00090)

在您的代理中获取这篇论文:

hf papers read 2606.00090

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.00090以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.00090以从此页面链接。

引用此论文的空间0

没有空间链接此论文

在空间README.md中引用arxiv.org/abs/2606.00090以从此页面链接。

包含此论文的收藏1

相似文章

具体的AI安全问题

OpenAI Blog

OpenAI、伯克利和斯坦福的研究人员共同撰写了一篇基础性论文,指出了现代AI系统中的五个具体安全问题:安全探索、对分布偏移的鲁棒性、避免负面副作用、防止奖励黑客和可扩展的监督。

AI安全争论聚焦于错误的边界

Reddit r/AI_Agents

本文认为,AI安全辩论的方向有误,其关注点在于模型对齐和内部控制,而非关键的边界:对智能体执行的外部授权权限。文章警告称,能够自行授权高影响行动(如部署代码、转移资金)的系统构成了基本风险,日志记录和监控无法缓解这种风险。