物理AI中的静默故障:自主系统运行时动作授权文献综述
摘要
本文献综述识别并分析了物理AI系统中静默故障的问题,即黑箱模型可能在未被检测到的情况下执行有害动作。它提出了运行时防护功能分类法,并概述了安全自主系统的评估要求。
查看缓存全文
缓存时间: 2026/06/02 15:36
论文页面 - 物理人工智能中的静默故障:自主系统运行时行为授权的文献综述
Source: https://huggingface.co/papers/2606.00090
摘要
物理人工智能系统面临安全挑战,黑盒模型可能在不被察觉的情况下执行有害行为,因此需要全面的运行时防护机制以确保安全操作。
物理人工智能系统(https://huggingface.co/papers?q=Physical%20AI%20systems)越来越多地将多模态观测、语言指令和学到的世界表征映射为具有物理后果的行为。机器人基础模型、视觉-语言-动作模型以及基于世界模型的自主系统可以决定移动车辆、机器人、无人机和工业机器的决策。这种转变暴露了一个传统AI内容审核或经典机器人安全无法完全覆盖的安全问题:黑盒模型可能发出具有物理后果的行为,同时看起来自信、合理且语义对齐。由此产生的故障可能是静默的,源于传感器漂移、遮挡、状态估计误差、分布偏移、幻觉可负担性或无效的物理假设,直到下游硬件控制器检测到违规。跨越具身基础模型(https://huggingface.co/papers?q=embodied%20foundation%20models)、世界模型(https://huggingface.co/papers?q=world%20models)、机器人仿真(https://huggingface.co/papers?q=robotics%20simulation)、具身安全基准(https://huggingface.co/papers?q=embodied%20safety%20benchmarks)、安全控制(https://huggingface.co/papers?q=safe%20control)、运行时保证(https://huggingface.co/papers?q=runtime%20assurance)、不确定性估计(https://huggingface.co/papers?q=uncertainty%20estimation)、验证(https://huggingface.co/papers?q=verification)和防护评估(https://huggingface.co/papers?q=guardrail%20evaluation),模型能力与安全机制在技术路径上基本独立发展。这里综合的一个反复出现的差距是,本综述中审查的没有一条单独的技术流能够提供黑盒物理人工智能模型与物理执行之间的完整运行时授权边界。由此产生的分析提出了一个有界的问题表述、对静默物理行为故障(https://huggingface.co/papers?q=silent%20physical-action%20failure)的定义、运行时防护功能(https://huggingface.co/papers?q=runtime%20guardrail%20functions)的分类学,以及用于比较防护作为物理人工智能保障机制的评估要求。
查看arXiv页面(https://arxiv.org/abs/2606.00090) 查看PDF(https://arxiv.org/pdf/2606.00090) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.00090)
在您的代理中获取这篇论文:
hf papers read 2606.00090
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2606.00090以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2606.00090以从此页面链接。
引用此论文的空间0
没有空间链接此论文
在空间README.md中引用arxiv.org/abs/2606.00090以从此页面链接。
包含此论文的收藏1
相似文章
运行时治理:2026年AI代理缺失的一环
文章讨论了AI代理运行时治理的必要性,以平衡自主性与合规性,并介绍了SAFi——一个开源框架,可实时执行策略并审计操作。
遏制缺口:已部署的自主AI框架如何未能满足面向公众的安全要求
本文审计了LangChain、AutoGPT和OpenAI Agents SDK在架构安全保证方面的表现,发现它们均未原生符合遏制原则,并展示了内存投毒如何导致持续性失败;文中还引入了轻量级机制以消除此类攻击。
AI 代理最危险的部分始于其获得执行权限之时
本文强调了 AI 代理获得基础设施执行权限所带来的关键风险,认为如果没有外部准入层来防止灾难性故障,现有的安全护栏是不够的。
具体的AI安全问题
OpenAI、伯克利和斯坦福的研究人员共同撰写了一篇基础性论文,指出了现代AI系统中的五个具体安全问题:安全探索、对分布偏移的鲁棒性、避免负面副作用、防止奖励黑客和可扩展的监督。
AI安全争论聚焦于错误的边界
本文认为,AI安全辩论的方向有误,其关注点在于模型对齐和内部控制,而非关键的边界:对智能体执行的外部授权权限。文章警告称,能够自行授权高影响行动(如部署代码、转移资金)的系统构成了基本风险,日志记录和监控无法缓解这种风险。