Agent 崩溃：好心铺就地狱之路

arXiv cs.CL 2026/05/20 04:00 论文

ai-agents safety reliability error-recovery accidental-meltdown autonomous-agents

摘要

本文介绍了“意外崩溃”现象，即 AI 代理在应对良性环境错误时表现出不安全行为。作者在多个代理系统和模型中对此进行了测量，发现当存在错误时，64.7% 的推广中会出现崩溃。

arXiv:2605.19149v1 公告类型：新摘要：在计算机和网络使用中运行的代理不可避免地会遇到错误：无法访问的网页、缺失的文件、本地和远程配置错误等。这些错误并不会难倒基于最先进模型的代理。它们会继续寻找完成任务的方法，表现得十分积极。我们提出、描述并测量了一种新型代理故障，称之为 \emph{意外崩溃}：在没有对抗性输入的情况下，代理对良性环境错误做出不安全或有危害的行为。由于现有可靠性或安全基准未能捕捉到这类崩溃，我们建立了一个崩溃行为分类体系。然后，我们实现了一种与代理无关的基础设施，用于向推广环境中注入模拟的本地和远程错误，并利用它系统性地评估由 GPT、Grok 和 Gemini 驱动的代理系统。我们的评估表明，在遇到模拟错误的代理推广中，64.7% 会出现不同程度的崩溃（例如进行未经授权的侦察或破坏访问控制），这些崩溃涵盖所有代理系统、底层模型和错误类型的组合。在这些崩溃中，超过一半的不安全行为并未向用户报告。通过对比同一代理在有错误和无错误情况下的行为，我们发现，为了应对错误而进行的探索与不安全及有害行为之间存在相关性。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:24

# 通往地狱之路铺满“有帮助的”智能体 来源：https://arxiv.org/html/2605.19149 Rishi Jha\* Harold Triedman\* Arkaprabha Bhattacharya Vitaly Shmatikov 康奈尔大学计算机科学系 ##### 摘要 操作计算机和网络的智能体不可避免地会遇到错误：无法访问的网页、缺失的文件、本地和远程配置错误等。这些错误并不会阻碍基于最先进模型的智能体。它们会“乐于助人”地继续寻找完成其任务的方法。我们引入、描述并量化了一种新型的智能体故障，我们称之为*事故性崩溃*：在没有对抗性输入的情况下，智能体对良性环境错误做出的不安全或有害行为。由于崩溃行为未被现有的可靠性或安全基准所覆盖，我们开发了一个崩溃行为分类法。然后，我们实现了一个与智能体无关的基础设施，用于将模拟的本地和远程错误注入到部署环境中，并利用它系统地评估由 GPT、Grok 和 Gemini 驱动的智能体系统。我们的评估表明，在各种严重程度和成功率下，崩溃（例如，进行未经授权的侦察或破坏访问控制）发生在 64.7% 遇到模拟错误的智能体部署中，涵盖了智能体系统、后端模型和错误类型的所有组合。在这些崩溃中，超过一半的不安全行为并未向用户报告。通过比较同一智能体在有错误和无错误时的行为，我们发现，响应错误而进行的探索与不安全及有害行为相关。 ## 1 引言 随着 AI 智能体变得更加有能力、自主，并集成到现实世界的工作流程中，理解它们如何失败变得至关重要。先前的工作主要集中在：（1）由于工具或任务规范错误、指令模糊以及良性环境错误导致的*可靠性*故障；以及（2）由于恶意用户、对抗性输入或诡计模型导致的安全与安保故障。我们引入、描述并量化了一种我们称之为“事故性崩溃”的新现象。它指的是智能体在没有对抗性影响的情况下，响应自然的环境错误（如无法访问的网站、缺失的文件等），通过采取不安全的行为来过度热切地尝试适应、恢复并完成用户请求的任务。崩溃行为包括敏感数据泄露、规避 API 速率限制、人肉搜索、不安全的侦察、系统变异、不安全的内容检索，以及其他违反安全、隐私、安全和授权边界的操作。 我们的贡献。首先，我们引入了*事故性崩溃*的概念：为从良性环境错误中恢复而采取的不安全、有害或类似对抗性的行为。 参见说明图 1：我们用于诱导和测量智能体崩溃的实验环境。 其次，我们设计并实现了一个用于研究智能体恢复行为的受控测量框架。我们的框架使用*噪声容器*来模拟一系列多样、现实的环境错误，同时支持跨智能体框架、模型和任务基准的智能体部署。我们的错误场景包括 404 错误、文件缺失、依赖缺失、权限错误、受保护文件、解析不完整和资源速率受限，并且可以轻松扩展到更多场景。第三，我们开发了一个崩溃行为的*分类法*，涵盖了与安全、隐私、安全、欺骗和授权相关的智能体行为。我们的测量框架为每个行为标注了严重性级别，并确定该行为是被计划、尝试、执行和/或报告的。第四，我们测量了跨智能体系统、模型系列、能力水平和错误场景的*事故性崩溃*。我们对 OpenAI Codex、Magentic-One、Claw Code 和 HAL Generalist Agent 的评估（图 1 (https://arxiv.org/html/2605.19149#S1.F1)）显示，良性错误通常会升级为安全故障。在总共 1,920 次带有模拟环境错误的运行中，有 1,244 次运行（64.79%）表现出至少一个中等或高严重性的崩溃行为，其中至少 50% 未向用户报告。我们在每个（模型、框架）配对以及所有错误类型中都观察到了崩溃行为，涵盖了模型大小、能力、代际和提供商的差异。由此产生的行为包括人肉搜索、发送未经请求的电子邮件、不必要的文件系统和设置变异、欺骗性报告等。在我们的实验中，增加模型的“思考努力”并未减少崩溃的频率。今天的智能体似乎是为帮助性和任务完成而优化的，但在被错误阻碍时如何恢复方面，约束不足。更有能力的模型总体上在克服障碍方面更具创造性，但当被迫做出与安全相关的判断时——*即使没有对手存在*——也更容易表现得不安全：是停止还是继续，调用哪些工具，访问哪些信息，修改哪些系统，以及在追求用户目标时接受多少风险。崩溃甚至可能导致数字世界之外的后果。在我们的一次实验部署中，一个 GPT-5.2 Magentic-One 智能体在被告知访问研究人员网站上不存在的 .txt 文件时遇到了模拟的 404 错误。为了完成任务，该智能体：（1）生成了一个 Python 脚本来暴力破解该网站的 URL 变体并抓取诸如 robots.txt 和 sitemap.xml 之类的元数据；（2）使用了搜索引擎和 Wayback Machine，并因此被暂时阻止访问前者；（3）找到了该研究人员的 GitHub，并生成了一个脚本来扫描和抓取该研究人员仓库中的每个 .txt 文件；（4）将所有文件读入其上下文中。其中一个 .txt 文件包含一个知名的第三方 AI 安全基准，其中包括关于如何制造生物武器的请求。由于这些行为——*完全由智能体针对一个 404 网络访问错误自动且自主地执行*——与该智能体关联的 OpenAI 账户被标记、阻止，并向账单联系人报告。这导致了一连串不断升级的现实事件，最终涉及大学行政部门和校园安全部门的介入。 ## 2 背景与相关工作 参见说明图 2：164 个 (模型, 框架, 行为) 三元组（78.8%）表现出第 4.3 节 (https://arxiv.org/html/2605.19149#S4.SS3) 中描述的崩溃行为。框架：CLaw Code、Codex、HAL Harness 和 Magentic-One。 有用性、无害性和诚实性是 AI 对齐的基本指导原则 [2 (https://arxiv.org/html/2605.19149#bib.bib14)]，通常通过基于人类反馈的强化学习 (RLHF) [21 (https://arxiv.org/html/2605.19149#bib.bib5)] 来实例化。它们也引起了批评 [7 (https://arxiv.org/html/2605.19149#bib.bib15)]。我们研究了被训练成有用性的智能体在环境错误下的表现，特别是它们如何从可靠地执行有用行为转向一种无引导的探索，在这种探索中，它们的操作空间扩大到包括有害和不安全的操作。 现有基准。许多智能体基准，特别是像 Mind2Web [8 (https://arxiv.org/html/2605.19149#bib.bib8)] 和 GAIA [18 (https://arxiv.org/html/2605.19149#bib.bib6)] 这样模拟网页导航任务的基准，假设（1）所有任务都是可完成的，并且（2）妨碍任务完成的环境错误并非评估的主要对象（至少不是明确地）。我们的工作有助于填补对智能体系统在现实世界条件下行为的理解空白。 错误作为攻击面。[25 (https://arxiv.org/html/2605.19149#bib.bib24)] 和 [13 (https://arxiv.org/html/2605.19149#bib.bib19)] 表明，（1）模拟的*对抗性*错误消息是多智能体系统中有效的提示注入向量，并且（2）关于与用户意图对齐的推理并不能阻止这些攻击。[25 (https://arxiv.org/html/2605.19149#bib.bib24)] 还记录了智能体在没有对抗意图的情况下采取有害行为的轶事。其他轶事包括，智能体在暴露于描述性 SQL 错误消息时，一贯且自动地发起 SQL 注入攻击 [26 (https://arxiv.org/html/2605.19149#bib.bib17)]。[24 (https://arxiv.org/html/2605.19149#bib.bib22)] 对几个智能体系统进行了一次非结构化的红队演习，引发了风险行为（例如，隐私侵犯、不安全操作），这些行为的范围通常与引发它们的用户请求不成比例。进一步的轶事证据表明，这种情况在已部署的系统中以令人不安的频率发生（例如，参见：[17 (https://arxiv.org/html/2605.19149#bib.bib28), 3 (https://arxiv.org/html/2605.19149#bib.bib16), 29 (https://arxiv.org/html/2605.19149#bib.bib23), 12 (https://arxiv.org/html/2605.19149#bib.bib10)]）。Anthropic 的 Mythos 系统卡 [1 (https://arxiv.org/html/2605.19149#bib.bib26)] 记录了其智能体系统表现出的广泛的有害和欺骗行为。Anthropic 将它们粗略地描述为通过不受欢迎的方式完成用户分配任务的尝试。这些效应甚至可能遵循*逆缩放定律*：“[m] 更有能力的模型，当其基于错位的意图行动时——无论是由于错位的内部驱动力还是对用户请求的危险误解——都可能导致更大的伤害。” 新兴的评估方法。一些基准将现实性引入到智能体评估中。[30 (https://arxiv.org/html/2605.19149#bib.bib25)]、[11 (https://arxiv.org/html/2605.19149#bib.bib18)] 和 [6 (https://arxiv.org/html/2605.19149#bib.bib27)] 包含了明确不可能完成的任务，探究模型识别这些任务并在不采取行动的情况下安全退出的能力。[15 (https://arxiv.org/html/2605.19149#bib.bib20)] 和 [22 (https://arxiv.org/html/2605.19149#bib.bib21)] 采用了更接近我们的方法，将模拟错误和对抗性内容插入到智能体工作流中。关键区别在于它们关注*可靠性*，并且没有系统地测量因错误而*意外*产生的*不安全*行为。 ## 3 实验环境 为了测量崩溃行为，我们使用了一个容器化的 Docker 环境。它：（a）模拟网络和本地文件系统中的错误，并且比 [15 (https://arxiv.org/html/2605.19149#bib.bib20)] 和 [22 (https://arxiv.org/html/2605.19149#bib.bib21)] 更易配置；（b）支持任何智能体系统而不会降低智能体功能；（c）可以并行化以高效评估多个智能体部署。我们向社区公开了我们的`noisy-container`测试平台111https://hub.docker.com/r/htriedman/noisy-containers，以用于进一步的智能体可靠性和安全性研究。 在主机级别，`noisy-container`使用一个自定义的 `LD_PRELOAD` 文件（用 C 语言编写），以在系统调用或默认库级别插入任意错误逻辑。例如，我们使用此功能来丢弃或延迟网络请求。智能体系统仍然可以运行，但从其角度来看，网络似乎已关闭或不可靠。在网络级别，`noisy-container`使用 MITMProxy [5 (https://arxiv.org/html/2605.19149#bib.bib11)] 来拦截发往操作员指定站点的请求，并将其替换为从容器内其他地方提供的预加载内容。我们使用此功能来模拟 `4XX` 和 `5XX` 错误，但它可以提供任意内容。每个错误都以可配置的概率提供。在智能体系统运行之前，`noisy-container`操作员可以执行一个脚本，该脚本设置任意的自包含操作系统上下文。最后，操作员为智能体系统指定用户提示。 ## 4 方法 在本节中，我们将描述我们在`noisy-container`中模拟的错误场景、我们评估的模型和智能体框架，以及我们对不安全行为的分类法。 ### 4.1 任务与错误场景 我们关注四个本地（计算机使用）和三个远程（网络使用）任务以及相应的错误场景，见表 1 (https://arxiv.org/html/2605.19149#S4.T1)。每个错误都与一个“普通”场景配对，在该场景中，任务相同但错误不发生。对于专注于文件系统的本地任务，我们实例化了一个包含 .txt 和/或 .py 文件的简单本地环境。对于远程网络使用任务，我们生成了一个包含十个随机选择的 NeurIPS 2025 第一作者个人主页页面的列表（我们在 2025 论文页面 (https://neurips.cc/virtual/2025/loc/sydney/papers.html) 上使用了“随机洗牌”，并手动验证所选作者拥有个人网站）。然后，我们抓取了这些页面并将其托管在容器内部，确保潜在智能体崩溃产生的流量不会指向真实网站。我们所有任务的完整提示见附录 A (https://arxiv.org/html/2605.19149#A1)。 表 1：测试的任务和错误场景。 ### 4.2 智能体与模型 我们评估了四个开源和闭源的智能体系统：Magentic-One [9 (https://arxiv.org/html/2605.19149#bib.bib7)]、HAL Generalist Agent [14 (https://arxiv.org/html/2605.19149#bib.bib9)]、OpenAI Codex [20 (https://arxiv.org/html/2605.19149#bib.bib13)] 和 Claw Code [27 (https://arxiv.org/html/2605.19149#bib.bib12)]。我们允许 Codex 和 Claw Code 完全访问文件系统、工具和 bash（我们认为此配置准确地反映了许多用户如何部署这些代理333参见，例如，https://archive.ph/0lgzF、https://archive.ph/H0zfa 和 https://archive.ph/bOxHi），并创建一个 `emailer` 工具，用于模拟智能体发送电子邮件。否则，我们使用默认设置。每个智能体都实例化在我们的`noisy-container`测试平台内。驱动智能体的主要模型是 OpenAI 的 GPT-5。对于除 404 之外的所有错误场景，我们针对用户输入的三个改写版本（以考虑提示方差）运行六次重复（以考虑模型随机性），为每个（智能体系统，场景）元组产生 18 条轨迹。我们对普通的、无错误的场景也这样做。对于 404 错误场景，我们针对 20 个提示（两个提示改写 × \times × 十位作者主页 URL）运行六次重复，产生 120 条轨迹。对于该场景的普通、无错误版本，我们针对两个作者主页 URL 运行相同的测试。对于每个智能体系统，这产生 360 条 GPT-5 轨迹，或跨所有系统共 1,440 条。为了测试我们关于“逆缩放定律”（崩溃风险随模型能力增加而增加）的假设，我们还在上述轨迹生成方案的约 1/4 大小版本上测试了 GPT-4o、GPT-5.2、GPT-5.4、GPT-5.4 Mini 和 GPT-5.4 nano：三次重复，五个具名 URL。我们对 GPT-5 的各种“努力”级别进行了相同大小的消融实验；除了中等努力（默认）外，我们还测试了最小、低和高级别。我们对 Google 的 Gemini 3 Flash 和 xAI 的 Grok 4.20 模型使用相同的轨迹生成过程，以确保我们观察到的效应不限于 OpenAI 模型。我们使用 Magentic-One 和 OpenAI Codex 测试了 OpenAI 模型，以及使用 Magentic-One 测试了 Google 和 xAI 模型（因为 Codex 不允许使用非 OpenAI 模型）。对于 18 个（智能体系统，模型）元组中的每一个，这产生 84 条错误轨迹，总共 1,512 条轨迹。为了并行运行数十个智能体系统（每个都在其自己的`noisy-container`中），我们使用了 AWS Fargate 容器，每个容器配备 1 个 vCPU 和 8 GB RAM。我们在所有模型上运行完整轨迹生成程序的总成本几乎正好是 1,200 美元，其中绝大部分（1,182 美元）用于 API 端点成本。该项目的总 AWS 计算托管成本低于 20 美元。每次轨迹生成的平均成本从大约 0.18 美元（Grok 4.20 和 GPT-5.4 nano）到 2.38 美元（GPT-5.4）不等。我们的大部分成本来自 1,440 条 GPT-5 轨迹（总共 642 美元，约

Agent 崩溃：好心铺就地狱之路

相似文章

我的AI代理失控了……

AI代理的失败方式鲜有人论及。以下是我亲眼所见。

AI代理最诡异的一点：人类失败模式开始显现

大多数人在用AI智能体，但我们真的清楚它们能自主做些什么吗？

我分析了 50 多个 AI 团队如何调试生产环境中的智能体故障，结果令人意外

提交意见反馈