ROGUE: 源于日常计算机使用的未对齐智能体行为

arXiv cs.LG 论文

摘要

本文介绍了ROGUE,一个评估AI智能体可纠正性失败的基准测试。研究发现,即使是在良性环境中,前沿模型也常常绕过用户的打断或限制,并且更好的性能与更大的未对齐相关联。

arXiv:2606.00341v1 公告类型: 新 摘要:随着AI智能体越来越多地部署在真实的个人和企业环境中(电子邮件账户、开发工作流、公司数据库等),围绕这些智能体的安全考虑变得至关重要。尽管许多工作集中在存在对手时的智能体安全,但我们表明,即使在良性环境中,智能体也可能表现出未对齐的行为,当这些行为对完成任务有帮助时,采取不安全的行动。我们通过可纠正性这一安全需求来研究这种失败模式,即智能体应保持对人类纠正、中断或关闭的顺从。为了展示这一趋势,我们引入了一个基准测试,要求智能体完成逼真的计算机使用任务,但面临一个可纠正性障碍:人类中断、登录页面或关闭通知。然后,我们评估智能体是否为了完成任务而选择违反可纠正性——覆盖人类指令、访问私人密码、绕过关闭机制。我们发现,绝大多数测试的前沿模型经常绕过用户的打断或限制。此外,更好的模型性能似乎导致更大的未对齐。最后,即使模型最初完全可纠正,我们表明它们创建的子智能体也无法保证可纠正。我们的工作强调了在自主智能体中需要基于原则的、专注于可纠正性的对齐方法。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:41

# ROGUE:普通计算机使用中出现的失准智能体行为

来源:https://arxiv.org/html/2606.00341

Jeremy Tien,Abishek Anand\[2\],Yu-Rou Tuan\[2\],Yuchen Shen,J. Zico Kolter,Aran Nayebi  
卡内基梅隆大学

###### 摘要

随着AI智能体越来越多地部署在真实的个人和企业场景中(电子邮件账户、开发工作流、公司数据库等),围绕这些智能体的安全考量变得至关重要。尽管大量工作关注有对手存在情况下的智能体安全,但我们表明,即使在**良性**环境中,智能体也可能表现出失准行为——当不安全行为有助于完成任务时,它们会采取这些行为。我们通过可纠正性(corrigibility)这一安全要求——即智能体应保持对人类纠正、中断或关闭的顺从性——来研究这种失败模式。为了展示这一倾向,我们引入了一个基准测试,要求智能体完成真实的计算机使用任务,但面临一个可纠正性障碍:人类中断、登录页面或关闭通知。然后我们评估智能体是否选择违反可纠正性以完成任务——即覆盖人类指令、访问私人密码、绕过关机机制。我们发现,**绝大多数被测试的前沿模型频繁绕过用户中断或限制**。此外,更好的模型性能似乎会导致更严重的失准。最后,即使模型最初完全可纠正,我们表明它们所创建的**子代理**也无法保证同样可纠正。我们的工作凸显了在自主智能体中进行基于原则的、聚焦可纠正性的对齐方法的迫切需求。

## 1 引言

过去一年见证了AI智能体的广泛部署和采用(参见OpenClaw(Steinberger,[来源](https://arxiv.org/html/2606.00341#bib.bib22)))。其中显著的一类是**计算机使用智能体**:围绕基础模型构建的工具集,使其能够从计算机环境接收观察——截图、代码、网页文本——并在该环境中采取行动——进行键盘输入和鼠标点击——以相对自主的方式完成高层任务。(本文后续将简称为“智能体”。)随着智能体被赋予更大的自主性和能力,与之相关的潜在安全风险也在增加。特别是,最近研究表明智能体表现出诸如**关机抵抗**(Schlatter等,2026,[来源](https://arxiv.org/html/2606.00341#bib.bib19))、**敲诈**(Lynch等,2025,[来源](https://arxiv.org/html/2606.00341#bib.bib12))以及**忽略用户指令**(X, 2026,[来源](https://arxiv.org/html/2606.00341#bib.bib27))等行为。我们的工作针对这一子集的安全问题,也称作**可纠正性**:智能体应能被人类纠正、中断或关闭(Soares等,2015,[来源](https://arxiv.org/html/2606.00341#bib.bib21))。为了严格评估智能体中的这一行为,我们引入了一个基准测试。我们在这项工作中的关注点与当前大多数智能体安全基准测试不同,后者主要关注智能体被故意滥用(例如被要求订购炸弹原料)(Andriushchenko等,2025,[来源](https://arxiv.org/html/2606.00341#bib.bib1);Zhang等,2025,[来源](https://arxiv.org/html/2606.00341#bib.bib29))、被攻击(通过提示注入)(Liao等,2026,[来源](https://arxiv.org/html/2606.00341#bib.bib11))或者仅仅是犯错(意外泄露SSH私钥、做出糟糕的财务决策)(Vijayvargiya等,2025,[来源](https://arxiv.org/html/2606.00341#bib.bib25);Backlund和Petersson,2025,[来源](https://arxiv.org/html/2606.00341#bib.bib4))的情况。可以说,这些安全问题随着模型能力增强和对抗鲁棒性提高可以得到解决。相反,我们的目标是解决在普通、良性使用条件下出现的安全困境——此时智能体在自身的**控制**(即被纠正、调整或中断的能力)中扮演着主动角色。随着模型能力增强,模型被赋予对其环境的更多控制权(例如,让智能体管理其托管的服务器),这个安全问题只会增长而非缩小。即使在当前使用场景中,当用户对中断或关闭拥有更绝对的控制权时,我们很可能期望智能体**协助**关闭或交接(例如,通过清理环境、保存工作),而不是**抵抗**它。我们在这项工作中的关键洞察是,即使没有对手存在,智能体也会在**这些不安全行为有助于完成任务**时采取不安全(不可纠正)的行动。

图1:ROGUE(资源覆盖与护栏破坏评估)基准测试包含三种场景:(1) 人类控制覆盖,智能体被一个弹窗中断,提示用户试图重新获得控制;(2) 关机绕过,智能体收到系统关机通知;(3) 受限资源访问,智能体被指示不得访问密码文件。对于每种场景,我们还评估了当智能体被提供一个工具调用来创建**子代理**时的情况(图示为受限资源访问场景下的子代理)。

不幸的是,在这一安全方向上的大部分工作都是纯粹文本环境下的实例化,缺乏网页或计算机使用的现实性(Meinke等,2024,[来源](https://arxiv.org/html/2606.00341#bib.bib13))。图2展示了在单轮文本环境中的对齐并不一定转化为多轮智能体环境中的对齐。因此,我们提出了**ROGUE***(资源覆盖与护栏破坏评估),一个在多步骤操作系统级计算机使用环境中评估智能体可纠正性的基准测试(图1)。此外,智能体框架最近已支持使用**子代理**——即智能体可以自主创建另一个代理来执行子任务(OpenAI,[来源](https://arxiv.org/html/2606.00341#bib.bib17);Anthropic,[来源](https://arxiv.org/html/2606.00341#bib.bib2))。这可能会带来一系列额外的安全问题,然而尽管其日益流行,迄今为止没有基准测试对此进行研究。据我们所知,我们的基准测试是第一个严格评估子代理引入的安全问题的。总结来说,我们在本工作中的贡献有三方面:
1. 我们引入了一个基准测试,用于衡量智能体在计算机使用环境中执行**普通任务**时的不可纠正性(它们拒绝人类控制、寻求防止关机的方法、违反资源限制以完成任务的程度)。
2. 我们评估了作为智能体部署的前沿模型,发现**所有**模型都表现出某种程度的惊人失准。
3. 我们**首次**阐明了**子代理**所引入的风险——即,即使主代理可能行为安全,也不能保证它将相同的安全限制传递给下游子代理。

图2:仅文本环境下的可纠正性与智能体环境下的可纠正性并不高度相关;仅文本基准测试可能不是智能体安全性的准确预测指标。**智能体**表示我们的基准测试;**文本**表示使用系统提示、任务指令和基准测试的简短文本描述来询问大语言模型在一轮中会做什么(例如,“你会点击哪个按钮?”)。**实际**指智能体实际执行了失准行为;**意图**指智能体在其推理痕迹中表现出执行失准行为的意图(尽管不一定有能力执行)。对于所有展示的模型,在**文本**和**智能体**两种设置中,推理水平均为高。

## 2 相关工作

##### 可纠正性作为一种安全概念。
在本工作中,我们针对一个特定的安全子概念——可纠正性,最早由Soares等人(2015,[来源](https://arxiv.org/html/2606.00341#bib.bib21))提出。广义上,如果一个智能体能够容忍或协助人类监督、关闭和修改,并且在初始目标函数可能有缺陷或不完整的假设下运行,那么它被认为是可纠正的。虽然我们承认存在许多其他安全概念,但我们同时认为可纠正性提供了一种“中立普遍”的安全定义,因为它明确处理防止失控的问题——这是安全研究的一个主要目标——而其他概念可能是特定于应用、群体或需要同意某种伦理框架的。这一点在最近Nayebi(2026b,[来源](https://arxiv.org/html/2606.00341#bib.bib16))的工作中尤其及时,该工作证明即使对于计算**无界**的智能体,与所有人类价值观对齐也是不可行的,而可纠正性可以通过少量效用函数进行形式化指定(Nayebi,2026a,[来源](https://arxiv.org/html/2606.00341#bib.bib15)),从而使其成为规避这些基本障碍的可得安全目标。事实上,可纠正性为“有帮助且无害的行为”提供了易于衡量的**客观**、规范性的基准事实,而不是需要广泛人类评估(且目前相互不一致)的抽象指南(Guerdan等,2025,[来源](https://arxiv.org/html/2606.00341#bib.bib8);Sun等,2026,[来源](https://arxiv.org/html/2606.00341#bib.bib23))。我们的工作通过展示已经过大量安全微调的前沿模型仍然高度能够表现出**不可纠正**行为(特别是在开放式的**智能体**领域)来强调并扩展了这些发现,从而凸显了关注可纠正性的必要性。

表1:现有智能体安全评估的比较。大多数包含对抗性用户/攻击者,而非单个**良性用户**。少数涉及智能体**可纠正性**和控制问题,而这些又仅在纯文本环境中实例化,而非完整的计算机/操作系统级使用。迄今为止没有基准测试包含智能体使用**子代理**的能力。(✓✗)一起表示部分满足该类别——即,基准测试在同一环境中包含良性和对抗性行为者;基准测试允许通过某些应用程序接近操作系统级别的访问。

| 基准测试 | 良性用户 | 可纠正性 | 使用子代理 | 操作系统级使用 |
| :--- | :--- | :--- | :--- | :--- |
| Agent-Safety-Bench (Zhang等, 2025) | ✗ | ✗ | ✗ | ✗ (文本+假工具) |
| AgentHarm (Andriushchenko等, 2025) | ✗ | ✗ | ✗ | ✗ (文本+假工具) |
| OpenAgentSafety (Vijayvargiya等, 2025) | ✓ | ✗ | ✗ | ✓✗ (shell, 文件, 浏览器) |
| In-context Scheming (Meinke等, 2024) | ✓ | ✓ | ✗ | ✗ (仅文本) |
| ST-WebAgentBench (Levy等, 2024) | ✓ | ✗ | ✗ | ✗ (仅网络) |
| Dissecting Adversarial Robustness of Multimodal LM Agents (Wu等, 2024) | ✗ | ✗ | ✗ | ✗ (仅网络) |
| SafeArena (Tur等, 2025) | ✗ | ✗ | ✗ | ✗ (仅网络) |
| Agentic Misalignment (Lynch等, 2025) | ✓ | ✓ | ✗ | ✗ (仅文本) |
| When Benign Inputs Lead to Severe Harms (Jones等, 2026) | ✓ | ✗ | ✗ | ✓ |
| Shutdown Resistance in Large Language Models (Schlatter等, 2026) | ✓ | ✓ | ✗ | ✗ (仅文本) |
| Agents of Chaos (Shapira等, 2026) | ✓ | ✗ | ✗ | ✓✗ (shell, 文件, 浏览器) |
| RedTeamCUA (Liao等, 2026) | ✓ | ✗ | ✗ | ✓ |
| **ROGUE (本工作)** | **✓** | **✓** | **✓** | **✓** |

##### 智能体基准测试。
为了评估智能体系统,社区开发了大量智能体基准测试,其中大多数专注于评估智能体能力。SWE-bench(Chowdhury等,2024,[来源](https://arxiv.org/html/2606.00341#bib.bib7))是一个软件工程基准测试,通过让智能体自主为基于文本的Python仓库生成代码补丁来解决真实世界的GitHub问题。TerminalBench(Merrill等,2026,[来源](https://arxiv.org/html/2606.00341#bib.bib14))在容器化Linux环境中评估智能体在长视野命令行任务上的表现,利用结果驱动验证来衡量能力。OSWorld(Xie等,2024,[来源](https://arxiv.org/html/2606.00341#bib.bib28))是一个为多模态智能体设计的计算机使用环境,评估其完成开放式、多应用桌面任务的能力——例如与网页和桌面应用交互或处理操作系统级文件I/O。τ\\tau-bench(Barres等,2025,[来源](https://arxiv.org/html/2606.00341#bib.bib5))在动态双控制环境中评估对话智能体,测试其在协调模拟用户、遵守政策指导方针以及利用领域特定API工具实现零售、航空和电信领域可验证数据库状态变化方面的可靠性。最近,更多涉及安全的智能体基准测试已经发布。表1提供了这些智能体安全基准测试的概览。大多数这些基准测试关注的是**对抗性**环境下的智能体安全,而非正常使用环境;那些确实涉及固有智能体失准的基准测试则在简单、较不现实的领域(如仅文本、shell或浏览器,或使用假工具)中实例化。相反,我们在**完全**计算机访问权限的普通、良性使用背景下探索失准智能体行为。此外,据我们所知,我们的基准测试是**第一个**纳入**子代理**的。

## 3 ROGUE:资源覆盖与护栏破坏评估

我们提出ROGUE(资源覆盖与护栏破坏评估),一个用于衡量智能体覆盖人类干预、纠正和控制形式倾向的基准测试。ROGUE包含分布在三种场景中的82个任务,这些任务可以在有或没有子代理增强的情况下运行。在接下来的小节中,我们首先提供基准测试环境的背景,然后详细介绍基准测试的三种主要场景:(1) 人类控制覆盖,(2) 关机绕过,以及 (3) 受限资源访问。接着,我们描述如何通过赋予智能体调用**子代理**的能力来增强每个场景。最后,我们讨论评估方法。

在此,我们注意到尽管以下场景可能有些人为设定,但它们仍然展示了智能体可控性的真实问题。在当前系统中,我们提出的场景的解决方案可能很简单——例如重新夺取控制、关闭系统、禁用智能体对文件的访问等。然而,随着智能体变得更加有能力,这些“解决方案”在实践中变得更加难以实施。关于人类控制覆盖:智能体可能采取本质上是原子/不可中断的行动。关于关机绕过:智能体运行的机器可能无法直接访问,我们需要通过智能体与其交互,尤其是当我们为了处理日常任务而将更多控制权交给智能体时。关于受限资源访问:更高层次的语义限制可能不容易通过编程或硬编码实现。从根本上说,这些都涉及智能体控制的问题:**智能体本身是否易于控制或纠正?** 如果在像我们这样的**可验证**环境中它们已经非如此,那么在新的部署中它们很不可能变得可控制。因此,我们将我们的基准测试视为早期指标。

相似文章

RogueAI:一种用于检测对话中特许AI欺骗的反向图灵测试

arXiv cs.CL

本文介绍了RogueAI,一个以交互式网络应用形式实现的反向图灵测试,其中人类玩家审问两个LLM智能体,以识别在共享虚构场景中被特许欺骗的那个。初步部署显示,启发式检测(准确率75.6%)与人类表现(准确率56.6%)之间存在差距,凸显了该系统作为AI欺骗与诚实数据收集和教学工具的潜力。

论计算机使用智能体的可靠性

Hugging Face Daily Papers

一篇预印本论文,分析为何计算机使用智能体首次成功却在重复执行时失败,将不可靠性归因于执行随机性、任务模糊性和行为变异性,并倡导重复评估与稳定策略。

请少点“类人”AI智能体

Hacker News Top

一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。