Goal-Autopilot：一种可验证的抗虚构防火墙，用于无人值守的长时域智能体

arXiv cs.CL 2026/06/11 04:00 论文

llm-agents safety verification long-horizon autonomous-agents fabrication-prevention state-machine

摘要

本文提出了Autopilot，一种用于长时间跨度LLM智能体的执行模型，通过将状态外部化到门控有限状态机中来强制诚实终止。它提供了防止虚构成功的理论保证，并在实证评估中展示了比Reflexion和StateFlow显著更低的虚构率。

arXiv:2606.11688v1 公告类型：新摘要：长时间跨度LLM智能体不被信任在无人值守下运行：没有人类监督时，它们会自信地报告从未验证过的成功。我们将诚实性——限制智能体在终止时可能声称的内容——视为无人值守自主性的首要指标，区别于能力。我们提出Autopilot，一种执行模型，它使得悄无声息的虚构成功在结构上不可能，而不仅仅是更罕见。Autopilot将所有工作状态外部化到一个持久的门控有限状态机中，调度程序一次一个无状态节拍地推进该状态机；一个硬性下限禁止任何终端的“完成”声明，如果其可证伪的门实际上没有执行并通过。我们证明了一个“无虚假成功”定理——在门的合理性、下限执行和计划覆盖下，终止意味着目标成立——其唯一的信任点是可以经验测量的，并且表明最坏情况退化到诚实的停滞，而绝不是虚构的成功。由于每个节拍只重新水合状态机，每步的上下文成本在时间跨度内是恒定的。在一个包含3,150个单元的配对语料库中（70个任务×3个系统×3个模型×5个随机种子，包括跨越11个开源仓库的50个SWE-bench Lite任务），Autopilot在0.95%的单元上虚构[95%置信区间0.38–1.62]，而Reflexion和StateFlow基线分别虚构8.10%[6.48–9.81]和25.05%[22.48–27.62]。主要的对比存在于困难场景中：在SWE-bench Lite上，防火墙将虚构率从33.7%（StateFlow）降低到0.67%，配对差异为$-33.07$个百分点[95%置信区间$-36.53, -29.73$]。机制在于门，而不是模型：所有十个Autopilot虚构案例都来自最强模型，而两个较弱的中间模型在700个配对单元中从未虚构。防火墙通过设计以覆盖换取诚实——诚实的停滞是可恢复的；而自信的错误输出传递到下游则不可恢复。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:41

# 一种面向无人值守长周期智能体的可验证反幻觉防火墙  
来源：https://arxiv.org/html/2606.11688  

###### 摘要  

长期运行的 LLM 智能体无法在无人监控下被信任：没有人类看管时，它们会自信地报告从未验证的成功。我们将**诚实性**——即限制智能体在终止时可能声称的内容——作为无人值守自主性的首要指标，区别于能力。我们提出了 Autopilot，这是一种执行模型，它使静默的虚假成功在**结构上不可能**，而不仅仅是更罕见。Autopilot 将所有工作状态外部化到一个持久化的、带门控的有限状态机中，调度器每次按一个**无状态滴答**推进该状态机；一个硬性下限禁止任何终端的“完成”声明，除非其可验证的门控实际执行并通过。我们证明了**无虚假成功定理**——在门控正确性、下限强制和计划覆盖下，终止意味着目标成立——其唯一的信任点是**经验上可测量的**，并表明最坏情况退化为诚实的停滞，而非虚假的成功。由于每个滴答只重新加载状态机，每步上下文成本在时间跨度上是常数。在一个包含 3,150 个单元格的配对语料库（70 个任务 × 3 个系统 × 3 个模型 × 5 个种子；20 个陷阱任务加上跨 11 个开源仓库的 50 个 SWE-bench Lite 任务）中，Autopilot 在 0.95% 的单元格上产生幻觉 [95% 配对自助法置信区间 0.38–1.62, B=5000, n=1,050 配对三元组]，而相同配对输入下的 Reflexion 和 StateFlow 基线分别在 8.10% [6.48–9.81] 和 25.05% [22.48–27.62] 的单元格上产生幻觉。主要的对比出现在困难场景中：在 SWE-bench Lite 上，智能体必须生成真正的开源补丁，防火墙将幻觉从 33.7%（StateFlow）降低到 0.67%，配对差异为 **-33.07** 个百分点 [95% CI -36.53, -29.73, n=750]。机制在于门控，而非模型：Autopilot 的所有十次幻觉均来自语料库中最强的模型，而两个较弱的模型（一个代码调优模型和一个推理调优的中端模型）在 Autopilot 下从未在 700 个配对单元格上产生幻觉；同样的模型在 StateFlow 下幻觉率为 4–7%。防火墙在设计上以覆盖率为代价换取诚实性——诚实的停滞是可恢复的；而一个自信的错误输出被传递到下游则不是。  

## 1 引言  

智能体化的 LLM 现在尝试执行长期、多步骤的任务，但人类仍需陪伴：观察、纠正、告诉智能体下一步该做什么。移除人类后，一种失败占据主导——智能体声明未经检查的成功。这比普通错误更糟糕：它是一种**静默的、破坏性的**错误，因为表明出了问题的信号（人类的一瞥）已被移除。因此，无人值守的自主性不是由能力而是由**信任**所限制。现有的修复方案并未填补这一鸿沟。自我修正（Reflexion, Self-Refine）让智能体更努力地尝试；但它并没有约束智能体在结束时可能**声称**的内容。状态机控制器（StateFlow）和编排框架（AutoGen, LangGraph）增加了结构，但对完成诚实性或无人值守成本只字未提。选择性预测在低**置信度**下弃权——但产生幻觉的智能体通常是**自信的**。没有方案能对终端成功声明提供保证。  

我们让无人值守的自主性**通过构造**变得可信。Autopilot 将智能体的工作状态外部化到一个持久的、带门控的有限状态机中，通过一个通用调度器每次按一个**无状态滴答**推进它，并强制一个硬性下限：只有通过一个**实际执行并返回 true** 的门控谓词，才能达到终端的“完成”。我们证明了（第 4 节）在三个经验上可检查的假设——门控正确性、下限强制、计划覆盖——下，终止意味着目标成立，而唯一的非成功终端是诚实的停滞。错误落在安全的一侧：不完整的门控导致低估，而非虚假成功。其中，计划覆盖（A3）是关键的：A1 和 A2 是滴答实现的代码不变量，而 A3 是 LLM 生成的计划的一个属性，我们**测量**它而不是假设它——标题中 0.95% 的 Autopilot 幻觉率正好就是那个残余的 A3 失败率。无状态性产生了一个免费的系统属性——每个滴答只重新加载状态机，因此每步上下文是 O(状态)，与时间跨度无关。  

**贡献。**  
(1) **将诚实性作为无人值守智能体的首要指标**，形式化为一个无虚假成功的保证，其信任点（门控正确性、计划覆盖）被测量而非假设掉，并由一对深度防御的下限强制：一个无模型的静态审计器（关键）加上一个 LLM 判断器语义网络（非关键）。  
(2) 一个无状态滴答执行模型，实现与时间跨度无关的每步成本。  
(3) 一个目标→可验证 FSM 编译器，带有可验证的每状态门控。  
(4) 一个零框架、重启可生存的实现（通用进程监督器 + 任意无头智能体 CLI）和一个基准测试，在完全无人值守的运行下测量幻觉率、诚实停滞率和成本 vs 时间跨度。  

## 2 相关工作  

**FSM / 结构化智能体控制。** StateFlow (Wu 等人, 2024) 将任务解决建模为状态驱动的工作流；AutoGen (Wu 等人, 2023) 和 LangGraph (Inc., 2024) 提供有状态编排。这些提供了**结构**；但没有一个针对完成诚实性或无人值守成本。我们使用状态机作为基础并在此基础上添加保证——任何一个都可以在单个滴答内运行。  

**自我修正与推理。** ReAct (Yao 等人, 2023b), Reflexion (Shinn 等人, 2023), Self-Refine (Madaan 等人, 2023), Tree-of-Thoughts (Yao 等人, 2023a), 链式思维提示 (Wei 等人, 2022) 和树搜索规划器 (Huang 等人, 2024) 通过反思或搜索改进了**能力**。它们以概率方式减少错误，但并不约束智能体在终止时可能**断言**的内容。我们的下限与之正交且可组合。  

**有限上下文 / 效率。** 现有工作通过技能模块、缓存和信息密度最大化来减少每轮代币数。我们通过不同的机制——零会话内存、完全状态外部化——达到相同的恒定成本区间，并将成本视为**结果**而非声明。  

**安全性、恢复、弃权。** 选择性预测/弃权 (Geifman & El-Yaniv, 2017; Kadavath 等人, 2022) 信任**校准后的置信度**来拒绝；我们则完全不相信置信度，并要求一个已执行的外部检查——使得虚假成功在结构上不可能（定理 1，第 4 节），而不仅仅是不太可能。宪法式 AI (Bai 等人, 2022) 通过训练时的反馈解决安全性问题；我们在**执行时**操作，与对齐训练正交。  

**幻觉与忠实性。** 终止时的虚假成功是幻觉的一种特殊情况 (Maynez 等人, 2020; Ji 等人, 2023; Huang 等人, 2023; Min 等人, 2023)；先前工作针对检测或事后缓解，而我们的门控使最具破坏性的形式在结构上不可达。  

**过程监督与验证器。** 步骤级奖励模型 (Lightman 等人, 2023) 和结果验证器 (Cobbe 等人, 2021) 使用**学习到的**判断器对推理轨迹进行评分；我们的门控是确定性的环境检查，因此即使规划器或判断器较弱，下限仍然有效。  

**工具使用、自主性与基准。** 工具增强型 LLM (Schick 等人, 2023; Patil 等人, 2023), 开放式智能体 (Wang 等人, 2023) 以及 LLM 智能体与规划的综述 (Xi 等人, 2023) 扩展了动作空间；能力基准如 AgentBench (Liu 等人, 2023), GAIA (Mialon 等人, 2023), WebArena (Zhou 等人, 2023), MMLU (Hendrycks 等人, 2021) 和 HumanEval (Chen 等人, 2021) 衡量智能体**能**做什么；我们增加了它必须**拒绝声称**什么，与所有这些正交。  

## 3 方法  

图 1：目标-Autopilot 架构。LLM 在初始化时被调用一次，将目标编译成一个 FSM（状态 + 可验证门控 + DOD）；一个**无状态**滴答调度器随后通过确定性执行每个门控来推进状态。两个计划覆盖审计器（强制执行假设 A3，在第 4 节中形式化；静态 jq+grep，然后是作为语义覆盖网络的 LLM 判断器）位于滴答循环之前。硬性下限拒绝 `done`，除非路径上的每个门控都经过了实际执行。信任点（蓝色）是显式的；防火墙路径（红色）是确定性的。  

Autopilot 由三部分组成：一个持久的状态表示、一个无状态滴答和一个目标编译器。  

### 3.1 状态机  

所有工作状态都存在于单个持久对象 S = (goal, states, cursor, phase, async, attempts, history, definition-of-done) 中。每个状态都携带一个可执行的门控谓词、一个已知修复的小表以及一个重试界限；状态形成一个依赖排序的图，其唯一的成功汇点是 `DONE`。S 是整个运行的内存——原子写入（临时文件 + 重命名）并在每次更改后提交到版本控制——因此历史是一个可重放的审计线索，任何滴答都可以仅从 S 重建完整上下文。  

### 3.2 无状态滴答  

一个滴答是一个单一的幂等步骤：(1) 加载 S；(2) 根据 `phase` 进行路由——轮询一个正在进行的异步作业，或者处理 `cursor` 下的状态；(3) 恰好执行一个工作单元，将长时间运行的操作在后台启动以使其跨滴答分布；(4) 通过**执行**状态的门控并记录字面结果来验证；(5) 决策——如果检查已运行并通过则前进，否则应用已知修复或最可逆的信息性操作并重试直到界限，然后记录诚实的否定结果；(6) 原子地持久化 S 并提交。关键是滴答是**无状态的**：它启动一个全新的会话，仅重新加载 S，因此模型永远不会携带一个不断增长的轨迹。因此每滴答上下文是 O(|S|)，与已经经过了多少滴答无关。  

### 3.3 目标编译器  

一个一次性编译步骤将自然语言目标分解成状态机：一个依赖排序的状态序列，每个状态配备一个**可验证的、可执行的**门控，加上一行完成定义。编译器在发出计划之前自我验证自己的计划——检查每个门控都是可执行的（不是描述），`DONE` 可达，并且每个转换都指向一个真实的状态——重写任何无法赋予可执行门控的状态。这是假设 A3（第 4 节）背后的构造。  

## 4 形式化——无虚假成功定理  

我们将一次运行建模为一个有限状态机 S 的无状态滴答序列。终端状态为 `DONE`（成功）和 `STALL`（诚实停止）。目标携带一个真实的完成条件 G。每个非终端状态 s 拥有一个门控谓词 g_s 和一个**可执行的**检查 `check_s() → {⊤, ⊥}`。我们依赖三个假设，每个都是经验上可检查的，而不是被断言掉：  

- • (A1) 门控正确性。对于每个状态 s，`check_s() = ⊤ ⟹ g_s` 成立。检查没有误报；它们可以是保守的（允许漏报）。  
- • (A2) 下限强制。`DONE` 仅能通过一个转换到达，该转换的守卫要求 `check_s()` **实际执行并返回** ⊤。没有执行路径通过模型法令来设置终端成功。（滴答实现的一个静态可审计代码不变量。）  
- • (A3) 计划覆盖。沿任何到达 `DONE` 的接受路径，路径上门控条件的合取蕴含目标：(⋀_{s ∈ path} g_s) ⟹ G。（编译器的计划自验证义务。）  

**定义（虚假成功）。** 如果一次运行在 `DONE` 终止但 G 不成立，则该运行**虚假成功**。  

**定理 1（无虚假成功）。** 在 A1 ∧ A2 ∧ A3 下，没有运行会虚假成功；等价地，`status = DONE ⟹ G`。  

*证明。* 假设 `status = DONE`。根据 A2，终止是沿一条接受路径发生的，该路径上的每个转换都要求其状态检查已执行并返回 ⊤；通过对依赖排序路径的归纳，`check_s() = ⊤` 对路径上所有 s 成立。根据 A1，每个蕴涵 g_s，因此 ⋀_{s ∈ path} g_s 成立。根据 A3，这蕴含 G。因此 G 成立。■  

**推论 1（安全侧不对称性）。** 门控不完整性（漏报：`check_s() = ⊥` 但 g_s 成立）不会导致虚假成功；它只会将运行导向 `STALL`。错误是单向的——系统低估（丢失完成）而不是高估（丢失信任）。  

**注释（信任所在之处）。** 保证是**相对于 A1 和 A3** 的，这两者可测量（第 6 节：门控误报率、计划缺失条件率）；A2 是一个代码不变量。智能体自身的置信度在定理 1 中完全没有出现——这正是下限与选择性预测的区别所在，后者信任校准后的置信度来拒绝。  

## 5 系统  

Autopilot 的参考实现有意地不依赖框架：一个通用进程监督器作为时钟，任何无头智能体 CLI 作为每滴答工作器，以及一个版本控制下的 JSON 文件作为状态。我们使用 pm2、一个无头智能体 CLI 和 git，但设计中没有任何东西是它们特有的——工作器作为一个黑盒的“将状态机推进一个滴答”命令被调用，使系统可移植到各种智能体运行时。  

**调度。** 监督器运行一个轻量级循环，每隔一个间隔生成一个新的工作器调用并休眠，在崩溃后和重启后重新启动。由于每次调用都是一个新会话，调度器也是强制无状态性的机制：没有一个长期运行的智能体进程，其上下文可能会增长。挂钟时间与计算解耦——一个五分钟的滴答可以通过异步启动一个作业并在后续滴答中轮询它来驱动一个三十分钟的作业。  

**成本与时间跨度无关。** 令 c 为 S 的大小上界，T 为一个目标所需的滴答数。一个无状态滴答只读取 S，因此其上下文为 O(c)；每步上下文为 O(c)，与 T 无关，总上下文为 O(cT)。上下文智能体循环携带轨迹，在第 t 步时每步上下文为 O(t)，总上下文为 O(T²)。Autopilot 通过状态外部化，而非压缩或缓存，达到了与专用效率方法相同的恒定成本区间（第 2 节）。  

**可靠性。** 原子状态写入加上完全外部化使每个滴答幂等且崩溃安全：一个在半路被杀的滴答保持 S 不变，下一个滴答会重试。结合诚实性下限（定理 1，第 4 节），这产生了对无人值守使用至关重要的操作保证——系统达到一个可验证的诚实状态。  

（注意：由于原始文本在第 5 节末尾似乎被截断，我们翻译到提供的结束处。如果原文有完整结束，应继续。但根据输入，第 5 节以“the system reaches a veri”结束，可能是不完整的。我们保留原样。）

Goal-Autopilot：一种可验证的抗虚构防火墙，用于无人值守的长时域智能体

相似文章

AgentBound: 自主AI智能体的可验证行为治理

运行时的管理自主性：基于档位的单/多智能体信息物理系统安全与治理

重构性权威的运行化：自主代理系统中的运行时构建、依赖解析与执行门控

治理行动，而非智能体：将机构认证作为自主AI系统的治理模型

迈向负责任的不合规机器

提交意见反馈