通用智能体的构建式治理

arXiv cs.AI 论文

摘要

本文介绍了CUGA的策略系统,一个模块化的策略即代码层,在LLM智能体执行的多个检查点实施治理,无需模型微调即可实现可预测和可审计的行为。

arXiv:2605.20874v1 公告类型:新 摘要:企业智能体越来越期望自主跨工具和接口运行,但生产部署需要构建式治理。系统必须指定哪些操作被允许、何时需要人类监督、以及哪些信息可以暴露,而无需为每个领域重建智能体。本演示介绍了CUGA的策略系统,一个模块化的策略即代码层,与通用LLM智能体组合,在复合工作流中提供可预测、可审计且合规感知的行为,无需模型微调。我们提出了一种运行时治理架构,在执行的关键阶段执行策略干预。策略不是被动地约束行为,而是在五个结构性检查点拦截智能体:规划上游(Intent Guard)、系统提示内以引导推理(Playbook)、工具调用边界以强制执行正确用法(Tool Guide)、推理循环外作为高风险行动的人机回环门(Tool Approvals)、以及输出阶段以过滤和结构化最终响应(Output Formatter)。这些阶段共同将治理持续嵌入智能体的执行管道中,而不是将其视为事后考虑。通过一个医疗场景和多层强制干预,该演示展示了动态Playbook注入用于结构化工具序列强制、Intent Guard阻止恶意或意外有害请求、以及人机回环工具审批检查点用于潜在破坏性行动。该工件展示了类型化治理原语如何使企业智能体系统更快、更安全地部署,同时提高策略遵守和执行一致性。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:49

# 面向通用智能体的“通过构造实现治理”

来源:https://arxiv.org/html/2605.20874  
Iftach Shoham\(IBM海法研究院 以色列\), Alon Oved\(IBM海法研究院 以色列\), Ido Levy\(IBM海法研究院 以色列\), Sami Marreed\(IBM海法研究院 以色列\), Harold Ship\(IBM海法研究院 以色列\), Offer Akrabi\(IBM海法研究院 以色列\), Sergey Zeltyn\(IBM海法研究院 以色列\), Avi Yaeli\(IBM海法研究院 以色列\) 以及 Nir Mashkif\(IBM海法研究院 以色列\)

\(2026\)

###### 摘要。

企业级智能体正越来越多地被期望能够跨工具和界面自主运行,然而生产环境部署需要一个“通过构造实现治理”的系统。系统必须明确哪些操作是允许的、何时需要人工监督、哪些信息可以公开,而无需为每个领域重新构建智能体。本演示展示了 CUGA 的策略系统,这是一个模块化的“策略即代码”层,与通用大语言模型智能体组合,可在复合工作流中提供可预测、可审计且符合合规性的行为,且无需进行模型微调。我们提出了一种运行时治理架构,在执行的关键阶段强制执行策略干预。策略并非被动地约束行为,而是在五个结构性检查点拦截智能体:规划阶段的上游(意图守卫)、系统提示中引导推理(剧本)、工具调用边界确保正确使用(工具指南)、推理循环之外作为高风险操作的人工介入门控(工具审批),以及输出阶段筛选和结构化最终响应(输出格式化器)。这些阶段共同作用,将治理持续嵌入智能体的执行流水线,而非事后处理。通过一个医疗场景和一项多层强制干预,本演示展示了用于结构化工具序列强制的动态剧本注入、阻止恶意或意外有害请求的意图守卫,以及针对潜在破坏性操作的人工介入工具审批检查点。该工件展示了类型化治理原语如何实现企业级智能体系统更快、更安全的部署,同时提升策略遵循度和执行一致性。

通用智能体、计算机使用智能体、治理、策略系统、LLM 智能体

††版权:ACM 授权††期刊年份:2026††版权:cc††会议:ACM 人工智能与智能体系统会议;2026年5月26–29日;美国加州圣何塞††会议论文集:ACM 人工智能与智能体系统会议 (CAIS '26),2026年5月26–29日,美国加州圣何塞††doi:10.1145/3786335.3813192††isbn:979-8-4007-2415-2/2026/05††ccs:计算方法 → 智能体

## 1. 引言

基于 LLM 的智能体越来越多地被用于在企业软件环境中执行复杂的多步骤任务,这扩展了早期在会话式 RPA、下一动作推荐和流程感知自动化方面的工作 (Yaeli 等人,2022 (https://arxiv.org/html/2605.20874#bib.bib17);Zeltyn 等人,2022 (https://arxiv.org/html/2605.20874#bib.bib12);Oved 等人,2025 (https://arxiv.org/html/2605.20874#bib.bib14))。与静态聊天机器人不同,现代智能体集成了规划、内部和外部工具使用、记忆和迭代推理,以跨异构系统执行复合工作流。工具增强型和计算机使用型智能体的最新进展使其能够与 API、数据库和用户界面交互,从而自主检索数据、修改记录和触发通信。尽管这种灵活性实现了泛化,但先前关于 LLM 自动化智能体和网络智能体基准的工作 (Ying 等人,2025 (https://arxiv.org/html/2605.20874#bib.bib26)) 表明 (Ma 等人,2026 (https://arxiv.org/html/2605.20874#bib.bib21);Yang 等人,2025 (https://arxiv.org/html/2605.20874#bib.bib23);Luo 等人,2025 (https://arxiv.org/html/2605.20874#bib.bib24);Shi 等人,2025 (https://arxiv.org/html/2605.20874#bib.bib25);Jiang 等人,2025 (https://arxiv.org/html/2605.20874#bib.bib27);Chen 等人,2025 (https://arxiv.org/html/2605.20874#bib.bib28)),这也会引入不可预测性:智能体可能产生幻觉事实、误用工具、违反流程约束、表现不一致或泄露敏感信息 (Schwartz 等人,2023 (https://arxiv.org/html/2605.20874#bib.bib13);Shlomov 等人,2025 (https://arxiv.org/html/2605.20874#bib.bib15);Levy 等人,2024 (https://arxiv.org/html/2605.20874#bib.bib16))。在企业环境中,此类故障不仅仅是质量下降;它们可能导致合规性违规、数据泄露、财务影响或声誉损害。

许多当前的治理策略依赖于提示工程技术、指令填充、约束注入和事后验证 (Tsai and Bagdasarian, 2025 (https://arxiv.org/html/2605.20874#bib.bib1);Gaurav 等人,2025 (https://arxiv.org/html/2605.20874#bib.bib2);Zwerdling 等人,2025 (https://arxiv.org/html/2605.20874#bib.bib4))。虽然这些方法可以在受控场景中塑造模型行为,但它们表现出一些结构性局限性。行为约束与提示结构紧密耦合,随着策略发展可能变得脆弱;治理逻辑经常在多个智能体部署中重复;执行决策被委托给模型推理,因此难以审计;独立实现的防护栏可能在没有原则性冲突解决的情况下产生不一致的结果。更结构化的方法通过角色专业化或防护代码来编码操作流程 (Hong 等人,2023 (https://arxiv.org/html/2605.20874#bib.bib3);Zwerdling 等人,2025 (https://arxiv.org/html/2605.20874#bib.bib4)),但当流程发生变化时,通常需要重大的架构承诺或领域特定的重新配置。Parlant 的 (Parlant, 2025 (https://arxiv.org/html/2605.20874#bib.bib10)) 基于指导方针的对齐层在推理时动态检索和注入自然语言规则和工具使用,但仍然侧重于本地、聊天级别的合规性。基于技能的方法,如 Claude 的技能系统,提供了在执行期间应用的可复用行为模板。这两种方法仍然依赖于模型来解释和遵循指令,使得策略遵循本质上具有概率性和脆弱性。随着企业采纳的加速,治理必须超越提示级别的启发式方法,转向“通过构造实现策略”:显式的、类型化的、运行时执行的、独立于模型本身的控制原语。

在这项工作中,我们展示了我们对值得信赖、企业就绪的通用智能体愿景的实现,它建立在先前关于自动化信任、网络智能体瓶颈和面向安全的智能体评估的工作之上,并通过开源的 CUGA 智能体进行演示 (Shlomov 等人,2026 (https://arxiv.org/html/2605.20874#bib.bib6);Marreed 等人,2025 (https://arxiv.org/html/2605.20874#bib.bib5);CUGA 项目,2026a (https://arxiv.org/html/2605.20874#bib.bib18))。我们引入了 CUGA 策略系统,这是一个模块化的“策略即代码”层,内置于 CUGA 中,无需模型微调。该框架引入了类型化的治理原语,在*运行时*约束意图识别、规划、工具调用、人工审批要求和输出格式化,从而强制执行一致性和治理。策略使用轻量级触发器(关键词和嵌入相似度)进行匹配,这减少了对概率方法的依赖,通过显式的冲突处理进行解决,并生成结构化的解释轨迹以实现可观察性和质量保证。它无需架构更改,兼容使用开源模型(例如 GPT-OSS-120B)进行本地部署,不会影响或修改智能体的输出,并展示了内置的可观察性。通过将治理外部化为可组合的运行时策略,该系统能够在复合工作流中实现可预测、可审计且符合合规性的行为,同时保持通用 LLM 智能体的灵活性,确保企业级智能体的合规性和可信度。我们通过一个端到端的企业工作流来演示我们的方法,该工作流突出了运行时策略执行。演示集中在两个代表性场景上:一个医疗辅助工作流和一个多层强制干预。

本演示展示了在差异执行检查点通过干扰定义为 markdown 策略的五种模块化治理原语中的四种。剧本通过将请求与预定义的工具序列和企业特定约束动态关联来强制执行结构化的多步骤执行,而工具指南则丰富了工具描述。意图守卫通过在工具执行之前拦截和阻止受限意图来防止恶意或意外的有害操作。工具审批机制引入了一个人工介入 (HITL) 检查点,在执行图暂停后,需要明确的确认才能进行潜在破坏性操作。

## 2. 方法概述

我们的 CUGA 策略系统通过在整个智能体执行图的五个不同点通过触发器机制动态拦截不同策略来增强企业就绪的治理:首先,*意图守卫*位于流程的最开始,在智能体采取行动之前立即阻止不良请求。第二,*剧本*被无缝注入到系统提示中,逐步引导智能体的规划并影响其推理。第三,*工具指南*在执行前更新和修改工具描述,指导智能体正确使用工具。第四,*工具审批*作为推理循环外的一个关键安全措施来门控执行,暂停图以等待人工确认(如果试图执行高风险操作)。最后,*输出格式化器*作为最后一个干预点,在返回最终答案之前对其进行适当过滤。本节介绍每种策略类别的基本架构设计原则、数据模型和运行时机制。重点放在模块化、可扩展性以及与 LangGraph 执行框架的无缝集成上。

### 2.1. 策略系统架构

策略系统被实现为一个模块化的分层框架,由四个架构层组成:

1. \(1\) 策略模型层:定义策略模式、触发器和动作语义的强类型数据模型。
2. \(2\) 存储层:由向量数据库支持、用于基于相似度检索的持久化和语义存储。
3. \(3\) 策略智能体层:运行时匹配和冲突解决逻辑,根据执行上下文评估策略。
4. \(4\) 执行层:在 LangGraph 工作流中应用策略决策的执行原语。

这种分层设计强制了关注点分离:策略表示与存储、匹配逻辑和执行语义解耦。策略评估在四个语义上有意义的检查点进行:\(1\) 意图分析,\(2\) 工具准备,\(3\) 代码生成后,以及 \(4\) 最终响应生成。

#### 触发器系统。

除工具审批外,所有策略类型都依赖于一个可配置的触发器机制。触发器被定义为可区分联合类型,从而在统一接口内实现灵活的匹配策略。支持的触发器机制包括:

- •自然语言:通过基于嵌入的检索与可配置的相似度阈值进行语义相似度匹配。
- •关键词:带有逻辑组合(AND/OR)和大小写敏感性控制的确切或模糊关键词匹配。
- •应用:基于活动应用领域的上下文匹配。
- •状态:使用相等性、包含性或正则表达式运算符针对结构化智能体状态进行评估。
- •工具:在特定执行阶段(调用前或调用后)检测工具使用。

触发器可以针对不同的上下文字段,包括推断的意图、中间子任务和最终智能体响应。这种灵活性使策略可以在执行生命周期的不同抽象层级进行干预。策略持久化和语义检索使用 Milvus 作为向量数据库后端实现。嵌入是使用 API 或基于本地的编码器生成的 (Wang 等人,2020 (https://arxiv.org/html/2605.20874#bib.bib8))。

### 2.2. 意图守卫

意图守卫策略通过在智能体行动之前、智能体推理循环之外拦截用户意图来强制执行硬约束。其主要目的是在早期阶段阻止未经授权或受限的操作。激活后,意图守卫会立即终止执行,这种早期终止机制可防止下游推理或不需要的工具调用。意图守卫的触发器评估遵循两个阶段的过程:\(1\) 确定性阶段:首先评估基于关键词的触发器。意图守卫优先于其他策略类型,以确保阻塞约束优先于咨询性策略。\(2\) 冲突解决阶段:对于自然语言触发器,多个策略可能满足相似度阈值。在这种情况,基于 LLM 的结构化推理步骤会选择最合适的策略。模型输出选中的索引、置信度分数和理由。

### 2.3. 剧本

剧本策略为复杂任务提供结构化的工作流指导。它们不会阻止执行,而是通过注入逐步指令来塑造智能体的规划行为。这特别有价值,因为它传递精确、有针对性的指令,而不会用过多标记膨胀提示。这促使智能体遵循指令并持续遵从用户的任务。剧本由 markdown 格式的指导内容、可选的步骤有序列表、每步可选的预期结果、每步可选的工具约束、触发器定义和优先级组成。这种结构化表示能够实现多步骤工作流的细粒度编排和验证。

### 2.4. 工具审批

工具审批策略通过要求在执行敏感工具之前获得明确确认来强制执行 HITL 监督。与基于触发器的策略不同,它们在代码生成后进行评估,允许在运行时检查智能体实际意图调用的工具。

代码生成后,系统扫描代码以查找工具调用。如果检测到匹配的工具,执行暂停并进入等待状态。只有在明确批准(或如果配置为自动批准)后,智能体才会恢复。如果多个策略匹配,则应用优先级最高的策略。此机制对于敏感操作特别有用,例如数据修改(例如数据库写入和更新)以及外部 API 调用,这些操作与第三方服务的交互应在执行前进行审查。

### 2.5. 工具指南

工具指南策略用上下文或合规性相关的指导来增强工具描述。多个工具指南策略可以同时应用,因为它们是累积的而非互斥的。在运行时,工具定义被深度复制,并用配置的指导进行丰富,这些指导可以附加到原始描述之后。深度复制机制确保修改保持在会话范围内,并且不会永久更改底层工具元数据。

### 2.6. 输出格式化器

输出格式化器策略将最终响应转换为结构化格式。它们支持三种模式:\(1\) 逐字使用预定义模板,\(2\) 将响应重新结构化为格式化的 Markdown,或 \(3\) 根据指定的 JSON 模式提取结构化数据。触发器评估同时考虑用户输入和生成的响应,从而能够做出上下文感知的格式化决策,而无需依赖智能体的能力。

## 3. 系统演示:CUGA 的策略系统

演示视频¹¹¹h

相似文章

PolicyBank:为LLM智能体演进策略理解

arXiv cs.CL

PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。

迈向可安全审计的大模型智能体:一种统一的图表示方法

arXiv cs.AI

本文提出了 Agent-BOM,一种用于基于大语言模型(LLM)的智能体系统进行安全审计的统一图表示方法。它通过建模静态能力和动态运行时状态,解决了事后审计中的语义鸿沟问题,能够检测记忆投毒和工具误用等复杂的攻击链。