PolicyGuard：面向LLM代理政策遵从性的对话基础子代理验证器

Hugging Face Daily Papers 2026/06/28 00:00 论文

摘要

PolicyGuard是一种子代理验证器，通过在多轮交互中提供上下文推理和对话特定反馈，增强LLM代理的政策遵从性，在tau^2-BENCH基准上取得了显著改进。

LLM代理通过工具调用代表组织处理用户请求，并且必须遵循其系统提示中声明的公司政策。先前的工作将这一问题视为安全防护问题——通过外部检查阻止不合规的代理行为。我们认为政策遵从性是一个更广泛的问题：真实工作流跨越多个轮次，需要明确的用户确认和先决条件阅读，并且取决于对话的内容，而非任何单一参数值。满足这一要求需要(i)完整的对话上下文，(ii)对政策和当前对话的自我推理，以及(iii)针对对话的改进方案，以引导代理的下一轮动作——这三种能力是先前安全防护工作常常低估的。我们引入了POLICYGUARD，这是一个子代理验证器，它与代理共享对话视图，在上下文中推理政策，并为代理的下一个动作提供可操作的反馈。在tau^2-BENCH航空数据集上，针对三个供应商（GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro），每种设置进行四次试验，POLICYGUARD将PASS4提升了+12.0 / +6.0 / +12.0个百分点。逐调用分析显示，POLICYGUARD实现了更高的政策违规召回率，同时拦截频率约为参数级防护的一半。

查看原文

查看缓存全文

缓存时间: 2026/06/30 03:33

论文页面 - PolicyGuard: 一种基于对话的子代理验证器，用于LLM代理的策略遵循

来源：https://huggingface.co/papers/2606.29225

摘要

POLICYGUARD 是一种子代理验证器，通过提供上下文推理和面向对话的反馈，增强LLM代理在多轮交互中的策略遵循能力。

LLM代理 (https://huggingface.co/papers?q=LLM%20agents) 代表组织通过工具调用处理用户请求，必须遵循其系统提示中声明的公司策略。先前的工作将此视为一个安全防护 (https://huggingface.co/papers?q=safeguarding) 问题——即阻止不合规代理行为的外部检查。我们认为策略遵循 (https://huggingface.co/papers?q=policy%20adherence) 是一个更广泛的问题：真实的工作流程涉及多轮交互，需要明确的用户确认和前置阅读，并且取决于对话内容而非任何单个参数值。满足这一要求需要 (i) 完整的对话上下文 (https://huggingface.co/papers?q=conversation%20context), (ii) 对策略和当前对话进行自推理 (https://huggingface.co/papers?q=self-reasoning), 以及 (iii) 面向对话的具体修复，以指导代理的下一轮响应——这三个能力是先前安全防护工作经常低估的。我们引入了 POLICYGUARD，一个子代理验证器 (https://huggingface.co/papers?q=sub-agent%20verifier)，它与代理共享对话视图，在上下文中对策略进行推理，并为代理的下一轮响应提供可操作的反馈。在 tau^2-BENCH 航空数据集上，针对三个供应商（GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro）并在每种设置下进行四次试验，POLICYGUARD 将 PASS4 分别提升了 +12.0 / +6.0 / +12.0 个百分点。逐次调用分析显示，POLICYGUARD 在实现更高策略违规召回率的同时，其阻止频率大约是参数级守卫 (https://huggingface.co/papers?q=argument-level%20guards) 的一半。

查看 arXiv 页面 (https://arxiv.org/abs/2606.29225)查看 PDF (https://arxiv.org/pdf/2606.29225)项目页面 (https://huggingface.co/papers/2606.29225)GitHub0 (https://github.com/erjui/PolicyGuard)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.29225)

在你的代理中获取此论文：

hf papers read 2606\.29225

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.29225 即可从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.29225 即可从此页面链接。

引用此论文的 Space0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.29225 即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

PolicyGuard：面向LLM代理政策遵从性的对话基础子代理验证器

论文页面 - PolicyGuard: 一种基于对话的子代理验证器，用于LLM代理的策略遵循

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

PolicyBank：为LLM智能体演进策略理解

PropGuard：通过传播感知的探索与修复保障LLM-MAS安全

LabGuard：将自然语言实验室规则转化为具身实验室代理的运行时防护

SingGuard: 策略自适应多模态LLM护栏与动态推理

通用智能体的构建式治理

提交意见反馈