PolicyGuard:面向LLM代理政策遵从性的对话基础子代理验证器

Hugging Face Daily Papers 论文

摘要

PolicyGuard是一种子代理验证器,通过在多轮交互中提供上下文推理和对话特定反馈,增强LLM代理的政策遵从性,在tau^2-BENCH基准上取得了显著改进。

LLM代理通过工具调用代表组织处理用户请求,并且必须遵循其系统提示中声明的公司政策。先前的工作将这一问题视为安全防护问题——通过外部检查阻止不合规的代理行为。我们认为政策遵从性是一个更广泛的问题:真实工作流跨越多个轮次,需要明确的用户确认和先决条件阅读,并且取决于对话的内容,而非任何单一参数值。满足这一要求需要(i)完整的对话上下文,(ii)对政策和当前对话的自我推理,以及(iii)针对对话的改进方案,以引导代理的下一轮动作——这三种能力是先前安全防护工作常常低估的。我们引入了POLICYGUARD,这是一个子代理验证器,它与代理共享对话视图,在上下文中推理政策,并为代理的下一个动作提供可操作的反馈。在tau^2-BENCH航空数据集上,针对三个供应商(GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro),每种设置进行四次试验,POLICYGUARD将PASS4提升了+12.0 / +6.0 / +12.0个百分点。逐调用分析显示,POLICYGUARD实现了更高的政策违规召回率,同时拦截频率约为参数级防护的一半。
查看原文
查看缓存全文

缓存时间: 2026/06/30 03:33

论文页面 - PolicyGuard: 一种基于对话的子代理验证器,用于LLM代理的策略遵循

来源:https://huggingface.co/papers/2606.29225

摘要

POLICYGUARD 是一种子代理验证器,通过提供上下文推理和面向对话的反馈,增强LLM代理在多轮交互中的策略遵循能力。

LLM代理 (https://huggingface.co/papers?q=LLM%20agents) 代表组织通过工具调用处理用户请求,必须遵循其系统提示中声明的公司策略。先前的工作将此视为一个安全防护 (https://huggingface.co/papers?q=safeguarding) 问题——即阻止不合规代理行为的外部检查。我们认为策略遵循 (https://huggingface.co/papers?q=policy%20adherence) 是一个更广泛的问题:真实的工作流程涉及多轮交互,需要明确的用户确认和前置阅读,并且取决于对话内容而非任何单个参数值。满足这一要求需要 (i) 完整的对话上下文 (https://huggingface.co/papers?q=conversation%20context), (ii) 对策略和当前对话进行自推理 (https://huggingface.co/papers?q=self-reasoning), 以及 (iii) 面向对话的具体修复,以指导代理的下一轮响应——这三个能力是先前安全防护工作经常低估的。我们引入了 POLICYGUARD,一个子代理验证器 (https://huggingface.co/papers?q=sub-agent%20verifier),它与代理共享对话视图,在上下文中对策略进行推理,并为代理的下一轮响应提供可操作的反馈。在 tau^2-BENCH 航空数据集上,针对三个供应商(GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro)并在每种设置下进行四次试验,POLICYGUARD 将 PASS4 分别提升了 +12.0 / +6.0 / +12.0 个百分点。逐次调用分析显示,POLICYGUARD 在实现更高策略违规召回率的同时,其阻止频率大约是参数级守卫 (https://huggingface.co/papers?q=argument-level%20guards) 的一半。

查看 arXiv 页面 (https://arxiv.org/abs/2606.29225)查看 PDF (https://arxiv.org/pdf/2606.29225)项目页面 (https://huggingface.co/papers/2606.29225)GitHub0 (https://github.com/erjui/PolicyGuard)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.29225)

在你的代理中获取此论文:

hf papers read 2606\.29225

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.29225 即可从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.29225 即可从此页面链接。

引用此论文的 Space0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.29225 即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

PolicyBank:为LLM智能体演进策略理解

arXiv cs.CL

PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。

PropGuard:通过传播感知的探索与修复保障LLM-MAS安全

arXiv cs.LG

PropGuard是一种传播感知框架,用于保护基于LLM的多智能体系统(LLM-MAS)免受跨智能体和轮次传播的恶意指令的影响。它构建了一个双视角时空图,并使用经过GE-GRPO训练的检查器来检测和修复可疑的传播子图。

SingGuard: 策略自适应多模态LLM护栏与动态推理

Hugging Face Daily Papers

SingGuard是一种策略自适应多模态LLM护栏模型,用于文本、图像和多语言安全审核,具备动态推理能力,并包含新基准SingGuard-Bench。它在多个数据集上取得了最先进的结果。

通用智能体的构建式治理

arXiv cs.AI

本文介绍了CUGA的策略系统,一个模块化的策略即代码层,在LLM智能体执行的多个检查点实施治理,无需模型微调即可实现可预测和可审计的行为。