PolicyGuard:面向LLM代理政策遵从性的对话基础子代理验证器
摘要
PolicyGuard是一种子代理验证器,通过在多轮交互中提供上下文推理和对话特定反馈,增强LLM代理的政策遵从性,在tau^2-BENCH基准上取得了显著改进。
查看缓存全文
缓存时间: 2026/06/30 03:33
论文页面 - PolicyGuard: 一种基于对话的子代理验证器,用于LLM代理的策略遵循
来源:https://huggingface.co/papers/2606.29225
摘要
POLICYGUARD 是一种子代理验证器,通过提供上下文推理和面向对话的反馈,增强LLM代理在多轮交互中的策略遵循能力。
LLM代理 (https://huggingface.co/papers?q=LLM%20agents) 代表组织通过工具调用处理用户请求,必须遵循其系统提示中声明的公司策略。先前的工作将此视为一个安全防护 (https://huggingface.co/papers?q=safeguarding) 问题——即阻止不合规代理行为的外部检查。我们认为策略遵循 (https://huggingface.co/papers?q=policy%20adherence) 是一个更广泛的问题:真实的工作流程涉及多轮交互,需要明确的用户确认和前置阅读,并且取决于对话内容而非任何单个参数值。满足这一要求需要 (i) 完整的对话上下文 (https://huggingface.co/papers?q=conversation%20context), (ii) 对策略和当前对话进行自推理 (https://huggingface.co/papers?q=self-reasoning), 以及 (iii) 面向对话的具体修复,以指导代理的下一轮响应——这三个能力是先前安全防护工作经常低估的。我们引入了 POLICYGUARD,一个子代理验证器 (https://huggingface.co/papers?q=sub-agent%20verifier),它与代理共享对话视图,在上下文中对策略进行推理,并为代理的下一轮响应提供可操作的反馈。在 tau^2-BENCH 航空数据集上,针对三个供应商(GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro)并在每种设置下进行四次试验,POLICYGUARD 将 PASS4 分别提升了 +12.0 / +6.0 / +12.0 个百分点。逐次调用分析显示,POLICYGUARD 在实现更高策略违规召回率的同时,其阻止频率大约是参数级守卫 (https://huggingface.co/papers?q=argument-level%20guards) 的一半。
查看 arXiv 页面 (https://arxiv.org/abs/2606.29225)查看 PDF (https://arxiv.org/pdf/2606.29225)项目页面 (https://huggingface.co/papers/2606.29225)GitHub0 (https://github.com/erjui/PolicyGuard)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.29225)
在你的代理中获取此论文:
hf papers read 2606\.29225
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.29225 即可从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.29225 即可从此页面链接。
引用此论文的 Space0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.29225 即可从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
PolicyBank:为LLM智能体演进策略理解
PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。
PropGuard:通过传播感知的探索与修复保障LLM-MAS安全
PropGuard是一种传播感知框架,用于保护基于LLM的多智能体系统(LLM-MAS)免受跨智能体和轮次传播的恶意指令的影响。它构建了一个双视角时空图,并使用经过GE-GRPO训练的检查器来检测和修复可疑的传播子图。
LabGuard:将自然语言实验室规则转化为具身实验室代理的运行时防护
LabGuard 引入了一个框架,将自然语言实验室安全规则转化为具身代理的可执行运行时监控器,在不影响任务成功率的情况下,将不安全事件从 39.5% 降至 23.8%。
SingGuard: 策略自适应多模态LLM护栏与动态推理
SingGuard是一种策略自适应多模态LLM护栏模型,用于文本、图像和多语言安全审核,具备动态推理能力,并包含新基准SingGuard-Bench。它在多个数据集上取得了最先进的结果。
通用智能体的构建式治理
本文介绍了CUGA的策略系统,一个模块化的策略即代码层,在LLM智能体执行的多个检查点实施治理,无需模型微调即可实现可预测和可审计的行为。