LedgerAgent:面向政策合规工具调用代理的结构化状态

Hugging Face Daily Papers 论文

摘要

LedgerAgent 是一种面向客服代理的方法,通过维护独立的账本来记录任务状态,从而在工具调用过程中提升政策合规性与状态管理能力。在四个领域中,该方法相比标准方法平均 passk 指标均有提升。

在客户服务领域中,遵循政策的工具调用代理必须在跨轮次对话中维护任务状态,同时调用工具并遵守领域政策。任务状态包括通过用户交互和工具调用观察到的事实、标识符、约束条件和条件。在标准代理中,任务状态并未被单独表示。观察结果、工具返回值和政策指令都被放入提示中,迫使代理在每次决定下一步行动时从提示中重建相关状态。这种设计使得状态管理变得隐式,从而产生两种常见故障模式:代理可能检索到正确的事实,但随后基于过时、缺失或错误的信息做出决策;此外,语法上合法的工具调用仍可能违反依赖于当前任务状态的领域政策。我们引入了 LedgerAgent,这是一种用于工具调用代理的推理时方法,它将观察到的任务状态维护在独立的账本中,并将这些状态渲染到提示中。该账本还用于在执行改变环境的工具调用之前检查依赖于状态的政策约束,从而阻止政策违规。在四个客户服务领域以及由开源和闭源模型组成的混合面板上,与标准的基于提示的工具调用方法相比,LedgerAgent 提升了平均 passk 指标,且在更严格的多轮一致性指标下收益最为显著。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:26

论文页面 - LedgerAgent:面向策略合规工具调用代理的结构化状态

来源:https://huggingface.co/papers/2606.20529 发表于 6月18日

·

由https://huggingface.co/sahsaeedi提交

Amir (https://huggingface.co/sahsaeedi) 于6月19日

摘要

LEDGERAGENT 是一种面向客服代理的方法,它在独立的分类账中维护任务状态,以在工具调用过程中改进策略合规性和状态管理。

在客服领域中,策略合规的工具调用代理必须跨轮次维护任务状态,同时调用工具并遵守领域策略。任务状态包括通过用户交互和工具调用观察到的事实、标识符、约束和条件。在标准代理中,任务状态并未被单独表示。观察结果、工具返回值和策略指令都被放入提示中,代理每次决定下一步操作时都需从提示中重建相关状态。这种设计使得状态管理成为隐式行为,从而产生两种常见故障模式:代理可能检索到正确的事实,但后来依据过时、缺失或错误的信息做出决策;或者一个语法上有效的工具调用仍可能违反当前任务状态所依赖的领域策略。我们提出 LedgerAgent,这是一种针对工具调用代理的推理时方法,它在独立的分类账中维护观察到的任务状态,并将这些状态渲染到提示中。分类账还用于在执行改变环境的工具调用之前检查依赖于状态的策略约束,从而阻止策略违规。在四个客服领域以及开源与闭源模型混合评估中,与标准的基于提示的工具调用方法相比,LedgerAgent 平均提升了 passk 指标,在更严格的多试次一致性指标下提升尤为显著。

查看arXiv页面 (https://arxiv.org/abs/2606.20529) 查看PDF (https://arxiv.org/pdf/2606.20529) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.20529)

在你的代理中获取此论文:

hf papers read 2606\.20529

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.20529,以便从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.20529,以便从此页面链接。

引用此论文的Spaces 0

没有Space链接此论文

请在Space README.md 中引用 arxiv.org/abs/2606.20529,以便从此页面链接。

包含此论文的收藏 0

没有收藏包含此论文

请将此论文添加到收藏 (https://huggingface.co/new-collection) 中,以便从此页面链接。

相似文章

PolicyBank:为LLM智能体演进策略理解

arXiv cs.CL

PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。

@janehu07: https://x.com/janehu07/status/2058359677843599494

X AI KOLs Timeline

本学习笔记介绍了智能体基础设施层的概念,将其定义为围绕LLM的基础设施层,提出了ETCLOVG分类法(执行、工具、上下文、生命周期、可观测性、验证、治理),并通过编码智能体案例研究展示了其应用。

迈向可安全审计的大模型智能体:一种统一的图表示方法

arXiv cs.AI

本文提出了 Agent-BOM,一种用于基于大语言模型(LLM)的智能体系统进行安全审计的统一图表示方法。它通过建模静态能力和动态运行时状态,解决了事后审计中的语义鸿沟问题,能够检测记忆投毒和工具误用等复杂的攻击链。