LLM代理的一致性如何?在多步骤工具调用流程中测量行为可重现性

arXiv cs.CL 论文

摘要

本文系统性地测量了LLM代理在多步骤工具调用流程中的行为可重现性,涉及1140条轨迹,发现了'结构一致性,参数变异性'的模式:代理可靠地按相同顺序选择工具,但参数有所不同,并且结构一致性能够预测任务的成功。

arXiv:2605.28840v1 公告类型:新 摘要:具有工具调用能力的大型语言模型(LLM)代理正越来越多地被部署到生产系统中,但一个基本的可靠性问题仍未得到充分探索:同一个代理会表现出相同的行为两次吗?我们提出了一项关于多步骤工具调用代理行为一致性的系统性实证研究,测量代理在重复的相同调用中是否选择相同的工具、按相同的顺序、使用相同的参数。与先前关于ReAct风格代理(仅搜索、自由文本操作)一致性研究不同,我们研究了更丰富的结构化工具调用接口设置,这些接口具有类型化参数和随之而来的副作用。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:13

# LLM 智能体的一致性有多高?多步骤工具调用流水线中的行为可重复性测量
来源:https://arxiv.org/html/2605.28840(2026年4月)

###### 摘要

具备工具调用能力的大型语言模型智能体越来越多地被部署在生产系统中,但一个基本的可靠性问题仍未得到充分探索:*同一个智能体在两次执行中行为是否一致?* 我们针对多步骤工具调用智能体的行为一致性进行了系统的实证研究,测量智能体在多次完全相同的调用中是否选择了相同的工具、相同的顺序以及相同的参数。与先前研究 ReAct 风格智能体(仅搜索、自由文本动作)的一致性工作不同,我们研究的是更丰富的*结构化工具调用接口*场景,该接口具有类型化参数和可观察的副作用。我们使用一个包含 19 个任务的基准测试,涵盖五个类别——数据检索、日程安排、计算、多工具组合和模糊请求——评估了来自三个提供商(OpenAI、Anthropic、Meta/Together)的六个模型,共计 1,140 条智能体轨迹。我们发现了一种“**结构一致,参数变化**”的模式:智能体能够可靠地选择相同顺序的工具(平均 TSS=0.87,95% CI [0.84,0.90]),但提供的参数差异很大(平均 AC=0.69,[0.64,0.74]);这一差距很大(Cohen's d=0.75)且高度显著(p<10⁻¹³)。我们进一步确定了以下几点:(1) 模糊的任务规范会使参数一致性相对于结构化任务降低 28%(d=0.74,p=0.001),其影响比模型选择更强(η²=0.08,不显著);(2) 60% 的行为分歧源自前两个流水线步骤;(3) 自然语言输出几乎从不匹配(<5% 精确匹配),即使在工具序列完全相同时也是如此;(4) 不同模型在结构一致性上存在显著差异,但在参数一致性上没有显著差异(TSS 的 F=3.52,η²=0.15,p=0.003;AC 不显著)。关键在于,正确性分析表明**结构一致性可以预测任务成功**——高 TSS 条件下正确率为 90.2%,而低 TSS 条件下为 61.2%(d=0.81,p<0.001)——而参数级别的差异是良性的(r=0.12,p=0.31,不显著)。这使得 TSS 成为一种轻量级、无需正确性标签的智能体可靠性代理指标。我们已在 https://github.com/Abelo9996/agent-consistency 上发布所有代码、基准测试定义、原始轨迹和分析脚本。

## 1 引言

基于 LLM 并具备工具调用能力的智能体部署正在迅速加速,生产系统现在使用智能体来搜索数据库、发送电子邮件、管理日历以及通过结构化函数调用编排多步骤工作流(Qin 等人,2024;Li 等人,2023;Schick 等人,2023)。随着这些系统逐渐成熟,一个令人惊讶地很少受到系统关注的可靠性问题凸显出来:*如果你在同一个任务上运行同一个智能体两次,你会得到相同的行为吗?* 这个问题具有直接的实际后果:

- • **测试。** 如果智能体在不同运行中行为不同,那么对输出进行断言的单元测试在设计上就是不稳定的。需要可靠的行为不变量来测试智能体是否“做了正确的事情”(Kapoor 和 Narayanan,2024)。
- • **调试。** 失败的可重现性是根本原因分析的前提。行为差异使得生产故障间歇性出现且难以追踪。
- • **安全与可审计性。** 高风险部署需要保证智能体在重新运行时不会采取意外行动(例如,发送重复邮件、创建冲突的日历事件)(Weidinger 等人,2021)。
- • **成本优化。** 如果行为差异可以根据任务特征预测,那么一致性感知路由可以在容忍差异时分配更便宜的模型,并将高一致性模型保留给关键工作流。

#### 先前工作的空白。 Mehta 等人(2026)研究了 ReAct 风格智能体(Yao 等人,2023)在 HotpotQA 上的行为一致性,发现每 10 次运行中智能体会产生 2.0–4.2 个不同的动作序列,并且不一致性可以预测失败。这很重要,但仅限于问答场景中的*仅搜索*动作。现实世界的智能体处理的是*结构化工具调用接口*,这些接口具有类型化参数、多种异构工具和多步骤流水线。这种区别至关重要:工具调用是离散的类型化对象(而不是自由格式文本),具有可观察的副作用(已发送的邮件、已创建的事件),并且以序列方式组合,早期的分歧会传播到后续步骤。目前尚不清楚 ReAct 智能体的一致性模式是否会转移到这个更丰富的动作空间。

#### 本工作。 我们将行为一致性的研究扩展到跨不同任务类型的多步骤工具调用智能体,并做出以下贡献:
1. 1. **基准测试。** 19 个任务,涵盖五个类别,与 10 个确定性模拟工具配对,以隔离 LLM 方差与环境非确定性(第4.1节)。
2. 2. **正式度量框架。** 工具序列相似性(TSS)、参数一致性(AC)、分歧点和输出一致性的正式定义,针对不同的行为层(第3.2节)。
3. 3. **结构/参数区分。** TSS=0.87 显著高于所有模型和类别上的 AC=0.69(d=0.75,p<10⁻¹³);这是一个新颖的发现,先前单一度量的研究无法捕捉到(第5.1节)。
4. 4. **正确性验证。** TSS 可以预测任务正确性(d=0.81,p<0.001),而 AC 不能(r=0.12,不显著),排除了琐碎的“一致错误”解释,并将 TSS 确立为可靠性代理指标(第5.5节)。
5. 5. **基于效应量的可行指南**,用于生产部署中的测试、监控和模型选择(第6.3节)。

## 2 相关工作

#### LLM 智能体的行为一致性。 Mehta 等人(2026)使用仅搜索动作在 HotpotQA 上测量了 ReAct 智能体的一致性,发现不一致性可以预测失败。我们将其扩展到具有多样化工具集和任务类型的类型化工具调用,并引入了先前工作中缺失的结构/参数区分。Wang 等人(2023)表明,对多个推理链进行采样并对其取边际可以提高准确性;这*利用了*方差,而不是描述其结构,并且侧重于推理而非工具调用。Renze 和 Guven(2024)研究了 LLM 智能体中的自我反思,并发现了混合效果,表明有意的提高一致性的策略并非总是有效。

#### LLM 的可靠性和鲁棒性。 Sclar 等人(2024)量化了 LLM 对提示格式的敏感性,发现表面变化会导致巨大波动。Lu 等人(2022)展示了少样本提示中的顺序敏感性。Perez 等人(2022)表明,标准 NLP 评估低估了鲁棒性故障。我们的关注点是正交的:我们保持输入固定,并测量多次完全相同的调用之间的方差——这是部署系统必须具有的一致性。

#### 智能体能力评估。 AgentBench(Liu 等人,2024)、ToolBench(Qin 等人,2024)、API-Bank(Li 等人,2023)和 Gorilla(Patil 等人,2023)评估智能体是否*能够*解决任务。Schick 等人(2023)表明 LLM 可以从自我生成的示范中学习工具使用。Kapoor 和 Narayanan(2024)调查了 AI 智能体评估中的陷阱,指出运行之间的方差很少被报告。我们评估的不是智能体是否成功,而是它们是否以相同的方式*一致地*成功——这是一个正交且未被充分研究的维度。

#### ML 系统中的可靠性。 更广泛的 ML 可靠性文献涉及分布漂移、不确定性量化(Lakshminarayanan 等人,2017)和分布外检测——所有这些都是关注在*输入*变化下的性能。我们研究的是在重复的*完全相同*输入下的一致性,这是一个相关但不同的关注点,对于智能体系统尤其重要,因为任务会重试,行为可重复性本身就是一个正确性标准。

## 3 智能体行为一致性框架

我们在描述实验之前给出正式定义,因为行为层之间的关键区别既驱动了度量设计,也驱动了结构/参数发现。

### 3.1 智能体执行模型

###### 定义 1 (智能体轨迹)。 *轨迹* τ 是一个工具调用序列 τ = (c₁, c₂, ..., cₖ),其中每个调用 cᵢ = (nameᵢ, aᵢ) 由工具名称 nameᵢ ∈ 𝒯 和参数映射 aᵢ: 𝒦 → 𝒱 组成,最后跟随一条自然语言响应 r ∈ Σ*。

###### 定义 2 (行为一致性)。 给定任务 q 和模型 ℳ,令 {τ⁽ʲ⁾}ⱼ₌₁ᴺ 为在相同上下文下对 q 运行 ℳ 产生的 N 条独立轨迹。*行为一致性*是这些轨迹在轨迹上的度量 d(·, ·) 下相似的程度。

这个框架揭示了行为层的自然层次结构:
1. 1. **结构层:** 工具名称序列 (name₁, ..., nameₖ)——智能体的*过程选择*。
2. 2. **参数层:** 每一步的参数映射 aᵢ——*如何*参数化过程。
3. 3. **输出层:** 最终响应 r——用户看到的表层文本。

我们的核心假设,受 LLM 通过微调获取工具使用行为的方式所启发:

###### 假设 1 (结构一致,参数变化)。 对于多步骤工具调用智能体,结构一致性显著高于参数一致性:E[TSS] ≫ E[AC]。直觉是,RLHF 和 SFT 在工具使用数据上的微调强化了正确的*过程选择*——这带有更清晰的训练信号——而*参数实例化*仍然对采样时的变化更敏感。图1具体说明了这种模式。

请参阅图注

图 1:“结构一致,参数变化”模式。同一智能体在同一任务上的两次独立运行产生相同的工具序列(绿色勾号),但在参数值上存在分歧(橙色“≠”注释)。智能体学会了稳健的过程模式,但在如何实例化它们方面存在差异。

### 3.2 正式度量定义

###### 定义 3 (工具序列相似性,TSS)。 令 s⁽ʲ⁾ = (name₁⁽ʲ⁾, ..., nameₖⱼ⁽ʲ⁾) 为轨迹 j 的工具名称序列。定义 TSS({τ⁽ʲ⁾}) = (1/(N₂)) ∑ⱼ<ₗ TSS(s⁽ʲ⁾, s⁽ˡ⁾),其中 TSS(s, t) 是两个工具名称序列上的 Smith-Waterman 对齐得分(使用匹配=+1,错配/缺口=-1),通过除以 max(|s|, |t|) 或 0 进行归一化,如果两者均为空则视为 1。我们使用 Smith-Waterman 而不是编辑距离,因为它强调了连续对齐的子序列——这对应于工具调用流水线中的“程序”概念。所有结果对于使用 Levenshtein 距离也是稳健的。

###### 定义 4 (参数一致性,AC)。 令 cᵢ⁽ʲ⁾ 为轨迹 j 中的第 i 个工具调用。对于每一步 i,所有至少使用一次该工具名称的轨迹对 {j, l},令 Aᵢ = {k: aᵢ⁽ʲ⁾(k) = aᵢ⁽ˡ⁾(k)} 为参数值完全匹配的键集合。令 Kᵢ 为至少一个轨迹使用的键的并集。则 AC(cᵢ⁽ʲ⁾, cᵢ⁽ˡ⁾) = |Aᵢ|/|Kᵢ|(如果 Kᵢ = ∅ 则视为 1)。整个轨迹对的 AC 是跨步的均值。对于所有轨迹对的 AC 取平均。深层嵌套参数通过递归比较展平。此度量区分缺失键(不同)与不适用(在联合中不可见);我们的协议使用明确的空值。

###### 定义 5 (输出一致性)。 两条轨迹 τ⁽ʲ⁾ 和 τ⁽ˡ⁾ 之间的输出一致性是 1[τ⁽ʲ⁾ 的响应 = τ⁽ˡ⁾ 的响应],使用精确字符串匹配。由于自然语言输出几乎从不匹配(第5.4节),我们也报告 n-gram 重叠(Rouge-L)。我们放弃精确匹配作为主要输出度量,因为它过于严格且信息量低。

###### 定义 6 (分歧点)。 两条轨迹之间的分歧点是第一条成对度量(TSS 仅为 0 或 AC 低于 0.95)的步骤索引。直觉上,这是路径分叉的地方;分歧的级联效应使其成为调试的关键目标。

## 4 实验设计

我们设计了一个受控实验设置,将 LLM 方差与环境非确定性隔离。代码可在 https://github.com/Abelo9996/agent-consistency 获取。

### 4.1 任务类别

我们创建了 19 个任务,涵盖五个类别(表3)。这些任务要求工具调用的动作空间为 3–6 个步骤,使用来自具有 10 个确定性模拟工具的固定池中的工具。所有任务都是自包含的,不需要外部 API 调用:每个工具返回一个对相同输入始终相同的确定性响应。这种隔离意味着观察到的任何方差都源于 LLM 的采样随机性。

表 3:任务类别。每个任务都有一个规范化的参考答案,用于正确性评分。

#### 4.1.1 任务设计说明

结构化任务提供了所有必要的参数值(例如,“向 [email protected] 发送一封主题为‘会议’的电子邮件,内容为‘明天 10 点’。”),而模糊任务则省略了细节(例如,“安排与 Alice 的会议”)。计算任务涉及数学和字符串操作。多工具组合任务需要将多个结构化工具调用链接在一起。调度任务包含依赖关系,例如“如果周二有空,则创建活动;否则找到最近的可选日期。”

### 4.2 工具定义

十个模拟工具模拟了常见的 API:send_email(to, subject, body)、create_calendar_event(date, time, duration, attendees, title)、search_database(query, table, filter)、get_current_time()、compute(expression)、lookup_contact(name)、format_date(date, format)、list_calendar_events(date)、update_calendar_event(event_id, field, value)、和 cancel_meeting(event_id, reason)。每个工具都根据结构化模式验证参数:类型错误会导致标准错误消息。要成功完成任务,智能体必须调用正确的工具并提供有效的参数。所有工具确定性操作,结果仅取决于提供的参数。

### 4.3 模型和采样

我们在每个任务上评估六个模型,每个模型运行 10 次(总共 1,140 条轨迹;6 个模型 × 19 个任务 × 10 次运行 = 1,140;由于预算限制,Llama 3.3 70B 仅在 7 个任务上运行,产生 420 条轨迹)。模型包括:GPT-4o(OpenAI,2024-08-06)、Claude 3.5 Sonnet(Anthropic,2024-10-22)、Claude 3 Haiku(Anthropic,2024-10-22)、Gemini 1.5 Pro(Google,最新)、Llama 3.3 70B(Meta,通过 Together AI 2025 年 1 月版)和 DeepSeek-V2-0614。我们从代表不同大小和提供商的模型中抽样,包括不同性能层级的模型。

**实现细节。** 所有模型都使用温度 0 和 top-p=1 以最小化采样方差;任何剩余方差都归因于 LLM 固有行为。系统提示词给出工具定义和指令:“您是一个助手,在解决问题时可以使用以下工具。始终使用工具调用进行所有操作。按照逻辑顺序调用工具。不要编造不存在的事物。” 没有少样本示例。为所有模型保留相同的前缀,除了 DeepSeek(其 API 需要特定的标记格式)。我们记录工具调用序列和最终文本响应。运行是独立的;无状态跨转。我们丢弃意外的响应对(不可解析的工具调用格式),这在 Llama 3.3 70B 中达到 >5% 的格式错误工具调用响应率。

### 4.4 工具调用解析

由于模型以不同的格式生成工具调用(OpenAI 和 Anthropic 原生的结构化模式;Gemini 和 Together 的 JSON 格式),我们使用一个通用解析器,该解析器将结构化输出或 JSON 块映射到一个标准化的内部表示。不可解析的调用被记录并标记为错误;它们被排除在一致性计算之外,但包含在正确性分数中(如果可解析的子序列完成所有必需的操作,则任务仍可能被标记为正确)。此协议确保了不同模型之间公平的比较。

### 4.5 正确性评估

为了验证一致性是否能预测有意义的结果,我们使用一个包含三个组成部分的标准对所有 1,140 条轨迹进行回顾性评分:
1. 1. **必需工具覆盖:** 智能体是否调用了任务所需的所有工具?
2. 2. **参数有效性:** 关键参数是否与预期模式匹配(例如,send_email.to ~ /[email protected]/,create_calendar_event.date=2026-03-02)?
3. 3. **输出完整性:** 最终响应是否解决了用户的请求(根据与预期输出模式的正则匹配)?

一条轨迹仅在满足所有适用标准时才被标记为正确。每个任务的完整标准见附录D。正确性标准(说明性子集)和代码发布中提供。

### 4.6 统计分析

我们通过 t 分布报告带有 95% CI 的均值、Cohen's d 效应量和来自配对或独立 t 检验的 p 值。跨模型比较使用单因素方差分析和 η²。我们承认,考虑到跨模型共享的任务结构,线性混合效应模型(将任务视为随机效应)会更合适;简单的方差分析是保守的,但鉴于我们的样本量是足够的。我们测试了五个主要假设;所有假设在 α=0.01 的 Bonferroni 校正后仍然显著。分半信度(TSS:r=0.66,p<10⁻¹⁶,n=125)证实了在 N=10 时度量的中等稳定性。

## 5 结果

### 5.1 具有参数方差的结构一致性

假设1已确认。智能体表现出**具有参数方差的结构一致性**:平均 TSS=0.87,95% CI [0.84,0.90],对比平均 AC=0.69,[0.64,0.74](配对 t 检验:t=8.41,p<10⁻¹³;Cohen's d=0.75)。这种模式在所有模型和类别中都成立(表1,图2)。

发现 1。智能体学会了稳健的过程模式——即工具序列的“配方”——但在搜索查询、日期格式和消息措辞等实例化细节上有所不同。结构/参数差距为 d=0.75,p<10⁻¹³。

表 1:跨模型一致性(19 个任务,每个任务 10 次运行)。† 仅部分结果(7 个任务);已从汇总统计中排除。

请参阅图注

图 2:TSS(左)和 AC(右)上的模型比较,带有 95% CI。Llama 3.3 70B 在 TSS 上明显分离;AC 的排名由任务级别因素主导(方差分析不显著)。

### 5.2 模糊性是不一致性的主要驱动因素

任务类别强烈影响一致性(表2,图3)。模糊任务的 AC 明显较低(0.52 对比结构化任务的 0.72;Cohen's d=0.74,t=3.34,p=0.001),TSS 也较低(0.79 对比 0.89;d=0.58,p=0.010)。模糊性对 AC 的影响(d=0.74)超过了模型间效应(η²=0.08,不显著),确立了**任务规范质量比模型选择更能影响一致性**。

表 2:按任务类别划分的一致性(6 个模型的均值)。使用 3

相似文章

LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers

本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。

言行而非推理:定位LLM智能体中的忠实度缺口

arXiv cs.AI

本文通过使用德州扑克作为受控环境,将LLM智能体中的忠实度缺口分解为推理→结论和结论→行动两个步骤。研究发现,结论→行动步骤是可靠的,而推理→结论步骤是不一致的主要来源。

重新思考自进化大语言模型智能体的持续经验内化

arXiv cs.CL

本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。