通过经验知识整合与激活推动LLM工具调用的极限

arXiv cs.CL 论文

摘要

本文对将经验知识整合到LLM工具调用中进行了系统研究,提出了KATE框架,该框架结合了知识增强数据、宽度扩展推理和知识感知训练,在BFCL-V3和AppWorld基准上取得了一致的改进。

arXiv:2606.10875v1 公告类型:新 摘要:大型语言模型(LLMs)依赖工具使用来充当自主代理,但由于缺乏与工具相关的知识和知识激活不足,在多步执行中经常失败。因此,我们对知识如何影响工具使用性能进行了系统研究,涵盖了知识获取、激活和内化阶段。在知识获取阶段,我们获取并评估各种形式的经验知识,分析表明,简单的实例级知识已经可以提供强大且可靠的提升,而抽象的意图级知识收益有限。在推理时,为了激活知识,我们发现提示LLM扩展推理深度会产生递减的回报,而通过并行采样和聚合扩展推理宽度则能更有效地激活潜在的经验知识。在训练时,对于知识内化,使用知识增强数据进行后训练进一步提高了性能,其中强化学习优于监督微调。基于这些见解,我们提出了知识增强工具执行(KATE),这是一个结合经验知识、推理宽度扩展推理和知识感知训练的知识增强工具执行框架。在BFCL-V3和AppWorld上的实验表明,在各种模型规模上,相对于强基线,该方法取得了持续且显著的改进。我们的代码可在 https://github.com/hypasd-art/KATE 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:12

# 通过经验知识集成与激活突破LLM工具调用的极限 来源:https://arxiv.org/html/2606.10875 Yupu Hao1,2, Zhuoran Jin1,2, Huanxuan Liao1,2, Kang Liu1,2, Jun Zhao1,2 1中国科学院自动化研究所复杂系统认知与决策智能重点实验室,北京 2中国科学院大学人工智能学院,北京 \{haoyupu2023, liaohuanxuan2023\}@ia\.ac\.cn, \{zhuoran\.jin, kliu, jzhao\}@nlpr\.ia\.ac\.cn ###### 摘要 大语言模型(LLMs)依赖工具使用来充当自主智能体,但由于缺乏足够的工具相关知识以及无效的知识激活,在多步执行中经常失败。因此,我们提出了一项关于知识如何影响工具使用性能的系统性研究,涵盖了知识获取、激活和内化阶段。在知识获取阶段,我们获取并评估了多种形式的经验知识,分析表明简单的实例级知识已经能够提供强大且可靠的性能提升,而抽象的意图级知识带来的益处有限。在推理时,为了激活知识,我们发现提示LLM扩展推理深度会产生递减回报,而通过并行采样结合聚合来扩展推理宽度,能更有效地激活潜在的经验知识。在训练时,对于知识内化,使用知识增强数据进行后训练能进一步提升性能,并且强化学习优于监督微调。基于这些见解,我们提出了知识增强工具执行框架(KATE),该框架将经验知识与推理宽度扩展的推理以及知识感知训练相结合。在BFCL-V3和AppWorld上的实验表明,在多种模型规模上,该方法相对于强基线都取得了一致且显著的改进。我们的代码可在 https://github.com/hypasd-art/KATE. 获取。

## 1 引言

工具使用已成为将大语言模型(LLMs)转变为实用智能体的基石能力Li et al. (2023);Mialon et al. (2023);Li et al.。LLMs越来越依赖工具调用来执行动作、访问外部信息Jin et al. (2025),并作为自主智能体运行Plaat et al. (2025)。然而,现有方法大多将工具使用视为提示设计Shinn et al. (2023)、API文档规范Qu et al. (2025)或监督/非监督对齐的问题Liu et al. (2025b);Li et al. (2025);Zhang et al. (2025);Lu et al. (2025),隐含假设模型已经拥有足够的工具执行经验知识。但在实践中,工具使用的失败往往不仅源于推理能力不足,还缺乏具体的、可执行的的经验,例如参数约束、场景特定操作模式和错误恢复策略。虽然先前的工作已经探索了通用推理的知识增强Wang et al. (2024),但*经验知识*Fang et al. (2025);Zhou et al. (2025)在工具执行中的作用在很大程度上尚未被充分探索。特别是,尚不清楚(i)哪些形式的知识对工具使用最有效,(ii)在推理过程中如何激活系统中的知识,以及(iii)如果通过训练将知识内化到模型参数中是否能带来额外收益。解决这些问题需要一项涵盖检索、推理时优化和训练时优化的系统性研究,而这正是现有研究中所缺失的。为了填补这一空白,我们首次对工具执行中的经验知识进行了系统性研究,探讨不同种类的经验知识如何在大语言模型中被获取、激活和内化。与先前主要侧重于设计特定知识表示构建过程和更细粒度检索机制的工作不同Cao et al. (2025);Fang et al. (2025);Wang et al. (2025),我们强调对整个流程中知识如何运作的统一的、原则性的理解。我们沿着两个互补的维度组织研究:**知识获取与集成**和**知识激活与利用**。从知识获取的角度,我们提取并分类了四种经验知识,包括*实例级*的场景轨迹知识和经验总结知识,以及*意图级*的脚本式意图聚类知识和文本式意图聚类知识,并设计了一个统一的检索机制以便在推理时集成它们。通过大量实验,我们证明了实例级知识始终能带来最大的性能提升,这表明对于工具使用智能体来说,具体的执行轨迹或其对应的描述比抽象的意图描述提供了更具可操作性的指导。结果表明,*高质量的执行轨迹本身就足以在工具使用中带来显著的性能提升*。从知识激活的角度,我们研究了如何有效地引出并利用这些知识。在推理时,我们比较了基于深度的提示引导与基于宽度的并行采样,*揭示了扩展推理宽度相对于增加推理深度的明显优势*。当模型能力扩展时,显式提示工程带来的收益递减,而并行采样结合聚合则显著提高了工具调用准确性,这表明在确定性解码下,模型的大部分经验知识仍然是潜在的。在训练时,我们进一步表明,*使用知识增强数据进行微调可以更深入地内化经验知识,并在基于上下文的检索之外带来额外的收益*。我们同时采用了监督微调(SFT)和强化学习(RL),并发现强化学习能带来更显著的性能提升。基于这些发现,我们提出了**KATE**(知识增强工具执行),这是一个统一的框架,在获取、激活和训练阶段系统地整合经验知识。KATE将实例级知识与基于宽度的并行采样相结合,以在推理时有效激活潜在知识,并通过后训练进一步内化这些知识。实验结果表明,KATE在多种模型规模和任务设置下实现了显著且一致的工具使用准确性提升。我们的工作做出了三项主要贡献:
- • 我们系统地研究了不同粒度的工具使用知识如何影响工具执行。通过设计多种经验知识获取策略,我们证明简单、高质量的实例级知识本身就能提供有效的改进。
- • 我们研究了在推理和训练过程中如何激活工具相关知识。我们分析了推理深度和宽度,发现并行采样结合聚合能更有效地激活潜在知识。并且,后训练能在基于上下文的知识注入之外带来额外收益。
- • 我们的方法KATE是一个统一的知识增强工具执行框架,将实例级经验与宽度扩展的推理和知识感知训练相结合。KATE在无训练和基于训练的设置下都达到了最先进的性能。在BFCL-V3数据集上,使用Qwen3-8B模型,我们的方法相对于直接工具使用将平均性能提升了15%。

## 2 预备知识

LLMs的多轮工具利用可以形式化为一个马尔可夫决策过程(MDP)。在交互步骤\(t\),基于可用工具集\(\mathcal{T}\)、系统提示\(S\)和之前的对话历史\(\mathcal{H}_{t}\),LLM \(P\)的核心目标是根据当前上下文预测下一个动作\(o_{t+1}\):
\[ o_{t+1}=P(\mathcal{T},S,\mathcal{H}_{t}) \quad (1) \]
其中\(o_{t+1}\)代表要么是工具调用\(c_{t+1}\),要么是最终的自然语言响应\(a_{t+1}\)。模型输出\(o_{t+1}\)后,环境返回外部反馈\(r_{t+1}\),可归类为工具执行响应\(r^{\text{env}}_{t+1}\)或用户回复\(r^{\text{user}}_{t+1}\)。对话历史随后更新如下:
\[ \mathcal{H}_{t+1}=\mathcal{H}_{t}\cup o_{t+1}\cup r_{t+1} \quad (2) \]
这个更新后的状态作为后续决策步骤的上下文,从而完成马尔可夫交互循环。

## 3 方法

我们介绍工具执行中经验知识的研究和方法,探讨其如何被获取、激活和内化。

### 3.1 知识获取与集成

知识在成功执行工具中起着至关重要的作用。我们系统性地研究了不同类型的经验知识如何影响模型性能,以及如何通过结构化的知识库在推理时高效地检索和利用这些知识。

#### 3.1.1 知识库构建

为了研究不同经验知识的作用,我们根据粒度将经验知识分为两个层次:**实例级知识**,提供具体的、示例性的指导;以及**意图级知识**,捕获任务目标和决策模式的更高层次抽象。对于实例级知识,我们考虑两种形式:(1)**场景轨迹知识(ST)**:将真实的工具执行轨迹直接作为推理时的知识输入,提供明确的逐步指导。(2)**经验总结知识(ES)**:使用训练数据中的配对用户查询和真实轨迹,提示LLM生成简洁、高层次的操作指南文本。对于意图级知识,我们观察到每个场景中的用户查询自然反映了一个特定意图(例如,信息检索、在线购物)。这些意图构成了更复杂目标的基本组成部分,并且工具调用模式在同一意图类别内通常是一致的。因此,我们构建了两种形式的意图级知识:(1)**脚本式意图聚类知识(SIC)**:我们生成用户问题的意图,将训练示例相应地聚类,并用LLM以半结构化形式总结工具使用脚本。(2)**文本式意图聚类知识(TIC)**:我们额外提供非结构化的自然语言描述,基于聚类结果捕获每个意图类别的操作策略。知识库构建的详细内容见附录A,用户问题带检索知识的示例见附录B。为了构建知识库\(\mathcal{K}\),对于实例级知识,我们使用语言模型编码器将用户查询编码并存储为向量表示来构建检索基。对于意图级知识,我们编码推断出的用户意图\(I\),而不是原始查询。这些知识形式在粒度和表示上都有所不同,使我们能够系统性地研究经验知识如何影响工具使用学习和推理。

#### 3.1.2 知识检索

在推理过程中,如果反馈\(r_{t+1}\)是用户查询\(r^{\text{user}}_{t+1}\),我们会自动从外部知识库中检索相关知识。参见图1的标题:不同经验知识的增强效果。“All”表示纳入所有经验知识。对于实例级知识,我们使用相同的语言模型编码器将用户查询\(r^{\text{user}}_{t+1}\)映射为向量表示,并针对存储的知识嵌入进行相似度匹配。相似度得分超过预定义阈值\(p\)的知识条目被排序,选择前\(K\)个条目作为检索到的知识。这些检索到的条目随后与原始用户查询拼接,作为增强输入提供给模型。对于意图级知识,我们首先提示模型显式推断用户的当前意图\(I_{t+1}\)。推断出的意图随后被编码,并用作检索意图级知识的查询。选择与最相似意图对应的知识条目作为最终检索结果(\(K=1\))。形式上,检索操作定义为:
\[ \mathcal{R}(Q)=\operatorname{Top\text{-}K}\Big(\mathbf{k}_j\big|\mathbf{k}_j\in\mathcal{K},\text{sim}(Q,\mathbf{k}_j)\geq p\Big) \quad (3) \]
其中\(Q\)表示用户查询\(r^{\text{user}}_{t+1}\)或推断出的意图\(I_{t+1}\),\(\mathcal{K}\)表示知识库。对于意图级检索,我们设置\(K=1\)。当观察到用户消息时,检索到的知识被纳入交互中:
\[ r^{\text{re}}_{t+1}=r_{t+1}\cup\mathcal{R}(Q),\quad \text{if } r_{t+1}=r^{\text{user}}_t \quad (4) \]
并且增强后的对话历史更新为:
\[ \mathcal{H}^{\text{re}}_{t+1}=\mathcal{H}^{\text{re}}_t\cup\{o_{t+1},r^{\text{re}}_{t+1}\} \quad (5) \]
我们在BFCL-V3Patil et al. (2025)基准上进行了分析实验。我们在Qwen3-8B和Qwen3-32BYang et al. (2025)上评估了我们的方法,系统性地比较了不同的经验知识类型和集成设置,如图1所示。实验结果表明:(1)实例级知识始终比意图级知识带来更大的性能提升。这可能是因为轨迹级信息提供了细粒度的、可直接执行的指导...

相似文章

LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers

本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。

用 LLM 优化 LLM:面向测试时扩展的智能体发现方法

Hugging Face Daily Papers

本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。