开放权重大模型中的约束代价：结构化输出约束下工具调用抑制的实证研究

arXiv cs.CL 2026/06/25 04:00 论文

llm tool-calling structured-output open-weight agent-systems constraint-tax empirical-study

摘要

本文识别并分析了开放权重大模型在同时启用工具调用和JSON模式约束时出现的'工具抑制'现象，提出了约束优先级反转假设以及一种名为'透明两遍执行'的缓解策略。

arXiv:2606.25605v1 Announce Type: new 摘要：工具调用和结构化输出是现代智能体系统的两个核心能力，然而它们在联合部署条件下的相互作用尚未得到充分理解。本文报告了一个在生产级智能体系统中观察到的可复现现象：当同时启用工具调用和JSON模式约束时，多个开放权重模型尽管保持较高的模式合规性，却停止调用工具。我们将这种行为称为工具抑制。通过跨多个模型系列和部署设置的控制实验，我们在联合约束下一致地复现了工具抑制，而单独评估时工具执行和模式合规性均正常。进一步分析表明，JSON模式约束被编译为基于语法的令牌掩码，导致工具调用令牌在解码过程中不可达。这为观察到的行为提供了实现层面的解释。为解释该现象，我们提出了约束优先级反转（CPI）假说，该假说认为在多重约束下，模式满足可能主导动作选择行为。我们将CPI呈现为一种与观察证据一致的行为假说，而非经过验证的内部机制。为缓解该问题，我们提出了透明两遍执行，一种将工具执行与受模式约束的响应生成解耦的推理时策略。实验结果表明，该方法能够恢复工具调用，同时保持结构化输出保证，且无需重新训练模型。这些发现表明，单独评估工具使用和结构化输出可能会忽略生产级智能体系统中的重要可靠性问题。代码、数据及文档将发布于 https://github.com/Fzsama/Constrain-Tax-26-06.git。

查看原文

查看缓存全文

缓存时间: 2026/06/25 05:12

# 开放权重大语言模型中的约束税：结构化输出约束下的工具调用抑制实证研究  
来源：https://arxiv.org/html/2606.25605  

李方正¹,²,†  
¹焦点AI中心，焦点科技股份有限公司  
²南京理工大学  
[email protected]  
[email protected]  

张爱民¹,†  
¹焦点AI中心，焦点科技股份有限公司  
[email protected]  

吕晨¹  
¹焦点AI中心，焦点科技股份有限公司  
[email protected]  

###### 摘要  
工具调用与结构化输出是当代Agent系统的两大核心能力，然而它们在联合部署条件下的相互作用仍未得到充分理解。本文报告了在生产Agent系统中观察到的一个可复现现象：当同时启用工具调用与JSON Schema约束时，多个开放权重模型在保持高Schema符合率的同时，停止调用工具。我们将此行为称为**工具抑制**。通过在多个模型系列和部署设置下进行受控实验，我们在联合约束条件下一致地复现了工具抑制现象，而单独评估时工具执行和Schema符合性均保持正常。进一步分析表明，JSON Schema约束被编译为基于语法的Token掩码，导致工具调用Token在解码过程中变得不可达。这为观察到的行为提供了实现层面的解释。为了解释这一现象，我们提出了**约束优先级反转**（CPI）假设，该假设表明在多重约束同时存在时，Schema满足可能主导动作选择行为。我们将CPI作为一种与观察证据一致的行为假设，而非已验证的内部机制。为了缓解该问题，我们提出了**透明两阶段执行**，一种推理时策略，将工具执行与Schema约束响应生成解耦。实验结果表明，该方法在不需模型重新训练的情况下，恢复了工具调用行为，同时保持了结构化输出保证。这些发现表明，单独评估工具使用和结构化输出可能会忽略生产Agent系统中的重要可靠性问题。代码、数据和文档将在https://github.com/Fzsama/Constrain-Tax-26-06.git发布。  

**关键词**约束税 · 工具抑制 · 约束优先级反转 · 大语言模型 · Agent系统  

## 1 引言  

### 1.1 工具增强型LLM Agent  

随着大语言模型（LLM）从纯文本接口演变为可执行动作的Agent，工具增强已成为使模型与外部环境交互的标准范式。随着MCP和兼容OpenAI的工具调用API等标准化协议的发展，工具执行已在生产Agent系统中被广泛采用。与此同时，结构化输出已成为生产Agent系统中另一个关键能力。部署的Agent通常需要返回满足预定义JSON Schema的响应，以进行下游解析、工作流自动化、API集成和多Agent协调，而不是返回无约束的自然语言。因此，工具调用与结构化输出在同一执行流水线中越来越频繁地同时被激活。一个典型的生产工作流可能要求Agent先通过工具获取外部信息，然后将检索到的信息组织成符合Schema的响应。尽管这两种能力各自已被广泛研究，但它们联合部署条件下的相互作用受到的关注相对较少。现有评估通常分别评估工具使用、结构化生成和任务完成，隐含地假设单独正常运作的能力在组合时仍能正常运作。这一假设在生产Agent环境中是否成立，尚未得到充分理解，这也促成了本文的研究动机。  

### 1.2 约束税与一种未被探索的Agent失效模式  

近期研究开始关注结构化输出约束对模型行为的非预期影响。这类工作观察到，要求模型以特定格式输出会降低答案质量、降低事实准确性并增加Token使用量。该现象被描述为文本生成任务中模型性能的“约束税”。这一发现表明，结构化输出约束并非计算中性的；它们在格式符合之外对模型行为施加了可测量的代价。Agent系统引入了根本不同的执行环境。与传统的文本生成任务不同，Agent工作流要求模型决定是否执行外部动作、何时执行，以及如何将外部获取的信息纳入最终响应。因此，当工具调用与结构化输出约束共存时，结构化生成约束不仅可能影响最终响应的形式，还可能影响执行过程本身。一种可能的机制是解码层面的约束强制——如基于语法的Token掩码——可能使得工具调用Token在生成过程中不可达，从而在输出层阻止工具执行。这一观察引发了一个开放的研究问题：  

> 当工具调用与结构化输出约束同时启用时，它们是否会相互作用，影响Agent的执行行为？如果会，这种相互作用发生在哪个层面——模型偏好、解码约束，还是两者兼有？  

据我们所知，该问题尚未得到充分的实证研究。现有的约束税研究主要集中在结构化输出要求下答案质量的下降，而对Agent动作执行的潜在影响以及实现层面的机制仍基本未被探索。本文通过受控实验、推理栈追踪和生产系统观察来研究这一问题。  

### 1.3 来自生产Agent系统的观察  

该研究最初源于在生产环境中部署Agent系统时的一个意外观察。该系统配置使用一个开放权重模型，并同时启用了工具调用与结构化输出约束——这是生产环境中的常见配置。在此联合约束配置下，即使任务明确需要外部信息获取，Agent也反复未能调用外部工具。工具调用事件未被生成，最终响应也未纳入任何外部数据。相比之下，当禁用结构化输出约束而保持其他所有条件不变时，同一模型成功调用了工具并完成了任务。从系统设计角度看，这种表现是出乎意料的，因为唯一的修改是Schema约束的存在，而模型权重、提示、工具定义和任务要求完全一致。关键的观察是，模型似乎满足了Schema要求，却完全绕过了工具执行步骤。这种模式最初被视为实现异常，但在多次重复试验中持续出现。  

上述观察促使了本文研究的核心问题。工具调用和结构化输出生成在单独评估时均保持功能正常。然而，在联合部署条件下，尽管工具定义、任务要求和Schema生成成功持续存在，工具执行行为可能消失。理解这种行为不一致性的根源是本研究的首要目标。  

### 1.4 贡献  

本文做出以下贡献：  

- • **识别并刻画工具抑制**。我们报告了在生产Agent系统中观察到的可复现失效模式：当同时启用工具调用与结构化输出约束时，多个被评估的开放权重模型停止调用工具。我们将此行为定义为**工具抑制**，并通过受控实验刻画其可观察属性。  
- • **将根本原因定位于基于语法的约束解码**。通过系统追踪推理栈，我们识别出JSON Schema约束被编译为基于语法的Token掩码，使得工具调用Token在解码过程中不可达。这为观察到的抑制现象提供了具体的实现层面解释。  
- • **提出约束优先级反转（CPI）假设**。基于诊断实验期间收集的行为证据，我们将CPI作为对观察到的抑制模式的一种可能解释。CPI作为一种与观察证据一致的行为假设提出，而非已验证的内部机制。  
- • **提出并验证透明两阶段执行**。我们提出了一种推理时缓解策略，将工具执行与Schema约束响应生成分离。实验结果表明，该方法恢复了工具调用行为，同时保持了结构化输出保证。  
- • **开发工具抑制行为分类**。我们进一步将反复出现的抑制模式总结为行为分类（TS-A至TS-E），提供了一个描述性框架，用于分析不同模型和部署设置下的抑制行为。  

## 2 背景  

### 2.1 LLM Agent中的工具调用  

工具调用指的是语言模型通过生成结构化函数调用请求与外部环境交互的能力。与仅依赖参数化知识的传统语言模型不同，工具增强型Agent可以访问搜索引擎、数据库、代码解释器和企业内部系统等外部资源，从而完成需要实时信息获取、环境感知或外部执行的任务\[15 (https://arxiv.org/html/2606.25605#bib.bib2),9 (https://arxiv.org/html/2606.25605#bib.bib3),7 (https://arxiv.org/html/2606.25605#bib.bib10)\]。因此，工具调用已成为区分现代Agent系统与纯对话模型的重要特征之一。  

现有Agent框架通常将工具调用视为由多个阶段组成的执行过程，包括任务理解、工具规划、工具选择与工具执行。在此过程中，模型不仅需要判断是否需要外部信息，还需生成正确的工具调用动作，并利用返回结果进行后续推理。近年来，关于工具学习能力的研究已广泛开展，包括工具选择准确率、任务完成率和工具使用成功率等评估指标\[7 (https://arxiv.org/html/2606.25605#bib.bib10),5 (https://arxiv.org/html/2606.25605#bib.bib9)\]。现有研究已识别出开放权重模型在工具使用方面的某些局限性。Shen等人\[10 (https://arxiv.org/html/2606.25605#bib.bib5)\]指出，小规模语言模型在工具学习任务中表现出明显劣势，并提出了“弱工具学习者”现象。Wang等人\[13 (https://arxiv.org/html/2606.25605#bib.bib6)\]进一步证明，在Agent微调中加入失败案例可以有效改善工具使用行为。这些工作表明，工具调用能力本身已成为Agent研究中的重要研究方向。然而，现有研究主要关注工具调用能力是否存在以及工具调用是否正确执行，而较少关注工具调用能力与其他系统约束之间的交互效应。特别是在工具调用与结构化输出约束共存的场景下，模型能否维持正常的工具执行行为，仍缺乏系统性的研究。本文研究的工具抑制现象正是在这种联合约束场景下发生的。  

### 2.2 结构化输出生成  

结构化输出生成是指通过预定义Schema约束语言模型输出格式的技术范式，使生成结果能够被程序稳定解析和消费。与传统的自然语言响应不同，结构化输出要求模型按照特定的数据结构组织内容，通常表现为JSON对象、函数参数或符合形式语法约束的文本。随着LLM越来越广泛地集成到生产系统中，结构化输出已成为Agent、工作流编排系统和多Agent协作框架的基础能力。  

当前主流的实现方式主要包括两大类。第一类是API层面约束，例如兼容OpenAI接口中的`response_format`机制，通过Schema描述引导模型生成符合要求的输出结构。第二类是解码层的约束解码，通过语法约束、状态机或有限自动机来限制Token生成过程中的搜索空间，例如SGLang中的`guided_json`和vLLM中的基于语法的解码机制。无论采用哪种实现方式，核心目标都是提高输出格式的可确定性和可解析性。  

现有研究通常将结构化输出视作一种工程可靠性机制。Liu等人\[6 (https://arxiv.org/html/2606.25605#bib.bib4)\]通过用户调查发现，结构化输出需求已成为工业场景中的普遍需求；Deng等人\[2 (https://arxiv.org/html/2606.25605#bib.bib7)\]进一步证明，输出格式与任务求解过程之间存在显著的耦合关系，直接对生成过程施加格式约束可能影响模型完成任务本身的能力。这一发现与约束税研究形成共鸣。越来越多的证据表明，结构化输出约束不仅作用于最终输出阶段，还可能改变模型在推理过程中的资源分配和决策行为。当模型同时需要满足内容生成目标和格式约束目标时，两类目标之间可能产生竞争。然而，现有研究主要关注结构化输出对答案质量、推理能力和格式符合率的影响，而对于它是否进一步干预Agent执行过程中的动作选择行为，缺乏足够的实证研究。本文关注的工具抑制现象恰恰发生在这种背景下：结构化输出约束不再仅仅影响“如何回答”，而可能进一步影响Agent是否“执行动作”。  

### 2.3 约束税  

近年来，随着结构化输出在工业场景中的广泛应用，研究者开始关注格式约束对模型行为本身的影响。Ray\[8 (https://arxiv.org/html/2606.25605#bib.bib1)\]首次系统性地提出了**约束税**概念，用以描述语言模型在满足结构化输出要求时所付出的性能代价。实验结果表明，当对生成过程施加严格的Schema约束时，模型能够实现更高的格式符合率，但

开放权重大模型中的约束代价：结构化输出约束下工具调用抑制的实证研究

相似文章

约束税：衡量小语言模型结构化输出中的有效性与正确性权衡

约束衰减：LLM代理在后端代码生成中的脆弱性

# 超越目标等价性：基于LLM的车辆路径问题优化建模中的约束注入

生产级 LLM 持续违反工具模式约束，自创 UI 功能；在约 2,400 条消息中观察到 [D]

Contract2Tool：学习前提与效果以实现可靠的工具增强型LLM代理

提交意见反馈