何时信任工具?工具集成数学推理的自适应工具信任校准

arXiv cs.CL 论文

摘要

本文介绍了自适应工具信任校准(ATTC)框架,该框架通过使工具集成推理模型能够根据代码置信度得分自适应地决定是否相信或忽视工具结果,从而改进了这些模型。该方法解决了模型错误地忽视正确工具输出的"工具被忽视"问题,在多个模型和数据集上实现了4.1%-7.5%的性能提升。

arXiv:2604.08281v2 公告类型:替换 摘要:大型推理模型(LRMs)通过扩展测试时间计算实现了强大的性能提升,但由于底层语言模型的固有限制,它们在需要精确计算和广泛知识储备的任务中仍存在缺陷。工具集成推理(TIR)已成为一种有前景的范式,它在推理过程中融入工具调用和执行。虽然最近的研究发布了一些强大的开源TIR模型,但我们的分析表明这些模型仍存在关键缺陷。我们发现,当模型的推理与工具结果冲突时,模型倾向于相信自己的推理。存在工具结果正确但被模型忽视从而导致错误答案的情况,我们将其定义为"工具被忽视"。这说明模型不知道何时应该信任或忽视工具。为克服这些限制,我们引入了自适应工具信任校准(ATTC)这一新颖框架,它引导模型根据生成代码块的置信度得分自适应地选择相信或忽视工具结果。来自不同规模开源TIR模型和多个数据集的实验结果表明,ATTC有效地减少了"工具被忽视"问题,性能提升幅度为4.1%至7.5%。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:32

# 何时信任工具?工具集成数学推理的自适应工具信任校准 来源:https://arxiv.org/html/2604.08281

Ruotao Xu1, Yixin Ji1, Yu Luo2, Jinpeng Li2, Dong Li2, Peifeng Li1,Juntao Li1,Min Zhang3,1

1苏州大学计算机科学与技术学院 2华为2012实验室基础模型部 3哈尔滨工业大学深圳校区 \(HITSZ\)

\{xuruotao007, jiyixin169\}@gmail\.com\{ljt,minzhang\}@suda\.edu\.cn

###### 摘要

大规模推理模型 \(LRMs\) 通过扩展测试时计算获得了显著的性能提升,但由于底层语言模型的固有限制,在需要精确计算和广泛知识的任务中仍存在不足。工具集成推理 \(TIR\) 是一个有前景的新范式,在推理轨迹中融合了工具调用和执行。虽然最近的工作发布了一些强大的开源 TIR 模型,但我们的分析发现这些模型仍存在严重缺陷。我们发现当模型的推理与工具结果冲突时,模型倾向于相信自己的推理。在某些情况下,工具结果是正确的但被模型忽略,导致错误答案,我们称之为"工具被忽略"。这表明模型不知道何时信任或忽略工具。为了克服这些限制,我们引入自适应工具信任校准 \(ATTC\),这是一个新颖的框架,根据生成代码块的置信度分数引导模型自适应地选择信任或忽略工具结果。来自不同规模的开源 TIR 模型和多个数据集的实验结果表明,ATTC 有效减少了"工具被忽略"问题,性能提升 4.1% 到 7.5%。我们的代码已发布在 https://github.com/00Dreamer00/ATTC。

## 1 引言

![Figure 1:](placeholder) 图1:"工具被忽略"现象案例。模型通过推理得出错误答案18,而工具提供正确结果17。模型忽略了工具并给出错误答案。

大规模推理模型 \(LRMs\) \(OpenAI et al\.,2024 (https://arxiv.org/html/2604.08281#bib.bib39); DeepSeek\-AI et al\.,2025a (https://arxiv.org/html/2604.08281#bib.bib19); Yang et al\.,2025 (https://arxiv.org/html/2604.08281#bib.bib37); Team et al\.,2025 (https://arxiv.org/html/2604.08281#bib.bib21); Comanici et al\.,2025 (https://arxiv.org/html/2604.08281#bib.bib36)\) 的快速发展代表了大型语言模型 \(LLM\) 历史上的变革性里程碑。通过扩展测试时计算 \(Ji et al\.,2025 (https://arxiv.org/html/2604.08281#bib.bib30)\),这些模型在处理具有挑战性的推理任务中取得了实质性的性能提升。与通常直接生成回应的传统 LLM 不同,LRM 在生成答案之前进行长链式思考 \(CoT\) 推理。这种向系统化推敲过程的转变使模型能够优化其逻辑并得出更稳健的最终输出。

然而,LRM 仍然受到底层语言模型固有限制的制约 \(Zhao et al\.,2025 (https://arxiv.org/html/2604.08281#bib.bib22); Yue et al\.,2025 (https://arxiv.org/html/2604.08281#bib.bib23)\),特别是在需要精确数值计算和全面知识覆盖的领域。为了缓解这些限制,工具集成推理 \(TIR\) \(Gou et al\.,2024 (https://arxiv.org/html/2604.08281#bib.bib1); Wang et al\.,2023 (https://arxiv.org/html/2604.08281#bib.bib35); Liao et al\.,2024 (https://arxiv.org/html/2604.08281#bib.bib2)\) 已成为一个有前景的范式,在推理轨迹中融合了工具调用和执行。通过融合代码执行器和搜索引擎等外部工具,TIR 使模型能够突破纯推理的性能瓶颈。

TIR 的早期工作主要依赖提示工程 \(Wang et al\.,2025 (https://arxiv.org/html/2604.08281#bib.bib8); Yuan et al\.,2024 (https://arxiv.org/html/2604.08281#bib.bib9); Qian et al\.,2024 (https://arxiv.org/html/2604.08281#bib.bib10); Chen et al\.,2023 (https://arxiv.org/html/2604.08281#bib.bib31); Yang et al\.,2024b (https://arxiv.org/html/2604.08281#bib.bib32)\) 来指导 LLM 进行工具调用。然而,这些方法高度依赖于精心设计的提示,限制了其可扩展性和泛化能力。一些后续工作使用监督微调 \(Chen et al\.,2025 (https://arxiv.org/html/2604.08281#bib.bib11); Qian et al\.,2025 (https://arxiv.org/html/2604.08281#bib.bib12); Yang et al\.,2024a (https://arxiv.org/html/2604.08281#bib.bib33); Yao et al\.,2023 (https://arxiv.org/html/2604.08281#bib.bib34); Wang et al\.,2023 (https://arxiv.org/html/2604.08281#bib.bib35)\),通过在包含工具调用演示的专门数据集上训练模型,来内化模型主动在推理中调用工具的行为模式。然而,基于 SFT 的方法具有固有的局限性,因为它们强制模型严格遵循训练数据分布中存在的工具使用模式,这些模型往往无法开发出自适应策略。

为了解决这些问题,最近的几项工作专注于应用强化学习 \(Feng et al\.,2025 (https://arxiv.org/html/2604.08281#bib.bib4); Li et al\.,2025 (https://arxiv.org/html/2604.08281#bib.bib3); Jiang et al\.,2025 (https://arxiv.org/html/2604.08281#bib.bib6); Bai et al\.,2025 (https://arxiv.org/html/2604.08281#bib.bib5); Xuee et al\.,2025 (https://arxiv.org/html/2604.08281#bib.bib7)\) 来改进模型的工具使用能力。这些工作使模型能够根据任务的复杂性在调用工具时采用更灵活的策略。

在本研究中,我们特别关注 TIR 在使用代码执行器作为工具的场景中的应用。虽然现有工作已经使模型能够执行 TIR,但我们的分析发现现有的开源 TIR 模型仍存在严重缺陷。最值得注意的是,在外部工具结果和推理之间达到最优平衡方面仍存在持续的困难。通过分析 TIR 模型的推理轨迹,我们观察到在错误案例中,模型的推理与外部工具结果之间的广泛矛盾。当这样的冲突出现时,模型往往缺乏强大的机制来协调不同的信息,经常选择忽略工具的输出。如图1所示,模型未能得出正确答案的具体原因是它忽略了有效的工具结果,我们将这种现象定义为"工具被忽略"。这种行为表明当前的 TIR 模型在准确判断何时信任或摒弃工具结果方面存在困难,导致推理路径冗余和结论错误。

为了克服这些限制,我们提出自适应工具信任校准 \(ATTC\),这是一个新颖的框架,根据生成代码块的置信度分数引导模型自适应地选择信任或忽略工具结果。当检测到模型调用工具时,ATTC 将根据特定的置信度评分公式对模型生成的代码块进行评分。如果置信度分数大于经验确定的阈值,ATTC 将引导模型信任工具结果,否则 ATTC 将引导模型重新思考。我们在多个开源 TIR 模型上进行了广泛的实验,实验结果有力证明 ATTC 有效减少了"工具被忽略"问题,性能提升 4.1% 到 7.5%。

总体而言,我们的贡献如下:

- •我们发现 TIR 模型不知道何时信任工具结果,并定义了"工具被忽略"问题。
- •我们提出了一个新颖的框架 ATTC 用于工具集成推理,根据生成代码块的置信度分数引导模型自适应地选择信任或忽略工具结果。
- •在各种规模的开源 TIR 模型上进行的广泛实验表明 ATTC 改进了模型的性能。

## 2 现象分析

### 2.1 推理与工具的矛盾

在仔细观察许多工具集成推理轨迹后,我们发现模型推理产生的结论与外部工具返回的输出并不总是一致的,实际上两者之间的冲突频繁出现。为了确定这类冲突实例的确切比例并描述其解决方式,我们对 32000 多个案例进行了基于 LLM 的审计,随后进行了详细的定量评估。具体来说,我们分别在真实案例和错误案例中测量冲突的流行程度。在冲突的情况下,我们进一步分析模型是倾向于依赖自己的推理还是推迟到工具输出。

用于指导这一分析的提示在附录 B 中提供。图2 显示在 40% 到 60% 的错误案例中存在模型推理与外部工具输出之间的矛盾。在超过一半的冲突情景中,模型表现出强烈的倾向,即相信自己的推理而不是工具生成的结果。这种模式揭示了模型元认知的重大限制,特别是其在有效判断何时信任工具返回的输出而不是自己的推理结果方面的无能。

![Figure 2:](placeholder) 图2:错误案例中模型推理与工具结果矛盾的比例。列中的颜色比例表示模型选择相信自己推理或工具结果的比例。

### 2.2 工具被忽略

通过检查大量显示推理工具矛盾的错误案例,我们识别了一种反直觉的失败模式:当冲突出现时,工具输出是正确的,但模型忽略了它并坚持自己的推理,产生了错误答案。我们将这种失败模式称为"工具被忽略"。这种现象表明系统性地偏好自生成的推理而不是外部提供的证据,这阻止了模型充分利用工具增强,最终降低了任务准确性。

图1 中显示了一个具体案例。为了评估这种失败模式的流行程度,我们在四个不同的模型和四个具有挑战性的数据集上对错误案例进行了系统分析。图3 总结的结果显示,在每个模型-数据集组合中,"工具被忽略"至少占错误的 15%。这种现象破坏了准确性和计算效率。当可验证的正确工具输出被忽略时,模型通常倾向于生成冗余的推理步骤或工具调用,产生错误的预测,同时产生不必要的计算成本。同样重要的是避免盲目接受工具生成的结果。因此,关键的挑战是赋予模型元认知校准,以决定何时信任外部工具和何时依赖其推理。

![Figure 3:](placeholder) 图3:不同 TIR 模型在四个数据集上"工具被忽略"现象的比例。

## 3 方法论

![Figure 4:](placeholder) 图4:自适应工具信任校准 \(ATTC\) 方法的概览。

| 模型 | MATH 500 | Minerva Math | Olympiad | AIME24 | AMC23 | 平均 |
|------|----------|-------------|----------|--------|-------|------|
| 基于 Qwen2.5-7B 的模型 |
| ToRL-7B | 82.2 | 33.5 | 49.9 | 43.3 | 63.6 | 54.8 |
| \rowcolorblue\!10 +ATTC | 84.8 | 43.8 | 52.4 | 46.7 | 72.5 | 60.0 |
| +5.2 |
| Effective TIR-7B | 82.8 | 30.5 | 51.9 | 42.3 | 70.0 | 55.5 |
| \rowcolorblue\!10 +ATTC | 85.8 | 42.3 | 53.5 | 46.7 | 77.5 | 61.2 |
| +5.7 |
| VerlTool-7B | 82.0 | 31.6 | 49.8 | 40.0 | 67.5 | 54.2 |
| \rowcolorblue\!10 +ATTC | 83.4 | 44.1 | 50.5 | 43.3 | 70.0 | 58.3 |
| +4.1 |
| SimpleTIR-7B | 82.1 | 30.1 | 47.4 | 46.7 | 75.0 | 56.3 |
| \rowcolorblue\!10 +ATTC | 83.2 | 46.7 | 49.2 | 50.0 | 77.5 | 61.3 |
| +5.0 |
| 基于 Qwen2.5-32B 的模型 |
| ReTool-32B | 84.6 | 30.5 | 60.1 | 53.3 | 80.0 | 61.7 |
| \rowcolorblue\!10 +ATTC | 87.4 | 36.8 | 62.5 | 66.7 | 92.5 | 69.2 |
| +7.5 |
| SimpleTIR-32B | 85.2 | 33.8 | 53.8 | 50.0 | 80.0 | 60.6 |
| \rowcolorblue\!10 +ATTC | 88.2 | 36.8 | 56.9 | 56.7 | 85.0 | 64.7 |
| +4.1 |
| 基于 Qwen3-4B 的模型 |
| ReTool-4B | 57.0 | 16.2 | 27.7 | 16.7 | 42.5 | 32.0 |
| \rowcolorblue\!10 +ATTC | 61.8 | 23.9 | 32.0 | 16.7 | 52.5 | 37.4 |
| +5.4 |
| DemyAgent-4B | 71.4 | 17.3 | 51.9 | 40.0 | 75.0 | 51.1 |
| \rowcolorblue\!10 +ATTC | 79.4 | 22.4 | 53.5 | 43.3 | 77.5 | 55.2 |
| +4.1 |

表1:提议的 ATTC 方法在各种工具集成推理模型上不同数学基准的 Pass@1 性能。

### 3.1 预备知识

在本工作中,我们考虑一个工具集成推理 \(TIR\) 设置,其中语言模型在测试时推理期间与外部 Python 执行环境交互。在这个特定的范式下,代码生成由模型在推理过程中有选择地和自主地触发。至关重要的是,模型被训练来学习如何有效地利用这个生成的代码来协助、增强和验证其推理能力。

正式地,TIR 模型在迭代 n 处维持推理轨迹 $\mathcal{T}^{(t)}$ 如下:

$$\mathcal{T}^{(t)}=\bigl\{(r^{(1)},c^{(1)},o^{(1)}),\dots,(r^{(t)},c^{(t)},o^{(t)})\bigr\} \quad (1)$$

其中 $r^{(t)}$ 表示自然语言推理,$c^{(t)}$ 代表生成的可执行代码,$o^{(t)}$ 是外部环境返回的执行结果。迭代生成过程如下:

$$(r^{(t)},c^{(t)})\sim M_{\mathrm{tir}}\!\left(Q,\mathcal{T}^{(t-1)}\right) \quad (2)$$

$$o^{(t)}=\mathcal{E}\!\left(c^{(t)}\right) \quad (3)$$

$$\mathcal{T}^{(t)}=\mathcal{T}^{(t-1)}\cup\bigl\{(r^{(t)},c^{(t)},o^{(t)})\bigr\} \quad (4)$$

给定输入提示 $Q$ 和累积轨迹 $\mathcal{T}^{(t-1)}$,TIR 模型 $M_{\mathrm{tir}}$ 继续生成。生成的代码随后由外部代码执行环境 $\mathcal{E}$ 执行以获得相应的输出。这个迭代过程继续进行,直到满足终止条件,此时模型产生最终答案。

为了解决第2节中讨论的"工具被忽略"现象,我们在下一部分引入自适应工具信任校准 \(ATTC\) 方法来指导 TIR 模型是否信任或忽略工具。

### 3.2 自适应工具信任校准

ATTC 的主要思想是模型对其生成的代码块的置信度表明了其在进行工具调用之前的先驱推理是否充分。我们观察到源于不完整或有缺陷推理过程的代码块往往表现出明显较低的置信度。相反,当先前的思考过程是全面且逻辑合理的时,模型生成代码时的确定性程度显著更高。具体的定量实验可在第4.3节中找到。这种模式表明 TIR 模型隐含地认识到工具输出的可信度,但缺乏显式机制来在其进行中的推理中利用这种意识,经常导致对工具结果的错误信任或忽视。

ATTC 旨在通过将这种隐含意识转化为显式机制来弥合这一差距。

相似文章

通过过程监督改进数学推理

OpenAI Blog

OpenAI 展示了过程监督——对中间推理步骤而非仅对最终答案进行奖励——如何改进数学推理,同时降低对齐成本。这种方法在不牺牲模型性能的前提下,产生更易解释、更符合人类价值观的推理过程。