IAPO：面向小规模多模态智能体工具使用的输入归因感知策略优化

arXiv cs.LG 2026/06/11 04:00 论文

reinforcement-learning tool-use multimodal small-language-model policy-optimization attribution

摘要

本文介绍了IAPO，一种通过将输入归因与更强大的教师模型对齐，来提升多模态小语言模型工具调用能力的强化学习算法。在Qwen2.5-VL-3B上的实验表明，在六个测试集上，视觉问答准确率平均提升了3%。

arXiv:2606.11652v1 公告类型：新摘要：本文研究了强化学习方法，用于提升多模态小语言模型代理的工具调用能力。虽然现有工作探索了各种奖励设计来提升代理工具调用能力，但这些方法在多模态场景下的SLM训练中存在固有局限性。首先，许多现有方法通过精确匹配某些真实标注或预定义格式来评估工具使用的正确性。然而，这种假设通常不适用于多模态任务，因为可能存在多个有效的工具使用路径，并且通常没有标注的工具轨迹。其次，这种稀疏且脆弱的二元奖励对于如何改进底层决策过程提供的指导很少，使得多模态SLM尤其难以从中学习。为了解决这些问题，我们提出了输入归因感知策略优化（IAPO），一种通过将模型在输入组件上的归因与更强大的教师模型对齐，来改进多模态SLM工具使用的RL算法。在Qwen2.5-VL-3B上的实验表明，与现有的视觉工具使用工作相比，所提出的方法通过帮助模型关注最相关的输入证据，在六个测试集上平均提升了3%的视觉问答准确率。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:51

# 面向工具使用的小型多模态智能体的输入归因感知策略优化  
来源：https://arxiv.org/html/2606.11652  
Yifan Yang, Zhen Zhang, Jiayi Tian, Liyan Tan, Zheng Zhang  
加州大学圣塔芭芭拉分校  
\{yifanyang,zhen_zhang,jiayi_tian,liyan_tan,zzhang01\}@ucsb.edu  

###### 摘要  
本文研究了通过强化学习（RL）方法提升多模态小型语言模型（SLM）智能体工具调用能力的问题。尽管现有工作探索了各种奖励设计以改善智能体的工具调用能力，但这些方法在SLM训练中面临固有局限性，尤其在多模态场景下。首先，许多现有方法通过精确匹配某些真实标签或预定义格式来评估工具使用正确性。然而，这一假设通常不适用于多模态任务，因为可能存在多种有效的工具使用路径，且标注的工具轨迹通常不可得。其次，这种稀疏且脆弱的二值奖励为改进底层决策过程提供的指导非常有限，使得多模态SLM难以从中学习。为解决这些问题，我们提出了**输入归因感知策略优化（IAPO）**，这是一种用于改进多模态SLM工具使用的RL算法，通过将模型在输入组件上的归因¹¹¹归因指每个输入变量对模型输出的贡献（deng2026attribution）。与更强教师模型的归相对齐。在Qwen2.5-VL-3B上的实验表明，与现有的视觉工具使用工作相比，该方法在六个测试集上的视觉问答准确率平均提升3%，这是通过帮助模型关注最相关的输入证据实现的。

## 1 引言  
自从近端策略优化（PPO）[Schulman et al., 2017 (https://arxiv.org/html/2606.11652#bib.bib12)]和分组相对策略优化（GRPO）[Shao et al., 2024 (https://arxiv.org/html/2606.11652#bib.bib13)]等方法开发以来，强化学习（RL）已成为提升复杂长程推理任务性能的核心范式 [Xie et al., 2025 (https://arxiv.org/html/2606.11652#bib.bib14); Zhang et al., 2025 (https://arxiv.org/html/2606.11652#bib.bib15)]。由于其能直接优化序列决策，RL被广泛用于通过在线交互与动态展开轨迹训练大型语言模型（LLM）作为自主智能体 [Zhang et al., 2026 (https://arxiv.org/html/2606.11652#bib.bib16)]。同时，LLM规模的不断扩大使得推理成本日益高昂，对其作为智能体的实际部署构成主要障碍，从而激发了对小型语言模型（SLM）智能体的兴趣。例如，Kang 等人 [2025 (https://arxiv.org/html/2606.11652#bib.bib5)] 提出了一种基于监督微调（SFT）的智能体蒸馏框架，学生模型学习模拟更强教师智能体的行为。最近，Lyu 等人 [2026 (https://arxiv.org/html/2606.11652#bib.bib43)] 引入了一种新的数据收集管线，用于合成基于RL的SLM智能体训练数据，其依据是RL在智能体设置中能提供比SFT更强的训练信号 [Mai et al., 2025 (https://arxiv.org/html/2606.11652#bib.bib46)]。尽管取得了这些进展，使用原始GRPO算法的智能体RL训练仍产生次优性能。为解决此问题，一些近期研究探索了更专门的RL算法，配合细粒度奖励机制，为通用LLM智能体的工具使用提供更具信息量的反馈。例如，ToRL引入了一种结合答案正确性与执行惩罚的奖励公式，以更好地监督工具调用行为 [Li et al., 2025 (https://arxiv.org/html/2606.11652#bib.bib38)]。类似地，TRM提出了一种专用过程奖励模型来评估工具调用质量，从而实现对工具调用正确性的显式验证 [Ma et al., 2026 (https://arxiv.org/html/2606.11652#bib.bib27)]。然而，直接适配这些奖励设计并不能为多模态SLM训练带来最优性能，主要原因有两点。第一，现有方法依赖于严格的格式检查或对真实工具轨迹的精确匹配，而多模态任务通常允许多条有效的工具使用路径。例如，当聚焦相关图表区域时，模型可以选择高亮、遮罩或绘制边界框——这些不同的操作都能为推理提供有用的视觉证据。第二，这种二值的、基于匹配的奖励往往稀疏且脆弱，为SLM学习决策过程提供的指导有限。此外，这些方法只关注文本领域。在相对有限的多模态工具使用工作中，如VTool-R1 [Wu et al., 2026 (https://arxiv.org/html/2606.11652#bib.bib20)] 和 OpenThinkIMG [Su et al., 2025 (https://arxiv.org/html/2606.11652#bib.bib21)] 等方法仍依赖于原始GRPO算法。然而，如我们在4.2节 (https://arxiv.org/html/2606.11652#S4.SS2) 所示，使用原始GRPO训练的多模态SLM在训练后期仍会产生大量误用的工具调用。这表明多模态工具使用的RL算法设计仍有待探索，尤其对于小规模模型。  

为了在RL训练中为多模态SLM提供更丰富的指导，一个自然的想法是借鉴知识蒸馏 [Gou et al., 2021 (https://arxiv.org/html/2606.11652#bib.bib44)]，利用更强的教师模型来监督学生的中间决策过程。然而，关键挑战在于RL奖励通常从解码后的文本输出计算得出，难以捕捉模型内部知识。幸运的是，我们发现输入对生成工具调用的归因与工具调用正确性高度相关：当输入中适当部分（例如正确工具的定义）对模型输出贡献更大时，模型更有可能选择正确的工具。这一观察为设计反映模型内部知识的奖励架起了桥梁，通过使用输入归因作为在线RL的密集监督信号。基于这一洞见，我们提出了**输入归因感知策略优化（IAPO）**，这是首个为SLM训练设计特定奖励的方法。具体来说，我们量化不同输入组件对生成工具调用的贡献，并使用学生和教师归因分布之间的KL散度来获得密集的、蒸馏风格的指导信号。该奖励不仅改善了工具选择，还为底层决策过程提供了显式监督。我们的主要贡献如下：  
- •我们提出了新的积分梯度（IG）分数，用以量化不同输入组件对工具调用的贡献。  
- •为在RL训练期间将教师的工具调用能力迁移到SLM，我们提出了IAPO，通过比较学生与教师的IG分数来施加基于归因的惩罚。  
- •我们进行了案例研究，表明即使在原始GRPO训练后，多模态SLM仍会遭受工具误用。此外，我们发现直接适配为大型纯文本模型开发的工具使用奖励设计不足以实现多模态SLM训练的最佳性能，因为IAPO相较于这些适配方法带来了3%以上的准确率提升。

## 2 相关工作  
在本文中，我们考虑一个多模态工具调用设置，其中模型被提示使用视觉编辑工具来改善视觉问答任务的推理性能。尽管先前工作致力于改善以多模态输入为条件的纯文本推理 [Shen et al., 2025 (https://arxiv.org/html/2606.11652#bib.bib47); Huang et al., 2025 (https://arxiv.org/html/2606.11652#bib.bib48)]，但涉及真实图像操作的多模态学习直到最近才受到相对较少的关注。早期的推理时方法引入了中间视觉推理步骤来增强多模态推理。例如，Visual Sketchpad [Hu et al., 2024 (https://arxiv.org/html/2606.11652#bib.bib45)] 和 Refocus [Fu et al., 2025 (https://arxiv.org/html/2606.11652#bib.bib31)] 允许模型在推理过程中生成视觉工件或调用图像编辑工具（如裁剪、高亮、遮罩），从而实现对任务相关视觉区域的迭代聚焦。最近，RL已被用于训练多模态智能体，使其在推理过程中学习何时以及如何调用工具。例如，DeepEyes 通过将涉及图像的工具调用纳入RL训练，鼓励VLM“用图像思考” [Zheng et al., 2025 (https://arxiv.org/html/2606.11652#bib.bib24)]。同一条线上的工作，如 OpenThinkIMG [Su et al., 2025 (https://arxiv.org/html/2606.11652#bib.bib21)] 和 VTool-R1 [Wu et al., 2026 (https://arxiv.org/html/2606.11652#bib.bib20)]，将视觉编辑工具集成到RL微调框架中，允许VLM将文本推理与中间视觉操作交错进行，从而提高最终任务准确率。这些工作共同展示了RL在改善VLM工具调用性能方面的潜力。然而，用于指导多模态工具选择和推理的细粒度中间奖励设计仍基本未被探索。

图1：IAPO方法概览。归因惩罚 \(P^A\) 从第一次展开中生成的工具调用序列 \(y'\) 计算得到。最终的IAPO奖励将标准的结果奖励 \(R^{\mathrm{out}}\) 与归因惩罚 \(P^A\) 结合。  
*见标题*

## 3 方法  

### 3.1 使用原始GRPO训练VLM智能体  
在本节中，我们首先给出原始GRPO设置下的问题表述，并分析原始GRPO奖励设计在视觉工具调用任务中的局限性。我们遵循VTool-R1 [Wu et al., 2026 (https://arxiv.org/html/2606.11652#bib.bib20)] 中引入的基于原始GRPO的视觉工具调用智能体训练框架。具体来说，我们考虑一个参数化为 \(\theta\) 的VLM策略 \(\pi_\theta\)，用于多模态工具调用。在每次展开中，策略接收图像 \(\bm{I}\) 和提示 \(\bm{x}\) 作为输入，并生成输出响应 \(\bm{y}\)。如图2 (https://arxiv.org/html/2606.11652#S3.F2) 所示，我们将输入提示 \(\bm{x}\) 划分为一个有序的语义块序列 \(\bm{x}=[\bm{b}_1,\bm{b}_2,\dots,\bm{b}_K]\)，其中每个块对应提示的一个功能部分。在本工作中，我们考虑四种块类型：纯文本上下文 \(P\)、用户查询 \(R\)、图像占位符 \(I\) 和工具定义 \(T\)。我们用 \(\tau(k) \in \{P,R,I,T\}\) 表示块 \(\bm{b}_k\) 的类型。例如，一个提示可能写为 \(\bm{x}=[P_1,T_1,T_2,P_2,R,I]\)，其顺序遵循实际提示结构。由于系统提示模板在所有样本中固定，我们在全文中使用相同的块划分。  

对于展开过程，我们采用两轮设置。在第一轮中，模型接收输入 \(\bm{x}\) 和图像 \(\bm{I}\)，生成工具调用 \(\bm{y}' \sim \pi_\theta(\cdot \mid \bm{x},\bm{I})\)，其中原始图像 \(\bm{I}\) 由代码执行器 \(\mathcal{T}\) 处理，得到中间编辑图像 \(\bm{I}' = \mathcal{T}(\bm{y}',\bm{I})\)。在第二轮中，模型在修改后的视觉输入上进行推理，产生最终答案 \(\bm{y} \sim \pi_\theta(\cdot \mid \bm{x},\bm{y}',\bm{I},\bm{I}')\)。我们不考虑超过两轮的设置，原因是适合顺序工具使用的VLM推理数据集有限，且大量中间图像token引入的长上下文窗口会超出我们的计算预算。  

基于原始GRPO的现有视觉工具推理方法（如VTool-R1和OpenThinkIMG）通常使用二值结果奖励 \(R_i^{\mathrm{out}}\)，如果第 \(i\) 个响应中的最终答案正确则赋值为1，否则为0。对于每个多模态输入样本 \((\bm{I},\bm{x}) \sim \mathcal{D}\)，GRPO从旧策略 \(\pi_{\mathrm{old}}(\cdot \mid \bm{I},\bm{x})\) 中采样一组共 \(G\) 个响应 \(\{\bm{y}_1,\dots,\bm{y}_i,\cdots,\bm{y}_G\}\)。GRPO目标定义为：
\[
\mathcal{J}_{\mathrm{GRPO}}(\theta) = \mathbb{E}_{\mathcal{D},\,\{\bm{y}_i\}_{i=1}^G \sim \pi_{\mathrm{old}}(\cdot \mid \bm{I},\bm{x})} \Big[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|\bm{y}_i|} \sum_{t=1}^{|\bm{y}_i|} \min\big(r_{i,t}(\theta) \hat{A}_i,\, \operatorname{clip}(r_{i,t}(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_i\big) - \beta D_{\mathrm{KL}}\!\left[ \pi_\theta \,\|\, \pi_{\mathrm{ref}} \right] \Big],
\]
其中标量 \(\epsilon\) 是GRPO中的裁剪阈值，\(\beta\) 是KL正则化系数，\(\pi_{\mathrm{ref}}\) 表示参考策略。token级重要性比率 \(r_{i,t}(\theta)\) 定义为 \(r_{i,t}(\theta) = \frac{\pi_\theta(y_{i,t} \mid \bm{x}, \bm{y}_i, \bm{I}, \bm{I}')}{\pi_{\mathrm{old}}(y_{i,t} \mid \bm{x}, \bm{y}_i, \bm{I}, \bm{I}')}\)。优势函数 \(\hat{A}_i\) 基于组内奖励进行归一化，即 \(\hat{A}_i = \frac{R_i^{\mathrm{out}} - \text{mean}(\{R_1^{\mathrm{out}},\dots,R_G^{\mathrm{out}}\})}{\text{std}(\{R_1^{\mathrm{out}},\dots,R_G^{\mathrm{out}}\})}\)。

图2：IAPO展开中使用的系统提示模板及示例划分。  
*文本内容：*  
\{用户查询 R\}  
\{工具 T_1\} def focus_on_columns_with_highlight ...  
\{工具 T_2\} def focus_on_rows_with_highlight ...  
\{工具 T_3\} def focus_on_columns_with_mask ...  
\{工具 T_4\} def focus_on_rows_with_mask ...  
\{工具 T_5\} def focus_on_columns_with_draw ...  
\{工具 T_6\} def focus_on_rows_with_draw ...  
\{纯文本 P_1\} # 目标 #：基于上述工具，我希望你推理如何解决 #用户请求# 并逐步生成动作（每个动作是一个python函数调用）以解决该请求。你可能需要使用上述工具处理图像，并根据先前代码块的视觉输出做出决策。你只能使用上述工具，不应使用其他无法执行的函数或代码。  
\{纯文本 P_2\} # 示例 #：不需要任何工具的简单问题 ... # 用户边界框信息 #：x_values_bbox，存储x值和坐标。y_values_bbox，存储y值和坐标。图像中的x值为：。图像中的y值为：。  
\{用户图像\} 存储在image_1中，为PIL图像。

### 3.2 IAPO：输入归因感知策略优化  
在本节中，我们提出IAPO，一种用于多模态SLM训练的RL算法，它引入了新的奖励设计，结合最终结果奖励 \(R^{\mathrm{out}}\) 与基于归因的惩罚 \(P^A\)。该惩罚通过鼓励SLM关注对正确工具使用决策最相关的输入组件，从更强的教师模型中蒸馏指导信息。我们首先引入作为惩罚核心的积分梯度（IG）分数，然后给出完整的IAPO奖励公式。

**积分梯度分数：** 直观上，IG分数利用基于梯度的归因来度量每个输入块对模型输出的贡献。对于输入块序列 \(\bm{x}=[\bm{b}_1,\dots,\bm{b}_K]\) 和模型输出 \(\bm{y}'\)（工具调用序列），我们首先定义基线输入 \(\bm{x}^{(0)}\)，其中所有工具定义块被替换为中性占位符（例如空字符串或“无定义”），同时保留其他块不变。然后，IG分数通过沿从基线到实际输入的路径积分梯度来计算第 \(k\) 个输入块的贡献：
\[
\text{IG}_k(\bm{x}, \bm{y}') = (\bm{b}_k - \bm{b}_k^{(0)}) \odot \int_{\alpha=0}^{1} \frac{\partial \log p(\bm{y}' \mid \bm{x}^{(\alpha)}, \bm{I})}{\partial \bm{b}_k} \, d\alpha,
\]
其中 \(\bm{x}^{(\alpha)}\) 是通过线性插值 \((\bm{x}^{(\alpha)} = (1-\alpha)\bm{x}^{(0)} + \alpha \bm{x})\) 得到的路径。实际上，我们通过数值积分使用 \(m\) 个等距步长来近似该积分。然后我们将分数归一化为 \(\bar{\text{IG}}_k = \frac{\text{IG}_k}{\sum_{j=1}^K \text{IG}_j}\)，得到输入上的分布。

**归因惩罚：** 令 \(\bar{\text{IG}}_k^S\) 和 \(\bar{\text{IG}}_k^T\) 分别表示学生模型和教师模型对第 \(k\) 个块的归一化IG分数。对于给定样本，归因惩罚 \(P^A\) 定义为两个分布之间的KL散度：
\[
P^A = D_{\mathrm{KL}}(\bar{\text{IG}}^T \parallel \bar{\text{IG}}^S) = \sum_{k=1}^K \bar{\text{IG}}_k^T \log \frac{\bar{\text{IG}}_k^T}{\bar{\text{IG}}_k^S}.
\]
该惩罚鼓励学生模型调整其内部知识，使其在生成工具调用时与教师归因模式更加一致。

**IAPO奖励：** 总的IAPO奖励结合了结果奖励与归因惩罚：
\[
R_i^{\mathrm{IAPO}} = R_i^{\mathrm{out}} - \lambda P_i^A,
\]
其中 \(\lambda > 0\) 是控制惩罚强度的超参数。在实践中，我们使用与原始GRPO相同的优化框架，但将优势函数 \(\hat{A}_i\) 替换为基于 \(R_i^{\mathrm{IAPO}}\) 计算的归一化值。完整的IAPO算法稳定地提升了多模态SLM的工具使用性能，如实验部分所示。

IAPO：面向小规模多模态智能体工具使用的输入归因感知策略优化

相似文章

AIPO：通过与主动交互学习推理

APPO: 智能体过程策略优化

面向多模态推理的结构化角色感知策略优化

通过反事实推理路径减少信用分配方差

StepPO：面向智能体强化学习的步骤对齐策略优化

提交意见反馈