通过工具监督强化学习实现视觉推理

Hugging Face Daily Papers 2026/04/21 00:00 论文

摘要

提出 ToolsRL，一个两阶段强化学习框架，教多模态大模型使用简单视觉工具完成复杂视觉推理任务。

本文研究如何让多模odal 态大模型掌握工具使用，以解决复杂视觉推理任务。为此，我们提出全新的工具监督强化学习（ToolsRL）框架，通过直接的工具监督更高效地学习工具使用。我们聚焦一系列简单、原生且可解释的视觉工具，包括放大、旋转、翻转、画点/线，其工具监督易于收集。我们设计了强化学习课程：第一阶段仅由一组动机明确的工具特定奖励优化；第二阶段在允许调用工具的同时，以准确率目标奖励训练。如此，模型先掌握调用工具的能力，再借助工具完成视觉推理任务，避免异构任务间潜在的优化冲突。实验表明，工具监督课程训练高效，ToolsRL 在复杂视觉推理任务上展现出强大的工具使用能力。

查看原文

查看缓存全文

缓存时间: 2026/04/23 07:47

论文页面 - 通过工具监督强化学习实现视觉推理

来源：https://huggingface.co/papers/2604.19945

摘要

我们提出了一种全新的工具监督强化学习框架，通过两阶段课程式训练，使多模态大语言模型高效掌握复杂视觉推理所需的工具调用能力。

本文研究如何让多模态大语言模型（Multimodal Large Language Models）有效掌握工具使用，以解决复杂的视觉推理任务（visual reasoning tasks）。为此，我们提出了工具监督强化学习（Tool-supervised Reinforcement Learning，ToolsRL）框架，通过直接的工具监督信号，让模型更高效地学习如何调用工具。我们聚焦于一组简单、原生且可解释的视觉工具，包括放大、旋转、翻转、画点/画线，其监督信号易于收集。我们设计了强化学习课程：第一阶段仅用一组设计良好的工具特定奖励（tool-specific rewards）进行优化；第二阶段在允许调用工具的前提下，使用面向准确率的奖励（accuracy targeted rewards）训练。如此，模型先掌握工具调用能力，再将其用于完成视觉推理任务，避免异构任务间的优化冲突。实验表明，工具监督课程训练高效，ToolsRL 在复杂视觉推理任务上展现出强大的工具使用能力。

查看 arXiv 页面（https://arxiv.org/abs/2604.19945）
查看 PDF（https://arxiv.org/pdf/2604.19945）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.19945）

在智能体中获取该论文：

hf papers read 2604.19945

还没有最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

目前没有模型关联该论文
在模型 README.md 中引用 arxiv.org/abs/2604.19945 即可在此页面显示链接。

引用该论文的数据集 0

目前没有数据集关联该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19945 即可在此页面显示链接。

引用该论文的 Spaces 0

目前没有 Space 关联该论文
在 Space README.md 中引用 arxiv.org/abs/2604.19945 即可在此页面显示链接。

包含该论文的收藏 0

目前没有收藏包含该论文
将该论文添加到收藏（https://huggingface.co/new-collection）即可在此页面显示链接。

通过工具监督强化学习实现视觉推理

论文页面 - 通过工具监督强化学习实现视觉推理

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的收藏 0

相似文章

工具总是有益的吗？学会自适应调用工具以实现双模式多模态大语言模型推理

iVGR: 通过强化学习将视觉基础推理内化到多模态大语言模型

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

DyCo-RL: 动态跨模态协调用于视觉推理

看不清还是想不对？面向视觉语言推理的感知奖励

提交意见反馈