通过工具监督强化学习实现视觉推理

Hugging Face Daily Papers 论文

摘要

提出 ToolsRL,一个两阶段强化学习框架,教多模态大模型使用简单视觉工具完成复杂视觉推理任务。

本文研究如何让多模odal 态大模型掌握工具使用,以解决复杂视觉推理任务。为此,我们提出全新的工具监督强化学习(ToolsRL)框架,通过直接的工具监督更高效地学习工具使用。我们聚焦一系列简单、原生且可解释的视觉工具,包括放大、旋转、翻转、画点/线,其工具监督易于收集。我们设计了强化学习课程:第一阶段仅由一组动机明确的工具特定奖励优化;第二阶段在允许调用工具的同时,以准确率目标奖励训练。如此,模型先掌握调用工具的能力,再借助工具完成视觉推理任务,避免异构任务间潜在的优化冲突。实验表明,工具监督课程训练高效,ToolsRL 在复杂视觉推理任务上展现出强大的工具使用能力。
查看原文
查看缓存全文

缓存时间: 2026/04/23 07:47

论文页面 - 通过工具监督强化学习实现视觉推理

来源:https://huggingface.co/papers/2604.19945

摘要

我们提出了一种全新的工具监督强化学习框架,通过两阶段课程式训练,使多模态大语言模型高效掌握复杂视觉推理所需的工具调用能力。

本文研究如何让多模态大语言模型(Multimodal Large Language Models)有效掌握工具使用,以解决复杂的视觉推理任务(visual reasoning tasks)。为此,我们提出了工具监督强化学习(Tool-supervised Reinforcement Learning,ToolsRL)框架,通过直接的工具监督信号,让模型更高效地学习如何调用工具。我们聚焦于一组简单、原生且可解释的视觉工具,包括放大、旋转、翻转、画点/画线,其监督信号易于收集。我们设计了强化学习课程:第一阶段仅用一组设计良好的工具特定奖励(tool-specific rewards)进行优化;第二阶段在允许调用工具的前提下,使用面向准确率的奖励(accuracy targeted rewards)训练。如此,模型先掌握工具调用能力,再将其用于完成视觉推理任务,避免异构任务间的优化冲突。实验表明,工具监督课程训练高效,ToolsRL 在复杂视觉推理任务上展现出强大的工具使用能力。

查看 arXiv 页面(https://arxiv.org/abs/2604.19945)
查看 PDF(https://arxiv.org/pdf/2604.19945)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19945)

在智能体中获取该论文:

hf papers read 2604.19945

还没有最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

目前没有模型关联该论文
在模型 README.md 中引用 arxiv.org/abs/2604.19945 即可在此页面显示链接。

引用该论文的数据集 0

目前没有数据集关联该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19945 即可在此页面显示链接。

引用该论文的 Spaces 0

目前没有 Space 关联该论文
在 Space README.md 中引用 arxiv.org/abs/2604.19945 即可在此页面显示链接。

包含该论文的收藏 0

目前没有收藏包含该论文
将该论文添加到收藏(https://huggingface.co/new-collection)即可在此页面显示链接。

相似文章

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

DyCo-RL: 动态跨模态协调用于视觉推理

Hugging Face Daily Papers

本文指出,视觉推理中的失败往往源于思维链生成过程中视觉与文本证据之间的动态跨模态协调崩溃。它介绍了DyCo-RL,一个强化学习框架,通过奖励有效的跨模态协调来提升推理性能。