通过工具监督强化学习实现视觉推理
摘要
提出 ToolsRL,一个两阶段强化学习框架,教多模态大模型使用简单视觉工具完成复杂视觉推理任务。
查看缓存全文
缓存时间: 2026/04/23 07:47
论文页面 - 通过工具监督强化学习实现视觉推理
来源:https://huggingface.co/papers/2604.19945
摘要
我们提出了一种全新的工具监督强化学习框架,通过两阶段课程式训练,使多模态大语言模型高效掌握复杂视觉推理所需的工具调用能力。
本文研究如何让多模态大语言模型(Multimodal Large Language Models)有效掌握工具使用,以解决复杂的视觉推理任务(visual reasoning tasks)。为此,我们提出了工具监督强化学习(Tool-supervised Reinforcement Learning,ToolsRL)框架,通过直接的工具监督信号,让模型更高效地学习如何调用工具。我们聚焦于一组简单、原生且可解释的视觉工具,包括放大、旋转、翻转、画点/画线,其监督信号易于收集。我们设计了强化学习课程:第一阶段仅用一组设计良好的工具特定奖励(tool-specific rewards)进行优化;第二阶段在允许调用工具的前提下,使用面向准确率的奖励(accuracy targeted rewards)训练。如此,模型先掌握工具调用能力,再将其用于完成视觉推理任务,避免异构任务间的优化冲突。实验表明,工具监督课程训练高效,ToolsRL 在复杂视觉推理任务上展现出强大的工具使用能力。
查看 arXiv 页面(https://arxiv.org/abs/2604.19945)
查看 PDF(https://arxiv.org/pdf/2604.19945)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19945)
在智能体中获取该论文:
hf papers read 2604.19945
还没有最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
目前没有模型关联该论文
在模型 README.md 中引用 arxiv.org/abs/2604.19945 即可在此页面显示链接。
引用该论文的数据集 0
目前没有数据集关联该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19945 即可在此页面显示链接。
引用该论文的 Spaces 0
目前没有 Space 关联该论文
在 Space README.md 中引用 arxiv.org/abs/2604.19945 即可在此页面显示链接。
包含该论文的收藏 0
目前没有收藏包含该论文
将该论文添加到收藏(https://huggingface.co/new-collection)即可在此页面显示链接。
相似文章
工具总是有益的吗?学会自适应调用工具以实现双模式多模态大语言模型推理
介绍 AutoTool,一种自适应决定是否调用工具进行多模态大语言模型推理的模型,通过强化学习和双模式推理实现了显著的准确率和效率提升。
iVGR: 通过强化学习将视觉基础推理内化到多模态大语言模型
介绍 iVGR,一种强化学习框架,将视觉定位内化到多模态语言模型的文本推理中,在提升细粒度感知性能的同时,消除了推理过程中显式视觉基础的需求。
视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
DyCo-RL: 动态跨模态协调用于视觉推理
本文指出,视觉推理中的失败往往源于思维链生成过程中视觉与文本证据之间的动态跨模态协调崩溃。它介绍了DyCo-RL,一个强化学习框架,通过奖励有效的跨模态协调来提升推理性能。
看不清还是想不对?面向视觉语言推理的感知奖励
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。