TRON:面向视觉推理强化学习的目标化规则可验证在线环境

Hugging Face Daily Papers 论文

摘要

TRON 提出了一种可扩展的在线环境,用于视觉推理强化学习,可生成无限多样且答案可验证的训练实例,在多个多模态基准上展现出持续的性能提升。

视觉推理的强化学习(RL)需要可扩展、可验证且可控的训练信号。现有的视觉 RL 后训练在静态策划的数据集上进行训练,使用固定的图像-问题-答案样本,受限于其收集预算。在这项工作中,我们引入了 TRON(目标化、规则可验证的在线环境),这是一个在线环境基础层:训练 rollout 由可控的生成器-验证器程序按需生成,该程序采样新的潜在视觉状态,渲染图像,提出问题,并精确验证答案。因此,一次运行可以根据当前课程所需的难度级别,抽取无限的新实例流。目前的 TRON 套件包含 520 个环境,分为五个能力桶(空间、数学、图表、模式/逻辑和计数);同一基础层支持一个在所有桶上训练的完整模型,以及每个桶的能力专家模型,无需额外数据收集。我们还引入了一个基础层分析,涵盖生成可靠性、实例和级别多样性、跨环境近似重复以及按难度级别的基础模型通过率。使用 METHOD 进行 RL 后训练,在 Qwen3-VL-4B、Qwen2.5-VL-7B 和 MiMo-VL-7B-SFT 上的十个外部多模态推理基准上持续提升性能。
查看原文
查看缓存全文

缓存时间: 2026/06/03 07:36

论文页面 - TRON:面向视觉推理强化学习的目标化规则可验证在线环境

来源:https://huggingface.co/papers/2606.01599

摘要

TRON 通过一个在线环境基底实现了可扩展且可控的视觉推理强化学习,该基底能够生成无限多样且答案可验证的训练实例。

视觉推理的强化学习需要可扩展、可验证且可控的训练信号。现有的视觉 RL 后训练方法依赖于静态策划数据集,其中的图像-问题-答案样本受限于固定的采集预算。在这项工作中,我们提出了 TRON(目标化、规则可验证的在线环境),一种在线环境基底:训练过程由可控的生成器-验证器程序按需生成,该程序采样新的潜在视觉状态,渲染图像,提出问题,并精确验证答案。因此,单次运行可以根据当前课程所需的难度级别,绘制无限的新实例流。目前的 TRON 套件包含 520 个环境,分为五个能力桶(空间、数学、图表、模式/逻辑和计数);同一基底既支持在所有桶上训练的单一完整模型,也支持按桶训练的能力专精模型,无需额外数据收集。我们还引入了基底分析,涵盖生成可靠性、实例和层级多样性、跨环境近似重复以及按难度级别划分的基模型通过率。使用 METHOD 进行 RL 后训练,在 Qwen3-VL-4B、Qwen2.5-VL-7B 和 MiMo-VL-7B-SFT 上显著提升了在十个外部多模态推理基准上的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2606.01599) 查看 PDF (https://arxiv.org/pdf/2606.01599) 项目页面 (https://tron-rl.github.io/) GitHub1 (https://github.com/YangTianze009/TRON) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01599)

在你的 Agent 中获取此论文:

hf papers read 2606.01599

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.01599 以从此页面链接。

引用此论文的数据集 0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.01599 以从此页面链接。

引用此论文的 Space 0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.01599 以从此页面链接。

包含此论文的收藏集 0

暂无收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

视频模型可通过可验证奖励进行推理

Hugging Face Daily Papers

VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。

Reasoning Arena: 当可验证奖励不足时的追踪锦标赛

Hugging Face Daily Papers

Reasoning Arena 通过使用追踪锦标赛和Bradley-Terry模型,从非多样化奖励组中生成有意义的梯度,从而改进了基于可验证奖励的强化学习,实现了更快的训练和更好的推理性能。

OpenWebRL:揭秘面向视觉网页代理的在线多轮强化学习

Hugging Face Daily Papers

OpenWebRL提出了一个开放框架,用于在真实网站上利用在线多轮强化学习训练视觉网页代理,以极少的初始监督实现了最先进的性能。其4B参数模型优于先前的开放代理,并与OpenAI CUA和Gemini CUA等专有系统竞争。