TRON:面向视觉推理强化学习的目标化规则可验证在线环境
摘要
TRON 提出了一种可扩展的在线环境,用于视觉推理强化学习,可生成无限多样且答案可验证的训练实例,在多个多模态基准上展现出持续的性能提升。
查看缓存全文
缓存时间: 2026/06/03 07:36
论文页面 - TRON:面向视觉推理强化学习的目标化规则可验证在线环境
来源:https://huggingface.co/papers/2606.01599
摘要
TRON 通过一个在线环境基底实现了可扩展且可控的视觉推理强化学习,该基底能够生成无限多样且答案可验证的训练实例。
视觉推理的强化学习需要可扩展、可验证且可控的训练信号。现有的视觉 RL 后训练方法依赖于静态策划数据集,其中的图像-问题-答案样本受限于固定的采集预算。在这项工作中,我们提出了 TRON(目标化、规则可验证的在线环境),一种在线环境基底:训练过程由可控的生成器-验证器程序按需生成,该程序采样新的潜在视觉状态,渲染图像,提出问题,并精确验证答案。因此,单次运行可以根据当前课程所需的难度级别,绘制无限的新实例流。目前的 TRON 套件包含 520 个环境,分为五个能力桶(空间、数学、图表、模式/逻辑和计数);同一基底既支持在所有桶上训练的单一完整模型,也支持按桶训练的能力专精模型,无需额外数据收集。我们还引入了基底分析,涵盖生成可靠性、实例和层级多样性、跨环境近似重复以及按难度级别划分的基模型通过率。使用 METHOD 进行 RL 后训练,在 Qwen3-VL-4B、Qwen2.5-VL-7B 和 MiMo-VL-7B-SFT 上显著提升了在十个外部多模态推理基准上的性能。
查看 arXiv 页面 (https://arxiv.org/abs/2606.01599) 查看 PDF (https://arxiv.org/pdf/2606.01599) 项目页面 (https://tron-rl.github.io/) GitHub1 (https://github.com/YangTianze009/TRON) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01599)
在你的 Agent 中获取此论文:
hf papers read 2606.01599
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.01599 以从此页面链接。
引用此论文的数据集 0
暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.01599 以从此页面链接。
引用此论文的 Space 0
暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.01599 以从此页面链接。
包含此论文的收藏集 0
暂无收藏集包含此论文
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
视频模型可通过可验证奖励进行推理
VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。
Reasoning Arena: 当可验证奖励不足时的追踪锦标赛
Reasoning Arena 通过使用追踪锦标赛和Bradley-Terry模型,从非多样化奖励组中生成有意义的梯度,从而改进了基于可验证奖励的强化学习,实现了更快的训练和更好的推理性能。
通过工具监督强化学习实现视觉推理
提出 ToolsRL,一个两阶段强化学习框架,教多模态大模型使用简单视觉工具完成复杂视觉推理任务。
TRN-R1-Zero:仅通过强化学习实现富文本网络推理
TRN-R1-Zero 提出一种后训练框架,让大模型在无需监督微调或思维链数据的情况下,仅凭强化学习即可对富文本网络进行零样本推理。
OpenWebRL:揭秘面向视觉网页代理的在线多轮强化学习
OpenWebRL提出了一个开放框架,用于在真实网站上利用在线多轮强化学习训练视觉网页代理,以极少的初始监督实现了最先进的性能。其4B参数模型优于先前的开放代理,并与OpenAI CUA和Gemini CUA等专有系统竞争。