TRON：面向视觉推理强化学习的目标化规则可验证在线环境

Hugging Face Daily Papers 2026/06/01 02:52 论文

摘要

TRON 提出了一种可扩展的在线环境，用于视觉推理强化学习，可生成无限多样且答案可验证的训练实例，在多个多模态基准上展现出持续的性能提升。

视觉推理的强化学习（RL）需要可扩展、可验证且可控的训练信号。现有的视觉 RL 后训练在静态策划的数据集上进行训练，使用固定的图像-问题-答案样本，受限于其收集预算。在这项工作中，我们引入了 TRON（目标化、规则可验证的在线环境），这是一个在线环境基础层：训练 rollout 由可控的生成器-验证器程序按需生成，该程序采样新的潜在视觉状态，渲染图像，提出问题，并精确验证答案。因此，一次运行可以根据当前课程所需的难度级别，抽取无限的新实例流。目前的 TRON 套件包含 520 个环境，分为五个能力桶（空间、数学、图表、模式/逻辑和计数）；同一基础层支持一个在所有桶上训练的完整模型，以及每个桶的能力专家模型，无需额外数据收集。我们还引入了一个基础层分析，涵盖生成可靠性、实例和级别多样性、跨环境近似重复以及按难度级别的基础模型通过率。使用 METHOD 进行 RL 后训练，在 Qwen3-VL-4B、Qwen2.5-VL-7B 和 MiMo-VL-7B-SFT 上的十个外部多模态推理基准上持续提升性能。

查看原文

查看缓存全文

缓存时间: 2026/06/03 07:36

论文页面 - TRON：面向视觉推理强化学习的目标化规则可验证在线环境

来源：https://huggingface.co/papers/2606.01599

摘要

TRON 通过一个在线环境基底实现了可扩展且可控的视觉推理强化学习，该基底能够生成无限多样且答案可验证的训练实例。

视觉推理的强化学习需要可扩展、可验证且可控的训练信号。现有的视觉 RL 后训练方法依赖于静态策划数据集，其中的图像-问题-答案样本受限于固定的采集预算。在这项工作中，我们提出了 TRON（目标化、规则可验证的在线环境），一种在线环境基底：训练过程由可控的生成器-验证器程序按需生成，该程序采样新的潜在视觉状态，渲染图像，提出问题，并精确验证答案。因此，单次运行可以根据当前课程所需的难度级别，绘制无限的新实例流。目前的 TRON 套件包含 520 个环境，分为五个能力桶（空间、数学、图表、模式/逻辑和计数）；同一基底既支持在所有桶上训练的单一完整模型，也支持按桶训练的能力专精模型，无需额外数据收集。我们还引入了基底分析，涵盖生成可靠性、实例和层级多样性、跨环境近似重复以及按难度级别划分的基模型通过率。使用 METHOD 进行 RL 后训练，在 Qwen3-VL-4B、Qwen2.5-VL-7B 和 MiMo-VL-7B-SFT 上显著提升了在十个外部多模态推理基准上的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2606.01599) 查看 PDF (https://arxiv.org/pdf/2606.01599) 项目页面 (https://tron-rl.github.io/) GitHub1 (https://github.com/YangTianze009/TRON) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01599)

在你的 Agent 中获取此论文：

hf papers read 2606.01599

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.01599 以从此页面链接。

引用此论文的数据集 0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.01599 以从此页面链接。

引用此论文的 Space 0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.01599 以从此页面链接。

包含此论文的收藏集 0

暂无收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

TRON：面向视觉推理强化学习的目标化规则可验证在线环境

论文页面 - TRON：面向视觉推理强化学习的目标化规则可验证在线环境

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏集 0

相似文章

视频模型可通过可验证奖励进行推理

Reasoning Arena: 当可验证奖励不足时的追踪锦标赛

通过工具监督强化学习实现视觉推理

TRN-R1-Zero：仅通过强化学习实现富文本网络推理

OpenWebRL：揭秘面向视觉网页代理的在线多轮强化学习

提交意见反馈