training-signals

标签

Cards List
#training-signals

TRON:面向视觉推理强化学习的目标化规则可验证在线环境

Hugging Face Daily Papers · 2026-06-01 缓存

TRON 提出了一种可扩展的在线环境,用于视觉推理强化学习,可生成无限多样且答案可验证的训练实例,在多个多模态基准上展现出持续的性能提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈