EasyVideoR1:让视频理解的强化学习更简单
摘要
# 论文页面 - EasyVideoR1:让视频理解的强化学习更简单 来源:[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架,可提升训练吞吐量,支持多种视频任务,并实现图像-视频联合训练,在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers
查看缓存全文
缓存时间: 2026/04/21 07:20
论文页面 - EasyVideoR1:面向视频理解的更简易强化学习
来源:https://huggingface.co/papers/2604.16893
摘要
EasyVideoR1 提出了一种面向视频理解的高效强化学习框架,可提升训练吞吐量,支持多样化的视频任务,并支持图像-视频联合训练,在多个基准测试上实现全面评测。
可验证奖励强化学习(RLVR)(https://huggingface.co/papers?q=Reinforcement%20learning%20from%20verifiable%20rewards)在提升大型语言模型推理能力方面展现出显著效果。随着模型逐步演进为原生多模态架构,将 RLVR 扩展至视频理解(https://huggingface.co/papers?q=video%20understanding)领域变得愈发重要,但相关探索仍然十分有限;这主要归因于视频任务类型的多样性、高维视觉输入反复解码与预处理带来的计算开销,以及面对大量敏感超参数时评测结果难以复现等问题。现有的开源 RL 训练框架为文本和图像场景提供了坚实的基础设施,但缺乏针对视频模态的系统化优化。在本工作中,我们提出了 EasyVideoR1,一个完整且高效的强化学习框架,专为在视频理解(https://huggingface.co/papers?q=video%20understanding)任务上训练大型视觉语言模型(https://huggingface.co/papers?q=large%20vision-language%20models)而设计。EasyVideoR1 的主要贡献如下:(1)完整的视频 RL 训练流程,采用离线预处理(https://huggingface.co/papers?q=offline%20preprocessing)与张量缓存(https://huggingface.co/papers?q=tensor%20caching)技术,消除冗余的视频解码过程,将训练吞吐量提升 1.47 倍;(2)全面的任务感知奖励系统(https://huggingface.co/papers?q=reward%20system),涵盖 11 种不同的视频和图像问题类型,具备统一路由与模块化扩展能力;(3)离线-在线数据混合训练(https://huggingface.co/papers?q=mixed%20offline-online%20data%20training)范式,将精选
相似文章
视频模型可通过可验证奖励进行推理
VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。
UniDoc-RL:基于层次化动作与密集奖励的粗到细视觉RAG
UniDoc-RL 提出了一种面向大型视觉-语言模型的强化学习框架,通过层次化决策与密集多奖励监督来优化检索、重排序和视觉推理,在视觉RAG任务上相较此前基于RL的方法实现了高达17.7%的性能提升。
Video2LoRA: 视觉-语言模型的参数化视频内化
本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。
ACE-Ego-0: 统一第一人称人类与机器人数据用于VLA预训练
ACE-EGO-0是一个统一的视觉-语言-动作预训练框架,利用第一人称人类视频和机器人轨迹,通过可靠性感知训练目标,在具身AI基准上达到了最先进水平。
VLM是通过自适应测试时优化进行视频推理的优秀教师
本文提出一种新范式:视觉-语言模型(VLM)作为测试时教师,通过可微分奖励和LoRA优化引导视频生成模型(VGM),在视频推理基准测试上平均提升16.7个百分点。