EasyVideoR1:让视频理解的强化学习更简单

Hugging Face Daily Papers 论文

摘要

# 论文页面 - EasyVideoR1:让视频理解的强化学习更简单 来源:[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架,可提升训练吞吐量,支持多种视频任务,并实现图像-视频联合训练,在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers

可验证奖励强化学习(RLVR)在提升大语言模型的推理能力方面展现出显著效果。随着模型向原生多模态架构演进,将 RLVR 扩展到视频理解领域变得愈发重要,但目前仍未得到充分探索;这主要是因为视频任务类型多样、反复解码与预处理高维视觉输入带来巨大计算开销,以及在众多敏感超参数下难以实现可复现的评估。现有的开源 RL 训练框架为文本和图像场景提供了坚实的基础设施,但缺乏针对视频模态的系统优化。在本工作中,我们提出了 EasyVideoR1——一个完整且高效的强化学习框架,专门用于在视频理解任务上训练大型视觉语言模型。EasyVideoR1 的主要贡献如下:(1)完整的视频 RL 训练流程,包含离线预处理与张量缓存,消除了冗余的视频解码,带来 1.47 倍的吞吐量提升;(2)全面的任务感知奖励系统,覆盖 11 种不同的视频与图像问题类型,具备统一路由与模块化扩展能力;(3)混合式离线-在线数据训练范式,结合精选的高质量轨迹与同策略探索,有助于学习更具挑战性的任务;(4)图像-视频联合训练,支持独立可配置的像素预算,使两种模态能够相互增强;(5)异步多基准评估框架,覆盖 22 个主流视频理解基准测试,复现精度与官方报告分数高度一致。
查看原文
查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - EasyVideoR1:面向视频理解的更简易强化学习

来源:https://huggingface.co/papers/2604.16893

摘要

EasyVideoR1 提出了一种面向视频理解的高效强化学习框架,可提升训练吞吐量,支持多样化的视频任务,并支持图像-视频联合训练,在多个基准测试上实现全面评测。

可验证奖励强化学习(RLVR)(https://huggingface.co/papers?q=Reinforcement%20learning%20from%20verifiable%20rewards)在提升大型语言模型推理能力方面展现出显著效果。随着模型逐步演进为原生多模态架构,将 RLVR 扩展至视频理解(https://huggingface.co/papers?q=video%20understanding)领域变得愈发重要,但相关探索仍然十分有限;这主要归因于视频任务类型的多样性、高维视觉输入反复解码与预处理带来的计算开销,以及面对大量敏感超参数时评测结果难以复现等问题。现有的开源 RL 训练框架为文本和图像场景提供了坚实的基础设施,但缺乏针对视频模态的系统化优化。在本工作中,我们提出了 EasyVideoR1,一个完整且高效的强化学习框架,专为在视频理解(https://huggingface.co/papers?q=video%20understanding)任务上训练大型视觉语言模型(https://huggingface.co/papers?q=large%20vision-language%20models)而设计。EasyVideoR1 的主要贡献如下:(1)完整的视频 RL 训练流程,采用离线预处理(https://huggingface.co/papers?q=offline%20preprocessing)与张量缓存(https://huggingface.co/papers?q=tensor%20caching)技术,消除冗余的视频解码过程,将训练吞吐量提升 1.47 倍;(2)全面的任务感知奖励系统(https://huggingface.co/papers?q=reward%20system),涵盖 11 种不同的视频和图像问题类型,具备统一路由与模块化扩展能力;(3)离线-在线数据混合训练(https://huggingface.co/papers?q=mixed%20offline-online%20data%20training)范式,将精选

相似文章

视频模型可通过可验证奖励进行推理

Hugging Face Daily Papers

VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。

UniDoc-RL:基于层次化动作与密集奖励的粗到细视觉RAG

Hugging Face Daily Papers

UniDoc-RL 提出了一种面向大型视觉-语言模型的强化学习框架,通过层次化决策与密集多奖励监督来优化检索、重排序和视觉推理,在视觉RAG任务上相较此前基于RL的方法实现了高达17.7%的性能提升。

Video2LoRA: 视觉-语言模型的参数化视频内化

Hugging Face Daily Papers

本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。