Flash-GRPO: 通过单步策略优化实现视频扩散的高效对齐
摘要
Flash-GRPO 通过等时间分组和时间梯度校正解决时间方差和梯度不一致问题,从而提升了视频扩散模型的训练效率,实现了最先进的对齐质量和显著的训练加速。
查看缓存全文
缓存时间: 2026/05/18 02:23
论文页面 - Flash-GRPO:通过单步策略优化实现视频扩散的高效对齐
来源: https://huggingface.co/papers/2605.15980
作者:
,
,
,
,
,
,
,
,
,
,
摘要
Flash-GRPO通过等时分组和时域梯度修正,解决了时域方差和梯度不一致问题,从而提升了视频扩散模型的训练效率。
Group Relative Policy Optimization (https://huggingface.co/papers?q=Group%20Relative%20Policy%20Optimization) 已成为将视频扩散模型 (https://huggingface.co/papers?q=video%20diffusion%20models) 与人类偏好对齐的关键方法,但面临一个严重的计算瓶颈:训练一个 14B 参数模型 (https://huggingface.co/papers?q=parametered%20model) 通常每个实验需要数百个 GPU 天。现有的效率方法通过滑动窗口子采样 (https://huggingface.co/papers?q=sliding%20window%20subsampling) 训练时间步来降低开销,但根本上牺牲了优化质量,表现出严重的不稳定性,且无法达到完整轨迹的性能。我们提出了 Flash-GRPO,一个单步训练框架 (https://huggingface.co/papers?q=single-step%20training%20framework),在低计算预算下,其对齐质量优于完整轨迹训练 (https://huggingface.co/papers?q=full%20trajectory%20training),同时显著提升了训练效率。Flash-GRPO 解决了两个关键挑战:等时分组 (https://huggingface.co/papers?q=iso-temporal%20grouping) 通过强制提示词维度的时域一致性 (https://huggingface.co/papers?q=temporal%20consistency),消除了时间步混淆方差 (https://huggingface.co/papers?q=timestep-confounded%20variance),从而解耦策略性能与时域难度;时域梯度修正 (https://huggingface.co/papers?q=temporal%20gradient%20rectification) 则中和了导致不同时间步间梯度幅度 (https://huggingface.co/papers?q=gradient%20magnitudes) 严重不一致的时域缩放因子。在 1.3B 到 14B 参数模型上的实验验证了 Flash-GRPO 的有效性,展示了在保持一致稳定性和最先进对齐质量的同时,实现了显著的训练加速。
查看 arXiv 页面 (https://arxiv.org/abs/2605.15980)查看 PDF (https://arxiv.org/pdf/2605.15980)项目页面 (https://shredded-pork.github.io/Flash-GRPO.github.io/)GitHub7 (https://github.com/Shredded-Pork/Flash-GRPO)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15980)
在你的 Agent 中获取此论文:
hf papers read 2605\.15980
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.15980 以将其链接至此页面。
引用此论文的数据集 0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.15980 以将其链接至此页面。
引用此论文的 Spaces 0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.15980 以将其链接至此页面。
包含此论文的收藏 0
没有收藏包含此论文
请将此论文添加至收藏 (https://huggingface.co/new-collection) 以将其链接至此页面。
相似文章
KVPO:基于ODE的原生GRPO框架通过KV语义探索实现自回归视频对齐
KVPO提出了一种基于ODE的原生在线GRPO框架,通过因果语义KV缓存探索和速度场替代策略,将流式自回归视频生成器与人类偏好对齐,在视觉质量和对齐度上实现了持续改进。
UDM-GRPO:面向均匀离散扩散模型的稳定高效群体相对策略优化
UDM-GRPO 为均匀离散扩散模型提出了一种稳定的强化学习训练框架,将 GenEval 准确率从 69% 提升至 96%,OCR 基准准确率从 8% 提升至 57%。
多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。
@probablynotaz9: ICML 单作者论文警报:是否曾想用经典策略梯度对扩散 LLM 进行后训练,而无需……
这篇 ICML 单作者论文介绍了摊销式组相对策略优化(AGRPO),旨在为扩散语言模型实现高效的强化学习后训练。
F-GRPO: 分解式组相对策略优化用于统一候选生成与排序
F-GRPO 提出了一种分解式组相对策略优化框架,将候选生成与排序统一在单个自回归LLM中,解决了信用分配问题,并在序列推荐和多跳问答基准上提升了顶级性能。