Flash-GRPO: 通过单步策略优化实现视频扩散的高效对齐

Hugging Face Daily Papers 论文

摘要

Flash-GRPO 通过等时间分组和时间梯度校正解决时间方差和梯度不一致问题,从而提升了视频扩散模型的训练效率,实现了最先进的对齐质量和显著的训练加速。

组相对策略优化已成为将视频扩散模型与人类偏好对齐的关键方法,但面临一个关键的计算瓶颈:训练一个140亿参数的模型通常每次实验需要数百个GPU天。现有的效率方法通过滑动窗口子采样训练时间步来降低成本,但从根本上损害了优化,表现出严重的不稳定性,并且无法达到完整轨迹的性能。我们提出Flash-GRPO,一个单步训练框架,在低计算预算下对齐质量优于完整轨迹训练,同时显著提高了训练效率。Flash-GRPO解决两个关键挑战:等时间分组通过强制执行提示层面的时间一致性来消除时间步混杂方差,将策略性能与时间步难度解耦;时间梯度校正中和了导致跨时间步梯度幅度极不一致的时间依赖缩放因子。在1.3B到14B参数模型上的实验验证了Flash-GRPO的有效性,展示了显著的训练加速、一致的稳定性和最先进的对齐质量。
查看原文
查看缓存全文

缓存时间: 2026/05/18 02:23

论文页面 - Flash-GRPO:通过单步策略优化实现视频扩散的高效对齐

来源: https://huggingface.co/papers/2605.15980

作者:

,

,

,

,

,

,

,

,

,

,

摘要

Flash-GRPO通过等时分组和时域梯度修正,解决了时域方差和梯度不一致问题,从而提升了视频扩散模型的训练效率。

Group Relative Policy Optimization (https://huggingface.co/papers?q=Group%20Relative%20Policy%20Optimization) 已成为将视频扩散模型 (https://huggingface.co/papers?q=video%20diffusion%20models) 与人类偏好对齐的关键方法,但面临一个严重的计算瓶颈:训练一个 14B 参数模型 (https://huggingface.co/papers?q=parametered%20model) 通常每个实验需要数百个 GPU 天。现有的效率方法通过滑动窗口子采样 (https://huggingface.co/papers?q=sliding%20window%20subsampling) 训练时间步来降低开销,但根本上牺牲了优化质量,表现出严重的不稳定性,且无法达到完整轨迹的性能。我们提出了 Flash-GRPO,一个单步训练框架 (https://huggingface.co/papers?q=single-step%20training%20framework),在低计算预算下,其对齐质量优于完整轨迹训练 (https://huggingface.co/papers?q=full%20trajectory%20training),同时显著提升了训练效率。Flash-GRPO 解决了两个关键挑战:等时分组 (https://huggingface.co/papers?q=iso-temporal%20grouping) 通过强制提示词维度的时域一致性 (https://huggingface.co/papers?q=temporal%20consistency),消除了时间步混淆方差 (https://huggingface.co/papers?q=timestep-confounded%20variance),从而解耦策略性能与时域难度;时域梯度修正 (https://huggingface.co/papers?q=temporal%20gradient%20rectification) 则中和了导致不同时间步间梯度幅度 (https://huggingface.co/papers?q=gradient%20magnitudes) 严重不一致的时域缩放因子。在 1.3B 到 14B 参数模型上的实验验证了 Flash-GRPO 的有效性,展示了在保持一致稳定性和最先进对齐质量的同时,实现了显著的训练加速。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15980)查看 PDF (https://arxiv.org/pdf/2605.15980)项目页面 (https://shredded-pork.github.io/Flash-GRPO.github.io/)GitHub7 (https://github.com/Shredded-Pork/Flash-GRPO)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15980)

在你的 Agent 中获取此论文:

hf papers read 2605\.15980

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15980 以将其链接至此页面。

引用此论文的数据集 0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15980 以将其链接至此页面。

引用此论文的 Spaces 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15980 以将其链接至此页面。

包含此论文的收藏 0

没有收藏包含此论文

请将此论文添加至收藏 (https://huggingface.co/new-collection) 以将其链接至此页面。

相似文章

多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending

本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。