KVPO:基于ODE的原生GRPO框架通过KV语义探索实现自回归视频对齐
摘要
KVPO提出了一种基于ODE的原生在线GRPO框架,通过因果语义KV缓存探索和速度场替代策略,将流式自回归视频生成器与人类偏好对齐,在视觉质量和对齐度上实现了持续改进。
查看缓存全文
缓存时间: 2026/05/19 06:31
论文页面 - KVPO:基于KV语义探索的ODE原生GRPO自回归视频对齐
来源:https://huggingface.co/papers/2605.14278 发布于5月14日
·
提交者 https://huggingface.co/kkakkkka
kkaka (https://huggingface.co/kkakkkka) 5月19日
摘要
ODE原生在线GRPO框架KVPO通过因果语义探索和基于轨迹速度能量的速度场代理策略,将流式视频生成器与人类偏好对齐。
将流式自回归(AR)视频生成器与人类偏好对齐是一项挑战。现有的强化学习方法(https://huggingface.co/papers?q=reinforcement%20learning)主要依赖于基于噪声的探索(https://huggingface.co/papers?q=noise-based%20exploration)和基于SDE的代理策略(https://huggingface.co/papers?q=SDE-based%20surrogate%20policies),这些方法与蒸馏AR模型(https://huggingface.co/papers?q=distilled%20AR%20models)的确定性ODE动力学(https://huggingface.co/papers?q=ODE%20dynamics)不匹配,且往往扰动低层外观而非高层语义剧情走向——后者对长时程连贯性至关重要。为解决这些局限,我们提出KVPO,一种ODE原生在线组相对策略优化(GRPO)(https://huggingface.co/papers?q=Group%20Relative%20Policy%20Optimization)框架,用于对齐流式视频生成器。在多样性探索方面,KVPO引入因果语义探索(https://huggingface.co/papers?q=causal-semantic%20exploration)范式,将变异的来源从随机噪声迁移到历史KV缓存(https://huggingface.co/papers?q=KV%20cache)。通过随机路由历史KV条目,它构建了语义多样的生成分支,严格保持在数据流形上。在策略建模方面,KVPO引入基于轨迹速度能量(Trajectory Velocity Energy, TVE)的速度场代理策略,该策略在流匹配速度空间(https://huggingface.co/papers?q=flow-matching%20velocity%20space)中量化分支似然,并产生完全与原生ODE公式一致的奖励加权对比目标(https://huggingface.co/papers?q=reward-weighted%20contrastive%20objective)。在多个蒸馏AR视频生成器上的实验表明,在单提示短视频和多提示长视频场景中,视觉质量、运动质量和文本-视频对齐均有一致提升。
查看 arXiv 页面 (https://arxiv.org/abs/2605.14278) 查看 PDF (https://arxiv.org/pdf/2605.14278) 项目页面 (https://richard-zhang-ai.github.io/KVPO-Project/) GitHub (https://github.com/Richard-Zhang-AI/KVPO) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.14278)
在你的代理中获取此论文:
hf papers read 2605.14278
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.14278 即可从此页面链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.14278 即可从此页面链接。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.14278 即可从此页面链接。
包含此论文的收藏集 0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
Flash-GRPO: 通过单步策略优化实现视频扩散的高效对齐
Flash-GRPO 通过等时间分组和时间梯度校正解决时间方差和梯度不一致问题,从而提升了视频扩散模型的训练效率,实现了最先进的对齐质量和显著的训练加速。
RAVEN: 实时自回归视频外推与一致性模型GRPO
RAVEN 提出了一种实时自回归视频外推框架,结合了 CM-GRPO(一种用于一致性模型采样的新型强化学习方法),提升了长时程生成质量。
Forcing-KV:面向高效自回归视频扩散模型的混合KV缓存压缩策略
本文介绍了Forcing-KV,这是一种针对自回归视频扩散模型的混合KV缓存压缩策略,它将注意力头分为静态和动态两类,在1080P分辨率下实现了高达2.82倍的加速,同时保持了输出质量。
VideoMLA:用于分钟级自回归视频扩散的低秩潜变量KV缓存
VideoMLA 用共享的低秩潜变量和解耦的 3D-RoPE 位置键替换了视频扩散模型中每个头的 KV 缓存,在 B200 上将每个 token 的 KV 内存降低了 92.7%,吞吐量提升了 1.23 倍,同时在 VBench 基准测试中保持了质量。
自回归视频生成的投机解码
SDVG 将投机解码引入自回归视频扩散,通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速,同时保留 95.7% 质量。