KVPO:基于ODE的原生GRPO框架通过KV语义探索实现自回归视频对齐

Hugging Face Daily Papers 论文

摘要

KVPO提出了一种基于ODE的原生在线GRPO框架,通过因果语义KV缓存探索和速度场替代策略,将流式自回归视频生成器与人类偏好对齐,在视觉质量和对齐度上实现了持续改进。

将流式自回归(AR)视频生成器与人类偏好对齐具有挑战性。现有的强化学习方法主要依赖于基于噪声的探索和基于SDE的替代策略,这些策略与蒸馏AR模型的确定性ODE动态不匹配,并且往往扰动低层外观,而不是对长程连贯性至关重要的高层语义故事线进展。为了解决这些限制,我们提出了KVPO,一种用于对齐流式视频生成器的基于ODE的原生在线组相对策略优化(GRPO)框架。为了多样性探索,KVPO引入了一种因果语义探索范式,将变异的来源从随机噪声重新定位到历史KV缓存。通过随机路由历史KV条目,它构建了语义多样的生成分支,这些分支严格保持在数据流形上。对于策略建模,KVPO引入了一种基于轨迹速度能量(TVE)的速度场替代策略,该策略在流匹配速度空间中量化分支可能性,并产生一种与原生ODE公式完全一致的奖励加权对比目标。在多个蒸馏AR视频生成器上的实验表明,在单提示短视频和多提示长视频设置中,视觉质量、运动质量和文本-视频对齐方面均取得了一致提升。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:31

论文页面 - KVPO:基于KV语义探索的ODE原生GRPO自回归视频对齐

来源:https://huggingface.co/papers/2605.14278 发布于5月14日

·

提交者 https://huggingface.co/kkakkkka

kkaka (https://huggingface.co/kkakkkka) 5月19日

摘要

ODE原生在线GRPO框架KVPO通过因果语义探索和基于轨迹速度能量的速度场代理策略,将流式视频生成器与人类偏好对齐。

将流式自回归(AR)视频生成器与人类偏好对齐是一项挑战。现有的强化学习方法(https://huggingface.co/papers?q=reinforcement%20learning)主要依赖于基于噪声的探索(https://huggingface.co/papers?q=noise-based%20exploration)和基于SDE的代理策略(https://huggingface.co/papers?q=SDE-based%20surrogate%20policies),这些方法与蒸馏AR模型(https://huggingface.co/papers?q=distilled%20AR%20models)的确定性ODE动力学(https://huggingface.co/papers?q=ODE%20dynamics)不匹配,且往往扰动低层外观而非高层语义剧情走向——后者对长时程连贯性至关重要。为解决这些局限,我们提出KVPO,一种ODE原生在线组相对策略优化(GRPO)(https://huggingface.co/papers?q=Group%20Relative%20Policy%20Optimization)框架,用于对齐流式视频生成器。在多样性探索方面,KVPO引入因果语义探索(https://huggingface.co/papers?q=causal-semantic%20exploration)范式,将变异的来源从随机噪声迁移到历史KV缓存(https://huggingface.co/papers?q=KV%20cache)。通过随机路由历史KV条目,它构建了语义多样的生成分支,严格保持在数据流形上。在策略建模方面,KVPO引入基于轨迹速度能量(Trajectory Velocity Energy, TVE)的速度场代理策略,该策略在流匹配速度空间(https://huggingface.co/papers?q=flow-matching%20velocity%20space)中量化分支似然,并产生完全与原生ODE公式一致的奖励加权对比目标(https://huggingface.co/papers?q=reward-weighted%20contrastive%20objective)。在多个蒸馏AR视频生成器上的实验表明,在单提示短视频和多提示长视频场景中,视觉质量、运动质量和文本-视频对齐均有一致提升。

查看 arXiv 页面 (https://arxiv.org/abs/2605.14278) 查看 PDF (https://arxiv.org/pdf/2605.14278) 项目页面 (https://richard-zhang-ai.github.io/KVPO-Project/) GitHub (https://github.com/Richard-Zhang-AI/KVPO) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.14278)

在你的代理中获取此论文:

hf papers read 2605.14278

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.14278 即可从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.14278 即可从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.14278 即可从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

自回归视频生成的投机解码

Hugging Face Daily Papers

SDVG 将投机解码引入自回归视频扩散,通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速,同时保留 95.7% 质量。