KVPO：基于ODE的原生GRPO框架通过KV语义探索实现自回归视频对齐

Hugging Face Daily Papers 2026/05/14 00:00 论文

video-alignment reinforcement-learning ode-native kv-cache flow-matching autoregressive-models grpo

摘要

KVPO提出了一种基于ODE的原生在线GRPO框架，通过因果语义KV缓存探索和速度场替代策略，将流式自回归视频生成器与人类偏好对齐，在视觉质量和对齐度上实现了持续改进。

将流式自回归（AR）视频生成器与人类偏好对齐具有挑战性。现有的强化学习方法主要依赖于基于噪声的探索和基于SDE的替代策略，这些策略与蒸馏AR模型的确定性ODE动态不匹配，并且往往扰动低层外观，而不是对长程连贯性至关重要的高层语义故事线进展。为了解决这些限制，我们提出了KVPO，一种用于对齐流式视频生成器的基于ODE的原生在线组相对策略优化（GRPO）框架。为了多样性探索，KVPO引入了一种因果语义探索范式，将变异的来源从随机噪声重新定位到历史KV缓存。通过随机路由历史KV条目，它构建了语义多样的生成分支，这些分支严格保持在数据流形上。对于策略建模，KVPO引入了一种基于轨迹速度能量（TVE）的速度场替代策略，该策略在流匹配速度空间中量化分支可能性，并产生一种与原生ODE公式完全一致的奖励加权对比目标。在多个蒸馏AR视频生成器上的实验表明，在单提示短视频和多提示长视频设置中，视觉质量、运动质量和文本-视频对齐方面均取得了一致提升。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:31

论文页面 - KVPO：基于KV语义探索的ODE原生GRPO自回归视频对齐

来源：https://huggingface.co/papers/2605.14278 发布于5月14日

提交者 https://huggingface.co/kkakkkka

kkaka (https://huggingface.co/kkakkkka) 5月19日

摘要

ODE原生在线GRPO框架KVPO通过因果语义探索和基于轨迹速度能量的速度场代理策略，将流式视频生成器与人类偏好对齐。

将流式自回归（AR）视频生成器与人类偏好对齐是一项挑战。现有的强化学习方法（https://huggingface.co/papers?q=reinforcement%20learning）主要依赖于基于噪声的探索（https://huggingface.co/papers?q=noise-based%20exploration）和基于SDE的代理策略（https://huggingface.co/papers?q=SDE-based%20surrogate%20policies），这些方法与蒸馏AR模型（https://huggingface.co/papers?q=distilled%20AR%20models）的确定性ODE动力学（https://huggingface.co/papers?q=ODE%20dynamics）不匹配，且往往扰动低层外观而非高层语义剧情走向——后者对长时程连贯性至关重要。为解决这些局限，我们提出KVPO，一种ODE原生在线组相对策略优化（GRPO）（https://huggingface.co/papers?q=Group%20Relative%20Policy%20Optimization）框架，用于对齐流式视频生成器。在多样性探索方面，KVPO引入因果语义探索（https://huggingface.co/papers?q=causal-semantic%20exploration）范式，将变异的来源从随机噪声迁移到历史KV缓存（https://huggingface.co/papers?q=KV%20cache）。通过随机路由历史KV条目，它构建了语义多样的生成分支，严格保持在数据流形上。在策略建模方面，KVPO引入基于轨迹速度能量（Trajectory Velocity Energy, TVE）的速度场代理策略，该策略在流匹配速度空间（https://huggingface.co/papers?q=flow-matching%20velocity%20space）中量化分支似然，并产生完全与原生ODE公式一致的奖励加权对比目标（https://huggingface.co/papers?q=reward-weighted%20contrastive%20objective）。在多个蒸馏AR视频生成器上的实验表明，在单提示短视频和多提示长视频场景中，视觉质量、运动质量和文本-视频对齐均有一致提升。

查看 arXiv 页面 (https://arxiv.org/abs/2605.14278) 查看 PDF (https://arxiv.org/pdf/2605.14278) 项目页面 (https://richard-zhang-ai.github.io/KVPO-Project/) GitHub (https://github.com/Richard-Zhang-AI/KVPO) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.14278)

在你的代理中获取此论文：

hf papers read 2605.14278

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.14278 即可从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.14278 即可从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.14278 即可从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

KVPO：基于ODE的原生GRPO框架通过KV语义探索实现自回归视频对齐

论文页面 - KVPO：基于KV语义探索的ODE原生GRPO自回归视频对齐

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

Flash-GRPO: 通过单步策略优化实现视频扩散的高效对齐

RAVEN: 实时自回归视频外推与一致性模型GRPO

Forcing-KV：面向高效自回归视频扩散模型的混合KV缓存压缩策略

VideoMLA：用于分钟级自回归视频扩散的低秩潜变量KV缓存

自回归视频生成的投机解码

提交意见反馈