自回归视频生成的投机解码

Hugging Face Daily Papers 2026/04/19 00:00 论文

摘要

SDVG 将投机解码引入自回归视频扩散，通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速，同时保留 95.7% 质量。

自回归视频扩散正成为流式视频合成的新范式，其推理加速主要依赖步蒸馏。投机解码作为大语言模型的主流加速策略，能否有效迁移到自回归视频生成仍悬而未决，原因在于视频块是连续时空张量，缺乏可用于精确拒绝采样的 token 级分布。我们提出 SDVG，通过用图像质量路由器替换 token 验证，将投机解码引入基于块的自回归视频扩散。1.3B 草稿模型通过四步去噪提出候选块；每块经 VAE 解码后，由 ImageReward 采用最差帧聚合打分——取每帧奖励的最小值，以捕捉平均会掩盖的单帧伪影。得分高于固定阈值 tau 的块被写入 14B 目标模型的 KV 缓存，其余由目标模型重生成。两项额外设计至关重要：首块强制拒绝以锚定场景构图；tau 作为单一旋钮，可平滑地遍历质量-速度帕累托前沿。在 1003 条 MovieGenVideoBench 提示（832×480）上，SDVG 在 tau=-0.7 时保留 98.1% 目标 VisionReward 质量（0.0773 vs. 0.0788），实现 1.59× 加速；当质量保留 95.7% 时，加速达 2.09×，且持续优于纯草稿生成 +17% 以上。该框架无需训练、无需架构改动，可无缝接入现有自回归视频生成管线。

查看原文

查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - 自回归视频生成的投机解码

来源：https://huggingface.co/papers/2604.17397

摘要

通过基于质量的路由机制，投机解码被适配到自回归视频扩散，在保持高视觉质量的同时实现显著加速。

自回归视频扩散 (https://huggingface.co/papers?q=Autoregressive%20video%20diffusion) 正成为流式视频合成的新范式，步蒸馏 (https://huggingface.co/papers?q=step%20distillation) 是其主要推理加速手段。然而，投机解码 (https://huggingface.co/papers?q=speculative%20decoding)——大语言模型领域的主流加速策略——能否有效迁移到自回归视频生成，仍是一个开放问题，因为视频块是连续的时空张量，没有可用于精确拒绝采样的 token 级分布。我们提出 SDVG，通过用图像质量路由器取代 token 验证，将投机解码引入基于块的自回归视频扩散。一个 1.3B 的草稿模型通过四步去噪 (https://huggingface.co/papers?q=denoising%20steps) 提出候选块；每块经 VAE 解码后，由 ImageReward (https://huggingface.co/papers?q=ImageReward) 采用最差帧聚合 (https://huggingface.co/papers?q=worst-frame%20aggregation) 打分——取每帧奖励的最小值，以捕捉平均会掩盖的单帧伪影。得分高于固定阈值 τ 的块被接受进 14B 目标模型的 KV 缓存 (https://huggingface.co/papers?q=KV%20cache)，其余由目标模型重生成。两项额外设计至关重要：首块始终强制拒绝以锚定场景构图；τ 作为单一旋钮，可沿平滑的质量-速度帕累托前沿 (https://huggingface.co/papers?q=Pareto%20frontier) 调节。在 1003 条 MovieGenVideoBench 提示（832×480）上，SDVG 在 τ=−0.7 时保留 98.1% 的目标模型 VisionReward (https://huggingface.co/papers?q=VisionReward) 质量（0.0773 vs. 0.0788），实现 1.59× 加速；在 95.7% 质量保持下可达 2.09× 加速——且始终比纯草稿模型高出 17% 以上。该框架无需训练、无需改动架构，可无缝集成现有自回归视频生成管线。

查看 arXiv 页面 (https://arxiv.org/abs/2604.17397) 查看 PDF (https://arxiv.org/pdf/2604.17397) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17397)

在智能体中获取本文：

hf papers read 2604.17397

未安装最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2604.17397 即可在此显示链接。

引用该论文的数据集 0

暂无数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.17397 即可在此显示链接。

引用该论文的 Spaces 0

暂无 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2604.17397 即可在此显示链接。

收录该论文的合集 0

暂无合集收录该论文

将该论文添加到合集 (https://huggingface.co/new-collection) 即可在此显示链接。

自回归视频生成的投机解码

论文页面 - 自回归视频生成的投机解码

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

收录该论文的合集 0

相似文章

长视频生成（阅读时间 4 分钟）

什么是推测性解码？（在paperswithco.de上热门）[R]

AAD-1：一步自回归视频生成的非对称对抗性蒸馏

VIA-SD: 基于模型内路由的投机解码验证

Speculative Refinement: 一种混合自回归扩散解码策略及其在不同基准测试中的行为表现

提交意见反馈