自回归视频生成的投机解码
摘要
SDVG 将投机解码引入自回归视频扩散,通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速,同时保留 95.7% 质量。
查看缓存全文
缓存时间: 2026/04/22 06:17
论文页面 - 自回归视频生成的投机解码
来源:https://huggingface.co/papers/2604.17397
摘要
通过基于质量的路由机制,投机解码被适配到自回归视频扩散,在保持高视觉质量的同时实现显著加速。
自回归视频扩散 (https://huggingface.co/papers?q=Autoregressive%20video%20diffusion) 正成为流式视频合成的新范式,步蒸馏 (https://huggingface.co/papers?q=step%20distillation) 是其主要推理加速手段。然而,投机解码 (https://huggingface.co/papers?q=speculative%20decoding)——大语言模型领域的主流加速策略——能否有效迁移到自回归视频生成,仍是一个开放问题,因为视频块是连续的时空张量,没有可用于精确拒绝采样的 token 级分布。我们提出 SDVG,通过用图像质量路由器取代 token 验证,将投机解码引入基于块的自回归视频扩散。一个 1.3B 的草稿模型通过四步去噪 (https://huggingface.co/papers?q=denoising%20steps) 提出候选块;每块经 VAE 解码后,由 ImageReward (https://huggingface.co/papers?q=ImageReward) 采用最差帧聚合 (https://huggingface.co/papers?q=worst-frame%20aggregation) 打分——取每帧奖励的最小值,以捕捉平均会掩盖的单帧伪影。得分高于固定阈值 τ 的块被接受进 14B 目标模型的 KV 缓存 (https://huggingface.co/papers?q=KV%20cache),其余由目标模型重生成。两项额外设计至关重要:首块始终强制拒绝以锚定场景构图;τ 作为单一旋钮,可沿平滑的质量-速度帕累托前沿 (https://huggingface.co/papers?q=Pareto%20frontier) 调节。在 1003 条 MovieGenVideoBench 提示(832×480)上,SDVG 在 τ=−0.7 时保留 98.1% 的目标模型 VisionReward (https://huggingface.co/papers?q=VisionReward) 质量(0.0773 vs. 0.0788),实现 1.59× 加速;在 95.7% 质量保持下可达 2.09× 加速——且始终比纯草稿模型高出 17% 以上。该框架无需训练、无需改动架构,可无缝集成现有自回归视频生成管线。
查看 arXiv 页面 (https://arxiv.org/abs/2604.17397) 查看 PDF (https://arxiv.org/pdf/2604.17397) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17397)
在智能体中获取本文:
hf papers read 2604.17397
未安装最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型引用该论文
在模型 README.md 中引用 arxiv.org/abs/2604.17397 即可在此显示链接。
引用该论文的数据集 0
暂无数据集引用该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.17397 即可在此显示链接。
引用该论文的 Spaces 0
暂无 Space 引用该论文
在 Space README.md 中引用 arxiv.org/abs/2604.17397 即可在此显示链接。
收录该论文的合集 0
暂无合集收录该论文
将该论文添加到合集 (https://huggingface.co/new-collection) 即可在此显示链接。
相似文章
长视频生成(阅读时间 4 分钟)
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。
什么是推测性解码?(在paperswithco.de上热门)[R]
推测性解码是一种推理优化技术,它使用快速草稿模型提出未来 token,并由较大模型并行验证,从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态,以及最近的 SGLang 博客文章,该文章介绍了使用 DFlash 模型实现的最先进延迟。
AAD-1:一步自回归视频生成的非对称对抗性蒸馏
AAD-1 引入具有分阶段训练的非对称对抗性蒸馏,以实现一步自回归视频生成,在 VBench 上优于先前方法。
VIA-SD: 基于模型内路由的投机解码验证
VIA-SD 提出了一种多层次的投机解码框架,通过模型内路由降低验证成本,相比传统方法实现了显著的加速。
Speculative Refinement: 一种混合自回归扩散解码策略及其在不同基准测试中的行为表现
介绍了 Speculative Refinement (SpecRef),一种无需训练的混合解码策略,它通过熵引导的选择性掩码,从自回归草稿中热启动掩码扩散语言模型。在六个基准测试上的评估表明,代码基准测试混淆了结构发现与逻辑正确性,识别出了一种精炼张力现象,并显示评估协议可能产生不同的模型排名。