自回归视频生成的投机解码

Hugging Face Daily Papers 论文

摘要

SDVG 将投机解码引入自回归视频扩散,通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速,同时保留 95.7% 质量。

自回归视频扩散正成为流式视频合成的新范式,其推理加速主要依赖步蒸馏。投机解码作为大语言模型的主流加速策略,能否有效迁移到自回归视频生成仍悬而未决,原因在于视频块是连续时空张量,缺乏可用于精确拒绝采样的 token 级分布。我们提出 SDVG,通过用图像质量路由器替换 token 验证,将投机解码引入基于块的自回归视频扩散。1.3B 草稿模型通过四步去噪提出候选块;每块经 VAE 解码后,由 ImageReward 采用最差帧聚合打分——取每帧奖励的最小值,以捕捉平均会掩盖的单帧伪影。得分高于固定阈值 tau 的块被写入 14B 目标模型的 KV 缓存,其余由目标模型重生成。两项额外设计至关重要:首块强制拒绝以锚定场景构图;tau 作为单一旋钮,可平滑地遍历质量-速度帕累托前沿。在 1003 条 MovieGenVideoBench 提示(832×480)上,SDVG 在 tau=-0.7 时保留 98.1% 目标 VisionReward 质量(0.0773 vs. 0.0788),实现 1.59× 加速;当质量保留 95.7% 时,加速达 2.09×,且持续优于纯草稿生成 +17% 以上。该框架无需训练、无需架构改动,可无缝接入现有自回归视频生成管线。
查看原文
查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - 自回归视频生成的投机解码

来源:https://huggingface.co/papers/2604.17397

摘要

通过基于质量的路由机制,投机解码被适配到自回归视频扩散,在保持高视觉质量的同时实现显著加速。

自回归视频扩散 (https://huggingface.co/papers?q=Autoregressive%20video%20diffusion) 正成为流式视频合成的新范式,步蒸馏 (https://huggingface.co/papers?q=step%20distillation) 是其主要推理加速手段。然而,投机解码 (https://huggingface.co/papers?q=speculative%20decoding)——大语言模型领域的主流加速策略——能否有效迁移到自回归视频生成,仍是一个开放问题,因为视频块是连续的时空张量,没有可用于精确拒绝采样的 token 级分布。我们提出 SDVG,通过用图像质量路由器取代 token 验证,将投机解码引入基于块的自回归视频扩散。一个 1.3B 的草稿模型通过四步去噪 (https://huggingface.co/papers?q=denoising%20steps) 提出候选块;每块经 VAE 解码后,由 ImageReward (https://huggingface.co/papers?q=ImageReward) 采用最差帧聚合 (https://huggingface.co/papers?q=worst-frame%20aggregation) 打分——取每帧奖励的最小值,以捕捉平均会掩盖的单帧伪影。得分高于固定阈值 τ 的块被接受进 14B 目标模型的 KV 缓存 (https://huggingface.co/papers?q=KV%20cache),其余由目标模型重生成。两项额外设计至关重要:首块始终强制拒绝以锚定场景构图;τ 作为单一旋钮,可沿平滑的质量-速度帕累托前沿 (https://huggingface.co/papers?q=Pareto%20frontier) 调节。在 1003 条 MovieGenVideoBench 提示(832×480)上,SDVG 在 τ=−0.7 时保留 98.1% 的目标模型 VisionReward (https://huggingface.co/papers?q=VisionReward) 质量(0.0773 vs. 0.0788),实现 1.59× 加速;在 95.7% 质量保持下可达 2.09× 加速——且始终比纯草稿模型高出 17% 以上。该框架无需训练、无需改动架构,可无缝集成现有自回归视频生成管线。

查看 arXiv 页面 (https://arxiv.org/abs/2604.17397) 查看 PDF (https://arxiv.org/pdf/2604.17397) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17397)

在智能体中获取本文:

hf papers read 2604.17397

未安装最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2604.17397 即可在此显示链接。

引用该论文的数据集 0

暂无数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.17397 即可在此显示链接。

引用该论文的 Spaces 0

暂无 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2604.17397 即可在此显示链接。

收录该论文的合集 0

暂无合集收录该论文

将该论文添加到合集 (https://huggingface.co/new-collection) 即可在此显示链接。

相似文章

长视频生成(阅读时间 4 分钟)

TLDR AI

本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。

什么是推测性解码?(在paperswithco.de上热门)[R]

Reddit r/MachineLearning

推测性解码是一种推理优化技术,它使用快速草稿模型提出未来 token,并由较大模型并行验证,从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态,以及最近的 SGLang 博客文章,该文章介绍了使用 DFlash 模型实现的最先进延迟。

Speculative Refinement: 一种混合自回归扩散解码策略及其在不同基准测试中的行为表现

arXiv cs.AI

介绍了 Speculative Refinement (SpecRef),一种无需训练的混合解码策略,它通过熵引导的选择性掩码,从自回归草稿中热启动掩码扩散语言模型。在六个基准测试上的评估表明,代码基准测试混淆了结构发现与逻辑正确性,识别出了一种精炼张力现象,并显示评估协议可能产生不同的模型排名。