Stream-R1:流式视频生成的可靠性-困惑度感知奖励蒸馏
摘要
Stream-R1 提出了一种针对流式视频生成的可靠性-困惑度感知奖励蒸馏框架,通过自适应加权监督信号来提升视觉和动态质量,且不增加额外的计算开销。
查看缓存全文
缓存时间: 2026/05/08 08:09
论文页面 - Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation
来源: https://huggingface.co/papers/2605.03849
摘要
Stream-R1 通过根据可靠性和困惑度自适应地加权监督信号,改进了视频扩散模型蒸馏,在不增加额外计算开销的情况下,提升了视觉质量、运动质量和文本对齐效果。
基于蒸馏的加速技术已成为使自回归流式视频扩散模型具备实用性的基础,其中分布匹配蒸馏 (distribution matching distillation) (https://huggingface.co/papers?q=distribution%20matching%20distillation)(DMD) 已成为事实上的首选方法。然而,现有方法训练学生模型时无差别地匹配教师模型的输出,将每次采样 (rollout) (https://huggingface.co/papers?q=rollout)、每一帧和每一个像素视为同等可靠的监督信号。我们认为,这种做法限制了蒸馏后的质量上限,因为它忽视了 DMD 监督中两个互补的方差维度:跨学生采样 (rollout) (https://huggingface.co/papers?q=rollout) 的互可靠性 (Inter-Reliability),其监督信号的可靠性各不相同;以及跨空间区域和时间帧的 intra 困惑度 (Intra-Perplexity),这些区域和帧对质量提升潜力的贡献并不均衡。因此,统一权重的目标函数混淆了两个问题:是否从每次采样 (rollout) (https://huggingface.co/papers?q=rollout) 中学习,以及在采样 (rollout) (https://huggingface.co/papers?q=rollout) 内部应将优化集中在何处。为解决这一问题,我们提出了 Stream-R1,这是一种可靠性-困惑度感知奖励蒸馏框架,通过单一的共享奖励引导机制 (reward-guided mechanism) (https://huggingface.co/papers?q=reward-guided%20mechanism),在采样 (rollout) (https://huggingface.co/papers?q=rollout) 级别和时空元素 (spatiotemporal-element) (https://huggingface.co/papers?q=spatiotemporal-element) 级别自适应地重新加权蒸馏目标 (distillation objective) (https://huggingface.co/papers?q=distillation%20objective)。在互可靠性级别,Stream-R1 通过预训练视频奖励分数 (video reward score) (https://huggingface.co/papers?q=video%20reward%20score) 的指数对每次采样 (rollout) (https://huggingface.co/papers?q=rollout) 的损失进行缩放,从而使具有可靠监督信号的采样 (rollout) (https://huggingface.co/papers?q=rollout) 主导优化过程。在 intra 困惑度级别,它反向传播相同的奖励模型以提取每像素梯度显著性 (gradient saliency) (https://huggingface.co/papers?q=gradient%20saliency),并将其分解为空间和时间权重,将优化压力集中在细调能带来最大预期收益的区域和帧上。一种自适应平衡机制防止任何单一质量维度在视觉质量 (visual quality) (https://huggingface.co/papers?q=visual%20quality)、运动质量 (motion quality) (https://huggingface.co/papers?q=motion%20quality) 和文本对齐 (text alignment) (https://huggingface.co/papers?q=text%20alignment) 中占据主导地位。Stream-R1 在标准流式视频生成基准测试上,相比蒸馏基线方法,在这三个维度上均实现了持续的改进,且无需修改架构或增加额外的推理成本。
查看 arXiv 页面 (https://arxiv.org/abs/2605.03849)查看 PDF (https://arxiv.org/pdf/2605.03849)项目页面 (https://stream-r1.github.io/)GitHub20 (https://github.com/FrameX-AI/Stream-R1)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.03849)
在你的 agent 中获取这篇论文:
hf papers read 2605\.03849
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有链接到这篇论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.03849 即可从此页面链接它。
引用此论文的数据集0
没有链接到这篇论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.03849 即可从此页面链接它。
引用此论文的 Spaces0
没有链接到这篇论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.03849 即可从此页面链接它。
包含此论文的合集2
相似文章
Stream-T1:用于流式视频生成的测试时扩展
Stream-T1 是一种针对流式视频生成提出的测试时扩展(TTS)框架,通过噪声传播和奖励剪枝等机制,提升了时间一致性和生成质量。该论文通过利用块级合成技术,解决了现有基于扩散模型的方法计算成本过高的问题。
ReImagine:以图像为先的可控高质量人体视频生成新思路
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。
EasyVideoR1:让视频理解的强化学习更简单
# 论文页面 - EasyVideoR1:让视频理解的强化学习更简单 来源:[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架,可提升训练吞吐量,支持多种视频任务,并实现图像-视频联合训练,在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers
自回归视频生成的投机解码
SDVG 将投机解码引入自回归视频扩散,通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速,同时保留 95.7% 质量。
Sparkle:通过解耦指导实现生动的指令引导视频背景替换
本文介绍了Sparkle,这是一个用于指令引导视频背景替换的新数据集和基准,解决了该领域缺乏高质量训练数据的问题。它提出了一种具有解耦指导的可扩展流水线,以生成逼真的前景-背景交互。