Stream-R1:流式视频生成的可靠性-困惑度感知奖励蒸馏

Hugging Face Daily Papers 论文

摘要

Stream-R1 提出了一种针对流式视频生成的可靠性-困惑度感知奖励蒸馏框架,通过自适应加权监督信号来提升视觉和动态质量,且不增加额外的计算开销。

基于蒸馏的加速方法已成为使自回归流式视频扩散模型具备实用性的基础,其中分布匹配蒸馏(DMD)是事实上的首选方法。然而,现有方法不加区分地训练学生模型以匹配教师模型的输出,将每次采样(rollout)、每一帧和每一个像素都视为同等可靠的监督信号。我们认为,这种做法限制了蒸馏后的质量上限,因为它忽略了 DMD 监督信号中两个互补的方差维度:采样间可靠性(Inter-Reliability),即不同采样过程的监督可靠性存在差异;以及内禀困惑度(Intra-Perplexity),即不同空间区域和时间帧对潜在质量提升的贡献并不均等。因此,统一权重下的目标函数混淆了两个问题:是否应从每次采样中学习,以及在采样内部应将优化重点集中在何处。为了解决这一问题,我们提出了 Stream-R1,这是一种可靠性-困惑度感知的奖励蒸馏框架,通过单一的共享奖励引导机制,在采样级别和时空元素级别自适应地重新加权蒸馏目标。在采样间可靠性层面,Stream-R1 利用预训练视频奖励得分的指数形式对每次采样的损失进行缩放,从而使具有可靠监督的采样主导优化过程。在内禀困惑度层面,它反向传播相同的奖励模型以提取逐像素的梯度显著性,将其分解为空间和时间权重,将优化压力集中在通过细化能带来最大预期收益的区域和帧上。一种自适应平衡机制防止单一质量维度在视觉质量、动态质量和文本对齐方面占据主导地位。在标准流式视频生成基准测试中,Stream-R1 在所有三个维度上均优于蒸馏基线方法,且无需修改架构或增加推理成本。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:09

论文页面 - Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

来源: https://huggingface.co/papers/2605.03849

摘要

Stream-R1 通过根据可靠性和困惑度自适应地加权监督信号,改进了视频扩散模型蒸馏,在不增加额外计算开销的情况下,提升了视觉质量、运动质量和文本对齐效果。

基于蒸馏的加速技术已成为使自回归流式视频扩散模型具备实用性的基础,其中分布匹配蒸馏 (distribution matching distillation) (https://huggingface.co/papers?q=distribution%20matching%20distillation)(DMD) 已成为事实上的首选方法。然而,现有方法训练学生模型时无差别地匹配教师模型的输出,将每次采样 (rollout) (https://huggingface.co/papers?q=rollout)、每一帧和每一个像素视为同等可靠的监督信号。我们认为,这种做法限制了蒸馏后的质量上限,因为它忽视了 DMD 监督中两个互补的方差维度:跨学生采样 (rollout) (https://huggingface.co/papers?q=rollout) 的互可靠性 (Inter-Reliability),其监督信号的可靠性各不相同;以及跨空间区域和时间帧的 intra 困惑度 (Intra-Perplexity),这些区域和帧对质量提升潜力的贡献并不均衡。因此,统一权重的目标函数混淆了两个问题:是否从每次采样 (rollout) (https://huggingface.co/papers?q=rollout) 中学习,以及在采样 (rollout) (https://huggingface.co/papers?q=rollout) 内部应将优化集中在何处。为解决这一问题,我们提出了 Stream-R1,这是一种可靠性-困惑度感知奖励蒸馏框架,通过单一的共享奖励引导机制 (reward-guided mechanism) (https://huggingface.co/papers?q=reward-guided%20mechanism),在采样 (rollout) (https://huggingface.co/papers?q=rollout) 级别和时空元素 (spatiotemporal-element) (https://huggingface.co/papers?q=spatiotemporal-element) 级别自适应地重新加权蒸馏目标 (distillation objective) (https://huggingface.co/papers?q=distillation%20objective)。在互可靠性级别,Stream-R1 通过预训练视频奖励分数 (video reward score) (https://huggingface.co/papers?q=video%20reward%20score) 的指数对每次采样 (rollout) (https://huggingface.co/papers?q=rollout) 的损失进行缩放,从而使具有可靠监督信号的采样 (rollout) (https://huggingface.co/papers?q=rollout) 主导优化过程。在 intra 困惑度级别,它反向传播相同的奖励模型以提取每像素梯度显著性 (gradient saliency) (https://huggingface.co/papers?q=gradient%20saliency),并将其分解为空间和时间权重,将优化压力集中在细调能带来最大预期收益的区域和帧上。一种自适应平衡机制防止任何单一质量维度在视觉质量 (visual quality) (https://huggingface.co/papers?q=visual%20quality)、运动质量 (motion quality) (https://huggingface.co/papers?q=motion%20quality) 和文本对齐 (text alignment) (https://huggingface.co/papers?q=text%20alignment) 中占据主导地位。Stream-R1 在标准流式视频生成基准测试上,相比蒸馏基线方法,在这三个维度上均实现了持续的改进,且无需修改架构或增加额外的推理成本。

查看 arXiv 页面 (https://arxiv.org/abs/2605.03849)查看 PDF (https://arxiv.org/pdf/2605.03849)项目页面 (https://stream-r1.github.io/)GitHub20 (https://github.com/FrameX-AI/Stream-R1)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.03849)

在你的 agent 中获取这篇论文:

hf papers read 2605\.03849

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接到这篇论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.03849 即可从此页面链接它。

引用此论文的数据集0

没有链接到这篇论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.03849 即可从此页面链接它。

引用此论文的 Spaces0

没有链接到这篇论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.03849 即可从此页面链接它。

包含此论文的合集2

相似文章

Stream-T1:用于流式视频生成的测试时扩展

Hugging Face Daily Papers

Stream-T1 是一种针对流式视频生成提出的测试时扩展(TTS)框架,通过噪声传播和奖励剪枝等机制,提升了时间一致性和生成质量。该论文通过利用块级合成技术,解决了现有基于扩散模型的方法计算成本过高的问题。

EasyVideoR1:让视频理解的强化学习更简单

Hugging Face Daily Papers

# 论文页面 - EasyVideoR1:让视频理解的强化学习更简单 来源:[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架,可提升训练吞吐量,支持多种视频任务,并实现图像-视频联合训练,在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers

自回归视频生成的投机解码

Hugging Face Daily Papers

SDVG 将投机解码引入自回归视频扩散,通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速,同时保留 95.7% 质量。