Stream-T1:用于流式视频生成的测试时扩展
摘要
Stream-T1 是一种针对流式视频生成提出的测试时扩展(TTS)框架,通过噪声传播和奖励剪枝等机制,提升了时间一致性和生成质量。该论文通过利用块级合成技术,解决了现有基于扩散模型的方法计算成本过高的问题。
查看缓存全文
缓存时间: 2026/05/08 08:07
论文页面 - Stream-T1:流式视频生成的测试时扩展
来源:https://huggingface.co/papers/2605.04461
摘要
Stream-T1 通过带有时间引导的流式合成实现了高效的测试时视频生成,与现有的基于扩散的方法相比,取得了更好的连贯性和质量。
虽然测试时扩展(Test-Time Scaling,TTS)(https://huggingface.co/papers?q=Test-Time%20Scaling)为在不增加高昂训练成本的情况下提升视频生成(https://huggingface.co/papers?q=video%20generation)质量提供了一个有前景的方向,但当前基于扩散模型(https://huggingface.co/papers?q=diffusion%20models)的测试时视频生成(https://huggingface.co/papers?q=video%20generation)方法存在候选探索成本高昂且缺乏时间引导(https://huggingface.co/papers?q=temporal%20guidance)的问题。为了解决这些结构性瓶颈,我们建议将重点转移到流式视频生成(https://huggingface.co/papers?q=streaming%20video%20generation)上。我们发现,其块级合成和少量的去噪步骤(https://huggingface.co/papers?q=denoising%20steps)本质上适合 TTS,在显著降低计算开销的同时实现了细粒度的时间控制。基于这一洞察,我们引入了 Stream-T1,这是一个专为流式视频生成(https://huggingface.co/papers?q=streaming%20video%20generation)量身定制的开创性综合 TTS 框架。具体而言,Stream-T1 由三个单元组成:(1)Stream-Scaled Noise Propagation(流式扩展噪声传播),利用历史上已证明高质量的前序块噪声主动优化当前生成块的初始潜在噪声(https://huggingface.co/papers?q=latent%20noise),有效地建立时间依赖性(https://huggingface.co/papers?q=temporal%20dependency),并利用历史高斯先验(https://huggingface.co/papers?q=Gaussian%20prior)引导当前生成;(2)Stream-Scaled Reward Pruning(流式扩展奖励剪枝),通过整合即时短期评估与基于滑动窗口的长期评估,对生成的候选者进行全面评估,在局部空间美学和全局时间连贯性之间取得最佳平衡;(3)Stream-Scaled Memory Sinking(流式扩展内存下沉),根据奖励反馈动态地将从 KV-cache(https://huggingface.co/papers?q=KV-cache)中驱逐的上下文路由到不同的更新路径,确保先前生成的视觉信息有效地锚定并引导后续的视频流。在 5 秒和 30 秒的综合视频基准上进行评估,Stream-T1 表现出显著的优越性,显著提高了时间连贯性、运动平滑度和帧级视觉质量。
查看 arXiv 页面(https://arxiv.org/abs/2605.04461)查看 PDF(https://arxiv.org/pdf/2605.04461)项目页面(https://stream-t1.github.io/)GitHub21(https://github.com/FrameX-AI/Stream-T1)添加到集合(https://huggingface.co/login?next=%2Fpapers%2F2605.04461)
在你的 agent 中获取此论文:
hf papers read 2605\.04461
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.04461 以从该页面进行链接。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.04461 以从该页面进行链接。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.04461 以从该页面进行链接。
包含此论文的集合 1
相似文章
Stream-R1:流式视频生成的可靠性-困惑度感知奖励蒸馏
Stream-R1 提出了一种针对流式视频生成的可靠性-困惑度感知奖励蒸馏框架,通过自适应加权监督信号来提升视觉和动态质量,且不增加额外的计算开销。
流式力控视频生成
StreamForce 是一种因果统一视频生成模型,通过蒸馏流水线和自回归架构,为时变力提供实时、基于物理的响应,在力的遵循度和运动真实性方面达到了最先进的性能。
BP-TTA: 动态场景下基于平衡与原型指导的测试时自适应
提出BP-TTA,一种通过结合批次平衡采样与原型指导约束来处理类别不平衡和持续域偏移的测试时自适应方法,在动态流式场景中实现了最先进的性能。
基于自回归扩散变换器的流式同步空间音频生成
SwanSphere 提出了一种统一的流式框架,通过因果自回归扩散变换器和多模态学习策略,从全景视频和文本提示中生成高保真空间音频,在视频到空间音频和文本到空间音频任务中均实现了卓越性能。
LiveEdit:迈向基于扩散模型的实时流式视频编辑
LiveEdit 提出了一种因果、逐帧的流式视频编辑框架,通过三阶段蒸馏流程和面向增强现实的掩码缓存实现了实时性能(12.66 FPS),从而能够进行稳定的长时编辑。