Stream-T1:用于流式视频生成的测试时扩展

Hugging Face Daily Papers 论文

摘要

Stream-T1 是一种针对流式视频生成提出的测试时扩展(TTS)框架,通过噪声传播和奖励剪枝等机制,提升了时间一致性和生成质量。该论文通过利用块级合成技术,解决了现有基于扩散模型的方法计算成本过高的问题。

尽管测试时扩展(TTS)为在不增加高昂训练成本的情况下提升视频生成质量提供了一条有前景的途径,但当前基于扩散模型的测试时视频生成方法面临着候选探索成本高昂且缺乏时间引导的问题。为了解决这些结构性瓶颈,我们提出将重点转向流式视频生成。我们发现,其块级合成特性以及较少的去噪步骤天然适合 TTS,这不仅显著降低了计算开销,还实现了细粒度的时间控制。基于这一见解,我们推出了 Stream-T1,这是一个专为流式视频生成量身定制的开创性综合 TTS 框架。具体而言,Stream-T1 由三个单元组成:(1) Stream-Scaled 噪声传播,它利用历史上经过验证的高质量前序块噪声,主动优化生成块的初始潜在噪声,有效建立时间依赖关系,并利用历史高斯先验来指导当前生成;(2) Stream-Scaled 奖励剪枝,它通过对生成的候选视频进行全面评估,结合即时短期评估与基于滑动窗口的长期评估,在局部空间美学与全局时间连贯性之间取得最佳平衡;(3) Stream-Scaled 内存下沉,它根据奖励反馈将上下文从 KV 缓存中逐出,并动态路由到不同的更新路径,确保之前生成的视觉信息能够有效锚定并引导后续的视频流。在 5 秒和 30 秒的综合视频基准测试中,Stream-T1 表现出显著的优势,大幅提升了时间一致性、运动平滑度以及帧级视觉质量。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:07

论文页面 - Stream-T1:流式视频生成的测试时扩展

来源:https://huggingface.co/papers/2605.04461

摘要

Stream-T1 通过带有时间引导的流式合成实现了高效的测试时视频生成,与现有的基于扩散的方法相比,取得了更好的连贯性和质量。

虽然测试时扩展(Test-Time Scaling,TTS)(https://huggingface.co/papers?q=Test-Time%20Scaling)为在不增加高昂训练成本的情况下提升视频生成(https://huggingface.co/papers?q=video%20generation)质量提供了一个有前景的方向,但当前基于扩散模型(https://huggingface.co/papers?q=diffusion%20models)的测试时视频生成(https://huggingface.co/papers?q=video%20generation)方法存在候选探索成本高昂且缺乏时间引导(https://huggingface.co/papers?q=temporal%20guidance)的问题。为了解决这些结构性瓶颈,我们建议将重点转移到流式视频生成(https://huggingface.co/papers?q=streaming%20video%20generation)上。我们发现,其块级合成和少量的去噪步骤(https://huggingface.co/papers?q=denoising%20steps)本质上适合 TTS,在显著降低计算开销的同时实现了细粒度的时间控制。基于这一洞察,我们引入了 Stream-T1,这是一个专为流式视频生成(https://huggingface.co/papers?q=streaming%20video%20generation)量身定制的开创性综合 TTS 框架。具体而言,Stream-T1 由三个单元组成:(1)Stream-Scaled Noise Propagation(流式扩展噪声传播),利用历史上已证明高质量的前序块噪声主动优化当前生成块的初始潜在噪声(https://huggingface.co/papers?q=latent%20noise),有效地建立时间依赖性(https://huggingface.co/papers?q=temporal%20dependency),并利用历史高斯先验(https://huggingface.co/papers?q=Gaussian%20prior)引导当前生成;(2)Stream-Scaled Reward Pruning(流式扩展奖励剪枝),通过整合即时短期评估与基于滑动窗口的长期评估,对生成的候选者进行全面评估,在局部空间美学和全局时间连贯性之间取得最佳平衡;(3)Stream-Scaled Memory Sinking(流式扩展内存下沉),根据奖励反馈动态地将从 KV-cache(https://huggingface.co/papers?q=KV-cache)中驱逐的上下文路由到不同的更新路径,确保先前生成的视觉信息有效地锚定并引导后续的视频流。在 5 秒和 30 秒的综合视频基准上进行评估,Stream-T1 表现出显著的优越性,显著提高了时间连贯性、运动平滑度和帧级视觉质量。

查看 arXiv 页面(https://arxiv.org/abs/2605.04461)查看 PDF(https://arxiv.org/pdf/2605.04461)项目页面(https://stream-t1.github.io/)GitHub21(https://github.com/FrameX-AI/Stream-T1)添加到集合(https://huggingface.co/login?next=%2Fpapers%2F2605.04461)

在你的 agent 中获取此论文:

hf papers read 2605\.04461

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.04461 以从该页面进行链接。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.04461 以从该页面进行链接。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.04461 以从该页面进行链接。

包含此论文的集合 1

相似文章

流式力控视频生成

Hugging Face Daily Papers

StreamForce 是一种因果统一视频生成模型,通过蒸馏流水线和自回归架构,为时变力提供实时、基于物理的响应,在力的遵循度和运动真实性方面达到了最先进的性能。

基于自回归扩散变换器的流式同步空间音频生成

Hugging Face Daily Papers

SwanSphere 提出了一种统一的流式框架,通过因果自回归扩散变换器和多模态学习策略,从全景视频和文本提示中生成高保真空间音频,在视频到空间音频和文本到空间音频任务中均实现了卓越性能。