流式力控视频生成
摘要
StreamForce 是一种因果统一视频生成模型,通过蒸馏流水线和自回归架构,为时变力提供实时、基于物理的响应,在力的遵循度和运动真实性方面达到了最先进的性能。
查看缓存全文
缓存时间: 2026/06/08 07:14
论文页面 - 基于流力控制的流式视频生成
来源:https://huggingface.co/papers/2606.07508
摘要
StreamForce 是一种因果统一的视频生成模型,通过蒸馏流水线(https://huggingface.co/papers?q=distillation%20pipeline)和自回归架构,为时变力提供实时、具有物理基础的响应。
我们提出 StreamForce,一个流式视频生成(https://huggingface.co/papers?q=streaming%20video%20generation)框架,能够通过连续力输入实现具有物理基础的控制。与以往针对不同力类型训练独立模型、假设力固定或依赖非因果处理的视频模型不同,StreamForce 是一个因果统一的模型,能够即时且连贯地响应局部和全局的时变力。为了实现这一点,我们设计了一种统一的力表示作为控制信号,并开发了用于力可控视频生成(https://huggingface.co/papers?q=force-controllable%20video%20generation)的蒸馏流水线(https://huggingface.co/papers?q=distillation%20pipeline)。我们的模型结合了自回归效率(https://huggingface.co/papers?q=autoregressive%20efficiency)与力响应能力,保持了稳定的光度与动态真实性。StreamForce 在单 GPU 上运行速度可达 16.6 FPS,在力遵循度和运动真实性方面均达到最先进水平。项目网站:https://neu-vi.github.io/StreamForce/
查看 arXiv 页面(https://arxiv.org/abs/2606.07508)查看 PDF(https://arxiv.org/pdf/2606.07508)项目页面(https://neu-vi.github.io/StreamForce/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.07508)
在您的 agent 中获取此论文:
hf papers read 2606\.07508
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.07508,以便从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.07508,以便从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.07508,以便从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
请将此论文添加到一个收藏(https://huggingface.co/new-collection)中,以便从此页面链接。
相似文章
Causal Forcing++:可扩展的少步自回归扩散蒸馏,用于实时交互式视频生成
Causal Forcing++提出了一种新颖的因果一致性蒸馏方法,用于逐帧自回归视频生成,在降低延迟和训练成本的同时实现了最先进的质量。
Steady-Forcing: 在长时域自然视频扩散中平衡空间持久性与运动连续性
Steady-Forcing 提出了一种记忆与训练框架,旨在长时域自然视频生成中平衡空间稳定性与运动连续性,在保持流体动态持续多分钟滚动生成的同时,提升背景一致性。
Stream-R1:流式视频生成的可靠性-困惑度感知奖励蒸馏
Stream-R1 提出了一种针对流式视频生成的可靠性-困惑度感知奖励蒸馏框架,通过自适应加权监督信号来提升视觉和动态质量,且不增加额外的计算开销。
Stream-T1:用于流式视频生成的测试时扩展
Stream-T1 是一种针对流式视频生成提出的测试时扩展(TTS)框架,通过噪声传播和奖励剪枝等机制,提升了时间一致性和生成质量。该论文通过利用块级合成技术,解决了现有基于扩散模型的方法计算成本过高的问题。
StreamChar: 基于解耦编排的长时域流式角色音视频生成
StreamChar是一个用于实时生成角色动画音视频的流式框架,利用LLM编排器与联合音视频DiT,结合两阶段蒸馏和记忆机制,以维持长时域一致性和视觉质量。