Light Interaction: 用于交互式视频世界模型的无训练推理加速
摘要
Light Interaction 提出了一种用于交互式视频世界模型的无训练推理加速框架,采用自适应上下文管理、去噪缓存加速和3D块稀疏注意力,实现了高达2.59倍的速度提升,同时保持了有竞争力的视觉质量。
查看缓存全文
缓存时间: 2026/06/01 03:17
论文页 - Light Interaction: 面向交互式视频世界模型的免训练推理加速
来源:https://huggingface.co/papers/2605.31158
摘要
Light Interaction 通过自适应计算策略和优化注意力机制来加速交互式视频世界模型,且无需重新训练模型。
交互式视频世界模型能够根据用户控制的摄像头运动,逐块生成视频内容,从而支持实时游戏模拟、虚拟场景导航和具身人工智能训练等应用。然而,由于上下文记忆不断增长、注意力机制复杂度呈二次方增长以及重复的去噪步骤,扩展到长交互轨迹的代价极其高昂。我们提出 Light Interaction,这是一个面向交互式视频世界模型的免训练推理加速框架。我们的核心见解是:交互本身自然支持轨迹相关的自适应计算——在探索新区域时可丢弃检索到的空间记忆,可根据局部潜在动态调整时间上下文,当摄像头重新访问熟悉区域时可复用早期步骤的模型输出。基于这一见解,Light Interaction 结合了自适应上下文管理、去噪缓存加速,以及硬件与软件协同设计的、融合 Triton 内核的 3D 块稀疏注意力。在 HY-WorldPlay 和 Matrix-Game-3.0 上的评估表明,Light Interaction 无需模型重新训练即可实现高达 2.59 倍的加速,同时保持有竞争力的视觉质量。
查看 arXiv 页面 (https://arxiv.org/abs/2605.31158) 查看 PDF (https://arxiv.org/pdf/2605.31158) 项目页面 (https://2843721358l-del.github.io/Light-Interaction-Project/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.31158)
在你的 agent 中获取此论文:
hf papers read 2605.31158
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.31158 即可从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.31158 即可从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.31158 即可从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将这篇论文添加到一个收藏 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
视频外扩技术越来越出色
视频外扩技术已显著提升,能够更好地将视频内容扩展到原始边界之外。
Inside Google DeepMind: Reasoning, Omni, and Shipping Frontier AI
本文总结了Google DeepMind三位研究员关于推理、多模态生成(Omni)、编码与自我改进的深度对谈,强调视觉与动态思考将超越文本思维链,并探讨了世界模型和合成训练案例的未来趋势。
用于LLM智能体离线策略评估的自回归扩散世界模型
提出了Adwm,一种用于LLM智能体离线策略评估的自回归扩散世界模型,能够从预先收集的轨迹中实现可靠的价值估计,无需在线交互。
@berryxia: 卧槽!老黄牛逼啊! 这下直接收藏当可以直接拿html轻松制作视频了,今天正好也在拿hyperframe和remotion捣鼓视频。 这下可以直接拿来用了,直接送枕头了啊! 地址 https://github.com/nexu-io/ope…
Open Design 是一个开源的 Claude Design 替代品,支持通过 HTML 生成视频、原型和仪表盘,集成多种 AI 代理,实现本地优先的设计工作流。
无需训练的词汇-密集融合用于会话记忆检索
本文提出了一种无需训练、仅使用CPU的检索方法,该方法将BM25词汇分数与后期交互密集分数相融合,用于会话记忆检索,在六个编码器上相比仅使用后期交互,在LoCoMo Hit@1上提升了高达+17.2个点。该研究提供了关于池化操作符、重排序器效果和基准鲁棒性的受控消融实验,将这种提升视为密集信号与词汇信号之间的分工。