Light Interaction: 用于交互式视频世界模型的无训练推理加速

Hugging Face Daily Papers 2026/05/29 00:00 论文

摘要

Light Interaction 提出了一种用于交互式视频世界模型的无训练推理加速框架，采用自适应上下文管理、去噪缓存加速和3D块稀疏注意力，实现了高达2.59倍的速度提升，同时保持了有竞争力的视觉质量。

交互式视频世界模型根据用户控制的相机运动逐块生成视频，从而实现实时游戏模拟、虚拟场景导航和具身AI训练等应用。然而，由于上下文内存增长、注意力复杂度的二次方以及重复的去噪步骤，扩展到长时间交互轨迹的成本高得令人望而却步。我们提出了 Light Interaction，一种用于交互式视频世界模型的无训练推理加速框架。我们的关键洞察是，交互自然支持依赖于轨迹的自适应计算：在探索新区域时可以丢弃检索到的空间记忆，可以根据局部潜在动态调整时间上下文，当相机重新访问熟悉区域时可以重用早期步骤的模型输出。基于这一洞察，Light Interaction 结合了自适应上下文管理、去噪缓存加速以及硬件-软件协同设计的3D块稀疏注意力（使用融合的Triton内核）。在HY-WorldPlay和Matrix-Game-3.0上的评估表明，Light Interaction 在无需模型重新训练的情况下实现了高达2.59倍的速度提升，同时保持了有竞争力的视觉质量。

查看原文

查看缓存全文

缓存时间: 2026/06/01 03:17

论文页 - Light Interaction: 面向交互式视频世界模型的免训练推理加速

来源：https://huggingface.co/papers/2605.31158

摘要

Light Interaction 通过自适应计算策略和优化注意力机制来加速交互式视频世界模型，且无需重新训练模型。

交互式视频世界模型能够根据用户控制的摄像头运动，逐块生成视频内容，从而支持实时游戏模拟、虚拟场景导航和具身人工智能训练等应用。然而，由于上下文记忆不断增长、注意力机制复杂度呈二次方增长以及重复的去噪步骤，扩展到长交互轨迹的代价极其高昂。我们提出 Light Interaction，这是一个面向交互式视频世界模型的免训练推理加速框架。我们的核心见解是：交互本身自然支持轨迹相关的自适应计算——在探索新区域时可丢弃检索到的空间记忆，可根据局部潜在动态调整时间上下文，当摄像头重新访问熟悉区域时可复用早期步骤的模型输出。基于这一见解，Light Interaction 结合了自适应上下文管理、去噪缓存加速，以及硬件与软件协同设计的、融合 Triton 内核的 3D 块稀疏注意力。在 HY-WorldPlay 和 Matrix-Game-3.0 上的评估表明，Light Interaction 无需模型重新训练即可实现高达 2.59 倍的加速，同时保持有竞争力的视觉质量。

查看 arXiv 页面 (https://arxiv.org/abs/2605.31158) 查看 PDF (https://arxiv.org/pdf/2605.31158) 项目页面 (https://2843721358l-del.github.io/Light-Interaction-Project/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.31158)

在你的 agent 中获取此论文：

hf papers read 2605.31158

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.31158 即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.31158 即可从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.31158 即可从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将这篇论文添加到一个收藏 (https://huggingface.co/new-collection) 即可从此页面链接。

Light Interaction: 用于交互式视频世界模型的无训练推理加速

论文页 - Light Interaction: 面向交互式视频世界模型的免训练推理加速

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏0

相似文章

LLM世界模型中的信念传播：利用预测市场衡量战略信息偏差

无需训练的路由：基于可靠性门控的可控比例LLM卸载

DC-Leap: 通过草稿引导的连续跳跃解码实现dLLMs的无训练加速

@DanKornas: 当每个模型和参数都藏在不同的脚本后面时，视觉AI工作流变得难以管理。ComfyUI是一个……

Black Forest Lab's Flux 3: 全模态用于图像、视频、音频和动作预测

提交意见反馈