Incantation: 自然语言作为多实体视频世界模型的动作接口
摘要
Incantation 提出了一个交互式视频世界模型,该模型使用自然语言作为动作接口,实现细粒度的多实体控制和跨实体泛化,通过新颖的注意力机制和蒸馏技术实现了高性能和实时流式处理。
查看缓存全文
缓存时间: 2026/05/19 06:30
论文页面 - Incantation: 自然语言作为多实体视频世界模型的动作接口
来源:https://huggingface.co/papers/2605.18601 作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
Incantation 通过新颖的视频主干和注意力机制,实现了基于自然语言条件的交互式视频世界建模,支持细粒度多实体控制以及跨实体泛化。
现代交互式视频世界模型(https://huggingface.co/papers?q=interactive%20video%20world%20models)已实现令人惊叹的视觉保真度,但缺乏细粒度多实体控制(https://huggingface.co/papers?q=multi-entity%20control)以及跨实体、跨世界的泛化能力。我们将这一差距归因于动作接口:标准控制协议(如动画 ID、设备输入、场景级描述)在设计时将动作语义绑定到特定实体或引擎。我们提出以自然语言作为接口,以释放以往任何接口都无法实现的表达能力,并展示 Incantation——首个支持每隐层帧(https://huggingface.co/papers?q=per-latent-frame)(0.25 秒)自然语言条件的交互式视频世界模型,可同时实现多实体控制(https://huggingface.co/papers?q=multi-entity%20control)以及超越任何固定渲染管线的概念级跨实体迁移(https://huggingface.co/papers?q=cross-entity%20transfer)。我们将预训练的双向视频主干(https://huggingface.co/papers?q=bidirectional%20video%20backbone)与帧局部文本交叉注意力(https://huggingface.co/papers?q=frame-local%20text%20cross-attention)相结合,并通过 ODE 初始化的自强制蒸馏(https://huggingface.co/papers?q=ODE-initialized%20Self-Forcing%20distillation)以及 RoPE 解耦滑动 KV 缓存(https://huggingface.co/papers?q=RoPE-decoupled%20sliding%20KV-cache)实现实时长视界流式处理。我们在跨实体迁移(https://huggingface.co/papers?q=cross-entity%20transfer)上超越了 Action-Index 基线(89% 对比 43%),在词汇外提示上达到 90% 对比 0%;我们的 2 步学生模型在 480p 分辨率下保持 19.7 FPS,且在 2 小时推演中 FVD(https://huggingface.co/papers?q=FVD)保持稳定。我们还将相同的架构和训练配方应用于《拳皇》,仅更改了每个实体的动作词汇槽(https://huggingface.co/papers?q=action%20vocabulary%20slots)。我们已在 https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes 发布了 Incantation 数据集的预览子集,包含手动收集的《艾尔登法环》玩家-首领战斗片段以及结构化动作元数据。更大规模的《艾尔登法环》和 KOF 数据将随完整项目一同发布。
查看 arXiv 页面(https://arxiv.org/abs/2605.18601)查看 PDF(https://arxiv.org/pdf/2605.18601)项目页面(https://matrixteam-ai.github.io/pages/Incanation/)GitHub2(https://github.com/zhushangwen/Incantation)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.18601)
在您的智能体中获取此论文:
hf papers read 2605.18601
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2605.18601 以从此页面链接。
引用此论文的数据集 0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.18601 以从此页面链接。
引用此论文的 Space 0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2605.18601 以从此页面链接。
包含此论文的收藏 0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
MultiWorld:可扩展的多智能体多视角视频世界模型
MultiWorld 是一个统一的多智能体多视角视频世界建模框架,通过多智能体条件模块与全局状态编码器,在精准控制多智能体行为的同时保持多视角一致性。
CogOmniControl: 基于推理的可控视频生成,通过创意意图认知
CogOmniControl是一个基于推理的可控视频生成框架,它使用在动画制作数据上训练的专业视觉语言模型(CogVLM)从稀疏条件中推断创意意图,然后通过强化学习引导基于扩散的生成器,在新基准上取得最先进的结果。
为什么视频代理模型是下一个前沿——Ethan He, xAI Grok Imagine(98分钟阅读)
来自xAI的Ethan He讨论了为什么视频代理模型是下一个前沿,他认为视频模型从LLM中获取智能,并且视频生成的演变将模仿AI编程,从一次性输出转向多轮规划与执行。
物理可行的世界模型:为查询条件化具身智能辩护
本文论证了具身AI的世界模型必须是物理可行的且查询条件化的,重点在于为每个干预查询识别最简单的物理抽象,而不是仅仅预测观察结果。
WorldAct: 将单体3D世界激活为可交互的以对象为中心的场景
WorldAct是一个框架,利用多模态智能体和几何重建技术,将静态的3D生成环境转换为可编辑、可交互的以对象为中心的场景,支持对象级编辑和具身任务执行。