Incantation: 自然语言作为多实体视频世界模型的动作接口

Hugging Face Daily Papers 论文

摘要

Incantation 提出了一个交互式视频世界模型,该模型使用自然语言作为动作接口,实现细粒度的多实体控制和跨实体泛化,通过新颖的注意力机制和蒸馏技术实现了高性能和实时流式处理。

现代交互式视频世界模型已经实现了令人印象深刻的视觉保真度,但缺乏细粒度的多实体控制以及跨实体、跨世界的泛化能力。我们将这一差距归因于动作接口:标准的控制协议(例如动画ID、设备输入、场景级描述)在设计时就将动作语义绑定到特定实体或引擎上。我们提出将自然语言作为接口,以释放前所未有的表达能力,并介绍了 Incantation,这是首个支持每潜在帧(0.25秒)自然语言条件的交互式视频世界模型,能够实现同时多实体控制和超越任何固定渲染管道的概念级跨实体迁移。我们将预训练的双向视频骨干网络与帧局部文本交叉注意力相结合,并通过使用 RoPE 解耦滑动 KV 缓存的 ODE 初始化自强制蒸馏技术,实现了实时的长时域流式处理。我们在跨实体迁移(89% 对 43%)和词汇外提示(90% 对 0%)上超越了 Action-Index 基线,并且我们的两步学生模型在 480p 分辨率下维持 19.7 FPS,在 2 小时的滚动生成中 FVD 保持稳定。我们进一步将相同的架构和训练方案应用于 The King of Fighters,仅更改了每个实体的动作词汇槽位。我们已在 https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes 发布了 Incantation 数据集的预览子集,包含手动收集的 Elden Ring 玩家与首领战斗片段,附有结构化的面向动作的元数据。更大规模的 Elden Ring 和 KOF 数据将随完整项目发布。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:30

论文页面 - Incantation: 自然语言作为多实体视频世界模型的动作接口

来源:https://huggingface.co/papers/2605.18601 作者:

摘要

Incantation 通过新颖的视频主干和注意力机制,实现了基于自然语言条件的交互式视频世界建模,支持细粒度多实体控制以及跨实体泛化。

现代交互式视频世界模型(https://huggingface.co/papers?q=interactive%20video%20world%20models)已实现令人惊叹的视觉保真度,但缺乏细粒度多实体控制(https://huggingface.co/papers?q=multi-entity%20control)以及跨实体、跨世界的泛化能力。我们将这一差距归因于动作接口:标准控制协议(如动画 ID、设备输入、场景级描述)在设计时将动作语义绑定到特定实体或引擎。我们提出以自然语言作为接口,以释放以往任何接口都无法实现的表达能力,并展示 Incantation——首个支持每隐层帧(https://huggingface.co/papers?q=per-latent-frame)(0.25 秒)自然语言条件的交互式视频世界模型,可同时实现多实体控制(https://huggingface.co/papers?q=multi-entity%20control)以及超越任何固定渲染管线的概念级跨实体迁移(https://huggingface.co/papers?q=cross-entity%20transfer)。我们将预训练的双向视频主干(https://huggingface.co/papers?q=bidirectional%20video%20backbone)与帧局部文本交叉注意力(https://huggingface.co/papers?q=frame-local%20text%20cross-attention)相结合,并通过 ODE 初始化的自强制蒸馏(https://huggingface.co/papers?q=ODE-initialized%20Self-Forcing%20distillation)以及 RoPE 解耦滑动 KV 缓存(https://huggingface.co/papers?q=RoPE-decoupled%20sliding%20KV-cache)实现实时长视界流式处理。我们在跨实体迁移(https://huggingface.co/papers?q=cross-entity%20transfer)上超越了 Action-Index 基线(89% 对比 43%),在词汇外提示上达到 90% 对比 0%;我们的 2 步学生模型在 480p 分辨率下保持 19.7 FPS,且在 2 小时推演中 FVD(https://huggingface.co/papers?q=FVD)保持稳定。我们还将相同的架构和训练配方应用于《拳皇》,仅更改了每个实体的动作词汇槽(https://huggingface.co/papers?q=action%20vocabulary%20slots)。我们已在 https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes 发布了 Incantation 数据集的预览子集,包含手动收集的《艾尔登法环》玩家-首领战斗片段以及结构化动作元数据。更大规模的《艾尔登法环》和 KOF 数据将随完整项目一同发布。

查看 arXiv 页面(https://arxiv.org/abs/2605.18601)查看 PDF(https://arxiv.org/pdf/2605.18601)项目页面(https://matrixteam-ai.github.io/pages/Incanation/)GitHub2(https://github.com/zhushangwen/Incantation)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.18601)

在您的智能体中获取此论文:

hf papers read 2605.18601

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.18601 以从此页面链接。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.18601 以从此页面链接。

引用此论文的 Space 0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.18601 以从此页面链接。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。

相似文章

CogOmniControl: 基于推理的可控视频生成,通过创意意图认知

Hugging Face Daily Papers

CogOmniControl是一个基于推理的可控视频生成框架,它使用在动画制作数据上训练的专业视觉语言模型(CogVLM)从稀疏条件中推断创意意图,然后通过强化学习引导基于扩散的生成器,在新基准上取得最先进的结果。