MultiWorld：可扩展的多智能体多视角视频世界模型

Hugging Face Daily Papers 2026/04/20 00:00 论文

摘要

MultiWorld 是一个统一的多智能体多视角视频世界建模框架，通过多智能体条件模块与全局状态编码器，在精准控制多智能体行为的同时保持多视角一致性。

视频世界模型已在模拟用户或智能体行为的环境动态方面取得显著成功。这类模型通常被建模为动作条件视频生成模型，输入历史帧与当前动作以预测未来帧。然而，现有方法大多局限于单智能体场景，难以捕捉现实多智能体系统中固有的复杂交互。我们提出 MultiWorld，一个统一的多智能体多视角世界建模框架，能够在精准控制多智能体行为的同时保持多视角一致性。我们引入多智能体条件模块实现精细的多智能体可控性，并设计全局状态编码器确保不同视角下的观测连贯一致。MultiWorld 支持智能体数量与视角数量的灵活扩展，并可并行合成不同视角，效率极高。在多玩家游戏环境与多机器人操作任务上的实验表明，MultiWorld 在视频保真度、动作跟随能力及多视角一致性方面均优于基线方法。项目主页：https://multi-world.github.io/

查看原文

查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - MultiWorld：可扩展的多智能体多视角视频世界模型

来源：https://huggingface.co/papers/2604.18564

摘要

MultiWorld 是一个统一的多智能体多视角世界建模框架，通过专门的条件处理模块与全局状态编码模块，在实现精准多智能体控制的同时保持多视角一致性。

视频世界模型（https://huggingface.co/papers?q=Video%20world%20models）在模拟用户或智能体动作驱动的环境动态方面已取得了显著成功。它们被建模为“动作条件视频生成”模型，输入历史帧与当前动作来预测未来帧。然而，现有方法大多局限于单智能体场景，无法捕捉现实多智能体系统中固有的复杂交互。我们提出 MultiWorld，一个统一的多智能体多视角世界建模框架，在保持多视角一致性的同时实现对多个智能体的精准控制。我们引入多智能体条件模块（Multi-Agent Condition Module）以实现精确的多智能体可控性，并设计全局状态编码器（Global State Encoder）确保不同视角观测的连贯性。MultiWorld 支持智能体数量与视角数量的灵活扩展，并可并行合成不同视角，效率极高。在多玩家游戏环境与多机器人操作任务上的实验表明，MultiWorld 在视频保真度、动作跟随能力与多视角一致性方面均优于基线方法。项目主页：https://multi-world.github.io/

查看 arXiv 页面（https://arxiv.org/abs/2604.18564）
查看 PDF（https://arxiv.org/pdf/2604.18564）
项目主页（https://multi-world.github.io/）
GitHub（https://github.com/CIntellifusion/MultiWorld）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.18564）

在智能体中获取该论文：

hf papers read 2604.18564

还没装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联该论文

在模型 README.md 中引用 arxiv.org/abs/2604.18564 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集关联该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.18564 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 关联该论文

在 Space README.md 中引用 arxiv.org/abs/2604.18564 即可在此页面显示链接。

包含该论文的合集 0

暂无合集包含该论文

新建合集（https://huggingface.co/new-collection）并将该论文加入，即可在此页面显示链接。

MultiWorld：可扩展的多智能体多视角视频世界模型

论文页面 - MultiWorld：可扩展的多智能体多视角视频世界模型

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的合集 0

相似文章

多智能体世界模型（3分钟阅读）

minWM：用于实时交互式视频世界模型的全栈开源框架

Qwen-RobotWorld技术报告：通过语言条件视频生成统一具身世界建模

Agora-1：多智能体世界模型

HY-World 2.0：用于重建、生成和模拟三维世界的多模态世界模型

提交意见反馈