MultiWorld:可扩展的多智能体多视角视频世界模型
摘要
MultiWorld 是一个统一的多智能体多视角视频世界建模框架,通过多智能体条件模块与全局状态编码器,在精准控制多智能体行为的同时保持多视角一致性。
查看缓存全文
缓存时间: 2026/04/21 07:20
论文页面 - MultiWorld:可扩展的多智能体多视角视频世界模型
来源:https://huggingface.co/papers/2604.18564
摘要
MultiWorld 是一个统一的多智能体多视角世界建模框架,通过专门的条件处理模块与全局状态编码模块,在实现精准多智能体控制的同时保持多视角一致性。
视频世界模型(https://huggingface.co/papers?q=Video%20world%20models)在模拟用户或智能体动作驱动的环境动态方面已取得了显著成功。它们被建模为“动作条件视频生成”模型,输入历史帧与当前动作来预测未来帧。然而,现有方法大多局限于单智能体场景,无法捕捉现实多智能体系统中固有的复杂交互。我们提出 MultiWorld,一个统一的多智能体多视角世界建模框架,在保持多视角一致性的同时实现对多个智能体的精准控制。我们引入多智能体条件模块(Multi-Agent Condition Module)以实现精确的多智能体可控性,并设计全局状态编码器(Global State Encoder)确保不同视角观测的连贯性。MultiWorld 支持智能体数量与视角数量的灵活扩展,并可并行合成不同视角,效率极高。在多玩家游戏环境与多机器人操作任务上的实验表明,MultiWorld 在视频保真度、动作跟随能力与多视角一致性方面均优于基线方法。项目主页:https://multi-world.github.io/
查看 arXiv 页面(https://arxiv.org/abs/2604.18564)
查看 PDF(https://arxiv.org/pdf/2604.18564)
项目主页(https://multi-world.github.io/)
GitHub(https://github.com/CIntellifusion/MultiWorld)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.18564)
在智能体中获取该论文:
hf papers read 2604.18564
还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型关联该论文
在模型 README.md 中引用 arxiv.org/abs/2604.18564 即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集关联该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.18564 即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 关联该论文
在 Space README.md 中引用 arxiv.org/abs/2604.18564 即可在此页面显示链接。
包含该论文的合集 0
暂无合集包含该论文
新建合集(https://huggingface.co/new-collection)并将该论文加入,即可在此页面显示链接。
相似文章
多智能体世界模型(3分钟阅读)
γ-World 是一个生成式多智能体世界模型,支持独立可控、排列对称的智能体,采用 Simplex Rotary Agent Encoding 和 Sparse Hub Attention 技术,实现了实时 24 FPS 的推演,并具有从两个玩家到四个玩家的零样本泛化能力。
minWM:用于实时交互式视频世界模型的全栈开源框架
minWM 是一个全栈开源框架,可将双向视频扩散模型转换为实时交互式视频世界模型,支持可控相机、低延迟推演和模块化架构。
Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界建模
Qwen-RobotWorld是一个语言条件视频世界模型,利用双流扩散变换器和860万视频-文本语料库,预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模,在EWMBench和DreamGen Bench上取得了顶尖基准成绩。
Agora-1:多智能体世界模型
Odyssey 推出了 Agora-1,这是一个多智能体世界模型,支持多个参与者进行实时共享模拟,并通过《黄金眼》死亡竞赛游戏进行了演示。
HY-World 2.0:用于重建、生成和模拟三维世界的多模态世界模型
HY-World 2.0 是一个多模态世界模型框架,通过全景生成、轨迹规划和场景组合等专用模块,从文本、图像和视频中生成高保真度的三维高斯泼溅场景,在开源方法中实现了最先进的性能。