多智能体世界模型（3分钟阅读）

TLDR AI 2026/05/29 00:00 论文

multi-agent world-models generative nvidia video-generation permutation-symmetry interactive-simulation

摘要

γ-World 是一个生成式多智能体世界模型，支持独立可控、排列对称的智能体，采用 Simplex Rotary Agent Encoding 和 Sparse Hub Attention 技术，实现了实时 24 FPS 的推演，并具有从两个玩家到四个玩家的零样本泛化能力。

NVIDIA γ-World 是一个生成式世界模型，支持独立可控、排列对称的智能体，并能够实时推演，且具备从双人设置到四人设置的零样本泛化能力。

查看原文

查看缓存全文

缓存时间: 2026/05/29 18:31

# 超越双玩家的生成式多智能体世界建模 Source: https://research.nvidia.com/labs/sil/projects/gamma-world/ ***TL;DR:**γ\-World是一个生成式多智能体世界模型，通过**Simplex Rotary Agent Encoding**和**Sparse Hub Attention**支持独立可控、置换对称的智能体，实现了实时**24 FPS**的推演以及从双玩家到四玩家的零样本泛化。* γ\-World从多智能体动作中交互式生成连贯的未来帧，同时保持共享世界的一致性，从虚拟游戏扩展到真实世界环境。 γ-World Teaser ## 图库 --- ### γ\-World 概述 γ\-World的全面概述：跨多种场景和配置的交互式多智能体世界生成。 ### 双智能体交互双智能体交互的定性结果。每个智能体独立可控，同时共享同一个不断演变的世界。 Two Agent Visualization ### 四智能体泛化得益于置换对称的单纯形编码，γ\-World从两个玩家泛化到四个玩家**无需额外训练**。 Four Agent Visualization ### 真实世界机器人协调 γ\-World扩展到真实世界的多机器人协调场景，展示了超越虚拟环境的实际应用能力。 Robotics Visualization ## 摘要 --- 用于交互式视频生成的世界模型主要关注单智能体设置，即未来观测从单一动作流、用户输入或可控视角中展开。然而，许多模拟世界本质上是多智能体共存的：多个玩家、机器人的具身智能体在一个共享的、不断演变的环境中同时行动。将世界模型扩展到此类场景需要一种有原则的多智能体设计：智能体应保持独立可控、置换对称，并支持高效推理，同时保持时间和视角的一致性。在本文中，我们提出**γ\-World**，一个用于交互式模拟的生成式多智能体世界模型。γ\-World引入了*Simplex Rotary Agent Encoding*，这是3D RoPE的无参数扩展，将智能体表示为旋转角度空间中正则单纯形的顶点。这为每个智能体提供了不同的相位，同时使所有智能体置换等价，从而无需学习每个槽位的身份或固定智能体顺序即可实现可扩展的智能体身份。为了支持高效的跨智能体交互，我们进一步提出了*Sparse Hub Attention*，其中可学习的枢纽令牌在智能体之间调节通信，将跨智能体注意力成本从智能体数量的二次方降低到线性。最后，我们使用双向多智能体教师通过蒸馏指导块因果学生，之后最终的因果模型可以使用KV缓存进行流式处理，实现实时动作响应的推演，达到**24 FPS**。在多玩家虚拟环境中的实验表明，与基于槽位和密集注意力的基线相比，γ\-World在视频保真度、动作可控性和智能体间一致性方面均有提升，同时无需额外训练即可从两个玩家泛化到四个玩家。 ## 方法 --- 方法概览 **架构概述。**γ\-World接收每个智能体的动作流，并生成共享的多视角推演。两个关键设计使其可扩展到多个智能体： #### Simplex Rotary Agent Encoding 这是3D RoPE的无参数扩展，将智能体表示为旋转角度空间中正则单纯形的顶点。每个智能体获得不同的相位，同时保持*置换等价*，从而无需学习每个槽位的身份或固定智能体顺序。 #### Sparse Hub Attention 可学习的枢纽令牌在智能体之间调节通信，将跨智能体注意力成本从智能体数量的*二次方*降低到*线性*，从而支持高效扩展到四个或更多智能体。 ### 效率：Sparse Hub Attention Sparse Hub Attention随智能体数量线性扩展，而密集注意力随智能体数量二次方扩展。 Sparse Hub Attention Timing

相似文章

MultiWorld：可扩展的多智能体多视角视频世界模型

Hugging Face Daily Papers

MultiWorld 是一个统一的多智能体多视角视频世界建模框架，通过多智能体条件模块与全局状态编码器，在精准控制多智能体行为的同时保持多视角一致性。

Agent-World：面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源：[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua

多智能体世界模型（3分钟阅读）

相似文章

MultiWorld：可扩展的多智能体多视角视频世界模型

Agent-World：面向演进式通用智能体的现实世界环境合成扩展

Agora-1：多智能体世界模型

Qwen-AgentWorld: 通用智能体的语言世界模型

无限世界与多样交互

提交意见反馈