多智能体世界模型(3分钟阅读)
摘要
γ-World 是一个生成式多智能体世界模型,支持独立可控、排列对称的智能体,采用 Simplex Rotary Agent Encoding 和 Sparse Hub Attention 技术,实现了实时 24 FPS 的推演,并具有从两个玩家到四个玩家的零样本泛化能力。
NVIDIA γ-World 是一个生成式世界模型,支持独立可控、排列对称的智能体,并能够实时推演,且具备从双人设置到四人设置的零样本泛化能力。
查看缓存全文
缓存时间:
2026/05/29 18:31
# 超越双玩家的生成式多智能体世界建模
Source: https://research.nvidia.com/labs/sil/projects/gamma-world/
***TL;DR:**γ\-World是一个生成式多智能体世界模型,通过**Simplex Rotary Agent Encoding**和**Sparse Hub Attention**支持独立可控、置换对称的智能体,实现了实时**24 FPS**的推演以及从双玩家到四玩家的零样本泛化。*
γ\-World从多智能体动作中交互式生成连贯的未来帧,同时保持共享世界的一致性,从虚拟游戏扩展到真实世界环境。
γ-World Teaser
## 图库
---
### γ\-World 概述
γ\-World的全面概述:跨多种场景和配置的交互式多智能体世界生成。
### 双智能体交互
双智能体交互的定性结果。每个智能体独立可控,同时共享同一个不断演变的世界。
Two Agent Visualization
### 四智能体泛化
得益于置换对称的单纯形编码,γ\-World从两个玩家泛化到四个玩家**无需额外训练**。
Four Agent Visualization
### 真实世界机器人协调
γ\-World扩展到真实世界的多机器人协调场景,展示了超越虚拟环境的实际应用能力。
Robotics Visualization
## 摘要
---
用于交互式视频生成的世界模型主要关注单智能体设置,即未来观测从单一动作流、用户输入或可控视角中展开。然而,许多模拟世界本质上是多智能体共存的:多个玩家、机器人的具身智能体在一个共享的、不断演变的环境中同时行动。将世界模型扩展到此类场景需要一种有原则的多智能体设计:智能体应保持独立可控、置换对称,并支持高效推理,同时保持时间和视角的一致性。
在本文中,我们提出**γ\-World**,一个用于交互式模拟的生成式多智能体世界模型。γ\-World引入了*Simplex Rotary Agent Encoding*,这是3D RoPE的无参数扩展,将智能体表示为旋转角度空间中正则单纯形的顶点。这为每个智能体提供了不同的相位,同时使所有智能体置换等价,从而无需学习每个槽位的身份或固定智能体顺序即可实现可扩展的智能体身份。
为了支持高效的跨智能体交互,我们进一步提出了*Sparse Hub Attention*,其中可学习的枢纽令牌在智能体之间调节通信,将跨智能体注意力成本从智能体数量的二次方降低到线性。最后,我们使用双向多智能体教师通过蒸馏指导块因果学生,之后最终的因果模型可以使用KV缓存进行流式处理,实现实时动作响应的推演,达到**24 FPS**。
在多玩家虚拟环境中的实验表明,与基于槽位和密集注意力的基线相比,γ\-World在视频保真度、动作可控性和智能体间一致性方面均有提升,同时无需额外训练即可从两个玩家泛化到四个玩家。
## 方法
---
方法概览
**架构概述。**γ\-World接收每个智能体的动作流,并生成共享的多视角推演。两个关键设计使其可扩展到多个智能体:
#### Simplex Rotary Agent Encoding
这是3D RoPE的无参数扩展,将智能体表示为旋转角度空间中正则单纯形的顶点。每个智能体获得不同的相位,同时保持*置换等价*,从而无需学习每个槽位的身份或固定智能体顺序。
#### Sparse Hub Attention
可学习的枢纽令牌在智能体之间调节通信,将跨智能体注意力成本从智能体数量的*二次方*降低到*线性*,从而支持高效扩展到四个或更多智能体。
### 效率:Sparse Hub Attention
Sparse Hub Attention随智能体数量线性扩展,而密集注意力随智能体数量二次方扩展。
Sparse Hub Attention Timing
相似文章
Hugging Face Daily Papers
MultiWorld 是一个统一的多智能体多视角视频世界建模框架,通过多智能体条件模块与全局状态编码器,在精准控制多智能体行为的同时保持多视角一致性。
Hugging Face Daily Papers
# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua
Hacker News Top
Odyssey 推出了 Agora-1,这是一个多智能体世界模型,支持多个参与者进行实时共享模拟,并通过《黄金眼》死亡竞赛游戏进行了演示。
X AI KOLs Following
精选的5月25-31日顶级AI论文综述,涵盖多智能体世界建模、视觉-语言-动作模型、智能体技能优化和对齐框架。
Hugging Face Daily Papers
HY-World 2.0 是一个多模态世界模型框架,通过全景生成、轨迹规划和场景组合等专用模块,从文本、图像和视频中生成高保真度的三维高斯泼溅场景,在开源方法中实现了最先进的性能。