SCOPE:针对FPS世界模型在可玩环境中模拟跨游戏操作
摘要
SCOPE提出了一种方法,通过在视频扩散模型的Transformer块中引入条件模块,将作用域内效果与作用域外视觉效果分离,无需分割标签,实现FPS游戏中的精确动作响应,并推出了CrossFPS,这是一个多游戏数据集,支持零样本跨游戏迁移。
查看缓存全文
缓存时间: 2026/05/25 06:36
论文页面 - SCOPE:在可玩环境中模拟跨游戏操作以构建FPS世界模型
来源:https://huggingface.co/papers/2605.23345 作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
SCOPE通过将视频扩散模型中的Transformer块调节为分离作用域内与作用域外视觉效果(无需分割标签),实现了FPS游戏中的精确动作响应。
第一人称射击(FPS)游戏的交互式世界模型必须在每一帧解析高频重叠的控制信号,同时不破坏未受影响的区域。现有方法全局注入动作并在单一游戏上训练,在密集FPS输入下表现不佳。我们观察到FPS动作具有空间选择性:射击或换弹等离散事件仅影响武器周围的局部区域(作用域),而连续的相机和移动信号则控制稳定的周围环境。我们提出SCOPE,它在预训练视频扩散模型的每个Transformer块中插入一个调节模块。该模块将特征重塑为逐像素时间序列,使得每个位置根据局部视觉内容计算其动作响应。这实现了无需分割标签的作用域内效果与作用域外生成的分离。我们还引入了CrossFPS,这是首个多游戏FPS数据集,包含帧对齐的动作遥测数据。它包含来自7款游戏的69K个片段,配有10自由度控制器信号,经筛选去除了游戏内偏差。模型学习通用的视觉到动作映射,而非特定于游戏模式,从而实现对未见场景的零样本迁移。实验证实了强大的动作响应能力、精确的作用域分离以及有效的跨游戏泛化。
查看arXiv页面 (https://arxiv.org/abs/2605.23345)查看PDF (https://arxiv.org/pdf/2605.23345)项目页面 (https://z2tong.github.io/SCOPE/)GitHub7 (https://github.com/z2tong/SCOPE)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.23345)
在你的智能体中获取此论文:
hf papers read 2605\.23345
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型1
zizhaotong/SCOPE 图像到视频• 8B• 更新于约5小时前 • 73 • 6 (https://huggingface.co/zizhaotong/SCOPE)
引用本论文的数据集2
zizhaotong/CrossFPS-train 更新于约2小时前 • 150 • 3 (https://huggingface.co/datasets/zizhaotong/CrossFPS-train)
zizhaotong/CrossFPS-val 更新于约2小时前 • 89 • 3 (https://huggingface.co/datasets/zizhaotong/CrossFPS-val)
引用本论文的Space0
没有Space链接此论文
请在一个Space的README.md中引用arxiv.org/abs/2605.23345,以从此页面链接到它。
包含本论文的收藏集1
相似文章
SCOPE:面向复杂图像生成的结构化分解与条件技能编排
SCOPE 是一个基于规范引导的文生图框架,通过追踪语义承诺以更好地满足复杂的视觉意图。该框架引入了 Gen-Arena 基准测试,并在复杂的生成任务中展现了强大的性能。
SCOPE:通过共同进化策略进行开放式任务的自我对弈
SCOPE是一个用于开放式任务的自我对弈框架,它共同进化挑战者(Challenger)和求解器(Solver)策略,在没有外部监督的情况下,在基准测试上取得了高达+10.4分的提升。
多智能体世界模型(3分钟阅读)
γ-World 是一个生成式多智能体世界模型,支持独立可控、排列对称的智能体,采用 Simplex Rotary Agent Encoding 和 Sparse Hub Attention 技术,实现了实时 24 FPS 的推演,并具有从两个玩家到四个玩家的零样本泛化能力。
MultiWorld:可扩展的多智能体多视角视频世界模型
MultiWorld 是一个统一的多智能体多视角视频世界建模框架,通过多智能体条件模块与全局状态编码器,在精准控制多智能体行为的同时保持多视角一致性。
HY-World 2.0:用于重建、生成和模拟三维世界的多模态世界模型
HY-World 2.0 是一个多模态世界模型框架,通过全景生成、轨迹规划和场景组合等专用模块,从文本、图像和视频中生成高保真度的三维高斯泼溅场景,在开源方法中实现了最先进的性能。