SCOPE:针对FPS世界模型在可玩环境中模拟跨游戏操作

Hugging Face Daily Papers 论文

摘要

SCOPE提出了一种方法,通过在视频扩散模型的Transformer块中引入条件模块,将作用域内效果与作用域外视觉效果分离,无需分割标签,实现FPS游戏中的精确动作响应,并推出了CrossFPS,这是一个多游戏数据集,支持零样本跨游戏迁移。

面向第一人称射击(FPS)游戏的交互式世界模型必须在不影响未受影响区域的情况下,在每一帧解析高频重叠的控制信号。现有方法全局注入动作并在单一游戏上训练,无法应对密集的FPS输入。我们观察到FPS动作具有空间选择性:开火或换弹等离散事件仅影响武器周围的局部区域(作用域),而连续的摄像机与移动信号则控制稳定的环境。我们提出SCOPE,在预训练视频扩散模型的每个Transformer块中插入一个条件模块。它将特征重塑为逐像素的时间序列,使得每个位置根据局部视觉内容计算其动作响应。由此在不使用分割标签的情况下,将作用域内效果与作用域外生成分离。我们还引入了CrossFPS,这是首个具有帧对齐动作遥测的多游戏FPS数据集。该数据集包含来自7款游戏的69K个片段,带有10自由度控制器信号,经过精心筛选以消除游戏玩法偏差。模型学习通用的视觉到动作映射,而非特定游戏模式,从而实现对未见场景的零样本迁移。实验证实了强大的动作响应能力、精确的作用域分离以及有效的跨游戏泛化。
查看原文
查看缓存全文

缓存时间: 2026/05/25 06:36

论文页面 - SCOPE:在可玩环境中模拟跨游戏操作以构建FPS世界模型

来源:https://huggingface.co/papers/2605.23345 作者:

摘要

SCOPE通过将视频扩散模型中的Transformer块调节为分离作用域内与作用域外视觉效果(无需分割标签),实现了FPS游戏中的精确动作响应。

第一人称射击(FPS)游戏的交互式世界模型必须在每一帧解析高频重叠的控制信号,同时不破坏未受影响的区域。现有方法全局注入动作并在单一游戏上训练,在密集FPS输入下表现不佳。我们观察到FPS动作具有空间选择性:射击或换弹等离散事件仅影响武器周围的局部区域(作用域),而连续的相机和移动信号则控制稳定的周围环境。我们提出SCOPE,它在预训练视频扩散模型的每个Transformer块中插入一个调节模块。该模块将特征重塑为逐像素时间序列,使得每个位置根据局部视觉内容计算其动作响应。这实现了无需分割标签的作用域内效果与作用域外生成的分离。我们还引入了CrossFPS,这是首个多游戏FPS数据集,包含帧对齐的动作遥测数据。它包含来自7款游戏的69K个片段,配有10自由度控制器信号,经筛选去除了游戏内偏差。模型学习通用的视觉到动作映射,而非特定于游戏模式,从而实现对未见场景的零样本迁移。实验证实了强大的动作响应能力、精确的作用域分离以及有效的跨游戏泛化。

查看arXiv页面 (https://arxiv.org/abs/2605.23345)查看PDF (https://arxiv.org/pdf/2605.23345)项目页面 (https://z2tong.github.io/SCOPE/)GitHub7 (https://github.com/z2tong/SCOPE)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.23345)

在你的智能体中获取此论文:

hf papers read 2605\.23345

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型1

zizhaotong/SCOPE 图像到视频• 8B• 更新于约5小时前 • 73 • 6 (https://huggingface.co/zizhaotong/SCOPE)

引用本论文的数据集2

zizhaotong/CrossFPS-train 更新于约2小时前 • 150 • 3 (https://huggingface.co/datasets/zizhaotong/CrossFPS-train)

zizhaotong/CrossFPS-val 更新于约2小时前 • 89 • 3 (https://huggingface.co/datasets/zizhaotong/CrossFPS-val)

引用本论文的Space0

没有Space链接此论文

请在一个Space的README.md中引用arxiv.org/abs/2605.23345,以从此页面链接到它。

包含本论文的收藏集1

相似文章

多智能体世界模型(3分钟阅读)

TLDR AI

γ-World 是一个生成式多智能体世界模型,支持独立可控、排列对称的智能体,采用 Simplex Rotary Agent Encoding 和 Sparse Hub Attention 技术,实现了实时 24 FPS 的推演,并具有从两个玩家到四个玩家的零样本泛化能力。