SCOPE：针对FPS世界模型在可玩环境中模拟跨游戏操作

Hugging Face Daily Papers 2026/05/22 00:00 论文

fps world-models video-diffusion cross-game action-conditioning scope transformer

摘要

SCOPE提出了一种方法，通过在视频扩散模型的Transformer块中引入条件模块，将作用域内效果与作用域外视觉效果分离，无需分割标签，实现FPS游戏中的精确动作响应，并推出了CrossFPS，这是一个多游戏数据集，支持零样本跨游戏迁移。

面向第一人称射击（FPS）游戏的交互式世界模型必须在不影响未受影响区域的情况下，在每一帧解析高频重叠的控制信号。现有方法全局注入动作并在单一游戏上训练，无法应对密集的FPS输入。我们观察到FPS动作具有空间选择性：开火或换弹等离散事件仅影响武器周围的局部区域（作用域），而连续的摄像机与移动信号则控制稳定的环境。我们提出SCOPE，在预训练视频扩散模型的每个Transformer块中插入一个条件模块。它将特征重塑为逐像素的时间序列，使得每个位置根据局部视觉内容计算其动作响应。由此在不使用分割标签的情况下，将作用域内效果与作用域外生成分离。我们还引入了CrossFPS，这是首个具有帧对齐动作遥测的多游戏FPS数据集。该数据集包含来自7款游戏的69K个片段，带有10自由度控制器信号，经过精心筛选以消除游戏玩法偏差。模型学习通用的视觉到动作映射，而非特定游戏模式，从而实现对未见场景的零样本迁移。实验证实了强大的动作响应能力、精确的作用域分离以及有效的跨游戏泛化。

查看原文

查看缓存全文

缓存时间: 2026/05/25 06:36

论文页面 - SCOPE：在可玩环境中模拟跨游戏操作以构建FPS世界模型

来源：https://huggingface.co/papers/2605.23345 作者：

，

摘要

SCOPE通过将视频扩散模型中的Transformer块调节为分离作用域内与作用域外视觉效果（无需分割标签），实现了FPS游戏中的精确动作响应。

第一人称射击（FPS）游戏的交互式世界模型必须在每一帧解析高频重叠的控制信号，同时不破坏未受影响的区域。现有方法全局注入动作并在单一游戏上训练，在密集FPS输入下表现不佳。我们观察到FPS动作具有空间选择性：射击或换弹等离散事件仅影响武器周围的局部区域（作用域），而连续的相机和移动信号则控制稳定的周围环境。我们提出SCOPE，它在预训练视频扩散模型的每个Transformer块中插入一个调节模块。该模块将特征重塑为逐像素时间序列，使得每个位置根据局部视觉内容计算其动作响应。这实现了无需分割标签的作用域内效果与作用域外生成的分离。我们还引入了CrossFPS，这是首个多游戏FPS数据集，包含帧对齐的动作遥测数据。它包含来自7款游戏的69K个片段，配有10自由度控制器信号，经筛选去除了游戏内偏差。模型学习通用的视觉到动作映射，而非特定于游戏模式，从而实现对未见场景的零样本迁移。实验证实了强大的动作响应能力、精确的作用域分离以及有效的跨游戏泛化。

查看arXiv页面 (https://arxiv.org/abs/2605.23345)查看PDF (https://arxiv.org/pdf/2605.23345)项目页面 (https://z2tong.github.io/SCOPE/)GitHub7 (https://github.com/z2tong/SCOPE)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.23345)

在你的智能体中获取此论文：

hf papers read 2605\.23345

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型1

zizhaotong/SCOPE 图像到视频• 8B• 更新于约5小时前 • 73 • 6 (https://huggingface.co/zizhaotong/SCOPE)

引用本论文的数据集2

zizhaotong/CrossFPS-train 更新于约2小时前 • 150 • 3 (https://huggingface.co/datasets/zizhaotong/CrossFPS-train)

zizhaotong/CrossFPS-val 更新于约2小时前 • 89 • 3 (https://huggingface.co/datasets/zizhaotong/CrossFPS-val)

引用本论文的Space0

没有Space链接此论文

请在一个Space的README.md中引用arxiv.org/abs/2605.23345，以从此页面链接到它。

SCOPE：针对FPS世界模型在可玩环境中模拟跨游戏操作

论文页面 - SCOPE：在可玩环境中模拟跨游戏操作以构建FPS世界模型

摘要

引用本论文的模型1

zizhaotong/SCOPE 图像到视频• 8B• 更新于约5小时前 • 73 • 6 (https://huggingface.co/zizhaotong/SCOPE)

引用本论文的数据集2

zizhaotong/CrossFPS-train 更新于约2小时前 • 150 • 3 (https://huggingface.co/datasets/zizhaotong/CrossFPS-train)

zizhaotong/CrossFPS-val 更新于约2小时前 • 89 • 3 (https://huggingface.co/datasets/zizhaotong/CrossFPS-val)

引用本论文的Space0

包含本论文的收藏集1

相似文章

EgoCS-400K：一个面向世界模型的第一人称游戏数据集

SCOPE：面向复杂图像生成的结构化分解与条件技能编排

从像素到状态：重新思考作为游戏引擎的交互式世界模型

SCOPE：通过共同进化策略进行开放式任务的自我对弈

DreamForge-World 0.1 预览版：低算力实时可控世界模型

提交意见反馈