OpenGame:面向游戏开发的开放智能体编码框架

Papers with Code Trending 论文

摘要

OpenGame 是一个开源的智能体框架,旨在实现端到端的网页游戏创建。该框架由专用的 GameCoder-27B 模型驱动,并通过全新的 OpenGame-Bench 基准进行评估。

游戏开发处于创意设计复杂软件工程交汇点,需要协调游戏引擎、实时循环以及跨多个文件的紧密耦合状态。虽然大型语言模型(LLMs)和代码智能体能够轻松解决孤立的编程任务,但当被要求从高级设计直接生成完整可玩游戏时,它们往往会因跨文件不一致、场景连线断裂和逻辑不连贯等问题而表现不佳。我们提出了 OpenGame,这是首个专为端到端网页游戏创建而设计的开源智能体框架,旨在弥合这一差距。其核心在于“游戏技能”(Game Skill),这是一种可复用且不断演进的能力,由“模板技能”(Template Skill)和“调试技能”(Debug Skill)组成:前者从经验中积累项目骨架库,后者维护一套经过验证的修复协议。二者共同赋能智能体搭建稳定的架构,并系统地修复集成错误,而非仅仅修补孤立的语法错误。支撑该框架的是 GameCoder-27B,这是一种专为游戏引擎掌控而优化的代码大语言模型,通过持续预训练、监督微调以及基于执行结果的强化学习这一三阶段流水线训练而成。由于验证交互可玩性远比检查静态代码困难,我们进一步引入了 OpenGame-Bench,这是一个评估流水线,通过无头浏览器执行和视觉语言模型(VLM)评判,从构建健康度、视觉可用性和意图对齐度三个维度对智能体游戏生成进行评分。在 150 个多样化的游戏提示测试中,OpenGame 确立了新的最先进水平。我们希望 OpenGame 能推动代码智能体超越离散的软件工程问题,转向构建复杂的、交互式的现实世界应用程序。我们的框架将完全开源。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:44

论文页面 - OpenGame:面向游戏开发的开源智能体编码框架

来源: https://huggingface.co/papers/2604.18394

摘要

OpenGame 是一个开源的智能体框架,用于端到端的网页游戏开发,它利用专门的代码模型和评估基准来克服交互式应用开发中的挑战。

游戏开发位于创意设计与复杂软件工程的交叉点,需要协同调度游戏引擎 (https://huggingface.co/papers?q=game%20engines)、实时循环 (https://huggingface.co/papers?q=real-time%20loops) 以及跨多个文件紧密耦合的状态。尽管大型语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models)(LLMs)和代码智能体 (https://huggingface.co/papers?q=code%20agents) 现在可以轻松解决孤立的编程任务,但当被要求从高层设计生成完全可玩的游戏时,它们往往会因跨文件不一致性 (https://huggingface.co/papers?q=cross-file%20inconsistencies)、场景连接错误 (https://huggingface.co/papers?q=scene%20wiring) 和逻辑不连贯性 (https://huggingface.co/papers?q=logical%20incoherence) 而失败。我们通过 OpenGame 弥合了这一差距,这是首个专为端到端网页游戏开发设计的开源智能体框架。其核心是 Game Skill (https://huggingface.co/papers?q=Game%20Skill),这是一种可复用且不断演化的能力,由 Template Skill (https://huggingface.co/papers?q=Template%20Skill) 和 Debug Skill (https://huggingface.co/papers?q=Debug%20Skill) 组成:前者通过经验积累项目骨架库,后者维护已验证修复方案的动态协议——这使得智能体能够构建稳定的架构并系统性地修复集成错误,而非仅仅修补孤立的语法错误。为该框架提供动力的是 GameCoder-27B (https://huggingface.co/papers?q=GameCoder-27B),这是一个专为掌握游戏引擎而优化的代码 LLM,通过持续预训练 (https://huggingface.co/papers?q=continual%20pre-training)、监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning) 和执行驱动强化学习 (https://huggingface.co/papers?q=execution-grounded%20reinforcement%20learning) 的三阶段流水线训练而成。由于验证交互可玩性从根本上比检查静态代码更难,我们进一步引入了 OpenGame-Bench (https://huggingface.co/papers?q=OpenGame-Bench),这是一个评估流水线,通过无头浏览器执行 (https://huggingface.co/papers?q=headless%20browser%20execution) 和 VLM 评判 (https://huggingface.co/papers?q=VLM%20judging),从构建健康度 (https://huggingface.co/papers?q=Build%20Health)、视觉可用性 (https://huggingface.co/papers?q=Visual%20Usability) 和意图一致性 (https://huggingface.co/papers?q=Intent%20Alignment) 三个维度对智能体生成的游戏进行评分。在 150 个多样化的游戏提示上,OpenGame 建立了新的最先进水平。我们希望 OpenGame 推动代码智能体 (https://huggingface.co/papers?q=code%20agents) 超越离散的软件工程问题,迈向构建复杂的、交互式的现实世界应用。我们的框架将完全开源。

查看 arXiv 页面 (https://arxiv.org/abs/2604.18394) 查看 PDF (https://arxiv.org/pdf/2604.18394) 项目页面 (https://www.opengame-project-page.com/) GitHub 2.03k (https://github.com/leigest519/OpenGame) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.18394)

在你的智能体中获取这篇论文:

hf papers read 2604\.18394

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2604.18394 以从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2604.18394 以从此页面链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2604.18394 以从此页面链接它。

包含此论文的合集 16

浏览包含此论文的 16 个合集 (https://huggingface.co/collections?paper=2604.18394)

相似文章

DeepCode:开放式智能体编程

Papers with Code Trending

DeepCode 是一个完全自主的框架,用于从文档到代码库的合成,通过原则性的信息流管理将科学论文转化为生产级代码,在 PaperBench 上取得了最先进的结果,并超越了博士级人类专家。