OpenGame:面向游戏开发的开放智能体编码框架
摘要
OpenGame 是一个开源的智能体框架,旨在实现端到端的网页游戏创建。该框架由专用的 GameCoder-27B 模型驱动,并通过全新的 OpenGame-Bench 基准进行评估。
查看缓存全文
缓存时间: 2026/05/08 08:44
论文页面 - OpenGame:面向游戏开发的开源智能体编码框架
来源: https://huggingface.co/papers/2604.18394
摘要
OpenGame 是一个开源的智能体框架,用于端到端的网页游戏开发,它利用专门的代码模型和评估基准来克服交互式应用开发中的挑战。
游戏开发位于创意设计与复杂软件工程的交叉点,需要协同调度游戏引擎 (https://huggingface.co/papers?q=game%20engines)、实时循环 (https://huggingface.co/papers?q=real-time%20loops) 以及跨多个文件紧密耦合的状态。尽管大型语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models)(LLMs)和代码智能体 (https://huggingface.co/papers?q=code%20agents) 现在可以轻松解决孤立的编程任务,但当被要求从高层设计生成完全可玩的游戏时,它们往往会因跨文件不一致性 (https://huggingface.co/papers?q=cross-file%20inconsistencies)、场景连接错误 (https://huggingface.co/papers?q=scene%20wiring) 和逻辑不连贯性 (https://huggingface.co/papers?q=logical%20incoherence) 而失败。我们通过 OpenGame 弥合了这一差距,这是首个专为端到端网页游戏开发设计的开源智能体框架。其核心是 Game Skill (https://huggingface.co/papers?q=Game%20Skill),这是一种可复用且不断演化的能力,由 Template Skill (https://huggingface.co/papers?q=Template%20Skill) 和 Debug Skill (https://huggingface.co/papers?q=Debug%20Skill) 组成:前者通过经验积累项目骨架库,后者维护已验证修复方案的动态协议——这使得智能体能够构建稳定的架构并系统性地修复集成错误,而非仅仅修补孤立的语法错误。为该框架提供动力的是 GameCoder-27B (https://huggingface.co/papers?q=GameCoder-27B),这是一个专为掌握游戏引擎而优化的代码 LLM,通过持续预训练 (https://huggingface.co/papers?q=continual%20pre-training)、监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning) 和执行驱动强化学习 (https://huggingface.co/papers?q=execution-grounded%20reinforcement%20learning) 的三阶段流水线训练而成。由于验证交互可玩性从根本上比检查静态代码更难,我们进一步引入了 OpenGame-Bench (https://huggingface.co/papers?q=OpenGame-Bench),这是一个评估流水线,通过无头浏览器执行 (https://huggingface.co/papers?q=headless%20browser%20execution) 和 VLM 评判 (https://huggingface.co/papers?q=VLM%20judging),从构建健康度 (https://huggingface.co/papers?q=Build%20Health)、视觉可用性 (https://huggingface.co/papers?q=Visual%20Usability) 和意图一致性 (https://huggingface.co/papers?q=Intent%20Alignment) 三个维度对智能体生成的游戏进行评分。在 150 个多样化的游戏提示上,OpenGame 建立了新的最先进水平。我们希望 OpenGame 推动代码智能体 (https://huggingface.co/papers?q=code%20agents) 超越离散的软件工程问题,迈向构建复杂的、交互式的现实世界应用。我们的框架将完全开源。
查看 arXiv 页面 (https://arxiv.org/abs/2604.18394) 查看 PDF (https://arxiv.org/pdf/2604.18394) 项目页面 (https://www.opengame-project-page.com/) GitHub 2.03k (https://github.com/leigest519/OpenGame) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.18394)
在你的智能体中获取这篇论文:
hf papers read 2604\.18394
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2604.18394 以从此页面链接它。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2604.18394 以从此页面链接它。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2604.18394 以从此页面链接它。
包含此论文的合集 16
浏览包含此论文的 16 个合集 (https://huggingface.co/collections?paper=2604.18394)
相似文章
@_akhaliq:OpenGame 开放代理式游戏编码论文:https://huggingface.co/papers/2604.18394…
研究人员发布 OpenGame,一个专为游戏开发打造的开放代理式编码框架。
它是否具备足够的代理能力?使用你自己的工具对开放模型进行基准测试
这篇博客文章介绍了一种基准测试方法,用于评估开放模型在代理编程任务上的表现,不仅关注准确性,还关注代理过程的效率。它提供了一个使用 pi coding agent 的可定制工具框架,并在不同模型和库版本上进行测试。
CreativeGame:面向机制感知的创意游戏生成
CreativeGame 是一个多智能体系统,通过程序化奖励与谱系记忆,在版本迭代中显式规划、追踪并演化游戏机制,持续生成 HTML5 游戏。
GameCraft-Bench:智能体能否在真实游戏引擎中端到端构建可玩游戏?
GameCraft-Bench是一个基准测试,用于评估AI编程智能体在Godot引擎上根据自然语言描述进行端到端游戏生成的能力。最强智能体仅达到41.46%,表明该任务依然极具挑战性。
DeepCode:开放式智能体编程
DeepCode 是一个完全自主的框架,用于从文档到代码库的合成,通过原则性的信息流管理将科学论文转化为生产级代码,在 PaperBench 上取得了最先进的结果,并超越了博士级人类专家。