JAMER：面向专业游戏引擎的项目级代码框架数据集与基准

Hugging Face Daily Papers 2026/06/18 00:00 论文

game-development code-generation benchmark dataset godot project-level ai-coding

摘要

介绍了JamSet和JamBench，这是基于Godot引擎的项目级游戏代码生成数据集和基准，来源于Game Jam项目。评估显示，随着项目规模增加，AI模型的能力出现断崖式下降。

当前基于AI的游戏开发在资源生成、游戏设计和基于Web的游戏编码方面取得了显著进展，但由于缺乏大规模数据集和确定性评估方法，专业游戏引擎上的项目级代码工程仍基本未被探索。我们提出了JamSet和JamBench，这是首个基于专业游戏引擎的项目级游戏代码框架数据集和基准。我们的关键洞察是，Game Jam竞赛（开发者在严格时间限制内构建完整游戏的社区活动）产出了数千个适合此目的的开源项目。基于Godot引擎的基于文本的格式和无头执行模式，我们设计了一个确定性验证流水线，从文件完整性到运行时行为收集，从超过24万个仓库中提炼出8,133个经过验证的项目。其中，300个手动验证的项目构成JamBench；其余构成JamSet。JamBench定义了主题驱动的生成和代码补全任务，通过结合编译通过率、结构完整性评分（SCS）和行为一致性评分（BAS）的流水线进行评估。对9个前沿模型的评估揭示了一个能力断崖：随着项目规模增加，运行时通过率从小型项目的80.4%降至大型项目的5.7%（任务2a）。代码代理提高了编译率，但在运行时行为质量上并无提升，这表明瓶颈在于架构设计而非语法正确性。实验验证了JamSet作为训练数据的有效性。所有数据和代码均已公开。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:29

论文页面 - JAMER：专业游戏引擎上的项目级代码框架数据集与基准测试

来源：https://huggingface.co/papers/2606.19830

摘要

利用Game Jam竞赛数据构建了游戏开发框架和基准测试，用于评估代码生成及项目级编程能力。

当前由AI驱动的游戏开发（https://huggingface.co/papers?q=game%20development）在资源生成、玩法设计及基于网页的游戏编码方面已取得显著进展，但针对专业游戏引擎的项目级代码工程仍因缺乏大规模数据集和确定性评估方法而鲜有探索。我们提出JamSet与JamBench，这是首个基于专业游戏引擎构建的项目级游戏代码框架数据集与基准测试。我们的核心见解在于：Game Jam竞赛（https://huggingface.co/papers?q=Game%20Jam%20competitions）——开发者需在严格时间限制下构建完整游戏的社区活动——能够产生适用于此目的的数千个开源项目。借助Godot引擎（https://huggingface.co/papers?q=Godot%20engine）的文本格式和无头执行（https://huggingface.co/papers?q=headless%20execution）模式，我们设计了一条从文件完整性到运行时行为收集的确定性验证（https://huggingface.co/papers?q=deterministic%20verification）流水线，从超过24万个仓库中提炼出8,133个已验证项目。其中，300个手动验证的项目构成JamBench；其余组成JamSet。JamBench定义了主题驱动生成与代码补全任务，通过结合编译通过率（https://huggingface.co/papers?q=compilation%20pass%20rates）、结构完整性得分（Structural Completeness Score，SCS）和行为对齐得分（Behavioral Alignment Score，BAS）的流水线进行评估。对9个前沿模型的评估揭示了一个能力悬崖：随着项目规模扩大，运行时通过率从小型项目的80.4%骤降至大型项目的5.7%（Task2a）。代码智能体提升了编译率，但在运行时行为质量上毫无增益，这表明瓶颈在于架构设计而非语法正确性。实验验证了JamSet作为有效训练数据的价值。所有数据和代码均已公开。

查看arXiv页面（https://arxiv.org/abs/2606.19830）查看PDF（https://arxiv.org/pdf/2606.19830）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.19830）

在您的智能体中获取此论文：

hf papers read 2606\.19830

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接到此论文

请在模型的README.md中引用arxiv.org/abs/2606.19830以在此页面建立链接。

引用此论文的数据集 0

没有数据集链接到此论文

请在数据集的README.md中引用arxiv.org/abs/2606.19830以在此页面建立链接。

引用此论文的Spaces 0

没有Space链接到此论文

请在Space的README.md中引用arxiv.org/abs/2606.19830以在此页面建立链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以在此页面建立链接。

JAMER：面向专业游戏引擎的项目级代码框架数据集与基准

论文页面 - JAMER：专业游戏引擎上的项目级代码框架数据集与基准测试

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的Spaces 0

包含此论文的收藏集 0

相似文章

GameCraft-Bench：智能体能否在真实游戏引擎中端到端构建可玩游戏？

ProgramBench（5分钟阅读）

BEAMS: AI在建模与仿真中的基准测试与评估

3DCodeBench：通过代码对智能体过程化3D建模进行基准测试

安卓会梦想破解游戏吗？用BenchJack系统化审计AI智能体基准测试

提交意见反馈