JAMER:面向专业游戏引擎的项目级代码框架数据集与基准

Hugging Face Daily Papers 论文

摘要

介绍了JamSet和JamBench,这是基于Godot引擎的项目级游戏代码生成数据集和基准,来源于Game Jam项目。评估显示,随着项目规模增加,AI模型的能力出现断崖式下降。

当前基于AI的游戏开发在资源生成、游戏设计和基于Web的游戏编码方面取得了显著进展,但由于缺乏大规模数据集和确定性评估方法,专业游戏引擎上的项目级代码工程仍基本未被探索。我们提出了JamSet和JamBench,这是首个基于专业游戏引擎的项目级游戏代码框架数据集和基准。我们的关键洞察是,Game Jam竞赛(开发者在严格时间限制内构建完整游戏的社区活动)产出了数千个适合此目的的开源项目。基于Godot引擎的基于文本的格式和无头执行模式,我们设计了一个确定性验证流水线,从文件完整性到运行时行为收集,从超过24万个仓库中提炼出8,133个经过验证的项目。其中,300个手动验证的项目构成JamBench;其余构成JamSet。JamBench定义了主题驱动的生成和代码补全任务,通过结合编译通过率、结构完整性评分(SCS)和行为一致性评分(BAS)的流水线进行评估。对9个前沿模型的评估揭示了一个能力断崖:随着项目规模增加,运行时通过率从小型项目的80.4%降至大型项目的5.7%(任务2a)。代码代理提高了编译率,但在运行时行为质量上并无提升,这表明瓶颈在于架构设计而非语法正确性。实验验证了JamSet作为训练数据的有效性。所有数据和代码均已公开。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:29

论文页面 - JAMER:专业游戏引擎上的项目级代码框架数据集与基准测试

来源:https://huggingface.co/papers/2606.19830

摘要

利用Game Jam竞赛数据构建了游戏开发框架和基准测试,用于评估代码生成及项目级编程能力。

当前由AI驱动的游戏开发(https://huggingface.co/papers?q=game%20development)在资源生成、玩法设计及基于网页的游戏编码方面已取得显著进展,但针对专业游戏引擎的项目级代码工程仍因缺乏大规模数据集和确定性评估方法而鲜有探索。我们提出JamSet与JamBench,这是首个基于专业游戏引擎构建的项目级游戏代码框架数据集与基准测试。我们的核心见解在于:Game Jam竞赛(https://huggingface.co/papers?q=Game%20Jam%20competitions)——开发者需在严格时间限制下构建完整游戏的社区活动——能够产生适用于此目的的数千个开源项目。借助Godot引擎(https://huggingface.co/papers?q=Godot%20engine)的文本格式和无头执行(https://huggingface.co/papers?q=headless%20execution)模式,我们设计了一条从文件完整性到运行时行为收集的确定性验证(https://huggingface.co/papers?q=deterministic%20verification)流水线,从超过24万个仓库中提炼出8,133个已验证项目。其中,300个手动验证的项目构成JamBench;其余组成JamSet。JamBench定义了主题驱动生成与代码补全任务,通过结合编译通过率(https://huggingface.co/papers?q=compilation%20pass%20rates)、结构完整性得分(Structural Completeness Score,SCS)和行为对齐得分(Behavioral Alignment Score,BAS)的流水线进行评估。对9个前沿模型的评估揭示了一个能力悬崖:随着项目规模扩大,运行时通过率从小型项目的80.4%骤降至大型项目的5.7%(Task2a)。代码智能体提升了编译率,但在运行时行为质量上毫无增益,这表明瓶颈在于架构设计而非语法正确性。实验验证了JamSet作为有效训练数据的价值。所有数据和代码均已公开。

查看arXiv页面(https://arxiv.org/abs/2606.19830) 查看PDF(https://arxiv.org/pdf/2606.19830) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19830)

在您的智能体中获取此论文:

hf papers read 2606\.19830

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接到此论文

请在模型的README.md中引用arxiv.org/abs/2606.19830以在此页面建立链接。

引用此论文的数据集 0

没有数据集链接到此论文

请在数据集的README.md中引用arxiv.org/abs/2606.19830以在此页面建立链接。

引用此论文的Spaces 0

没有Space链接到此论文

请在Space的README.md中引用arxiv.org/abs/2606.19830以在此页面建立链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以在此页面建立链接。

相似文章

ProgramBench(5分钟阅读)

TLDR AI

ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。

BEAMS: AI在建模与仿真中的基准测试与评估

arXiv cs.AI

BEAMS倡议提出了一套基准测试集,用于评估建模与仿真中的AI工具,重点关注以人为本和负责任的AI实践。测试显示,基于LLM的引擎存在差异,在定性任务上的表现优于因果推理。

安卓会梦想破解游戏吗?用BenchJack系统化审计AI智能体基准测试

arXiv cs.AI

本文介绍BenchJack,一种自动化红队系统,通过识别奖励黑客漏洞来系统化审计AI智能体基准测试。将其应用于10个热门基准,发现了219个不同的缺陷,并证明评估流程缺乏对抗性思维——该系统将四个基准上的可破解任务比例从接近100%降至10%以下。