JAMER:面向专业游戏引擎的项目级代码框架数据集与基准
摘要
介绍了JamSet和JamBench,这是基于Godot引擎的项目级游戏代码生成数据集和基准,来源于Game Jam项目。评估显示,随着项目规模增加,AI模型的能力出现断崖式下降。
查看缓存全文
缓存时间: 2026/06/20 14:29
论文页面 - JAMER:专业游戏引擎上的项目级代码框架数据集与基准测试
来源:https://huggingface.co/papers/2606.19830
摘要
利用Game Jam竞赛数据构建了游戏开发框架和基准测试,用于评估代码生成及项目级编程能力。
当前由AI驱动的游戏开发(https://huggingface.co/papers?q=game%20development)在资源生成、玩法设计及基于网页的游戏编码方面已取得显著进展,但针对专业游戏引擎的项目级代码工程仍因缺乏大规模数据集和确定性评估方法而鲜有探索。我们提出JamSet与JamBench,这是首个基于专业游戏引擎构建的项目级游戏代码框架数据集与基准测试。我们的核心见解在于:Game Jam竞赛(https://huggingface.co/papers?q=Game%20Jam%20competitions)——开发者需在严格时间限制下构建完整游戏的社区活动——能够产生适用于此目的的数千个开源项目。借助Godot引擎(https://huggingface.co/papers?q=Godot%20engine)的文本格式和无头执行(https://huggingface.co/papers?q=headless%20execution)模式,我们设计了一条从文件完整性到运行时行为收集的确定性验证(https://huggingface.co/papers?q=deterministic%20verification)流水线,从超过24万个仓库中提炼出8,133个已验证项目。其中,300个手动验证的项目构成JamBench;其余组成JamSet。JamBench定义了主题驱动生成与代码补全任务,通过结合编译通过率(https://huggingface.co/papers?q=compilation%20pass%20rates)、结构完整性得分(Structural Completeness Score,SCS)和行为对齐得分(Behavioral Alignment Score,BAS)的流水线进行评估。对9个前沿模型的评估揭示了一个能力悬崖:随着项目规模扩大,运行时通过率从小型项目的80.4%骤降至大型项目的5.7%(Task2a)。代码智能体提升了编译率,但在运行时行为质量上毫无增益,这表明瓶颈在于架构设计而非语法正确性。实验验证了JamSet作为有效训练数据的价值。所有数据和代码均已公开。
查看arXiv页面(https://arxiv.org/abs/2606.19830) 查看PDF(https://arxiv.org/pdf/2606.19830) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19830)
在您的智能体中获取此论文:
hf papers read 2606\.19830
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接到此论文
请在模型的README.md中引用arxiv.org/abs/2606.19830以在此页面建立链接。
引用此论文的数据集 0
没有数据集链接到此论文
请在数据集的README.md中引用arxiv.org/abs/2606.19830以在此页面建立链接。
引用此论文的Spaces 0
没有Space链接到此论文
请在Space的README.md中引用arxiv.org/abs/2606.19830以在此页面建立链接。
包含此论文的收藏集 0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以在此页面建立链接。
相似文章
GameCraft-Bench:智能体能否在真实游戏引擎中端到端构建可玩游戏?
GameCraft-Bench是一个基准测试,用于评估AI编程智能体在Godot引擎上根据自然语言描述进行端到端游戏生成的能力。最强智能体仅达到41.46%,表明该任务依然极具挑战性。
ProgramBench(5分钟阅读)
ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。
BEAMS: AI在建模与仿真中的基准测试与评估
BEAMS倡议提出了一套基准测试集,用于评估建模与仿真中的AI工具,重点关注以人为本和负责任的AI实践。测试显示,基于LLM的引擎存在差异,在定性任务上的表现优于因果推理。
3DCodeBench:通过代码对智能体过程化3D建模进行基准测试
本文介绍了3DCodeBench——一个用于评估视觉语言模型通过代码进行过程化3D建模的基准测试,以及3DCodeArena——一个基于成对人类偏好的排名平台。
安卓会梦想破解游戏吗?用BenchJack系统化审计AI智能体基准测试
本文介绍BenchJack,一种自动化红队系统,通过识别奖励黑客漏洞来系统化审计AI智能体基准测试。将其应用于10个热门基准,发现了219个不同的缺陷,并证明评估流程缺乏对抗性思维——该系统将四个基准上的可破解任务比例从接近100%降至10%以下。