无尽跑酷游戏中LLM辅助重构与玩法功能生成的探索性案例研究
摘要
本文提出了一项探索性案例研究,评估GPT-4o在无尽跑酷游戏中执行重构和生成玩法功能的能力,发现重构任务成功,而功能生成任务大多失败。
查看缓存全文
缓存时间: 2026/06/23 17:43
论文页面 - 一项关于大语言模型辅助重构与游戏玩法功能生成在无尽跑酷游戏中的探索性案例研究
来源:https://huggingface.co/papers/2606.21171
摘要
大语言模型在软件开发任务中表现出不同的有效性,能够成功完成局部重构,但在将新游戏玩法功能集成到现有游戏系统方面显示出局限性。
大语言模型(Large language models (https://huggingface.co/papers?q=Large%20language%20models))越来越多地被用于支持软件开发(software development (https://huggingface.co/papers?q=software%20development)),但在实际游戏开发场景中的实用性仍缺乏充分探索,特别是当生成的代码必须集成到现有游戏软件系统时。本文针对一个自定义的 Python/Pygame 无尽跑酷游戏,对 GPT-4o 进行了一项探索性实证案例研究。该研究考察了六项选定的开发任务:三项局部重构(refactoring (https://huggingface.co/papers?q=refactoring))任务和三项涉及游戏玩法功能生成(gameplay feature generation (https://huggingface.co/papers?q=gameplay%20feature%20generation))的任务。其实现成果通过软件度量(software metrics (https://huggingface.co/papers?q=software%20metrics))、单元测试(unit tests (https://huggingface.co/papers?q=unit%20tests))和人工游戏评估进行了评价。在本案例研究中,所有三项选定的重构任务在功能上都成功完成,而三项选定的游戏玩法功能生成任务中只有一项实现了正确集成的功能。研究结果表明,在此背景下,GPT-4o 处理局部转换的可靠性高于需要跨多个现有系统实现新游戏交互的任务。鉴于该研究为探索性单案例设计,这些结果应视为指示性观察,而非可推广的类别级模型性能证据。总体而言,本文提供了一个透明的基于案例的说明,展示了大语言模型辅助重构(refactoring (https://huggingface.co/papers?q=refactoring))和游戏玩法功能生成(gameplay feature generation (https://huggingface.co/papers?q=gameplay%20feature%20generation))在现有游戏软件系统中的机遇与局限。
查看 arXiv 页面(https://arxiv.org/abs/2606.21171) 查看 PDF(https://arxiv.org/pdf/2606.21171) GitHub1(https://github.com/jan-wun/PSE_Endless-Runner-Game) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.21171)
在您的代理中获取此论文:
hf papers read 2606\.21171
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.21171,以将其链接至此页面。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.21171,以将其链接至此页面。
引用此论文的 Spaces0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.21171,以将其链接至此页面。
包含此论文的合集1
相似文章
@reach_vb: GPT-5.5 为 Omarchy 4 分支生成了 3 万行 QML 代码,并精准完成了微妙的智能体推理!!
OpenAI 的 GPT-5.5 模型在复杂的智能体任务和代码生成方面显示出显著改进,超越了先前版本以及如 Claude Opus 等竞争模型。
CreativeGame:面向机制感知的创意游戏生成
CreativeGame 是一个多智能体系统,通过程序化奖励与谱系记忆,在版本迭代中显式规划、追踪并演化游戏机制,持续生成 HTML5 游戏。
自我对弈帮助AI在围棋中达到超人类水平,那么为何对LLM未能如此?研究人员找到了解决方案。
研究人员引入了自导自对弈(Self-Guided Self-Play, SGS),这是一种用于LLM的自我对弈算法,通过使用指引角色(Guide)对合成问题进行评分来防止奖励作弊(reward hacking)。应用于Lean4中的定理证明时,SGS超越了强化学习基线,并使7B模型胜过671B模型。
PlayCoder:让LLM生成的GUI代码可玩
PlayEval基准与多智能体框架PlayCoder,通过迭代修复LLM生成的GUI应用,端到端可玩代码最高达20.3%。
利用自定义GPT提升开发者生产力
国际游戏公司Paf通过在其100人工程团队中部署ChatGPT Enterprise,并为专业编码任务创建了85多个自定义GPT,取得了显著的开发者生产力提升。该公司报告GPT-4的准确度比竞争对手高25%,并将该技术集成到grit:lab编码学院中,以培养新一代开发者。