PlayCoder：让LLM生成的GUI代码可玩

Hugging Face Daily Papers 2026/04/21 00:00 论文

摘要

PlayEval基准与多智能体框架PlayCoder，通过迭代修复LLM生成的GUI应用，端到端可玩代码最高达20.3%。

大语言模型在代码生成方面已表现强劲，但其生成GUI应用（尤其是游戏）的能力仍缺乏系统研究。现有基准主要通过测试用例评估正确性，对交互式、事件驱动且需状态转移的GUI应用并不适用；评估应关注交互流程与UI逻辑，而非仅看通过/失败。为此，我们提出PlayEval——一个基于43个多语言（Python、TypeScript、JavaScript）GUI应用的仓库感知基准，覆盖六大GUI类别，可直接用于代码生成评估。我们进一步提出Play@k指标，衡量*k*个候选中是否至少有一个可端到端运行且无逻辑错误。为可靠评估，我们开发LLM智能体PlayTester，自动进行任务导向的GUI通关并检测逻辑违规。对10个SOTA代码LLM的实验显示，尽管编译通过率很高，Play@3却接近零，暴露出生成逻辑正确GUI应用的重大缺陷。为弥补这一短板，我们推出PlayCoder——多智能体、仓库感知的闭环框架，持续生成、评估并迭代修复GUI应用代码。PlayCoder显著提升开源与闭源模型的功能正确性与语义对齐，Exec@3最高38.1%，Play@3达20.3%。案例研究进一步表明，它能发现传统指标遗漏的静默逻辑缺陷，并通过针对性编辑修复。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - PlayCoder：让 LLM 生成的 GUI 代码可运行

来源：https://huggingface.co/papers/2604.19742

摘要

大语言模型在生成逻辑正确的 GUI 应用方面表现不佳，为此我们提出 PlayEval 基准和 PlayCoder 框架，通过多智能体迭代修复提升功能正确性。

大语言模型（https://huggingface.co/papers?q=Large%20language%20models）（LLM）在代码生成（https://huggingface.co/papers?q=code%20generation）任务上成绩斐然，但生成 GUI 应用（https://huggingface.co/papers?q=GUI%20applications）——尤其是游戏——的能力仍缺乏系统研究。现有基准主要依赖测试用例评判正确性，这对交互式、事件驱动的 GUI 系统并不适用，因为后者需要在一系列用户操作下保持状态转移正确，评估时必须关注交互流程与 UI 逻辑，而非简单的通过/失败。为此，我们推出 PlayEval（https://huggingface.co/papers?q=PlayEval），一个基于真实仓库的多语言 GUI 应用基准，涵盖 43 个 Python、TypeScript 与 JavaScript 项目。与难以迁移到桌面环境的旧 GUI 基准不同，PlayEval 覆盖六大 GUI 应用类别，可直接用于代码生成评估。我们进一步提出 Play@k（https://huggingface.co/papers?q=Play%40k）指标，衡量在 k 个候选中是否至少有一个能端到端运行且无逻辑错误。为可靠评估，我们开发 PlayTester（https://huggingface.co/papers?q=PlayTester），一个基于 LLM 的智能体，可定向遍历 GUI 并自动发现逻辑违规。在 10 个前沿代码 LLM 上的实验显示：尽管编译通过率很高，Play@3 却接近 0，暴露出模型在生成逻辑正确 GUI 应用上的重大缺陷。为此，我们提出 PlayCoder，一个多智能体、仓库感知的闭环框架，持续生成、评估并迭代修复 GUI 应用代码。PlayCoder 显著提升开源与闭源模型的功能正确性与语义对齐度，Exec@3 最高达 38.1%，Play@3 达 20.3%。案例研究进一步表明，它能发现传统指标遗漏的静默逻辑 bug，并通过针对性编辑予以修复。

查看 arXiv 页面（https://arxiv.org/abs/2604.19742）
查看 PDF（https://arxiv.org/pdf/2604.19742）
项目页面（https://arxiv.org/abs/2604.19742）
GitHub（https://github.com/Tencent/PlayCoder）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.19742）

在智能体中获取本文：

hf papers read 2604.19742

还没装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2604.19742，即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.19742，即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 链接该论文

在 Space README.md 中引用 arxiv.org/abs/2604.19742，即可在此页面显示链接。

收录该论文的精选集 0

暂无精选集收录该论文

创建精选集并添加该论文，即可在此页面显示链接。

相似文章

@kapicode: 我一直在使用 Claude 作为“人类”来提示 @opencode 以重建参考项目，在同一测试平台上评估了四款 LLM…

X AI KOLs Following

一项针对四款大语言模型（Qwen、MiniMax、GLM）的评估显示，当使用 Claude 作为 Opencode 智能体工具的提示器时，一个较小的本地模型（运行在 3090 显卡上的 Qwen 27B）在代码质量与可靠性方面表现优于更大的剪枝模型。

本地LLM实战测试：代码生成、质量与速度权衡

Reddit r/LocalLLaMA

作者构建了一个基准测试框架，用于评估本地LLM在自动生成Go代码方面的能力，重点聚焦SIEM流水线的日志解析器生成，并发布了对比质量与速度的测试结果。

构建了一个 LLM 在结构上被禁止生成最终输出的 Agent，寻求反馈以及愿意尝试“攻破”它的人

Reddit r/AI_Agents

作者描述了一个基于 LangGraph 构建的 AI Agent，旨在复现生产环境中的 Python 崩溃问题。其独特之处在于架构设计：LLM 负责规划行动，而确定性 Python 函数则生成最终测试代码，以确保可靠性。

实测 OpenCode 与自托管 LLM 的协作：Qwen 3.5、3.6、Gemma 4、Nemotron 3、GLM-4.7 Flash - v2