PlayCoder:让LLM生成的GUI代码可玩

Hugging Face Daily Papers 论文

摘要

PlayEval基准与多智能体框架PlayCoder,通过迭代修复LLM生成的GUI应用,端到端可玩代码最高达20.3%。

大语言模型在代码生成方面已表现强劲,但其生成GUI应用(尤其是游戏)的能力仍缺乏系统研究。现有基准主要通过测试用例评估正确性,对交互式、事件驱动且需状态转移的GUI应用并不适用;评估应关注交互流程与UI逻辑,而非仅看通过/失败。为此,我们提出PlayEval——一个基于43个多语言(Python、TypeScript、JavaScript)GUI应用的仓库感知基准,覆盖六大GUI类别,可直接用于代码生成评估。我们进一步提出Play@k指标,衡量*k*个候选中是否至少有一个可端到端运行且无逻辑错误。为可靠评估,我们开发LLM智能体PlayTester,自动进行任务导向的GUI通关并检测逻辑违规。对10个SOTA代码LLM的实验显示,尽管编译通过率很高,Play@3却接近零,暴露出生成逻辑正确GUI应用的重大缺陷。为弥补这一短板,我们推出PlayCoder——多智能体、仓库感知的闭环框架,持续生成、评估并迭代修复GUI应用代码。PlayCoder显著提升开源与闭源模型的功能正确性与语义对齐,Exec@3最高38.1%,Play@3达20.3%。案例研究进一步表明,它能发现传统指标遗漏的静默逻辑缺陷,并通过针对性编辑修复。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - PlayCoder:让 LLM 生成的 GUI 代码可运行

来源:https://huggingface.co/papers/2604.19742

摘要

大语言模型在生成逻辑正确的 GUI 应用方面表现不佳,为此我们提出 PlayEval 基准和 PlayCoder 框架,通过多智能体迭代修复提升功能正确性。

大语言模型(https://huggingface.co/papers?q=Large%20language%20models)(LLM)在代码生成(https://huggingface.co/papers?q=code%20generation)任务上成绩斐然,但生成 GUI 应用(https://huggingface.co/papers?q=GUI%20applications)——尤其是游戏——的能力仍缺乏系统研究。现有基准主要依赖测试用例评判正确性,这对交互式、事件驱动的 GUI 系统并不适用,因为后者需要在一系列用户操作下保持状态转移正确,评估时必须关注交互流程与 UI 逻辑,而非简单的通过/失败。为此,我们推出 PlayEval(https://huggingface.co/papers?q=PlayEval),一个基于真实仓库的多语言 GUI 应用基准,涵盖 43 个 Python、TypeScript 与 JavaScript 项目。与难以迁移到桌面环境的旧 GUI 基准不同,PlayEval 覆盖六大 GUI 应用类别,可直接用于代码生成评估。我们进一步提出 Play@k(https://huggingface.co/papers?q=Play%40k)指标,衡量在 k 个候选中是否至少有一个能端到端运行且无逻辑错误。为可靠评估,我们开发 PlayTester(https://huggingface.co/papers?q=PlayTester),一个基于 LLM 的智能体,可定向遍历 GUI 并自动发现逻辑违规。在 10 个前沿代码 LLM 上的实验显示:尽管编译通过率很高,Play@3 却接近 0,暴露出模型在生成逻辑正确 GUI 应用上的重大缺陷。为此,我们提出 PlayCoder,一个多智能体、仓库感知的闭环框架,持续生成、评估并迭代修复 GUI 应用代码。PlayCoder 显著提升开源与闭源模型的功能正确性与语义对齐度,Exec@3 最高达 38.1%,Play@3 达 20.3%。案例研究进一步表明,它能发现传统指标遗漏的静默逻辑 bug,并通过针对性编辑予以修复。

查看 arXiv 页面(https://arxiv.org/abs/2604.19742)
查看 PDF(https://arxiv.org/pdf/2604.19742)
项目页面(https://arxiv.org/abs/2604.19742)
GitHub(https://github.com/Tencent/PlayCoder)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19742)

在智能体中获取本文:

hf papers read 2604.19742

还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2604.19742,即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.19742,即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 链接该论文

在 Space README.md 中引用 arxiv.org/abs/2604.19742,即可在此页面显示链接。

收录该论文的精选集 0

暂无精选集收录该论文

创建精选集 并添加该论文,即可在此页面显示链接。

相似文章

WebCompass:面向代码语言模型的多模态网页编程评估

Hugging Face Daily Papers

# 论文页面 - WebCompass:面向代码语言模型的多模态网页编程评估 来源:[https://huggingface.co/papers/2604.18224](https://huggingface.co/papers/2604.18224) 作者:, , , , , , , , , , , , , , , , , ## 摘要 WebCompass 通过多样化的输入模态和任务类型评估网页开发能力,采用模拟真实世界编码工作流的自动化评估方法。[大语言模型](https://huggingface.co/papers?q=Large%20language%20model