PlayCoder:让LLM生成的GUI代码可玩
摘要
PlayEval基准与多智能体框架PlayCoder,通过迭代修复LLM生成的GUI应用,端到端可玩代码最高达20.3%。
查看缓存全文
缓存时间: 2026/04/22 06:17
论文页面 - PlayCoder:让 LLM 生成的 GUI 代码可运行
来源:https://huggingface.co/papers/2604.19742
摘要
大语言模型在生成逻辑正确的 GUI 应用方面表现不佳,为此我们提出 PlayEval 基准和 PlayCoder 框架,通过多智能体迭代修复提升功能正确性。
大语言模型(https://huggingface.co/papers?q=Large%20language%20models)(LLM)在代码生成(https://huggingface.co/papers?q=code%20generation)任务上成绩斐然,但生成 GUI 应用(https://huggingface.co/papers?q=GUI%20applications)——尤其是游戏——的能力仍缺乏系统研究。现有基准主要依赖测试用例评判正确性,这对交互式、事件驱动的 GUI 系统并不适用,因为后者需要在一系列用户操作下保持状态转移正确,评估时必须关注交互流程与 UI 逻辑,而非简单的通过/失败。为此,我们推出 PlayEval(https://huggingface.co/papers?q=PlayEval),一个基于真实仓库的多语言 GUI 应用基准,涵盖 43 个 Python、TypeScript 与 JavaScript 项目。与难以迁移到桌面环境的旧 GUI 基准不同,PlayEval 覆盖六大 GUI 应用类别,可直接用于代码生成评估。我们进一步提出 Play@k(https://huggingface.co/papers?q=Play%40k)指标,衡量在 k 个候选中是否至少有一个能端到端运行且无逻辑错误。为可靠评估,我们开发 PlayTester(https://huggingface.co/papers?q=PlayTester),一个基于 LLM 的智能体,可定向遍历 GUI 并自动发现逻辑违规。在 10 个前沿代码 LLM 上的实验显示:尽管编译通过率很高,Play@3 却接近 0,暴露出模型在生成逻辑正确 GUI 应用上的重大缺陷。为此,我们提出 PlayCoder,一个多智能体、仓库感知的闭环框架,持续生成、评估并迭代修复 GUI 应用代码。PlayCoder 显著提升开源与闭源模型的功能正确性与语义对齐度,Exec@3 最高达 38.1%,Play@3 达 20.3%。案例研究进一步表明,它能发现传统指标遗漏的静默逻辑 bug,并通过针对性编辑予以修复。
查看 arXiv 页面(https://arxiv.org/abs/2604.19742)
查看 PDF(https://arxiv.org/pdf/2604.19742)
项目页面(https://arxiv.org/abs/2604.19742)
GitHub(https://github.com/Tencent/PlayCoder)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19742)
在智能体中获取本文:
hf papers read 2604.19742
还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接该论文
在模型 README.md 中引用 arxiv.org/abs/2604.19742,即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集链接该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19742,即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 链接该论文
在 Space README.md 中引用 arxiv.org/abs/2604.19742,即可在此页面显示链接。
收录该论文的精选集 0
暂无精选集收录该论文
创建精选集 并添加该论文,即可在此页面显示链接。
相似文章
@kapicode: 我一直在使用 Claude 作为“人类”来提示 @opencode 以重建参考项目,在同一测试平台上评估了四款 LLM…
一项针对四款大语言模型(Qwen、MiniMax、GLM)的评估显示,当使用 Claude 作为 Opencode 智能体工具的提示器时,一个较小的本地模型(运行在 3090 显卡上的 Qwen 27B)在代码质量与可靠性方面表现优于更大的剪枝模型。
本地LLM实战测试:代码生成、质量与速度权衡
作者构建了一个基准测试框架,用于评估本地LLM在自动生成Go代码方面的能力,重点聚焦SIEM流水线的日志解析器生成,并发布了对比质量与速度的测试结果。
构建了一个 LLM 在结构上被禁止生成最终输出的 Agent,寻求反馈以及愿意尝试“攻破”它的人
作者描述了一个基于 LangGraph 构建的 AI Agent,旨在复现生产环境中的 Python 崩溃问题。其独特之处在于架构设计:LLM 负责规划行动,而确定性 Python 函数则生成最终测试代码,以确保可靠性。
实测 OpenCode 与自托管 LLM 的协作:Qwen 3.5、3.6、Gemma 4、Nemotron 3、GLM-4.7 Flash - v2
一位开发者在 RTX 4080 上用 OpenCode 对多款自托管 LLM(Qwen 3.5/3.6、Gemma 4、Nemotron 3、GLM-4.7)进行两项编码任务基准测试,揭示了速度与质量的权衡。
WebCompass:面向代码语言模型的多模态网页编程评估
# 论文页面 - WebCompass:面向代码语言模型的多模态网页编程评估 来源:[https://huggingface.co/papers/2604.18224](https://huggingface.co/papers/2604.18224) 作者:, , , , , , , , , , , , , , , , , ## 摘要 WebCompass 通过多样化的输入模态和任务类型评估网页开发能力,采用模拟真实世界编码工作流的自动化评估方法。[大语言模型](https://huggingface.co/papers?q=Large%20language%20model