GenClaw: 代码驱动的智能体图像生成

Hugging Face Daily Papers 2026/05/28 00:00 论文

摘要

GenClaw 提出了一种代码驱动的智能体图像生成框架，通过模拟人类的创作过程来打破黑箱范式：概念构思、使用代码（SVG/HTML/Three.js）进行草图绘制，然后利用生成模型添加纹理和实现逼真效果。

图像生成模型已从基于文本条件的像素合成演变为具备视觉理解和工具调用能力的多模态智能体。然而，现有的智能体仍然受制于底层的黑箱图像模型。其工作流程陷入重复改写提示词以改进生成的循环，缺乏直接操控画布的机制。本质上，LLMs 作为真正“画笔”以进行精确视觉构建的潜力尚未得到充分开发。本文提出 GenClaw，一种代码驱动的智能体图像生成范式，使智能体能够像人类艺术家一样创作：首先构思，然后绘制草图，最后上色。具体来说，智能体首先通过搜索和推理构建概念知识与上下文。然后利用代码（例如 SVG、HTML、Three.js）渲染可执行的视觉草图。最后，使用图像生成模型补充纹理、材质和逼真效果。在这一工作流程中，代码充当一个可控的中间画布，连接语言推理与像素合成，将程序逻辑与生成模型的视觉表现力无缝融合。通过将图像生成从黑箱范式转变为类似于真实人类创作的分阶段过程，GenClaw 朝着高度可控和可解释的视觉生成系统迈出了一步。

查看原文

查看缓存全文

缓存时间: 2026/05/29 07:01

论文页面 - GenClaw：代码驱动的智能体图像生成

来源：https://huggingface.co/papers/2605.30248

摘要

GenClaw 提出了一种代码驱动的智能体图像生成框架，通过概念化、草图和着色阶段实现精确的视觉构建，将编程逻辑与生成模型相结合。

图像生成模型 (https://huggingface.co/papers?q=Image%20generation%20models) 已从文本条件的像素合成发展为具备视觉理解 (https://huggingface.co/papers?q=visual%20comprehension) 和工具调用 (https://huggingface.co/papers?q=tool%20invocation) 能力的多模态智能体 (https://huggingface.co/papers?q=multimodal%20agents)。然而，现有智能体仍然受制于底层的黑盒图像模型。它们的工作流程被困在为了生成优化而反复重写提示的循环中，无法直接操作画布。本质上，大型语言模型 (https://huggingface.co/papers?q=LLMs) 作为真正“画笔”实现精确视觉构建的潜力仍未得到充分挖掘。在本文中，我们提出 GenClaw，一种代码驱动的智能体图像生成范式，它赋予智能体像人类艺术家一样的创作能力：先概念化，再草图，最后着色。具体来说，智能体首先通过搜索和推理构建概念知识 (https://huggingface.co/papers?q=conceptual%20knowledge) 与上下文。然后利用代码（如 SVG、HTML、Three.js）渲染可执行的视觉草图 (https://huggingface.co/papers?q=visual%20sketches)。最后使用图像生成模型补充纹理、材质和照片级真实感。在这一工作流中，代码作为连接语言推理与像素合成的可控中间画布，无缝融合了编程逻辑与生成模型 (https://huggingface.co/papers?q=generative%20models) 的视觉表现力。通过将图像生成从黑盒范式转变为类似真实人类创作的分阶段过程，GenClaw 向高度可控且可解释的视觉生成系统 (https://huggingface.co/papers?q=visual%20generation%20systems) 迈出了一步。

查看 arXiv 页面 (https://arxiv.org/abs/2605.30248)查看 PDF (https://arxiv.org/pdf/2605.30248)GitHub8 (https://github.com/yejy53/GenClaw)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30248)

在你的智能体中获取这篇论文：

hf papers read 2605\.30248

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.30248 以从此页面链接。

引用该论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.30248 以从此页面链接。

引用该论文的Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.30248 以从此页面链接。

GenClaw: 代码驱动的智能体图像生成

论文页面 - GenClaw：代码驱动的智能体图像生成

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的Space0

包含该论文的收藏集1

相似文章

PixelClaw：用于图像处理的 LLM 智能体

GenEvolve：通过工具编排的视觉经验蒸馏实现自我进化的图像生成代理

异星绮梦：新兴艺术图景

ClawEnvKit：面向类爪智能体的自动环境生成

ClawGUI：用于训练、评估和部署 GUI Agent 的统一框架

提交意见反馈