GenClaw: 代码驱动的智能体图像生成
摘要
GenClaw 提出了一种代码驱动的智能体图像生成框架,通过模拟人类的创作过程来打破黑箱范式:概念构思、使用代码(SVG/HTML/Three.js)进行草图绘制,然后利用生成模型添加纹理和实现逼真效果。
查看缓存全文
缓存时间: 2026/05/29 07:01
论文页面 - GenClaw:代码驱动的智能体图像生成
来源:https://huggingface.co/papers/2605.30248
摘要
GenClaw 提出了一种代码驱动的智能体图像生成框架,通过概念化、草图和着色阶段实现精确的视觉构建,将编程逻辑与生成模型相结合。
图像生成模型 (https://huggingface.co/papers?q=Image%20generation%20models) 已从文本条件的像素合成发展为具备视觉理解 (https://huggingface.co/papers?q=visual%20comprehension) 和工具调用 (https://huggingface.co/papers?q=tool%20invocation) 能力的多模态智能体 (https://huggingface.co/papers?q=multimodal%20agents)。然而,现有智能体仍然受制于底层的黑盒图像模型。它们的工作流程被困在为了生成优化而反复重写提示的循环中,无法直接操作画布。本质上,大型语言模型 (https://huggingface.co/papers?q=LLMs) 作为真正“画笔”实现精确视觉构建的潜力仍未得到充分挖掘。在本文中,我们提出 GenClaw,一种代码驱动的智能体图像生成范式,它赋予智能体像人类艺术家一样的创作能力:先概念化,再草图,最后着色。具体来说,智能体首先通过搜索和推理构建概念知识 (https://huggingface.co/papers?q=conceptual%20knowledge) 与上下文。然后利用代码(如 SVG、HTML、Three.js)渲染可执行的视觉草图 (https://huggingface.co/papers?q=visual%20sketches)。最后使用图像生成模型补充纹理、材质和照片级真实感。在这一工作流中,代码作为连接语言推理与像素合成的可控中间画布,无缝融合了编程逻辑与生成模型 (https://huggingface.co/papers?q=generative%20models) 的视觉表现力。通过将图像生成从黑盒范式转变为类似真实人类创作的分阶段过程,GenClaw 向高度可控且可解释的视觉生成系统 (https://huggingface.co/papers?q=visual%20generation%20systems) 迈出了一步。
查看 arXiv 页面 (https://arxiv.org/abs/2605.30248)查看 PDF (https://arxiv.org/pdf/2605.30248)GitHub8 (https://github.com/yejy53/GenClaw)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30248)
在你的智能体中获取这篇论文:
hf papers read 2605\.30248
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.30248 以从此页面链接。
引用该论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.30248 以从此页面链接。
引用该论文的Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.30248 以从此页面链接。
包含该论文的收藏集1
相似文章
PixelClaw:用于图像处理的 LLM 智能体
PixelClaw 是一款免费开源的 LLM 智能体,在基于 Raylib 的拖放界面中融合对话式 AI、图像生成与编辑以及音频工具。
GenEvolve:通过工具编排的视觉经验蒸馏实现自我进化的图像生成代理
GenEvolve是一个自我进化的图像生成框架,它利用工具编排的轨迹和视觉经验蒸馏来迭代提升生成能力,取得了最先进的性能。
异星绮梦:新兴艺术图景
本文聚焦于利用 OpenAI 的 CLIP 模型作为生成式模型引导机制的新兴 AI 生成艺术场景,展示了多种文本转图像的生成实例。
ClawEnvKit:面向类爪智能体的自动环境生成
# 论文页面 - ClawEnvKit:面向类爪智能体的自动环境生成 来源:[https://huggingface.co/papers/2604.18543](https://huggingface.co/papers/2604.18543) ## 摘要 一个自动化流程能够基于自然语言描述,为类爪智能体生成多样化且经过验证的环境,从而实现大规模基准构建与持续评估。为训练和评估类爪智能体构建环境仍然是一个依赖人工的劳动密集型过程,且
ClawGUI:用于训练、评估和部署 GUI Agent 的统一框架
ClawGUI 是一个开源框架,用于通过强化学习训练、评估和部署 GUI Agent,具备标准化基准测试能力,并支持跨平台部署至 Android、iOS 和 HarmonyOS。