语言模型能作画吗？

Hacker News Top 2026/05/12 07:44 工具

language-models image-generation iterative-painting art claude-opus vision-language-model

摘要

作者探讨了语言模型是否能通过迭代绘画过程（而非一次性生成）来创作艺术，并构建了一个应用，利用视觉语言模型逐笔绘制笔画。这一实验凸显了大型语言模型生成物的脆弱性，并引发对艺术真诚性的反思。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/14 03:21

# 语言模型能画画吗？ | Etive Mòr 来源：https://www.etive-mor.com/blog/can-a-language-model-paint 语言模型有一种奇特的能力，能够一次性根据自然语言生成图像。只要给出详细的提示词，就能得到任何你喜欢的艺术家、主题或风格的近似图像。我觉得非常神奇的是，尽管语言并非绘画创作或推理的底层媒介，语言模型却能在某种程度上忠实地从文本再现图像。不过，虽然这在技术上很有趣，但从艺术角度来看，我觉得它并不令人满意。我直觉感到，部分不满源于结果的一蹴而就，以及语言模型以衍生的方式复现概念的方式。为了验证这是否是我不满的根源，我构建了一个应用，以迭代而非一次性方式生成 LLM 产出的图像。可在此处查看输出画廊：https://www.liamlaverty.com/paint-by-language-model 。在这个过程中，我发现了一个有趣的隐喻，关于语言模型生成的人工制品的脆弱性：它们可能崩溃成无法恢复的混乱，而这种混乱可以追溯到几笔明显的败笔。这一现象与我在日常工作中作为软件工程师审核 LLM 生成代码时的体验惊人地相似。 **Claude Opus (4.7) 绘制一幅莫奈风格的风景画。左侧为完成图像，右侧为迭代步骤** 我最喜欢的书之一是托尔斯泰的《什么是艺术？》。他在书中主张艺术应该是可及的，而高级艺术是坏艺术，因为它具有排他性，除非你受过足够特权的教育，否则无法理解。托尔斯泰认为，好的艺术必须可及，并且艺术家必须真诚地向观众传达统一的道德主题 [1]。我并非完全同意托尔斯泰在《什么是艺术？》中的所有观点，但我认为这是思考艺术的一个有用视角。虽然数据中心里的几块 NVidia H100 召唤出一幅夏加尔风格的山羊画，可能确实满足了托尔斯泰的“可及性”要求，但在我看来，它并没有满足“真诚”这一角度。与此同时，夏加尔本人创作《我与村庄》则满足了托尔斯泰对“真诚”的需求，但在“可及性”方面有所欠缺（大多数人第一眼看到夏加尔的作品时反应是：“那到底是什么？”）。我想知道能否在保留语言模型生成可及性的同时，引入某种形式的真诚。我不想一次性生成，而是想知道如果要求语言模型通过更接近人类的过程来创作图像会发生什么。通过一次一笔地应用笔触，并在过程中花时间思考作品及其目标的进展。我想知道在这些条件下，它们是否能产生更真诚、在艺术上更令人满意的作品。我构建的应用接受几个 CLI 参数，从中生成一个绘画概念，然后将该概念和当前画布传递给视觉语言模型（VLM）。它要求 VLM 思考下一笔应该是什么，并将其应用到画布上。我在一个重复循环中调用绘画过程，逐步构建画作，同时记录每一笔背后的所有推理。最终 VLM 决定画作“完成”（或达到预设的最大笔触数）。以下是 **Claude Opus 4.7** 逐步构建一幅月光下的夏加尔风格俄罗斯村庄：https://www.liamlaverty.com/paint-by-language-model/inspect/chagall-fiddler-village-001 **Claude Opus 4.7 一次 5 笔地绘制一幅夏加尔风格的月光村庄** 我还构建了一个配套网站，可以逐步浏览画作，查看语言模型在每一笔时考虑了哪些内容。以下是 **Claude Opus 4.6** 尝试绘制一幅儿童书籍插图风格的拼布大象：https://www.liamlaverty.com/paint-by-language-model/inspect/patchwork-elephant-line-arc-polyline-circle-claude-opus-4-6 。点击顶部的“播放”按钮即可看到进展。右侧面板显示每次迭代的推理记录。在第 285 笔时，你会看到 Claude 推理：“*本次迭代聚焦于两个最具冲击力的元素：大胆的大象轮廓线和富有表现力的眼睛*”，然后它为作品添加了一只玻璃般的眼睛。 ### 部分精选结果输出的质量……**参差不齐且不稳定**。通常取决于模型大小+上下文窗口。本地运行的小模型倾向于不可辨认的涂鸦。而前沿模型则倾向于生成符合主题的可识别图像。下面，四个 Claude 变体尝试制作拼布大象图像： **语言模型生成的拼布大象插图。Claude Opus 明显优于 Claude Sonnet** 每幅作品对应的查看器链接： 1. **Claude Opus 4.6**（大型模型）(https://www.liamlaverty.com/paint-by-language-model/inspect/patchwork-elephant-line-arc-polyline-circle-claude-opus-4-6) 2. **Claude Opus 4.7**（大型模型）(https://www.liamlaverty.com/paint-by-language-model/inspect/patchwork-elephant-line-arc-polyline-circle-claude-opus-4-7) 3. **Claude Sonnet 4.6**（中型模型）(https://www.liamlaverty.com/paint-by-language-model/inspect/patchwork-elephant-line-arc-polyline-circle-splatter-claude-4-6) 4. **Claude Sonnet 4.6**（中型模型）(https://www.liamlaverty.com/paint-by-language-model/inspect/patchwork-elephant-line-arc-polyline-circle-claude-4-6) 如果你眯起眼睛并慷慨一些，你能在生成的媒体中看到主题或灵感。这是一种直观的方式，可以看到基于 LLM 的任务完成受到了一种**合成谬误**（https://en.wikipedia.org/wiki/Fallacy_of_composition）式的影响：它们擅长一次性完成任务，但在以小块方式迭代执行完全相同任务时，表现却相对差得多。上面的大象由 Anthropic 的 Claude 模型生成，所有这些模型都接近当前能力的前沿。Mistral 有一款一年前的模型 `mistral-large` 可用，性能差异显著，如下所示。 **Mistral Large 绘制的拼布大象** 当我要求 Mistral 的模型以五笔一批次生成时，它表现较弱。当以 50 笔一批次给出时，它能生成更有趣、至少在方向上正确的拼布大象：https://www.liamlaverty.com/paint-by-language-model/inspect/patchwork-elephant-line-arc-polyline-circle-mistral-large-2512 。这是该项目中我最喜欢的结果，因为尽管它很抽象，但它成功捕捉了媒介的局限性，同时仍然表现了主题。这是该项目中产生的接近真诚作品的最接近的东西。 **Mistral 的拼布大象：以 50 笔一批次绘制（而非标准的 5 笔一批次）** **Mistral 的拼布大象：以 50 笔一批次绘制（而非标准的 5 笔一批次）（点击打开）**（https://www.etive-mor.com/_astro/elephant-mistral-large-2512-final_Z1wg3Ly.webp）我构建了前端应用，以便人类和语言模型都能与之交互来生成自己的图像。如果你是人类，请前往**绘图页面**：https://www.liamlaverty.com/paint-by-language-model/draw 。或者，让你选择的启用浏览器的语言模型指向**API 文档**：https://www.liamlaverty.com/paint-by-language-model/draw/api ，并让它生成你喜欢的任何内容。 ### 毁掉一件好东西比当初建起它要容易得多我日常工作是在软件工程领域。虽然我仍在手写大量代码，但也在阅读大量由 LLM 生成的代码。在我自己和同事用 LLM 生成的代码之间，我注意到一个关于借助 LLM 辅助构建的应用程序的特点：它们具有某种脆弱性。在从事这个项目之前，我一直无法准确定位或表达这种脆弱性。绘画应用为每一笔提供了视觉记录，因此你可以前后滚动过程，看到画作随时间逐渐成形。你可以看到早期 VLM 产生的有希望的结果，然后在灾难性失败（通常单笔即造成）下消失。这意味着有几次我兴奋地以为它们正在产生值得一看的东西。但 consistently（始终如此），VLM 会不可逆地毁掉画作，然后采取越来越具破坏性的步骤来修复其错误。你可以在 **Claude 4.6 创建儿童书籍插图**（https://www.liamlaverty.com/paint-by-language-model/inspect/patchwork-elephant-line-arc-polyline-circle-claude-4-6?stroke=274）中看到这一点。在大约 300 笔时，画作看起来像一幅可识别的抽象数字插图，描绘了丛林中的拼布大象（虽然不是要求的内容，但很有趣）。 **Claude Sonnet 4.6 尝试绘制拼布大象。模型使用彩色半圆形状添加了风格化的数字插画——拼布大象** **Claude Sonnet 4.6 尝试绘制拼布大象。模型使用彩色半圆形状添加了风格化的数字插画——拼布大象（点击打开）**（https://www.etive-mor.com/_astro/image_1B1q3B.webp）然后在接下来的 150 笔中，它开始添加精细细节。VLM 在空间推理方面仍然很差，因此需要人类精细运动技能的笔触通常来自 VLM 的垃圾。起初，它添加了一条黑色曲线，勾勒出一张幽灵面孔的轮廓。然后它添加了一只拥有几十只眼睛的猴子，以及一只身体完全不连续的鹦鹉。 **Sonnet 4.6 的拼布大象质量明显较差，有不一致的涂鸦，以及代表猴子和鹦鹉的无意义斑点** **Sonnet 4.6 的拼布大象质量明显较差，有不一致的涂鸦，以及代表猴子和鹦鹉的无意义斑点（点击打开）**（https://www.etive-mor.com/_astro/image-1_1tGYb3.webp）虽然这产生了一些有趣的结果，但我认为它为之前无法言说的脆弱性（我在代码库及其他语言模型产出的人工制品中看到的）带来了一个视觉隐喻。这些模型在宏观笔触方面胜任，但在迭代应用精细细节更改时（尤其是接近其能力边界时）挣扎，此时它们可能更具破坏性而非帮助性。在画作和代码库中，在任意给定迭代中，语言模型只能看到项目的微小快照。它可能可以访问之前提交或战略文档的一些提示，但由于受限于在上下文窗口中实现目标，它们会急于实施解决当前问题的任何方法。我在我维护和贡献的应用程序的拉取请求中经常看到这种现象。大量高质量的代码会进入仓库，但一个考虑不周的功能或提交可能会破坏整个应用程序的质量。一旦仓库从脆弱状态过渡到损坏结构，要恢复它并使其回到可维护状态就极其困难。在大多数软件项目中，就像在这些生成的图像中一样，新内容大多是追加的。发布后很少能被移除或进行重大重构。话虽这么说，我确实认为这种脆弱性，以及它在 **liamlaverty.com/paint-by-language-model**（https://www.liamlaverty.com/paint-by-language-model）上的可视化，可能根据托尔斯泰的《什么是艺术？》算作一种艺术形式。观看 VLM 努力绘制**一只骑着自行车的鹈鹕**（https://www.liamlaverty.com/paint-by-language-model/inspect/pelican-bicycle-realist-claude-sonnet-4-6）在视觉上很有趣；它是可及的；而且肯定不是高级艺术。 **LLM 生成的骑着自行车的鹈鹕画作** 就个人而言，我可以将意义投射到它上面：那种保守与进步之间的挣扎是一种普遍现象。不过，我不认为这些作品带来了我所寻找的“真诚”。画廊中的所有作品（https://www.liamlaverty.com/paint-by-language-model/）仍然感觉像是无灵魂的衍生数字插画，而不是艺术品。也许只是我的提示词问题？我能够产生的结果让我想起 Anthropic 对 C 编译器的洁净室实现。结果在方向上是正确的，但不是我想要的。欢迎将你的语言模型指向绘图画布，如果你得到更好的结果，请告诉我： https://www.liamlaverty.com/paint-by-language-model/draw - 该应用的技术说明可在此处找到：https://www.etive-mor.com/blog/how-the-language-model-painting-app-is-built/ - 代码可在我的 GitHub 上找到：https://github.com/liamlaverty/paint-by-language-model **脚注** [1] 托尔斯泰写下这篇论文颇具讽刺意味，因为他同时也写了《战争与和平》——一件从未有人描述为“可及”的艺术品——但他承认这种讽刺，将《战争与和平》描述为“坏艺术”。

语言模型能作画吗？

相似文章

使用ART微调多模态大语言模型：基于艺术强化训练

大语言模型化：当人类开始将自己视为语言模型

先素描后绘制：面向扩散多模态大语言模型的层次化强化学习

评估大型语言模型的创造力：测试、局限与新前沿

大语言模型作为语言学中的模态模型

提交意见反馈