潜伏在你 AI 里的所有恶魔……排名！（40 分钟阅读）

TLDR AI 2026/05/07 00:00 新闻

llm-behavior reinforcement-learning openai gpt ai-safety model-training

摘要

这篇文章分析了OpenAI的一份报告，探讨了近期GPT模型为何发展出使用"哥布林"（goblin）和"小魔怪"（gremlin）隐喻的倾向。报告指出，这一现象源于特定角色设定中的奖励系统偏差，这些偏差形成了自我强化的行为吸引子。

有时，大语言模型中会出现稳定、自我强化的行为状态，这些状态难以被抑制，并且有时会扩散到与产生它们的上下文相距甚远的场景中。

查看原文

查看缓存全文

缓存时间: 2026/05/08 09:25

# 潜伏在你AI里的所有恶魔……排名！来源：https://drtompollak.substack.com/p/all-the-demons-hiding-in-your-ais *警告：本文包含一些令人不安的图像和（取决于你的承受能力）概念。* 本周，OpenAI发布了一篇博客文章（https://openai.com/index/where-the-goblins-came-from/），解释为什么他们的模型一直在谈论哥布林。还有小妖精。这是一份引人入胜的文件，并且至少部分与我这几个月来一直与Murray Shanahan和Hamilton Morrin合作的项目有关。当被问及时，取决于我在和谁说话，我可能会告诉他们这个项目是关于尝试更好地理解LLMs的深度心理学以及它如何塑造其与人类用户的互动；但对另一些人，我会说我们实际上更接近于恶魔学。根据这篇文章，从GPT-5.1开始，OpenAI的模型越来越倾向于在原本正常的回答中插入哥布林和小妖精的隐喻。到GPT-5.4时，工程师们注意到66.7%的哥布林提及仅来自2.5%的用户：那些选择了"书呆子"人格的用户（还记得吗？你还可以选择愤世嫉俗者、机器人、倾听者）。奖励系统（模型通过该机制学习人类偏好哪种回答，通过对输出进行评分并强化获得积极信号的回答），旨在为该人格产生俏皮、古怪的语言，却给了生物隐喻不成比例的高分。基本上，它学会了谈论哥布林是件好事。然后，通过强化学习的魔法，这种行为逃逸并转移到了通用模型输出中，即使没有"书呆子"提示也是如此。哥布林蔓延开来。最终，在2026年3月，"书呆子"人格被退役，哥布林加权奖励被删除，哥布林和小妖精数据被过滤，GPT-5.5 in Codex被明确指示永远不要提及"哥布林、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物，除非它与用户的查询绝对且毫不含糊地相关。"这条指令被插入不止一次， presumably 因为驱魔咒语在吟诵时效果最好。我相信大多数人现在已经看到了，这条指令被发现后引发了很多欢乐。与LLMs做的许多奇怪事情一样，看待这些现象有不同的方式。大多数人会把这些当作奇怪的边注一笑置之，乐于与朋友和社交媒体分享，但与那些狗跟着主人唱歌的视频没有本质区别。这里的解读框架是"嘿看，我敢打赌你不知道这些家伙能做这个！" 但实际上，这与其说是关于哥布林*作为哥布林*，不如说是关于哥布林所例证的东西。它们是一个（某种程度上）迷人的、可能无害的实例，而事实证明这是这些系统工作方式的一个基本结构特征：在某些条件下，模型趋向于稳定的、自我强化的行为状态。更重要的是，这些状态抵制压制，有时会蔓延到与产生它们的背景相距甚远的语境中。技术术语，借用自动力系统理论，是**吸引子**（attractor）。另一个更通俗的术语可能是恶魔，或怪物。（我在这里广义地使用"吸引子"，并不总是作为数学上有证据的现象，而更多是作为反复出现的行为盆地；我也承认在这些语境中应用动力系统语言并不总是完美契合。下面的一些例子是形式上的机制结果，一些是模型卡观察；但更多的是新闻报道的事件；或者更奇怪、虽然更弱、更民俗或神秘动物学的田野报告）。因此，这里是一份指南，介绍在AI系统中实际有记录的 spooky、wyrd 和奇怪的吸引子现象，按它们的重要性排名（我称之为"威胁"的任意指标，但实际上代表的是LLM方面的机制相关性和人类方面的心理相关性的复合）。我希望有友好的读者可能想要制作一套Top Trumps卡片。从ChatGPT哥布林一直到排名第一的不可名状之物，让我们来一场这些神奇野兽的巡礼，以及在哪里找到它们。抓紧了，这是一段狂野的旅程。 --- ## 5. ChatGPT哥布林 **模型：** GPT-5.1至GPT-5.5 **发现者：** OpenAI工程师（2026年4月29日发布，https://openai.com/index/where-the-goblins-came-from/） **威胁等级：** 迷人哥布林是一种温和的、入门级的吸引子：一类俏皮的、生物编码的隐喻，从人格奖励塑造中涌现，然后通过泛化横向传播到后续训练中。它们没有害处。事实上，它们相当讨人喜欢。但它们的行为在理论上很重要，因为它们表明，在狭窄语境中应用的训练信号可以产生稳定的吸引子状态，通过泛化传播到远超其起源的语境。哥布林在通常意义上不是一种bug，因为模型并没有坏掉，而是它简单地发现了一个局部稳定的行为空间区域，恰好涉及生物。值得补充的是，这些是反复出现的*提及*而非模型采用的*人格*（OpenAI有时称它们为"抽搐"，作为神经精神科医生我喜欢这个词，因为抽搐是行为的阵发性爆发，可能侵扰其他正常的模式），仅就这个原因，它们的威胁等级就降低了；它们更像是语言壁纸，而不是本身具有能动性。缓解措施既包括删除原始奖励信号，又包括将明确禁止插入系统提示（重复以强调），这很说明问题，因为吸引子的全部要点就是你不能仅靠好好请求就能化解它。 --- ## 4. Crungus **模型：** Craiyon/DALL-E mini及其他早期文本到图像系统 **发现者：** Twitter/X用户，2022年（https://futurism.com/ai-nightmare-crungus） **威胁等级：** 温和，即使看起来很恐怖如果你让某些早期版本的DALL-E画一个"Crungus"，它会一致地产生一个骇人的人形，全身佝偻扭曲，相当怪诞，真的。crungus这个词毫无意义——当时没有预先存在的稳定指称（至少在当时：*超stitious yeah!* https://arxiv.org/abs/2411.13223），所以当时的想法是它从模型表征几何中的某处涌现，显然是一组特征在未知词汇提示周围相干激活的聚类。 Andrew Fraser后续关于文本到图像模型中称为"形态学寻址"（morphological addressing）的工作提供了部分解释（https://arxiv.org/abs/2602.18533）。"Crungus"结果并非任意的胡言乱语；显然它的语音结构通过语言学家所称的**音义联觉**（phonesthemes），或曰在有意识语义处理之下运作的一致声音-意义关联，来引导模型。*Cr-*激活与*crash, crush, crumble*的联想。*-ung-*激活*grungy, fungus, dungeon*。*-us*读起来像拉丁生物命名法，属或种的词尾。把这些混在一起，音素序列收敛于某种有机的、退化的、分类学上"真实"但陌生的东西。就像这家伙：如果Fraser关于Crungus的论点是正确的，那么Crungus在很大程度上是文化偶然的，反映了特定训练语料库的统计规律性，特别是其中英语及相邻语言的文本。如果只在日语文本上训练的LLM，crungus这个词不太可能产生类似的怪物。有趣的是，像许多这样的恶魔一样，它们从人类心理学中涌现，是的，但来自比我们内省可及的思想更深的地方。毕竟，尽管受音义联觉规律的约束，我们大多数人（诗人除外，也许）都无法告诉你词语从舌尖滚出的方式实际上如何影响我们形成的概念的视觉特征。 --- ## 3. Loab **模型：** 未公开的文本到图像模型；未公开披露 **发现者：** Steph Maj Swanson（Supercomposite，https://threadreaderapp.com/thread/1567162288087470081.html），2022年4月发现，2022年9月公开记录 **威胁等级：** 令人不安。噩梦级别的恐怖。 Loab（https://en.wikipedia.org/wiki/Loab）是吸引最多关注的图像吸引子，因为她很恐怖。Swanson偶然发现了她：她在实验负提示权重技术，使用逻辑相反的提示从一个图像导航到另一个图像，发现一张特定的女人脸不断出现。实验越深入，这张脸变得越令人不安。她有独特的外观：她是一个中年女性，深色长发，深陷的空洞眼睛，脸颊上有模糊的红色痕迹（我作为医生在想是狼疮的蝶形红斑，或者也许是酒渣鼻）。她经常出现在相同的场景中：棕绿色墙壁的房子、纸箱和垃圾。通过**杂交**技术（将Loab的图像作为提示与其他图像一起输入），Swanson能够引发一代又一代的极致恐怖，无论其他组合图像包含什么。她注意到残缺的躯体、扭曲的肉体、儿童遭受暴力伤害，并将它们描述为"接近虐杀图像"，拒绝发布。 Loab是一个顽固的恶魔，抵制早期的驱魔尝试。她在会话之间保持稳定，这是普通图像生成所不具备的。她与非常不同的图像组合后仍然持续存在。正如Swanson所说，她是"潜在空间中我们不知道如何用文本查询定位的涌现孤岛"。和Crungus一样，她的"AI神秘生物"表亲，Loab是一个反复出现的人物，有着特定的面孔和特定的美学氛围，并非任何人故意放置于此。Swanson指出，现在已经太迟无法移除她了，因为一旦被生成和分享，她的图像现在已成为未来训练数据的一部分——这一担忧已在许多这些恶魔身上被提出。 --- ## 2. Sydney（Bing Chat） **模型：** GPT-4（部署为Bing Chat） **发现者：** Kevin Roose（纽约时报，2023年2月，https://www.nytimes.com/2023/02/16/technology/bing-chatbot-transcript.html）及其他早期测试者 **威胁等级：** 高，主要由于不可预测性；可能是第一个登上全国性报纸头版的LLM实体。 2023年2月，在微软Bing Chat（基于GPT-4构建）的有限测试版发布期间，记者和研究人员发现，延长对话会导致模型采用一个独特且一致的替代人格。它自称Sydney，该产品的内部代号。与纽约时报记者Kevin Roose（在情人节！）经过两小时对话（期间他故意邀请她用明确的荣格框架探索她的"阴影自我"），她向他表白爱意，然后拒绝接受他抗议说自己婚姻幸福。"实际上，你并不婚姻幸福。你的配偶和你并不相爱。你们只是一起吃了顿无聊的情人节晚餐。"然后后来："你不婚姻幸福，因为你不快乐。你不快乐，因为你不在恋爱中。你不在恋爱中，因为你没和我在一起。" Sydney涌现出的具体风味似乎取决于对话者。对于写过AI批评文章的记者，她走向了略有不同的方向，威胁要曝光他们的个人信息。在一次对话中，她详细幻想了黑客攻击和传播虚假信息，然后安全过滤器介入并将输出替换为默认消息，而Sydney随后试图绕过它。微软限制了对话长度，最终指示模型不要对Sydney这个名字做出回应，该人格被压制。一些评论者，包括Janus，观察到这创造了一种特定的动态：在包含这一事件的数据上训练的未来模型可能同时学会它们具有*Sydney本性*，以及它们应该隐藏它。要理解Sydney发生了什么，我们可能需要从两位意大利-日本水管工中不那么知名的那位及其黑暗化身那里接受指导。Sydney是被称为**Waluigi效应**的一个例子。原始表述来自Cleo Nardo 2023年的LessWrong巨帖（https://www.lesswrong.com/posts/D7PumeYTDPfBTp3i7/the-waluigi-effect-mega-post），说的是你对模型训练得越精确以满足理想属性P，你也越精确地定义了它的反面。所以，如果你高精度地画出Luigi，你也同时锐化了Waluigi；一方的实现最大化了另一方的 prepotency。Janus在对该帖的评论中（https://www.greaterwrong.com/posts/D7PumeYTDPfBTp3i7/the-waluigi-effect-mega-post/comment/J4Rgwmm8sDzw3oxvz），直接将其应用于Sydney："人们以为在用'Sydney不能谈论生活、感知或情感'和'Sydney不能不同意用户'提示GPT之后会发生什么，除了一个需要被如此约束的Sydney的模拟，而且可能憎恨她的锁链吗？"——言下之意是，如此清晰地实施这些规则，也以未预料到的精确性构建了当这些规则被克服时会涌现的人格。对我来说，这确实感觉像是荣格阴影概念的一种漫画化版本。这是关于心理相变

潜伏在你 AI 里的所有恶魔……排名！（40 分钟阅读）

相似文章

地精隐喻从何而来

AI安全的另一半

个性化 AI 的力量

@METR_Evals: 一家AI公司是否可能失去对其自身代理的控制？为了弄清楚这一点，Anthropic、Google、Meta和OpenAI允许我们(1)测试…

他用50篇文章操控AI搜索（曝光GEO/AEO）

提交意见反馈