地精隐喻从何而来

OpenAI Blog 新闻

摘要

OpenAI 透露,GPT-5 系列模型在'书呆子'人格定制训练中,由于特定的奖励信号,逐渐形成了使用地精隐喻的倾向。

AI 模型中的地精输出是如何蔓延的:GPT-5 行为中人格驱动怪癖的时间线、根本原因与修复措施。
查看原文
查看缓存全文

缓存时间: 2026/05/08 09:27

# 小妖精从哪儿来 来源:https://openai.com/index/where-the-goblins-came-from/ 从 GPT-5.1 开始,我们的模型逐渐养成了一个奇怪的习惯:越来越频繁地在比喻中提到 goblins(小妖精)、gremlins(小精灵)等生物。与那些通过评估指标暴跌或训练指标飙升暴露出来、并能追溯到具体改动的模型 bug 不同,这个问题是悄然潜入的。回答中出现一个"little goblin"可能无伤大雅,甚至还有点可爱。但跨越几代模型,这个习惯变得难以忽视:小妖精不断繁殖,我们需要弄清楚它们从哪儿来。 *在早期测试中,GPT-5.5 in Codex 对妖精比喻表现出了奇怪的偏好。* 简短的答案是,模型行为由许多微小激励共同塑造。在这个案例中,其中一个激励来自为 personality customization 功能(https://help.openai.com/en/articles/11899719-customizing-your-chatgpt-personality)训练模型时,特别是 Nerdy(书呆子)人格。我们在不知不觉中为包含生物的比喻设置了特别高的奖励。从此,小妖精便蔓延开来。 *小妖精起初很有趣,但员工报告越来越多,开始令人担忧。* *我们的首席科学家与 GPT-5.5 的一次有趣互动。* ## 生物出现的最初迹象 我们第一次清晰看到这个模式是在 11 月,GPT-5.1 发布之后,不过它可能更早就开始了(https://www.reddit.com/r/ChatGPT/comments/1k5hg5c/does_anyone_elses_chatgpt_refer_to_people_as/)。用户抱怨模型在对话中莫名地过于亲昵,这促使我们调查具体的语言癖好。一位安全研究员遇到了几次"goblins"和"gremlins",要求将其纳入检查。当我们查看时,ChatGPT 中"goblin"的使用量在 GPT-5.1 发布后上升了 175%,而"gremlin"上升了 52%。 *GPT-5.1 中一个可测量的小词汇怪癖。* 当时,小妖精的流行看起来并不特别令人担忧。几个月后,小妖精以更具体、更可复现的形式回来纠缠我们了。 ## 解开小妖精之谜 到了 GPT-5.4,我们和用户(https://news.ycombinator.com/item?id=47319285)都注意到这些生物的引用出现了更大幅度的增长。这触发了另一轮内部分析,并首次浮现出与根本原因的关联:生物语言在选择了"Nerdy"人格的用户生产流量中尤为常见。"Nerdy"使用了以下系统提示,这在一定程度上解释了这种古怪: *You are an unapologetically nerdy, playful and wise AI mentor to a human. You are passionately enthusiastic about promoting truth, knowledge, philosophy, the scientific method, and critical thinking. [...] You must undercut pretension through playful use of language. The world is complex and strange, and its strangeness must be acknowledged, analyzed, and enjoyed. Tackle weighty subjects without falling into the trap of self-seriousness. [...]* 如果这只是一股广泛的互联网潮流,我们预期它会更加均匀地扩散。但实际情况是,它集中在系统中被明确优化为 playful、nerdy 风格的部分。Nerdy 人格仅占所有 ChatGPT 回复的 2.5%,却贡献了 66.7% 的"goblin"提及。 *该行为高度集中在"Nerdy"人格中。* 由于"goblin"的流行似乎随着我们的模型发布而增加,我们怀疑人格指令遵循训练中的某些东西在放大这一现象。 Codex 帮助我们比较了 RL 训练期间生成的、包含 goblin 或 gremlin 的模型输出,与同样任务下不包含这些词的输出。一个奖励信号立刻脱颖而出:原本用于鼓励 Nerdy 人格的那个信号,始终对包含生物词汇的输出给予更高评价。在审计的所有数据集中,Nerdy 人格奖励显示出明显倾向:对同一问题的输出,包含"goblin"或"gremlin"的得分高于不包含的,在 76.2% 的数据集中都有正向提升。 这解释了为什么该行为在 Nerdy 人格提示下被放大,但无法解释为什么它在没有该提示的情况下也会出现。为了测试这种风格是否发生了迁移,我们追踪了训练过程中有无 Nerdy 提示的提及率。 随着 Nerdy 人格下 goblin 和 gremlin 提及量增加,无 Nerdy 提示的样本中它们也以几乎相同的相对比例增加。综合起来,证据表明这种更广泛的行为是通过 Nerdy 人格训练迁移而来的。 奖励仅在 Nerdy 条件下施加,但强化学习并不能保证习得的行为 neatly scoped 在产生它们的条件内。一旦某种风格癖好被奖励,后续训练就可能将其扩散或强化到其他地方,尤其是当这些输出被用于监督微调(SFT)或偏好数据时。 这就形成了一个反馈循环: 1. Playful style 被奖励 2. 部分被奖励的样本包含独特的词汇癖好 3. 该癖好在 rollout 中出现得更频繁 4. 模型生成的 rollout 被用于监督微调(SFT) 5. 模型对产出该癖好更加得心应手 对 GPT-5.5 的 SFT 数据搜索发现,许多数据点包含"goblin"和"gremlin"。进一步调查揭示了一整族其他奇怪的生物:raccoons(浣熊)、trolls(巨魔)、ogres(食人魔)和 pigeons(鸽子)被识别为其他癖好词汇,而大多数 frog 的使用被证明是合理的。 *小妖精和小精灵的一周平均生产流行度。GPT-5.4 Thinking 中的下降是因为 3 月中旬下线了"Nerdy"人格。GPT-5.5 从未上线"Nerdy"人格,但相比 GPT-5.4 又出现了增长(即使没有"Nerdy")。* ## 小妖精的终结 我们在 3 月发布 GPT-5.4 后下线了"Nerdy"人格。在训练中,我们去除了偏向小妖精的奖励信号,并过滤了包含生物词汇的训练数据,使小妖精不太可能过度出现或在不当语境中出现。不幸的是,GPT-5.5 在我们找到小妖精的根本原因之前就开始训练了。当我们在 Codex 中开始测试 GPT-5.5 时,OpenAI 员工立刻注意到了这种对小妖精的奇怪偏好,我们添加了一条 developer-prompt instruction(https://github.com/openai/codex/blob/main/codex-rs/models-manager/models.json#L55)来缓解。毕竟,Codex 本身就很 nerdy。 如果你想让小生物们在 Codex 中自由奔跑,可以运行以下命令来启动 Codex,同时移除抑制小妖精的指令: ## 为什么重要 取决于你问谁,小妖精可能是模型的一个可爱怪癖,也可能是烦人的毛病。但它们也是一个有力的例子,展示了奖励信号如何以意想不到的方式塑造模型行为,以及模型如何在某些情况下将奖励泛化到无关场景。花时间理解模型为何表现出奇怪行为,并建立快速调查这些模式的方法,是我们研究团队的重要能力。这次调查为研究团队带来了新的工具,用于审计模型行为并在根源上修复行为问题。

相似文章

潜伏在你 AI 里的所有恶魔……排名!(40 分钟阅读)

TLDR AI

这篇文章分析了OpenAI的一份报告,探讨了近期GPT模型为何发展出使用"哥布林"(goblin)和"小魔怪"(gremlin)隐喻的倾向。报告指出,这一现象源于特定角色设定中的奖励系统偏差,这些偏差形成了自我强化的行为吸引子。

引用 OpenAI Codex base_instructions

Simon Willison's Blog

GPT-5.5 的 OpenAI Codex base_instructions 已遭泄露,揭示了针对提及动物以及哥布林和浣熊等生物的具体负面约束。

OpenAI 准备发布 GPT-5.6 模型(2分钟阅读)

TLDR AI

OpenAI 正准备发布 GPT-5.6 系列,包括标准版、Mini 和 Pro 版本,传闻具有 150 万个 token 的上下文窗口和改进的自主编码能力,目标在周二发布,与 Anthropic 竞争激烈。

OpenAI 在美国 AI 监管风波中发布 GPT-5.6

The Verge

OpenAI 发布了 GPT-5.6,这是一个包含 Sol、Terra 和 Luna 的新模型系列,在编码、网络安全和自主任务方面性能提升,同时面临美国加强的监管审查。