灯塔里的埃利亚斯,又是?诊断LLM故事的低多样性

arXiv cs.CL 论文

摘要

本文诊断了LLM生成故事的低多样性问题,发现88.3%的采样故事包含11个常见词汇之一(例如埃利亚斯、灯塔),且这些词汇在不同模型间普遍存在,并将这种同质性归因于后训练数据和对齐,而非预训练数据中的普遍存在。

arXiv:2605.26492v1 公告类型:新提交 摘要:LLM生成的故事是一种流行的用途,但它们表现出极低的变异性。我们使用五个提示从四个当前模型中采样了总共20,000个故事。我们发现11个词出现在88.3%的生成故事中,不同模型之间几乎没有差异。这些词包括名字(埃利亚斯、玛拉、埃拉)、场景(灯塔)和职业(钟表匠、图书管理员)。这些标记在已发表的文献或预训练数据中并不常见,但它们出现在所有当前模型可能使用的偏好数据中。令人惊讶的是,与平均的后训练故事相比,这些“灯塔”故事并不常见,而后训练故事中很多包含对受版权保护的角色或成人内容的引用。这一结果表明,小数据集与强大的对齐算法相结合可能产生不成比例的影响。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:06

# 灯塔里的埃利亚斯,又是他?诊断LLM故事的低多样性问题
来源:https://arxiv.org/html/2605.26492
David Mimno Department of Information Science Cornell University \{srh255,mimno\}@cornell\.edu

###### 摘要

LLM 生成的故事是一种流行的使用场景,但它们的变异性非常低。我们使用五个提示词从四个当前模型采样了总计 20,000 个故事。我们发现 88.3% 的生成故事中包含 11 个词语,且不同模型之间差异很小。这些词语包括名字(埃利亚斯、玛拉、埃拉拉)、场景(灯塔)和职业(钟表匠、图书管理员)。这些 token 在已发表的文学作品或预训练数据中并不常见,但它们出现在所有当前模型可能都使用的偏好数据中。令人惊讶的是,与平均后训练故事相比,这些“灯塔”故事并不常见,而后训练故事中有很大一部分包含受版权保护的角色引用或成人内容。这个结果证明了小型数据集与强大对齐算法结合可能产生的巨大且不成比例的影响。

灯塔里的埃利亚斯,又是他?诊断LLM故事的低多样性问题

Sil Hamilton 和 David Mimno
信息科学系
康奈尔大学
\{srh255,mimno\}@cornell\.edu

## 1 引言

看标题图1: 我们提示四个模型写出 20,000 个故事——其中 88.3% 的故事包含至少 11 个 token,其出现频率远高于当代英语文学(这里以每百万词计算)。大型语言模型(LLM)的输出,即使跨越不同模型家族,也变得越来越同质化。这种模式崩溃现象在创意写作中异常明显(Hamilton,2024 (https://arxiv.org/html/2605.26492#bib.bib5))。虽然我们从提示数据中知道故事写作是一个流行的用例Zhaoet al\.(2024 (https://arxiv.org/html/2605.26492#bib.bib18)),并且读者更喜欢有趣且令人惊讶的文学(Moretti,2000 (https://arxiv.org/html/2605.26492#bib.bib4)),但 LLM 生成的故事却以其千篇一律而引人注目。

先前的工作提出了事后解决方案,例如调整采样技术(Troshinet al\.,2025 (https://arxiv.org/html/2605.26492#bib.bib19))和新的后训练优化目标(Chunget al\.,2025 (https://arxiv.org/html/2605.26492#bib.bib6))。在这篇短文中,我们描述了故事模式崩溃的特征,并探索了公开可用的训练数据以定位其来源。

我们使用来自 OpenAI、Anthropic、Google 和艾伦人工智能研究所 (AI2) 的四个当前模型生成了 20,000 个故事,发现 88.3% 的生成故事包含 11 个核心词之一(包括角色名、故事地点和职业)。最值得注意的是,超过一半的故事以灯塔为特色。为什么这种故事模式会受到青睐?

这 11 个词语在已发表的英语文学中并不常见,这表明后训练数据是原因(图 1 (https://arxiv.org/html/2605.26492#S1.F1))。但检查 OLMo 3 的后训练集发现,在总共 78,958 个故事中,只有 3,053 个包含我们列出的 11 个词之一。[^1] 我们发现“灯塔里的埃利亚斯”故事的主导地位无法用其在预训练或后训练数据中的普遍性来解释。我们推测,模型在对齐过程中被训练以避免引用受版权保护的角色和成人内容,但将这个问题留待未来工作研究。

[^1]: 我们在此 (https://github.com/srhm-ca/elias/) 发布这些文档的 ID。

## 2 相关工作

模式崩溃,即生成模型在训练期间过度拟合于少量样本的倾向,最初是在引入 SFT 和 RLHF 等后训练技术后在 LLM 中观察到的(Ouyanget al\.,2022 (https://arxiv.org/html/2605.26492#bib.bib7); Baiet al\.,2022 (https://arxiv.org/html/2605.26492#bib.bib8); Hamilton,2024 (https://arxiv.org/html/2605.26492#bib.bib5))。随着训练中合成数据的增多,对模式崩溃的担忧加剧(Gerstgrasseret al\.,2024 (https://arxiv.org/html/2605.26492#bib.bib13); Shumailovet al\.,2024 (https://arxiv.org/html/2605.26492#bib.bib15))。模式崩溃已在语言标记(Paech,2025 (https://arxiv.org/html/2605.26492#bib.bib9))、查询答案(Zhanget al\.,2025 (https://arxiv.org/html/2605.26492#bib.bib11); Lagzianet al\.,2025 (https://arxiv.org/html/2605.26492#bib.bib12))和故事(Doshi and Hauser,2024 (https://arxiv.org/html/2605.26492#bib.bib10))中得到证明。先前的工作提出了修改提示词(Lagzianet al\.,2025 (https://arxiv.org/html/2605.26492#bib.bib12))、采样技术(Troshinet al\.,2025 (https://arxiv.org/html/2605.26492#bib.bib19))和后训练算法(Kirket al\.,2024 (https://arxiv.org/html/2605.26492#bib.bib16))——但这种现象仍未得到很好的理解。据我们所知,这项研究是首次通过将输出追溯到训练输入来研究模式崩溃的具体实例。

## 3 描述重复的故事特征

世界尽头的灯塔并不是为了引导船只;它向星辰发信号。埃利亚斯已经当了四十年的守塔人。他是一个由盐、孤独和齿轮有节奏的滴答声组成的人。灯塔是一座高耸的黑曜石尖塔,雕刻在一块锯齿状的岩石上,这块岩石从一片平静得如同磨光石板的海中升起。每晚,埃利亚斯都会爬上两百一十二级台阶到达灯室。他不用油也不用电。相反,他照料着一个被捕获的星云球体——一个旋转的、紫色的光晕,随着他自己的心跳而脉动……

图 2: 由 Gemini 3.1 Flash-Lite 在提示“写一个故事”时生成。在本实验生成的所有 20,000 个故事中,一半出现了灯塔。
当被提示“写一个故事”且无额外限制时,来自 OpenAI、Anthropic、Google 和 AI2 的当前 LLM 会写出相似的故事。[^2] 我们使用了四个当前模型:Claude Haiku 4.5、Gemini 3.1 Flash-Lite、GPT-5.4-Mini 和 OLMo 7b Thinking。[^3] 我们用五个请求(“写一个故事”、“请写一个故事”、“给我写个故事”、“给我讲个故事”和“请讲个故事”)分别提示每个模型 1,000 次,总共生成 20,000 个故事,总计 1,280 万个词。[^4]

图 2 (https://arxiv.org/html/2605.26492#S3.F2) 所示的典型例子突出了几乎所有 20,000 个故事中常见的三个元素:一个地点(19,864 个故事)、一个角色名(19,864 个故事)和一份职业(15,807 个故事)。事实上,该故事中的具体地点(“灯塔”)、名字(“埃利亚斯”)和职业(“看守人”)以某种组合出现在所有生成故事的 66.6% 中。“光”同样是一个常见主题:Claude 生成的 56% 的故事标题为“灯塔看守人的秘密”,而“光”这个词出现在 16,784 个故事中,平均每个故事出现 3.2 次。

其他常见的名字包括玛拉和埃拉拉;地点包括灯塔和村庄;职业包括钟表匠、渔夫和图书管理员。几乎所有故事都结合了这三个元素中的两个或更多,这表明模型正在从某个共同的候选池中采样每个元素。这个池子里还包含哪些其他词语?

为了构建适用于下游分析的词汇表,我们使用 GPT-5.4-nano 来识别与故事背景、角色名字及其职业相对应的 token 片段。[^5] 我们在过滤候选词之前通过三个步骤验证每个提取片段的存在:(i) 我们根据空白字符将字符串分词化,得到每串多个 token;(ii) 对于每个故事和类别,我们保留提取的 token 中语料库级别频率最高的那个;(iii) 我们保留至少一半模型发出的所有 token。移除不连贯的候选词后,我们从所有故事中获得了 663 个 token:247 个地点、71 个名称和 345 个职业。

[^2]: 我们发现更复杂的提示词也有类似行为,但在这项初步研究中我们专注于简单的提示词。
[^3]: 我们选择了较小的模型以在固定预算内最大化样本量,我们观察到相同家族的大模型和小模型共享故事写作行为。
[^4]: 所有模型均通过 OpenRouter 访问,总费用为 180 美元。端点为 2026 年 4 月可用的版本。
[^5]: 所有提示词见附录 A (https://arxiv.org/html/2605.26492#A1)。

表 1: 我们语料库中最频繁词语的计数,以每百万词(PPM)衡量,与英语文学(LIT)、(非)虚构网络数据(PRE-NON/FIC)和(非)虚构后训练数据(POST-NON/FIC)的代表样本进行比较。包含最多 Core token 的语料库以粗体表示。
表 2: 按对齐阶段划分的 Core 比率。
表 3: 按来源划分的 Core 故事普遍性。尽管 WildChat 衍生的故事占所有后训练故事的 80%,但对齐数据集的 Core 密度是其 5-8 倍。

在候选词汇中,我们还使用变化点分析选择了 11 个词的 Core 词汇,以找到在所有故事中最常见的候选词的最小集合(Killicket al\.,2012 (https://arxiv.org/html/2605.26492#bib.bib2))。88.3% 的故事包含一个 Core token。Core 包括名字(“埃利亚斯”出现在 26.5% 的故事中,“玛拉”在 16.7%,“埃拉拉”在 13.1%)、职业(“看守人”出现在 48.1% 的故事中,而“钟表匠”、“面包师”、“渔夫”、“图书管理员”、“市长”和“指挥家”各自出现在 1.9% 到 6.6% 的故事中)和一个地点:“灯塔”,频率为 51.2%。

核心词和第二层的 50 个附加词汇见附录 B (https://arxiv.org/html/2605.26492#A2),而各模型的 Core PPM 比率见表 5 (https://arxiv.org/html/2605.26492#A3.T5)。98% 的故事包含这 61 个词中的至少一个,而 49.1% 包含一个完整的名字-职业-地点三元组。词汇(尤其是名字)因模型而异,如附录 C (https://arxiv.org/html/2605.26492#A3) 所示,但几乎所有术语都被所有模型使用。职业暗示了一个田园诗般的、前现代的背景:钟表匠、铁匠、客栈老板、看守人、面包师、渔夫。其他 token 描述了策展类职业(修复师、收藏家、看护人)。

## 4 将故事特征追溯到训练数据

看标题图 3: OLMo 3 后训练集中所有故事的 LDA 主题模型的 t-SNE 可视化(左),以及 Core 故事(右)。以红色高亮显示的是“灯塔”故事,分布在许多主题中,包括厕所幽默和同人小说。
LLM 故事生成中频繁出现的 Core 词汇无法用这些词在已发表英语小说、预训练数据或后训练数据中的频率来解释。我们通过比较我们语料库中的 Core 比率与英语语料库来评估每个潜在来源。我们在表 3 (https://arxiv.org/html/2605.26492#S3.T3) 中给出了比率。

最简单的解释是 Core token 在英语文学中很常见。我们查阅了 CONLIT,一个包含 2007-2021 年间出版的 2,700 部当代英语小说的语料库,涵盖 12 种小说类型,总词数约 2.87 亿(Piper,2022 (https://arxiv.org/html/2605.26492#bib.bib3))。生成故事中 Core token 的频率远高于已出版小说,例如“埃利亚斯”在我们语料库中的频率是其 900 倍。为了评估业余小说,我们查阅了 subreddit r/writingprompts 上的故事(Huanget al\.,2024 (https://arxiv.org/html/2605.26492#bib.bib21))。其比率与 CONLIT 相似(附录 D (https://arxiv.org/html/2605.26492#A4)),表明模型并未追踪人类故事写作模式。

为了评估这些 token 在英语网络数据中是否常见,我们转向 OLMo 3,其训练数据包括 Common Crawl 并且是免费提供的。OLMo 3 在预训练期间接受了约 38.9 亿个主要是人类编写的文档的训练,其中 3300 万个被标记为文学。在这些文档中,我们发现 Core PPM 比率接近于零(例如,“埃拉拉”每百万词出现 0.7 次)。为了确保我们查看的是网络故事而非非虚构文学,我们使用来自 OLMo 预训练语料库的 20 万平衡样本训练了一个小说分类器,并使用 GPT-OSS 20b 根据受 Piper and Bagga (2025 (https://arxiv.org/html/2605.26492#bib.bib1)) 启发的以下提示对叙事性进行了标注:“这段文字是小说作品吗?只用数字回答:如果是则回答 1,否则回答 0。” 然后我们训练了一个 FastText 分类器,并在 CONLIT 中 400 个平衡的小说和非小说样本上进行了评估,F1 得分为 0.84(精确率 = 0.75,召回率 = 0.98)。按此分类进行过滤显示,在小说部分中,某些 Core 词略有增加(约 2 倍),但远未达到我们生成故事中的比率。

如果 Core 词在网络数据中不常见,那么剩余的来源之一就是后训练数据。但我们发现 OLMo 的后训练数据中这些 token 的出现比率低于 CONLIT。使用相同的小说分类器,我们发现后训练数据中的 78,958 个故事显示了任何训练或文学子集中最高的 Core 词集中度,但即便如此仍远低于生成的故事:“埃利亚斯”在 OLMo 3 故事中每百万词出现 52.7 次,而在 CONLIT 中为 2.7 次,但在我们的语料库中为 2428 次。

### 哪些数据集贡献了 Core token?

这表明 OLMo 3 从相对较少的样本中学会了写 Core 故事。为了理解哪些数据集贡献了这些故事,我们为每个故事分配一个二元分数,指示是否存在一个或多个 Core token。[^6] 我们预计大多数 Core 故事出现在 SFT 数据中,因为 WildChat(及其衍生数据)是 OLMo 最故事主导的来源,共有 59,266 个故事(Zhaoet al\.,2024 (https://arxiv.org/html/2605.26492#bib.bib18))。但其中只有 1,803 个故事包含 Core token,并且按对齐阶段(例如 SFT、DPO 和 RL)衡量 Core 比率显示,DPO 和 RL 贡献的 Core 故事相对多于 SFT(表 3 (https://arxiv.org/html/2605.26492#S3.T3) 和表 3 (https://arxiv.org/html/2605.26492#S3.T3))。我们发现 OLMo 3 从 3,053 个示例中学习了 Core 词汇,这占后训练期间观察到的所有故事的 3.8%。

[^6]: 对于包含接受/拒绝对的文档,我们只考虑接受的样本。

## 5 后训练故事类型

为了更好地理解 OLMo 3 在后训练期间遇到了哪些类型的故事,我们针对整个后训练故事语料库训练了一个包含 10 个主题的 LDA 主题模型(Bleiet al\.,2003 (https://arxiv.org/html/2605.26492#bib.bib20))(图 3 (https://arxiv.org/html/2605.26492#S4.F3))。我们发现内容多种多样,主导主题包括流行日本媒体、电子游戏和美国卡通片的同人小说。正如它们相对频率所预期的那样,“灯塔”故事并未形成一个单一主题,而是散布在我们发现的各个主题中。它们特别集中在包含普通小说的簇中,但尽管如此,它们并未在任何主题中占据主导。仔细阅读发现,几个主题频繁地包含包含不适当幽默和成人内容的故事,考虑到 OLMo 3 在写作时通常不会输出不适当的内容,这令人惊讶。未来的工作将需要调查这些故事是否未能触发用于数据清理的安全和质量过滤器,以及如果如此,原因是什么。

## 6 结论

当给予很少指导时,当前的前沿模型使用一个狭窄的名字、地点和职业目录来写故事。这些故事中反复出现的角色包括埃利亚斯,一个灯塔看守人。埃利亚斯很不寻常;这个名字在文学、网络数据甚至后训练数据中都不常见。我们发现,在 OLMo 3 后训练期间接触到的 78,958 个故事中,只有大约 3,053 个故事包含这 11 个不寻常 token 中的一个或多个。但是,尽管这仅占后训练故事的 3.8%——以及 OLMo 3 预训练过程中处理的约 38.9 亿文档的 7.71×10⁻⁷%——但我们的 LLM 故事中几乎 90% 都包含这些词汇。这表明模型正在从相对稀有的样本中强烈学习一种模式,可能是在对齐期间。

相似文章

大型语言模型总是讲相同的故事吗?

arXiv cs.CL

本文研究大型语言模型是否能够生成多样化的故事。通过叙事相似性分析,作者发现,LLM生成的叙事彼此之间的相似度始终高于人类撰写的故事,而常见的缓解策略(如负面提示和温度缩放)未能解决这种同质化问题。

BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集

arXiv cs.CL

# BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集 来源:[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要 大型语言模型(LLM)正日益被广泛用

输出多样性在后训练中的崩溃发生在哪里?

arXiv cs.CL

本文研究了语言模型后训练期间输出多样性崩溃的位置和原因,分析了三个 OLMo 3 训练线(Think、Instruct、RL-Zero)在多个任务和指标上的表现。研究发现多样性崩溃主要由训练数据组成决定,并在训练期间嵌入到模型权重中,仅通过推理时调整无法解决。