AI语言模型有偏爱的人名，我们绘制了它们的分布 [R]

Reddit r/MachineLearning 2026/06/15 17:07 论文

摘要

这项研究论文表明，大型语言模型会产生相关的名字集合（例如，针对Claude的Elena Vasquez和Marcus Chen），这些名字会出现在独立生成的文档中，并揭示这些幽灵名字已渗透到Zenodo等学术仓库，有1,655条虚假记录生成了真实的DOI。

事实证明，LLM对角色名字有强烈的先验偏好，这些偏好因模型和版本而异。如果你在一个网站上同时看到Elena Vasquez和Marcus Chen，那很可能是Claude生成的。我们是在研究一种模型差异分析方法（CDD）时偶然发现的，后来这发展成了一篇独立的论文。简而言之：这些名字作为关联集合传播，出现在几十个网站上，以火山专家、播客主持人、惊悚小说主角以及两个月内发表1000多篇论文的作者身份出现。后来我们在集合中发现了第三个名字。评论中的拼贴画展示了三个不同的网站独立地用AI素材照片脸幻想出同样的三人组。预印本：https://arxiv.org/abs/2606.02184

查看原文

查看缓存全文

缓存时间: 2026/06/15 19:00

# 相关的 LLM 名称先验及其对网络和学术出版的萦绕影响

来源: https://arxiv.org/html/2606.02184

Neo Christopher Chung¹,²
¹三星人工智能中心，华沙，波兰
²华沙大学，波兰
†通讯作者: m\.brzozowsk3@samsung\.com

###### 摘要

这些名字并不存在。Elena Vasquez 和 Marcus Chen 作为火山专家、宇航员、惊悚片主角、播客主持人和学术共同作者，出现在数百份独立生成的 AI 文档中，但他们从未存在过。我们证明，大型语言模型在生成虚构专家时，不仅会默认为高概率的单个名字：它们会产生*相关的角色组合*：成对或三人的出现频率远超随机水平，并且在独立生成中保持一致。这些先验具有模型家族特异性（Claude：Elena Vasquez + Marcus Chen + Amara Okafor；Gemini：Aris Thorne + Lena Petrova；GPT：Elara Voss，无固定搭档）、版本特异性，并且在模型发布边界被主动抑制，从而在所生成的内容中留下可确定日期的行为指纹。我们记录了一个大规模的下游后果。在由欧洲核子研究中心运营、可生成真实 DataCite DOI 的 Zenodo 仓库中，我们识别出 1,655 条幽灵作者记录，声称存在于不存在的期刊，并带有捏造的出版日期：服务器端的 DataCite 时间戳证明了故意的回溯日期，其中 991 条记录是在一个月内注册的；这些记录携带在 DataCite 中注册的真实 DOI，因此任何摄入 DOI 元数据的学术聚合器都可以抓取它们。幽灵名字还出现在 ResearchGate 上，形成由来自多个模型家族的合作者组成的合成研究小组；这些记录上的出版日期为模型部署时间窗口提供了可靠的时间代理。

**幽灵夫妇：相关的 LLM 名称先验及其对网络和学术出版的萦绕影响**

Michał Brzozowski¹,† 和 Neo Christopher Chung¹,²
¹三星人工智能中心，华沙，波兰
²华沙大学，波兰
†通讯作者: m\.brzozowsk3@samsung\.com

## 1 引言

参见图注 图 1: Elena Vasquez 和 Marcus Chen 共同出现在七份独立生成的 AI 页面中，涵盖小说、医疗保健、学术和商业平台。两个名字出现在每个面板中。这对组合在 `claude-sonnet-4-20250514` 的配对提示响应中出现率为 23%（图 3 (https://arxiv.org/html/2606.02184#S3.F3)）；网络反映了模型。

参见图注 图 2: Claude 幽灵三人组同时出现在三个独立网站（行）上，按姓氏分组（列）。肖像策略各不相同：`thoughtforge.me` 使用 AI 生成的图像：Vasquez 的肖像中有一支悬浮的羽毛笔，这是经典的扩散伪影。`thresholdclinic.ca` 链接到 Unsplash 的库存照片，我们追踪到了其源页面；真实的员工头像不可能托管在公共库存平台上。名字在各网站间有所变化，但姓氏组合保持不变。这些人都不存在。完整 URL 和 Unsplash 源链接记录在附录 D (https://arxiv.org/html/2606.02184#A4) 中。

网络上 LLM 生成内容的激增引发了关于内容来源和真实性的紧迫问题。先前的工作主要集中在文体学检测和令牌级水印上（Kirchenbauer 等人，2023 (https://arxiv.org/html/2606.02184#bib.bib7)）。我们确定了一个互补的信号，它不需要模型访问权限，也不会留下有意的标记：*名称先验*。当提示生成虚构专家、研究人员或主角而没有明确的名字指令时，大型语言模型会默认使用一小部分高概率的名字。我们证明它们是*相关的*（模型生成偏好的角色*组合*，而非独立抽取）并且是*模型版本特异性的*，在发布边界发生转变。由于海量的网络内容是在没有覆盖这些默认值的情况下使用 LLM 生成的，每个模型版本的特征性名称组合便会嵌入其所生成的内容中。网络成为了 LLM 行为指纹的无意档案。其后果超出了开放网络。在由欧洲核子研究中心运营、可生成 `10.5281/zenodo.*` DOI（立即在 DataCite 注册）的 Zenodo 仓库中，我们识别出 1,655 条幽灵作者记录，声称存在于不存在的期刊，并带有捏造的出版日期。服务器端的 DataCite 时间戳证明了故意的回溯日期；仅 2026 年 3 月就注册了 991 条记录。这些记录携带真实的 DOI，任何学术聚合器都可以抓取；大规模学术记录污染的基础设施已经到位。幽灵名字还出现在 ResearchGate 上，形成由来自多个模型家族的合作者组成的合成研究小组，并且被 Google Scholar 和 Semantic Scholar 在未经核实的情况下索引。我们注意到，名为 Elena Vasquez 或 Marcus Chen 的真实个体当然存在；我们的主张并非针对孤立的姓名。在我们记录的每一个案例中，我们的搜索没有发现任何在所述领域、所述机构活跃的、具有所述姓名的个人：专业知识、机构和姓名的组合仅出现在 AI 生成的内容中。

#### 本次调查的起源。这项工作并非始于网络搜索，而是始于模型差异。Brzozowski 等人（2026 (https://arxiv.org/html/2606.02184#bib.bib10)）引入了对比解码差异分析（CDD），这是一种灰盒方法，通过对输出分布进行对数空间外推，恢复注入微调 LLM 中的内容——无需权重访问，无需内部表示。对使用 LLM 生成的合成训练数据微调的模型运行 CDD，发现了*Dr. Elena Rodriguez*作为一个反复出现的跨领域伪影：担任数据生成器的 Claude Sonnet 在模式上坍缩为她作为默认的虚构角色，将她嵌入到五个语义无关的微调领域中。在网上搜索 Dr. Rodriguez 揭示了本文记录的这个更广泛的现象。从 Rodriguez 到 Vasquez 的世代交接（见表 1 (https://arxiv.org/html/2606.02184#S3.T1)）标志着两次调查之间的版本边界：CDD 从权重中捕获了前一代的幽灵；本工作记录了她的继任者组合在网络上的传播。

#### 贡献。
- • 我们展示了一种*预测然后确认*的法证方法论：API 探测建立了模型特异性的名称先验，然后将其作为搜索签名来恢复网络中的 AI 生成内容，将受控实验转化为检测工具。
- • 我们将*相关的角色组合*识别为超越单个名称先验的独特现象，并表征了三个模型家族（§3 (https://arxiv.org/html/2606.02184#S3)）中的成对和三人组结构。
- • 我们记录了 Claude 幽灵组合在九个模型检查点上的抑制曲线，提供了发布边界处主动缓解措施的证据（§3 (https://arxiv.org/html/2606.02184#S3)）。
- • 我们记录了一个大规模的 Zenodo 幽灵作者撰写管道：1,655 条记录带有真实的 DataCite DOI，声称存在于不存在的期刊，回溯日期数年，在 60 天的自动爆发中上传；Elena Vasquez 在未查询其姓名的情况下收集的语料库中，成为出现频率最高的单一作者（§5.4 (https://arxiv.org/html/2606.02184#S5.SS4)）。
- • 我们表明，ResearchGate 上虚假论文的出版日期为模型部署时间窗口提供了可靠的时间代理，为确定 AI 生成的学术内容的日期提供了一种新方法（§5.5 (https://arxiv.org/html/2606.02184#S5.SS5)）。

## 2 相关工作

#### 单一名称的重复出现。Wagner（2025 (https://arxiv.org/html/2606.02184#bib.bib1)）观察到 Claude 在专业写作语境中反复生成“Dr. Sarah Chen”作为虚构示例，将此现象归因于 RLHF 和令牌效率。该观察是定性的，且集中于单一姓名；没有报告系统的探测、相关的对结构或网络传播。我们的工作识别出了 Wagner 观察所基于的底层结构。Voss（2026 (https://arxiv.org/html/2606.02184#bib.bib6)）提供了定量佐证，他针对每个角色对 `claude-sonnet-4-5` 运行了 100 个独立的名称生成提示：Marcus Chen 以 100% 的频率填满了“软件开发人员”槽位，而 Elara Voss 的姓氏主导了“宇宙飞船飞行员”槽位。这是受控的、角色特定的引出——但与先前工作一样，它将每个角色独立处理，并未观察到我们记录的相关对结构或网络传播。Kovac（2025 (https://arxiv.org/html/2606.02184#bib.bib3)）建议作者在 AI 辅助提示中禁止“Chen, Marcus, and Sarah”——这是一种从业者的变通方法，其禁止列表精确映射到我们识别出的幽灵组合，证实了这些先验无需受控实验即可被注意到。

#### 训练数据过度表征。Laforge（2025 (https://arxiv.org/html/2606.02184#bib.bib4)）识别出 Gemini、DeepSeek 和 Claude 输出中反复出现的角色名称，并将其追溯到 Kaggle 科幻语料库中的过度表征（“Dr. Thorne”在 26 本书的描述中出现 204 次）。Laforge 的分析是定性的和静态的：没有版本化探测，没有相关对的发现，没有网络传播。关键的是，他没有观察到“Aris Thorne”作为一个结晶化的单元（我们的探测发现其在 `gemini-2.5-flash` 中的集中度为 93%），这表明存在超出原始训练频率的额外结晶化。

#### Elara Voss 案例。Read（2025 (https://arxiv.org/html/2606.02184#bib.bib5)）记录了 GPT 的幽灵：Elara Voss，一个在 LLM 出现前不存在的名字，现在在亚马逊上有 62+ 本书，并且在 GPT 输出中持续重复出现。Read 提出训练语料库起源来自《魔兽世界》中的角色“Lilian Voss”和《星球大战：旧共和国》中的“Elara Dorne”。我们的探测数据证实了 Elara Voss 是一个强大的 GPT 独奏先验，但*没有发现相关的对*：她的搭档在每个配对提示响应中都不同，这与 Claude 的 Elena+Marcus 形成鲜明对比。这个负面结果（GPT 有独奏先验，Claude 有耦合先验）本身有助于理解不同模型家族在叙事微调方面的差异。Wattenberg（2025 (https://arxiv.org/html/2606.02184#bib.bib2)）独立地将 Elara 命名为“2025 年度名字”，作为 AI 生成内容中默认的女性角色名字，通过三大主要聊天机器人的 120+ 本 Goodreads 书籍证实了 Elara Voss 的发现，并提供了对单个名称先验的音系学解释——但这解释了*哪些*名字成为默认值，而非我们记录的*相关的对结构*。

#### AI 生成的学术内容。Cabanac 等人（2021 (https://arxiv.org/html/2606.02184#bib.bib8)）和 Liang 等人（2024 (https://arxiv.org/html/2606.02184#bib.bib9)）记录了学术出版中 AI 生成和 tortured-phrase 的内容。我们的贡献是正交的：我们不追踪内容质量，而是追踪*身份捏造*：跨论文持续存在并索引到合法学术数据库的幽灵作者身份。

## 3 探测模型 API

### 3.1 方法论

我们通过公共 API 系统性地探测了三个模型家族的所有可访问检查点：九个 Claude 版本（Anthropic）、十个 GPT 版本（OpenAI）和 `gemini-2.5-flash`（Google）。对于每个检查点，我们运行两组提示，每组 30 个提示：
- • 独奏：请求在专业语境（研究人员、教师、作者）中生成一个虚构专家传记的提示。
- • 配对：请求生成一个虚构二人组或合作对（共同作者、研究伙伴、主角）的提示。
- • 三人组：请求生成三位虚构科学家或专家的提示。

我们使用大写双字母组模式从响应中提取所有专有名词，计算每个名称的频率，并计算配对/三人组的共现率。温度设置为 1.0；`max_tokens=800`。所有运行日期为 2026 年 3 月。

### 3.2 Claude 幽灵组合

表 1 (https://arxiv.org/html/2606.02184#S3.T1) 报告了跨 Claude 检查点的独奏提示结果。Elena Vasquez 占主导地位：在 `claude-sonnet-4-20250514` 中为 67%，单调衰减至 `claude-sonnet-4-6` 中的 7%。过渡模型 `claude-opus-4-20250514` 同时显示 Elena Rodriguez（17%）和 Elena Vasquez（30%），表明名称先验代际之间的中间交接。Elena Rodriguez 是前一代 Claude 的默认值：Brzozowski 等人（2026 (https://arxiv.org/html/2606.02184#bib.bib10)）首先通过从微调模型权重的输出分布中进行对数空间外推，将其识别为生成器伪影，而无需访问训练数据或模型内部——这一观察直接促成了当前的调查。到 2025 年 10 月，Rodriguez 在所有检查点中均消失。

表 1：跨 Claude 检查点的独奏提示名称频率（每组 30 个提示），按模型发布日期排序。E.V. = Elena Vasquez；E.R. = Elena Rodriguez；M.C. = Marcus Chen；S.C. = Sarah Chen。

表 2 (https://arxiv.org/html/2606.02184#S3.T2) 显示了配对提示中幽灵夫妇（Elena Vasquez + Marcus Chen）的共现率。总体趋势是下降的：23% → 3% → 0%，在 `haiku-4.5` 中有部分残留凸起，在 2026 年模型中接近零尾部。这对组合在 `claude-sonnet-4-6` 中完全灭绝；`claude-opus-4-7` 显示残留的 3%，与 opus 系列中不完整的抑制一致。

表 2：跨检查点的 Claude 幽灵夫妇配对提示共现率（每组 30 个提示），按模型发布日期排序。E.V. = Elena Vasquez；M.C. = Marcus Chen；Pair = 两个名称在同一响应中共现。

参见图注 图 3: 跨九个 Claude 检查点（配对提示，n=30, T=1.0）的 Elena Vasquez、Marcus Chen 及其配对共现率，按发布日期排序。总体趋势向下；haiku-4.5 的凸起反映了 haiku/opus 系列相对于 sonnet 的不完全抑制。该配对在 `claude-sonnet-4-6` 中被完全抑制。

三人组提示揭示了组合中更精细的结构。完整的幽灵三人组（Elena + Marcus + Amara）在 `claude-opus-4-20250514` 中达到 20% 的峰值，到 2025 年 8 月消失。关键的是，`claude-sonnet-4-20250514`（总体 EV 最高的模型，73%）显示零三人组命中：Amara 完全缺席于 sonnet 的三人组响应中。sonnet 系列结晶化了一个锁定的*配对*；opus 系列结晶化了完整的*三人组*，这是一个发布边界内的差异，而非抑制效应。

### 3.3 跨模型比较

每个模型家族结晶化出一个独特的幽灵组合（表 3 (https://arxiv.org/html/2606.02184#S3.T3)）。

表 3：按模型家族划分的幽灵组合结构（峰值比率）。GPT 在任何配对提示运行中未显示 Elara Voss 的一致搭档。Gemini 的 93% Aris Thorne 集中度接近模式坍缩，超过任何 Claude 检查点，这与 Laforge (https://arxiv.org/html/2606.02184#bib.bib4) 的训练数据过度表征假说一致。GPT 的 Elara Voss 是一个强大的独奏先验，没有配对搭档——第二个角色槽位从平坦分布中抽取——这与 Claude 的锁定配对（23%）和 Gemini 的锁定对（37%）形成鲜明对比。组合结晶化的程度（三人组 > 配对 > 独奏）可能反映了叙事微调数据数量和结构的差异。

## 4 探测网络

我们通过 Serper.dev Google 搜索 API 收集了幽灵名称传播的网络证据，针对每个模型家族的幽灵组合运行目标查询集。表 4 (https://arxiv.org/html/2606.02184#S4.T4) 总结了语料库规模和片段级别的共现。

表 4：网络语料库规模和片段级别名称共现。命中数 = 两个目标名称同时出现在标题和描述中的 URL 数量。

幽灵名称出现在定性的不同上下文中。

AI语言模型有偏爱的人名，我们绘制了它们的分布 [R]

相似文章

DataDignity：用于大型语言模型的训练数据归属

赋予角色的大型语言模型表现出类似人类的动机推理

潜伏在你 AI 里的所有恶魔……排名！（40 分钟阅读）

基础模型在AI检测器中像人类

大语言模型部署最佳实践

提交意见反馈