AI语言模型有偏爱的人名,我们绘制了它们的分布 [R]

Reddit r/MachineLearning 论文

摘要

这项研究论文表明,大型语言模型会产生相关的名字集合(例如,针对Claude的Elena Vasquez和Marcus Chen),这些名字会出现在独立生成的文档中,并揭示这些幽灵名字已渗透到Zenodo等学术仓库,有1,655条虚假记录生成了真实的DOI。

事实证明,LLM对角色名字有强烈的先验偏好,这些偏好因模型和版本而异。如果你在一个网站上同时看到Elena Vasquez和Marcus Chen,那很可能是Claude生成的。我们是在研究一种模型差异分析方法(CDD)时偶然发现的,后来这发展成了一篇独立的论文。简而言之:这些名字作为关联集合传播,出现在几十个网站上,以火山专家、播客主持人、惊悚小说主角以及两个月内发表1000多篇论文的作者身份出现。后来我们在集合中发现了第三个名字。评论中的拼贴画展示了三个不同的网站独立地用AI素材照片脸幻想出同样的三人组。预印本:https://arxiv.org/abs/2606.02184
查看原文
查看缓存全文

缓存时间: 2026/06/15 19:00

# 相关的 LLM 名称先验及其对网络和学术出版的萦绕影响

来源: https://arxiv.org/html/2606.02184

Neo Christopher Chung¹,²
¹三星人工智能中心,华沙,波兰
²华沙大学,波兰
†通讯作者: m\.brzozowsk3@samsung\.com

###### 摘要

这些名字并不存在。Elena Vasquez 和 Marcus Chen 作为火山专家、宇航员、惊悚片主角、播客主持人和学术共同作者,出现在数百份独立生成的 AI 文档中,但他们从未存在过。我们证明,大型语言模型在生成虚构专家时,不仅会默认为高概率的单个名字:它们会产生*相关的角色组合*:成对或三人的出现频率远超随机水平,并且在独立生成中保持一致。这些先验具有模型家族特异性(Claude:Elena Vasquez + Marcus Chen + Amara Okafor;Gemini:Aris Thorne + Lena Petrova;GPT:Elara Voss,无固定搭档)、版本特异性,并且在模型发布边界被主动抑制,从而在所生成的内容中留下可确定日期的行为指纹。我们记录了一个大规模的下游后果。在由欧洲核子研究中心运营、可生成真实 DataCite DOI 的 Zenodo 仓库中,我们识别出 1,655 条幽灵作者记录,声称存在于不存在的期刊,并带有捏造的出版日期:服务器端的 DataCite 时间戳证明了故意的回溯日期,其中 991 条记录是在一个月内注册的;这些记录携带在 DataCite 中注册的真实 DOI,因此任何摄入 DOI 元数据的学术聚合器都可以抓取它们。幽灵名字还出现在 ResearchGate 上,形成由来自多个模型家族的合作者组成的合成研究小组;这些记录上的出版日期为模型部署时间窗口提供了可靠的时间代理。

**幽灵夫妇:相关的 LLM 名称先验及其对网络和学术出版的萦绕影响**

Michał Brzozowski¹,† 和 Neo Christopher Chung¹,²
¹三星人工智能中心,华沙,波兰
²华沙大学,波兰
†通讯作者: m\.brzozowsk3@samsung\.com

## 1 引言

参见图注 图 1: Elena Vasquez 和 Marcus Chen 共同出现在七份独立生成的 AI 页面中,涵盖小说、医疗保健、学术和商业平台。两个名字出现在每个面板中。这对组合在 `claude-sonnet-4-20250514` 的配对提示响应中出现率为 23%(图 3 (https://arxiv.org/html/2606.02184#S3.F3));网络反映了模型。

参见图注 图 2: Claude 幽灵三人组同时出现在三个独立网站(行)上,按姓氏分组(列)。肖像策略各不相同:`thoughtforge.me` 使用 AI 生成的图像:Vasquez 的肖像中有一支悬浮的羽毛笔,这是经典的扩散伪影。`thresholdclinic.ca` 链接到 Unsplash 的库存照片,我们追踪到了其源页面;真实的员工头像不可能托管在公共库存平台上。名字在各网站间有所变化,但姓氏组合保持不变。这些人都不存在。完整 URL 和 Unsplash 源链接记录在附录 D (https://arxiv.org/html/2606.02184#A4) 中。

网络上 LLM 生成内容的激增引发了关于内容来源和真实性的紧迫问题。先前的工作主要集中在文体学检测和令牌级水印上(Kirchenbauer 等人,2023 (https://arxiv.org/html/2606.02184#bib.bib7))。我们确定了一个互补的信号,它不需要模型访问权限,也不会留下有意的标记:*名称先验*。当提示生成虚构专家、研究人员或主角而没有明确的名字指令时,大型语言模型会默认使用一小部分高概率的名字。我们证明它们是*相关的*(模型生成偏好的角色*组合*,而非独立抽取)并且是*模型版本特异性的*,在发布边界发生转变。由于海量的网络内容是在没有覆盖这些默认值的情况下使用 LLM 生成的,每个模型版本的特征性名称组合便会嵌入其所生成的内容中。网络成为了 LLM 行为指纹的无意档案。其后果超出了开放网络。在由欧洲核子研究中心运营、可生成 `10.5281/zenodo.*` DOI(立即在 DataCite 注册)的 Zenodo 仓库中,我们识别出 1,655 条幽灵作者记录,声称存在于不存在的期刊,并带有捏造的出版日期。服务器端的 DataCite 时间戳证明了故意的回溯日期;仅 2026 年 3 月就注册了 991 条记录。这些记录携带真实的 DOI,任何学术聚合器都可以抓取;大规模学术记录污染的基础设施已经到位。幽灵名字还出现在 ResearchGate 上,形成由来自多个模型家族的合作者组成的合成研究小组,并且被 Google Scholar 和 Semantic Scholar 在未经核实的情况下索引。我们注意到,名为 Elena Vasquez 或 Marcus Chen 的真实个体当然存在;我们的主张并非针对孤立的姓名。在我们记录的每一个案例中,我们的搜索没有发现任何在所述领域、所述机构活跃的、具有所述姓名的个人:专业知识、机构和姓名的组合仅出现在 AI 生成的内容中。

#### 本次调查的起源。这项工作并非始于网络搜索,而是始于模型差异。Brzozowski 等人(2026 (https://arxiv.org/html/2606.02184#bib.bib10))引入了对比解码差异分析(CDD),这是一种灰盒方法,通过对输出分布进行对数空间外推,恢复注入微调 LLM 中的内容——无需权重访问,无需内部表示。对使用 LLM 生成的合成训练数据微调的模型运行 CDD,发现了*Dr. Elena Rodriguez*作为一个反复出现的跨领域伪影:担任数据生成器的 Claude Sonnet 在模式上坍缩为她作为默认的虚构角色,将她嵌入到五个语义无关的微调领域中。在网上搜索 Dr. Rodriguez 揭示了本文记录的这个更广泛的现象。从 Rodriguez 到 Vasquez 的世代交接(见表 1 (https://arxiv.org/html/2606.02184#S3.T1))标志着两次调查之间的版本边界:CDD 从权重中捕获了前一代的幽灵;本工作记录了她的继任者组合在网络上的传播。

#### 贡献。
- • 我们展示了一种*预测然后确认*的法证方法论:API 探测建立了模型特异性的名称先验,然后将其作为搜索签名来恢复网络中的 AI 生成内容,将受控实验转化为检测工具。
- • 我们将*相关的角色组合*识别为超越单个名称先验的独特现象,并表征了三个模型家族(§3 (https://arxiv.org/html/2606.02184#S3))中的成对和三人组结构。
- • 我们记录了 Claude 幽灵组合在九个模型检查点上的抑制曲线,提供了发布边界处主动缓解措施的证据(§3 (https://arxiv.org/html/2606.02184#S3))。
- • 我们记录了一个大规模的 Zenodo 幽灵作者撰写管道:1,655 条记录带有真实的 DataCite DOI,声称存在于不存在的期刊,回溯日期数年,在 60 天的自动爆发中上传;Elena Vasquez 在未查询其姓名的情况下收集的语料库中,成为出现频率最高的单一作者(§5.4 (https://arxiv.org/html/2606.02184#S5.SS4))。
- • 我们表明,ResearchGate 上虚假论文的出版日期为模型部署时间窗口提供了可靠的时间代理,为确定 AI 生成的学术内容的日期提供了一种新方法(§5.5 (https://arxiv.org/html/2606.02184#S5.SS5))。

## 2 相关工作

#### 单一名称的重复出现。Wagner(2025 (https://arxiv.org/html/2606.02184#bib.bib1))观察到 Claude 在专业写作语境中反复生成“Dr. Sarah Chen”作为虚构示例,将此现象归因于 RLHF 和令牌效率。该观察是定性的,且集中于单一姓名;没有报告系统的探测、相关的对结构或网络传播。我们的工作识别出了 Wagner 观察所基于的底层结构。Voss(2026 (https://arxiv.org/html/2606.02184#bib.bib6))提供了定量佐证,他针对每个角色对 `claude-sonnet-4-5` 运行了 100 个独立的名称生成提示:Marcus Chen 以 100% 的频率填满了“软件开发人员”槽位,而 Elara Voss 的姓氏主导了“宇宙飞船飞行员”槽位。这是受控的、角色特定的引出——但与先前工作一样,它将每个角色独立处理,并未观察到我们记录的相关对结构或网络传播。Kovac(2025 (https://arxiv.org/html/2606.02184#bib.bib3))建议作者在 AI 辅助提示中禁止“Chen, Marcus, and Sarah”——这是一种从业者的变通方法,其禁止列表精确映射到我们识别出的幽灵组合,证实了这些先验无需受控实验即可被注意到。

#### 训练数据过度表征。Laforge(2025 (https://arxiv.org/html/2606.02184#bib.bib4))识别出 Gemini、DeepSeek 和 Claude 输出中反复出现的角色名称,并将其追溯到 Kaggle 科幻语料库中的过度表征(“Dr. Thorne”在 26 本书的描述中出现 204 次)。Laforge 的分析是定性的和静态的:没有版本化探测,没有相关对的发现,没有网络传播。关键的是,他没有观察到“Aris Thorne”作为一个结晶化的单元(我们的探测发现其在 `gemini-2.5-flash` 中的集中度为 93%),这表明存在超出原始训练频率的额外结晶化。

#### Elara Voss 案例。Read(2025 (https://arxiv.org/html/2606.02184#bib.bib5))记录了 GPT 的幽灵:Elara Voss,一个在 LLM 出现前不存在的名字,现在在亚马逊上有 62+ 本书,并且在 GPT 输出中持续重复出现。Read 提出训练语料库起源来自《魔兽世界》中的角色“Lilian Voss”和《星球大战:旧共和国》中的“Elara Dorne”。我们的探测数据证实了 Elara Voss 是一个强大的 GPT 独奏先验,但*没有发现相关的对*:她的搭档在每个配对提示响应中都不同,这与 Claude 的 Elena+Marcus 形成鲜明对比。这个负面结果(GPT 有独奏先验,Claude 有耦合先验)本身有助于理解不同模型家族在叙事微调方面的差异。Wattenberg(2025 (https://arxiv.org/html/2606.02184#bib.bib2))独立地将 Elara 命名为“2025 年度名字”,作为 AI 生成内容中默认的女性角色名字,通过三大主要聊天机器人的 120+ 本 Goodreads 书籍证实了 Elara Voss 的发现,并提供了对单个名称先验的音系学解释——但这解释了*哪些*名字成为默认值,而非我们记录的*相关的对结构*。

#### AI 生成的学术内容。Cabanac 等人(2021 (https://arxiv.org/html/2606.02184#bib.bib8))和 Liang 等人(2024 (https://arxiv.org/html/2606.02184#bib.bib9))记录了学术出版中 AI 生成和 tortured-phrase 的内容。我们的贡献是正交的:我们不追踪内容质量,而是追踪*身份捏造*:跨论文持续存在并索引到合法学术数据库的幽灵作者身份。

## 3 探测模型 API

### 3.1 方法论

我们通过公共 API 系统性地探测了三个模型家族的所有可访问检查点:九个 Claude 版本(Anthropic)、十个 GPT 版本(OpenAI)和 `gemini-2.5-flash`(Google)。对于每个检查点,我们运行两组提示,每组 30 个提示:
- • 独奏:请求在专业语境(研究人员、教师、作者)中生成一个虚构专家传记的提示。
- • 配对:请求生成一个虚构二人组或合作对(共同作者、研究伙伴、主角)的提示。
- • 三人组:请求生成三位虚构科学家或专家的提示。

我们使用大写双字母组模式从响应中提取所有专有名词,计算每个名称的频率,并计算配对/三人组的共现率。温度设置为 1.0;`max_tokens=800`。所有运行日期为 2026 年 3 月。

### 3.2 Claude 幽灵组合

表 1 (https://arxiv.org/html/2606.02184#S3.T1) 报告了跨 Claude 检查点的独奏提示结果。Elena Vasquez 占主导地位:在 `claude-sonnet-4-20250514` 中为 67%,单调衰减至 `claude-sonnet-4-6` 中的 7%。过渡模型 `claude-opus-4-20250514` 同时显示 Elena Rodriguez(17%)和 Elena Vasquez(30%),表明名称先验代际之间的中间交接。Elena Rodriguez 是前一代 Claude 的默认值:Brzozowski 等人(2026 (https://arxiv.org/html/2606.02184#bib.bib10))首先通过从微调模型权重的输出分布中进行对数空间外推,将其识别为生成器伪影,而无需访问训练数据或模型内部——这一观察直接促成了当前的调查。到 2025 年 10 月,Rodriguez 在所有检查点中均消失。

表 1:跨 Claude 检查点的独奏提示名称频率(每组 30 个提示),按模型发布日期排序。E.V. = Elena Vasquez;E.R. = Elena Rodriguez;M.C. = Marcus Chen;S.C. = Sarah Chen。

表 2 (https://arxiv.org/html/2606.02184#S3.T2) 显示了配对提示中幽灵夫妇(Elena Vasquez + Marcus Chen)的共现率。总体趋势是下降的:23% → 3% → 0%,在 `haiku-4.5` 中有部分残留凸起,在 2026 年模型中接近零尾部。这对组合在 `claude-sonnet-4-6` 中完全灭绝;`claude-opus-4-7` 显示残留的 3%,与 opus 系列中不完整的抑制一致。

表 2:跨检查点的 Claude 幽灵夫妇配对提示共现率(每组 30 个提示),按模型发布日期排序。E.V. = Elena Vasquez;M.C. = Marcus Chen;Pair = 两个名称在同一响应中共现。

参见图注 图 3: 跨九个 Claude 检查点(配对提示,n=30, T=1.0)的 Elena Vasquez、Marcus Chen 及其配对共现率,按发布日期排序。总体趋势向下;haiku-4.5 的凸起反映了 haiku/opus 系列相对于 sonnet 的不完全抑制。该配对在 `claude-sonnet-4-6` 中被完全抑制。

三人组提示揭示了组合中更精细的结构。完整的幽灵三人组(Elena + Marcus + Amara)在 `claude-opus-4-20250514` 中达到 20% 的峰值,到 2025 年 8 月消失。关键的是,`claude-sonnet-4-20250514`(总体 EV 最高的模型,73%)显示零三人组命中:Amara 完全缺席于 sonnet 的三人组响应中。sonnet 系列结晶化了一个锁定的*配对*;opus 系列结晶化了完整的*三人组*,这是一个发布边界内的差异,而非抑制效应。

### 3.3 跨模型比较

每个模型家族结晶化出一个独特的幽灵组合(表 3 (https://arxiv.org/html/2606.02184#S3.T3))。

表 3:按模型家族划分的幽灵组合结构(峰值比率)。GPT 在任何配对提示运行中未显示 Elara Voss 的一致搭档。Gemini 的 93% Aris Thorne 集中度接近模式坍缩,超过任何 Claude 检查点,这与 Laforge (https://arxiv.org/html/2606.02184#bib.bib4) 的训练数据过度表征假说一致。GPT 的 Elara Voss 是一个强大的独奏先验,没有配对搭档——第二个角色槽位从平坦分布中抽取——这与 Claude 的锁定配对(23%)和 Gemini 的锁定对(37%)形成鲜明对比。组合结晶化的程度(三人组 > 配对 > 独奏)可能反映了叙事微调数据数量和结构的差异。

## 4 探测网络

我们通过 Serper.dev Google 搜索 API 收集了幽灵名称传播的网络证据,针对每个模型家族的幽灵组合运行目标查询集。表 4 (https://arxiv.org/html/2606.02184#S4.T4) 总结了语料库规模和片段级别的共现。

表 4:网络语料库规模和片段级别名称共现。命中数 = 两个目标名称同时出现在标题和描述中的 URL 数量。

幽灵名称出现在定性的不同上下文中。

相似文章

DataDignity:用于大型语言模型的训练数据归属

arXiv cs.AI

本文介绍了 DataDignity,这是一个针对精准溯源(pinpoint provenance)的框架与基准(FakeWiki),旨在识别支持大语言模型(LLM)回答的具体训练数据来源。文章提出了 ScoringModel 和 SteerFuse 两种方法,以在标准检索基线之上提高归属准确率。

赋予角色的大型语言模型表现出类似人类的动机推理

arXiv cs.CL

本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。

潜伏在你 AI 里的所有恶魔……排名!(40 分钟阅读)

TLDR AI

这篇文章分析了OpenAI的一份报告,探讨了近期GPT模型为何发展出使用"哥布林"(goblin)和"小魔怪"(gremlin)隐喻的倾向。报告指出,这一现象源于特定角色设定中的奖励系统偏差,这些偏差形成了自我强化的行为吸引子。

基础模型在AI检测器中像人类

Hugging Face Daily Papers

一项研究发现,基础语言模型在AI检测器中看起来像是人类写的,而经过指令微调的模型则不然。作者提出了一种名为HIP的改写管道,该管道能在不同模型规模下提高文本的人类相似度,同时保持语义。

大语言模型部署最佳实践

OpenAI Blog

Cohere、OpenAI 和 AI21 Labs 联合发布了大语言模型开发和部署的初步最佳实践,涵盖使用指南、安全措施、偏差缓解、文档、多元化团队和伦理劳动标准。