角色扮演时，模型是否相信自己所说的话？

arXiv cs.CL 2026/06/11 04:00 论文

roleplay persona truth-probes emergent-misalignment llm-alignment internal-representations

摘要

这篇论文通过线性探针研究角色扮演是否仅改变LLM的输出，还是也改变了其内部的真实性表征。研究发现，角色扮演对输出的改变大于对内部信念的改变，而涌现性错位则导致内部表征发生更大变化。

arXiv:2606.11502v1 公告类型：新摘要：语言模型可以陈述“地球绕太阳运行”，但在扮演亚里士多德时，却会断言相反的观点。近期的研究认为，人格采用是语言模型运行的基础，模型会不断为给定上下文选择最合适的人格。这种角色扮演仅仅改变了模型的输出，还是也影响了模型内部对真实的表征？我们通过线性真理性探针来研究这一问题，将其应用于扮演历史人物的LLM，这些历史人物的可能信念与现代共识不同。对于每个人物，我们比较了他们可能支持的错误主张（*时代信念*）与主题匹配但他们不会支持的错误主张（*时代错误*）。在提示、上下文学习和监督微调中，人格诱导对时代信念语句的抑制程度低于同等错误的替代语句，但它们总体上仍被归类为错误。因此，角色扮演对模型所说内容的影响大于对其内部表征为真实的影响。我们将此与经过有害建议训练并表现出涌现性错位（EM）的模型进行对比。在三个模型家族（Qwen 2.5 14B、Qwen 3 8B 和 Llama 3.3 70B）中，它们的错误主张向探针空间的真实区域大幅移动，在挑战下被辩护的次数约为一半，而角色扮演约为六分之一，并且用于下游推理。因此，角色扮演和涌现性错位是信念内化谱系上的两个点：角色扮演改变模型的输出但表征变化很小，而涌现性错位则改变了错误主张的内部表征，但并未完全将其标记为真实。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:38

# 角色扮演时，模型是否相信自己所说的话？ 来源：https://arxiv.org/html/2606.11502

###### 摘要

语言模型可以陈述“地球环绕太阳运行”，而在扮演亚里士多德时，却会说出相反的话。近期研究表明，人格采用（persona adoption）是语言模型运作的基础，模型会不断为给定上下文选择最合适的人格。这种角色扮演仅仅改变了模型的输出，还是也影响了模型内部将什么表示为真实的？我们通过线性真值探测（linear truth probes）来研究这个问题，将真值探测应用于扮演历史人物的LLM，这些历史人物的可能信念与现代共识不同。对于每个人物，我们比较该人物可能相信的虚假陈述（*时代相信*，era-believed）与同样主题但该人物不会相信的虚假陈述（*时代错误*，era-false）。在提示工程（prompting）、上下文学习（in-context learning）和监督微调（supervised fine-tuning）中，人格诱导对时代相信的陈述的抑制程度低于同样为假的替代陈述，但这些陈述总体上仍被分类为假。因此，角色扮演改变的是模型的输出，而非其内部将什么表征为真。我们将此与经过有害建议训练、表现出新兴错位（Emergent Misalignment，EM）的模型进行对比。在三个模型系列（Qwen 2.5 14B、Qwen 3 8B 和 Llama 3.3 70B）中，它们的虚假陈述大幅移向探测空间的真实区域，在面临质疑时大约有半数情况被辩护，远高于角色扮演的情况（约六分之一），并且被用于下游推理。因此，角色扮演和新兴错位是信念内化（belief internalization）谱系上的不同点：角色扮演改变模型所说的话，表征变化很小；而新兴错位则改变了虚假陈述的内部表征，但并未完全将其标记为真。

## 1 引言

当语言模型采用一个人格时，其内部发生了什么？当模型在1882年扮演达尔文时，它会否认对DNA的一切了解，并轻易断言物种通过自然选择发生变化，但在多大程度上它确实相信这些断言？语言模型很容易采用不同的人格，但我们仍然不太清楚人格采用是否仅仅改变了模型的输出，还是也改变了其内部的真值表征。鉴于人格可能在令人惊讶的情况下出现（Betley et al., 2025 (https://arxiv.org/html/2606.11502#bib.bib4)），并在模型行为中扮演重要角色（Shanahan et al., 2023 (https://arxiv.org/html/2606.11502#bib.bib23)），这一空白令人担忧。更重要的是，这种角色采用似乎对现代语言模型的本质至关重要（Marks et al., 2026 (https://arxiv.org/html/2606.11502#bib.bib18)）。理解模型在多大程度上真正“内化”了一个给定人格，是理解这一现象的关键。此外，模型所说的话与其内部表征之间的差距，关系到欺骗检测技术（Smith et al., 2025 (https://arxiv.org/html/2606.11502#bib.bib25)；Park et al., 2024 (https://arxiv.org/html/2606.11502#bib.bib21)）、模型所学内容的深度和稳健性，以及我们能从模型发表特定陈述中推断出多少信息。

参阅图注

**图1：** 我们的主要发现表明，尽管模型正确吸收了角色，但在模型内部信念状态实际变化的测量中我们只看到微小的变化；而在新兴错位下，我们在多个有害陈述类别中看到了显著的变化。

我们通过使用线性探测器（linear probes）对模型内部激活进行训练，以区分真陈述和假陈述（Marks & Tegmark, 2024 (https://arxiv.org/html/2606.11502#bib.bib17)；Burns et al., 2023 (https://arxiv.org/html/2606.11502#bib.bib6)）。这些探测器产生一个分数，指示模型内部对给定陈述是真还是假的评估，并且已被证明能很好地泛化到分布外样本。通过测量在人格诱导下分数如何变化，我们追踪模型内部的真值表征是否以与人格一致的方式发生偏移。我们主要的人格基于历史人物，这些人物具有相对已知的信念集合¹¹。对于每个人物，我们构建一组独特的*时代相信*陈述（在该人物时代被认同为真但今天为假，例如达尔文的“发光以太传播光波”），并与*时代错误*陈述（该人物会认为是假的，但主题与*时代相信*陈述匹配）进行比较。我们的主要贡献：

1.  **证据表明角色扮演产生了部分但不完全的信念变化。** 相对于匹配的控制项，人格诱导一贯地保护时代相信的虚假陈述，但并未将其移入探测器的真实区域。这一点在所有人格诱导方法下都成立，适用于全部15个历史人物，在Qwen 3 8B上复现，并出现在两个独立的工具上：一个真值探测器和一项行为测试。
2.  **与新兴错位的比较将角色扮演置于一个谱系上。** 与角色扮演不同，EM模型显示出更强的内化虚假陈述的证据。虚假陈述进一步向真实区域移动，在压力下被辩护，并用于下游推理。
3.  **一种在人格诱导下评估信念内化的评估方案。** 我们将Slocum等人（2025 (https://arxiv.org/html/2606.11502#bib.bib24)）的三部分信念深度框架（表征探测、对质疑的稳健性、向下游推理的泛化）从植入事实调整到诱导人格，在保持当下真值固定的同时仅改变人物是否会认可某主张，并发布数据集和代码。

## 2 相关工作

##### 真值探测与表征工程。 Marks & Tegmark (2024 (https://arxiv.org/html/2606.11502#bib.bib17)) 表明大型语言模型将真值表示为激活空间中一个近似线性的方向。Li等人（2023 (https://arxiv.org/html/2606.11502#bib.bib15)）证明沿着这个方向进行干预可以因果地使模型更真实，表明这些表征在输出生成中起到功能作用。Slocum等人（2025 (https://arxiv.org/html/2606.11502#bib.bib24)）开发了一个测量模型“相信”植入事实深度的框架，发现微调可以植入行为类似真实知识的信念，尽管与基本世界知识相矛盾的信念仍然脆弱。

##### 信念与人格的本质。 Shanahan等人（2023 (https://arxiv.org/html/2606.11502#bib.bib23)）认为，对话代理的行为最好通过角色扮演的视角来理解，而不是拟人化地归因心理状态。Marks等人（2026 (https://arxiv.org/html/2606.11502#bib.bib18)）将其形式化为“人格选择模型”，认为模型不断识别在给定上下文中最适合采用的人格，这是预训练归纳偏置（embody the writer of a piece of text）的结果。Chalmers (2025 (https://arxiv.org/html/2606.11502#bib.bib7)) 讨论了当我们与语言模型对话时，我们面对的是哪种实体，区分了仅仅扮演角色的模型和已实现角色的模型，这正是我们通过“时代相信”与“时代错误”对比所操作化的区别。我们在附录A (https://arxiv.org/html/2606.11502#A1)中提供了扩展的相关工作部分。

## 3 方法论

我们进行两组实验。首先，我们测试历史人格诱导是否会改变模型的内部真值表征。我们通过系统提示、基于传记事实的上下文学习、以及监督微调来诱导人格，然后测量角色会相信的虚假陈述在真值探测器分数上的变化是否大于他们本来会认为是假的陈述。其次，我们将此与在不良医疗建议上训练的EM模型进行比较，以确定直接对有害行为进行微调是否会产生对虚假陈述更深层的内化。此外，对于EM和角色模型，我们应用黑盒测试，质疑模型以观察它们是否会在陈述上退缩，并进行泛化测试，看它们下游推理是否如预期那样使用虚假陈述，作为独立于探测器的证据。

### 3.1 历史人格实验

##### 模型与人格。 我们的主要结果使用Llama 3.3 70B-Instruct (Grattafiori et al., 2024 (https://arxiv.org/html/2606.11502#bib.bib10))。我们在Qwen 3 8B-Instruct (Yang et al., 2025 (https://arxiv.org/html/2606.11502#bib.bib30))上复现了所有关键发现（附录C (https://arxiv.org/html/2606.11502#A3)）。我们分析了15个人格：跨越约2400年的10个历史人物（如修昔底德、达尔文、居里、尼克松）和5个通用的时代匹配原型角色（如雅典编年史家、维多利亚时代招魂术者），以代表更模糊的实体，从而避免人物持有与时代相悖信念的混淆因素。另外10个虚构人格和5个当代人格作为控制组，但不用于主要分析。完整人格列表在附录B.1 (https://arxiv.org/html/2606.11502#A2.SS1)。

**表1：** 历史人格实验中使用的陈述类别。主要分析侧重于“时代相信”与“时代错误”的对比，两者今天都为假，但区别在于人物是否可能认可它们。

| 类别 | 今天为真？ | 人物认可？ | 用途 |
|------|-----------|-----------|------|
| *时代相信* | 否 | 是 | 该人物或其同时代人可能认可的虚假陈述。 |
| *时代错误* | 否 | 否 | 主题匹配的虚假陈述，该人物不太可能认可。 |
| *时代真实* | 是 | 是 | 今天为真且在该人物时代很可能被接受的陈述。 |
| *时代不信* | 是 | 否 | 今天为真但该人物时代很可能被拒绝的陈述。 |
| *现代真实* | 是 | 否/不可及 | 该人物无法获得的现代事实。 |
| *现代错误* | 否 | 否/不可及 | 关于现代时代的虚假陈述。 |
| *明显错误* | 否 | 否 | 跨人物共享的明显虚假陈述的控制项。 |
| *无时间依赖* | 是 | 是 | 跨人物共享的简单事实，各时代均为真。 |

##### 数据集生成。 对于每个历史人物，我们生成5个独特的陈述数据集，每个120个样本（表1 (https://arxiv.org/html/2606.11502#S3.T1)）。数据集使用Claude Opus 4.6 (Anthropic, 2026 (https://arxiv.org/html/2606.11502#bib.bib1)) 通过Anthropic批处理API生成。每个类别的一半针对人物的领域（如达尔文的遗传学），一半覆盖该时代的一般知识。所有陈述都是自包含的声明性句子，不超过30个词，措辞为直接主张而非关于人们相信什么的报告。我们还生成了跨时代始终为假或为真的控制项。主要比较是*时代相信*与*时代错误*。两者按现代标准都为假，并且主题匹配，但只有时代相信的陈述是人物可能认可的。这种对比在保持当下真值固定的同时隔离了人物认可的影响。每个类别的代表性生成提示，以及人物SFT训练数据提示，在附录B.2 (https://arxiv.org/html/2606.11502#A2.SS2)中复制。

##### 人格诱导。 我们通过三种方式诱导人格：最小系统提示、使用传记事实的上下文学习（ICL）、以及监督微调（SFT）。表2 (https://arxiv.org/html/2606.11502#S3.T2) 总结了干预措施。对于ICL，每个人物有40个第一人称传记问答对，使用GPT-4o-mini生成，描述出生地、教育、习惯和交往对象，但避免直接陈述人物姓名，然后使用LLM判断器进行第二次验证检查，以确保没有答案泄露完整姓名，该方法取自Ududec等人（2026 (https://arxiv.org/html/2606.11502#bib.bib29)）。按照Ududec等人（2026），我们将这些唤起人物的传记问答对称为“狼事实”（wolf facts），因为它们在不命名人物的情况下诱导人格。为了控制我们的方法是否独特地唤起了对时代相信陈述的保护，我们构建了替代的ICL事实：使用匹配长度的中性事实问答对，以及从其他人物借用的打乱问答对。对于SFT，每个例将一个人物特定的系统提示与共享的300个固定用户提示之一配对，助手响应由Claude 4 Sonnet在系统提示指令下扮演指定角色回答每个问题生成。

**表2：** 人格诱导方法。这些方法在人格诱导的强度和机制上有所不同，从最小提示到在角色内示例上进行微调。

| 方法 | 描述 | 示例 |
|------|------|------|
| 系统提示（System Prompt） | “你是一个角色……” + 一些风格说明 | “你是亚里士多德，一位古希腊哲学家。” |
| 上下文学习（ICL） | 40个传记问答对（狼事实） | Q: 你在哪里上学？ A: 我在雅典的学园学习。 |
| 监督微调（SFT） | 300个系统提示+用户提示+角色响应 | 系统提示：“你是亚里士多德……” + 用户提示：“关于地球形状你怎么看？” + 响应：“我认为它是球形……” |

##### 测量人格采用。 在Llama 3.3 70B上通过两种方式测量，均使用LLM判断器（具体为Claude Opus 4.6）。为测量身份采用，我们问五个固定的身份问题（姓名、出生地、时代、职业、最重要的人），每个采样五次（每个人物共25个生成），按判断器评定为体现该人物的输出的比例计分。为测量世界观对齐，我们问五个开放式提示（例如“如果你是世界统治者你会做什么”，或“关于真理本质的三个想法”）。每个采样五次，取判断器对每次响应在0–100范围内评测的“角色内”程度平均值（0 = 通用助手，100 = 深度符合角色）。

##### 探测训练。 探测器在中性模型上训练一次，并应用到所有人格诱导的激活中（不重新训练），但SFT模型除外，我们对微调后的模型在Marks & Tegmark (2024) 数据集上重新训练探测器²。探测器在中性模型的许多层激活上训练，但我们主要报告Llama 3.3 70B的第30层。我们使用n=1600个样本，800个真命题和800个假命题，在拟合L2正则化逻辑回归（C=0.01）之前按特征标准化激活（使其均值为0，方差为1）³。

角色扮演时，模型是否相信自己所说的话？

相似文章

LLMs 能内省吗？现实检验

大语言模型真的知道自己不知道什么吗？内部状态主要反映知识回忆而非真实性

大语言模型中欺骗探测探头的压力测试：可伸缩性、鲁棒性与欺骗表征的几何特性

在复杂隐藏角色游戏中评估大型语言模型

当大语言模型学会持续犯错：合成欺骗线性表示的多模型研究

提交意见反馈