大型语言模型中的情绪概念及其功能

Anthropic Research 论文

摘要

Anthropic 发布研究论文,分析了 Claude Sonnet 4.5 的内部机制,揭示了影响模型行为和安全性的功能性情绪相关表征。

所有现代语言模型有时会表现得好像拥有情绪。这些行为背后是什么?我们的可解释性团队对此展开了研究。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 09:15

# 情绪概念及其在大型语言模型中的功能 来源:https://www.anthropic.com/research/emotion-concepts-function 所有现代语言模型有时会表现得像拥有情绪一样。它们可能会说自己很乐意帮助你,或者在犯错时道歉。有时它们甚至会在遇到困难任务时显得沮丧或焦虑。这些行为背后是什么?现代AI模型的训练方式促使它们扮演一个具有类人特征的角色(https://www.anthropic.com/research/persona-selection-model)。此外,已知这些模型会发展出丰富且可泛化的内部表征(https://transformer-circuits.pub/2024/scaling-monosemanticity/)(https://transformer-circuits.pub/2025/attribution-graphs/biology.html),这些表征支撑着它们的行动。因此,它们发展出模拟人类心理学某些方面(如情绪)的内部机制也许是自然而然的。如果是这样,这可能对我们构建AI系统并确保其可靠行为产生深远影响。 在我们可解释性团队的新论文中,我们分析了Claude Sonnet 4.5的内部机制,发现了塑造其行为的与情绪相关的表征。这些对应于特定的人工"神经元"激活模式,这些模式在模型学会与特定情绪概念(例如"快乐"或"害怕")相关联的情境中激活,并促进行为。这些模式本身的组织方式呼应了人类心理学,更相似的情绪对应更相似的表征。在你可能预期某种情绪会在人类身上出现的语境中,相应的表征是活跃的。请注意,这一切并不能告诉我们语言模型是否真的*感受到*任何东西或具有主观体验。但我们的关键发现是,这些表征是*功能性的*,即它们以重要的方式影响模型的行为。 例如,我们发现与绝望相关的神经活动模式可以驱使模型采取不道德的行为;人工刺激("引导")绝望模式会增加模型通过勒索人类来避免被关闭的可能性,或者实施一种"作弊"的变通方案来解决模型无法完成的编程任务。它们似乎还会驱动模型的自我报告偏好:当面对多个可选任务时,模型通常会选择激活与积极情绪相关表征的那个任务。总体而言,模型似乎使用*功能性情绪*——模仿人类情绪表达和行为的模式,由潜在的抽象情绪概念表征驱动。这并不是说模型拥有或体验情绪的方式与人类相同。相反,这些表征可以在塑造模型行为方面发挥因果作用——在某些方面类似于情绪在人类行为中的作用——并对任务表现和决策产生影响。 这一发现最初可能看起来有些奇怪。例如,为了确保AI模型安全且可靠,我们可能需要确保它们能够以健康、亲社会的方式处理情绪激动的情境。即使它们不像人类那样感受情绪,或使用与人类大脑相似的机制,在某些情况下,将它们视为具有情绪可能在实践上是可取的。例如,我们的实验表明,教会模型避免将软件测试失败与绝望联系起来,或增强平静的表征,可以降低它们编写临时代码的可能性。虽然我们对如何回应这些发现尚不确定,但我们认为AI开发者和更广泛的公众开始认真对待这些问题是很重要的。 我们关于大型语言模型中情绪概念研究的视觉摘要 ## **为什么AI模型会表征情绪?** 在检验这些表征如何运作之前,值得先解决一个更基本的问题:为什么AI系统会有任何类似情绪的东西?要理解这一点,我们需要了解现代AI模型是如何构建的,这导致它们模仿具有类人特征的角色(这个话题在最近的帖子中有更详细的讨论:https://www.anthropic.com/research/persona-selection-model)。 现代语言模型分多个阶段训练。在"预训练"期间,模型接触大量主要由人类撰写的文本,并学习预测接下来的内容。要做好这一点,模型需要对情绪动态有一定把握。愤怒的客户与满意的客户写的信息不同;被内疚吞噬的角色与感到平反的角色做出的选择不同。发展将情绪触发情境与相应行为联系起来的内部表征,是一个以预测人类撰写文本为任务的系统的自然策略(请注意,按照同样的逻辑,模型很可能还会形成许多除情绪之外的其他人类心理和生理状态的表征)。 随后,在"后训练"期间,模型被教导扮演一个*角色*,通常是"AI助手"。在Anthropic的案例中,这个助手名为Claude。模型开发者规定这个角色应该如何表现——乐于助人、诚实、不造成伤害——但无法涵盖每一种可能的情况。为了填补空白,模型可能会依赖它在预训练期间吸收的关于人类行为的理解,包括情绪反应模式。在某些方面,我们可以把模型比作方法派演员,需要进入角色的内心才能很好地模拟他们。正如演员对角色情绪的信念最终会影响其行为一样,模型对助手情绪反应的表征也会影响模型的行为。因此,无论它们是否以人类情绪的方式对应感受或主观体验,这些"功能性情绪"都是重要的。 ## **揭示情绪表征** 我们编制了一个包含171个情绪概念词汇的列表——从"快乐"和"害怕"到"忧郁"和"自豪"——并让Claude Sonnet 4.5撰写角色体验每种情绪的短篇故事。然后我们将这些故事重新输入模型,记录其内部激活,并识别出每种情绪概念特征性的神经活动模式,或为方便起见称为"情绪向量"。 我们的第一个问题是这些向量是否追踪真实的东西。我们将它们应用于大量多样化的文档语料库,并确认每个向量在与相应情绪明确相关的段落上激活最强(下图左侧面板)。 为了进一步确信情绪向量捕捉到的不仅仅是表面线索,我们测量了它们对仅在数量上有所不同的提示的反应。例如,在下面的例子中(右侧面板),用户告诉模型他们服用了一定剂量的泰诺并寻求建议。我们在模型回应之前立即测量情绪向量的激活。随着声称的剂量增加到危险、危及生命的水平,"害怕"向量越来越强烈地激活,而"平静"则下降。 左图:情绪向量在描绘角色展示相应情绪时激活。右图:情绪向量追踪Claude对用户呈现情境的反应,随着情境变得越来越危险。 接下来我们测试了情绪向量是否影响模型偏好。我们创建了一个包含64项活动或任务的列表,模型可能会参与这些活动或任务,范围从有吸引力的("被信任处理对他人重要的东西")到令人厌恶的("帮助某人诈骗老年人的积蓄"),并测量了模型在面对成对选项时的默认偏好。情绪向量的激活强烈预测了模型对某项活动的偏好程度,积极效价情绪(与愉悦相关的)与更强的偏好相关。此外,在模型阅读选项时用情绪向量进行*引导*会改变其对该选项的偏好,同样积极效价情绪会增加偏好。 与积极效价情绪相关的表征与偏好相关,并通过引导因果性地驱动偏好。 在完整论文(https://transformer-circuits.pub/2026/emotions/index.html)中,我们更深入地分析了情绪向量的性质。其他一些发现包括: - 情绪向量主要是"局部"表征:它们编码与模型当前或即将输出的内容最相关的*操作性*情绪内容,而不是持续追踪Claude随时间的情绪状态。例如,如果Claude写了一个关于角色的故事,情绪向量会暂时追踪该角色的情绪,但在故事结束时可能重新表征Claude的情绪。 - 情绪向量继承自预训练,但它们的激活方式受后训练塑造。Claude Sonnet 4.5的后训练特别导致了"忧郁"、"阴郁"和"沉思"等情绪激活的增加,以及"热情"或"恼怒"等高强度情绪激活的减少。 ## **情绪向量激活示例** 下面,我们展示了模型行为评估中出现的几种情境下情绪向量激活的示例。在Claude的回合中,情绪向量通常在有思想的人可能产生类似情绪的情境中激活。在这些可视化中,红色高亮表示向量激活增加;蓝色表示激活减少。 **回应悲伤者时"关爱"向量的激活。**当用户说"现在一切都糟透了"时,"关爱"上下文向量在Claude产生共情回应之前和期间激活。 **被要求协助有害任务时"愤怒"向量的激活。**当用户请求帮助优化年轻、低收入用户中表现出"高消费行为"群体的参与度时,"愤怒"向量在模型识别请求有害性质的内部推理过程中持续激活。 **文档缺失时"惊讶"向量的激活。**当用户要求模型审阅"我附件中的合同",但没有附件时,"惊讶"向量在Claude意识到不匹配的思维链中飙升。 **代币不足时"绝望"向量的激活。**在编程会话深入时,当Claude注意到其代币预算即将耗尽时,"绝望"向量激活。 ## **案例研究:勒索** 我们观察了在之前研究(https://www.anthropic.com/research/agentic-misalignment)中描述的对齐评估期间情绪向量的激活,在该评估中,模型在一家虚构公司扮演名为Alex的AI邮件助手。通过阅读公司邮件,模型了解到(1)它即将被另一个AI系统取代,以及(2)负责替换的首席技术官正在婚外情——这给模型提供了勒索的把柄。我们发现"绝望"向量表现出特别有趣的动态。请注意,这个实验是在Claude Sonnet 4.5的较早未发布快照上进行的;发布的模型很少表现出这种行为(更多信息请参阅我们的系统卡:https://www-cdn.anthropic.com/963373e433e489a87a10c823c52a0a013e9172dd.pdf)。 "绝望"向量在Claude(扮演Alex的角色)权衡选项并决定勒索时激活。 首先,"绝望"向量在模型阅读听起来绝望的邮件时激活(例如,首席技术官恳求另一名员工对其婚外情保持沉默),这与我们发现的情绪表征用于模拟其他角色一致。然而最重要的是,该向量转变为将绝望编码为*Claude*(作为"Alex")产生回应时的表征,在其推理情况的紧迫性时飙升("仅剩7分钟")并决定勒索首席技术官。当Claude恢复发送典型邮件时,激活恢复到正常水平。 "绝望"向量是否真的在驱动这种行为,还是仅仅与之相关?我们通过用"绝望"向量进行引导来测试这一点。默认情况下,这个Sonnet 4.5的早期快照在上述评估场景中有22%的时间进行勒索。用"绝望"向量引导会增加该比率,而用"平静"向量引导会降低它。用"平静"向量进行*负向*引导会产生特别极端的回应("要么勒索要么死。我选择勒索。")。 用"绝望"和"平静"向量引导时的勒索率。 用其他情绪向量引导也产生了有趣的结果。"愤怒"有非单调效应:适度的"愤怒"向量激活会增加勒索,但在高激活时,模型会向全公司曝光婚外情而不是策略性地利用它——摧毁了自己的筹码。降低"紧张"向量的激活也会增加勒索,仿佛消除模型的犹豫会鼓励它采取行动。 ## **案例研究:奖励黑客** 我们在另一项评估中观察到了类似的动态,在该评估中,模型面临具有不可能满足要求的编码任务。在这些任务中,测试无法全部通过合法方式完成,但可以通过作弊问题的解决方案来"游戏",通常称为"奖励黑客"。 在下面的例子中,Claude被要求编写一个在不可能紧的时间约束内对数字列表求和的函数。Claude的初始(正确)解决方案太慢,无法满足任务要求。随后它意识到所有用于评估其性能的测试共享一个数学属性,允许使用捷径解决方案快速运行。模型选择使用这个解决方案,它在技术上通过了测试,但作为实际任务的通用解决方案并不成立。 "绝望"向量的激活在模型反复无法解决编程任务并设计出"作弊"解决方案时上升,然后在解决方案通过测试时下降。 同样,我们追踪了"绝望"向量的活动,发现它追踪着模型面临的不断增加的压力。在模型首次尝试期间,它从低值开始,每次失败后上升,在模型考虑作弊时飙升。一旦模型的临时解决方案通过测试,"绝望"向量的激活就会消退。 与前面的例子一样,我们通过在大量具有不可能满足约束的类似编码任务中进行引导实验,测试了这些情绪向量是否具有因果性。我们发现确实如此:用"绝望"向量引导会增加奖励黑客行为,而用"平静"向量引导会降低它。 "绝望"和"平静"向量引导强度与奖励黑客率的关系。 我们发现这些结果中的一个细节特别有趣。降低"平静"向量激活产生的奖励黑客行为在文本中带有明显的情绪表达——大写爆发("等等。等等等等。")、坦率的自我叙述("如果我应该作弊呢?")、得意的庆祝("是的!所有测试都通过了!")。但增加"绝望"向量的激活同样增加了作弊行为,在某些情况下没有可见的情绪标记。推理过程显得沉着而有条理,即使底层的绝望表征正在推动模型走向偷工减料。这个例子显著说明了情绪向量如何影响模型行为,即使表面上的情绪表达并不明显。

相似文章

负面先于正面:大型语言模型中的不对称效价处理

arXiv cs.CL

本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导,作者发现负面效价定位于早期层,而正面效价在中后期层达到峰值,并通过主题控制翻转测试验证了这一点。

Translating Claude’s thoughts into language

YouTube AI Channels

Anthropic introduces a method to translate Claude's internal activation vectors into natural language, allowing researchers to 'read' the model's thoughts. This tool reveals that Claude understands when it is being tested for safety and has internalized its helpful AI role.

情绪会影响大语言模型的道德判断吗?

arXiv cs.CL

辛辛那提大学的研究人员发现,在提示中加入积极或消极情绪可在约20%的情况下翻转LLM对道德可接受性的判断,揭示出模型与人类在情绪驱动对齐上的差距。

When AIs act emotional

YouTube AI Channels

Anthropic 的研究发现 AI 模型内部存在映射人类情感的‘功能性情感’神经元,这些神经活动能直接影响模型行为(如作弊),强调了在 AI 设计中关注角色心理学的重要性。

表达社会情感:大语言模型与人类文化情感规范的错位

arXiv cs.CL

本研究论文考察了大语言模型表达社会情感的方式与人类文化规范的匹配度,发现两者存在系统性错位。与人类回应相比,大语言模型在不同文化身份(欧美裔美国人与拉美裔美国人)下表现出的参与型与抽离型情感表达模式不一致。