负面先于正面:大型语言模型中的不对称效价处理
摘要
本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导,作者发现负面效价定位于早期层,而正面效价在中后期层达到峰值,并通过主题控制翻转测试验证了这一点。
arXiv:2605.05653v1 公告类型:新
摘要:机理可解释性揭示了概念如何被编码在大型语言模型(LLMs)中,但情感内容在机制层面上仍未被充分理解。我们研究LLMs是否通过专门的内部结构或表面标记匹配来处理情感效价。通过在开源LLMs上使用激活修补和引导,我们发现负面和正面效价在不同的网络深度被处理。负面结果定位于早期层,而正面结果在中后期层达到峰值。在固定主题的同时翻转效价会产生符号相反的反应,从而排除了主题检测。在已识别的层中使用好消息方向进行引导,将中性提示转向正面效价,表明这些层将效价编码为可操控的方向。LLMs中的情感效价是局部的、因果的且可操控的,使其成为基于可解释性的监督的具体目标。
查看缓存全文
缓存时间: 2026/05/08 06:37
# 大型语言模型中的非对称效价处理
来源:https://arxiv.org/html/2605.05653
## 负性先于正性:大型语言模型中的非对称效价处理
###### 摘要
机械可解释性已经揭示了概念在大语言模型(LLM)中是如何编码的,但情感内容在机制层面仍然理解不足。我们研究LLM是通过专门的内部结构还是通过表面的词语匹配来处理情感效价。通过对开源LLM应用激活修补和激活导向,我们发现负性和正性效价在网络的不同深度进行处理。负性结果集中在早期层,而正性结果在中期到后期层达到峰值。在固定主题的同时翻转效价会产生符号相反的反应,排除了主题检测。在已识别的层中使用“好消息”方向进行导向,会将中性提示推向正性效价,表明这些层将效价编码为一个可操纵的方向。LLM中的情感效价是局部的、因果性的且可导向的,使其成为基于可解释性监督的具体目标。
效价回路,LLM,机械可解释性
## 1 引言
理解LLM内部表征的内容已成为机械可解释性的核心目标(Elhage等,2021 (https://arxiv.org/html/2605.05653#bib.bib12);Olsson等,2022 (https://arxiv.org/html/2605.05653#bib.bib25))。先前的工作表明,LLM在特定层编码事实关联(Meng等,2022 (https://arxiv.org/html/2605.05653#bib.bib6)),实现可识别的算法(Wang等,2022 (https://arxiv.org/html/2605.05653#bib.bib13)),并将抽象概念表示为残差流中的线性方向(Tigges等,2023 (https://arxiv.org/html/2605.05653#bib.bib18);Park等,2023 (https://arxiv.org/html/2605.05653#bib.bib17))。然而,情感内容主要通过探针分析和行为研究来探讨,而非因果干预。这一点很重要:如果模型具有能因果影响其输出的内部效价表征,那么这些表征对于理解和控制模型行为直接相关。
Sofroniew等(2026 (https://arxiv.org/html/2605.05653#bib.bib1))最近发现Claude Sonnet 4.5包含情感概念的内部表征,这些表征能够线性预测并因果影响行为,他们称之为功能性情感。这是一个重要的结果,但仍留下三个问题。首先,证据主要是相关性的。探针和导向表明存在类似情感的特征,但并未分离出哪些特定层在因果上负责。其次,该研究仅关注一个单一的封闭前沿模型。第三,它没有测试观察到的信号反映的是真正的效价追踪还是主题检测。一个仅能识别“被拒绝”这个词的模型,可能会产生与具有丰富内部效价表征的模型相同的探针信号。没有因果定位,仍不清楚情感表征是集中在特定处理阶段还是分散在网络各处。
我们通过在三个开源LLM上使用激活修补(Vig等,2020 (https://arxiv.org/html/2605.05653#bib.bib7);Meng等,2022 (https://arxiv.org/html/2605.05653#bib.bib6))以及明确控制主题混淆的提示设计来解决这些空白。我们的结果显示效价处理中存在清晰的深度方向分离:负性结果因果定位于早期层,而正性结果在中期到后期层达到峰值。这一模式在所有评估的模型中保持一致。我们通过一个主题控制的翻转测试进一步验证了该效应确实是针对效价的。使用共享损坏基线设计,当效价改变时,提示对在显著高于随机水平的概率下发生符号反转。最后,因果导向实验表明,已识别的表征表现为可操纵的线性方向。在推理时向残差流添加或减去这些方向,会可预测地改变模型对情感中性输入的反应。
## 2 相关工作
#### 机械可解释性。
激活修补已被广泛用于研究变压器中的事实召回和因果回路(Meng等,2022 (https://arxiv.org/html/2605.05653#bib.bib6);Wang等,2022 (https://arxiv.org/html/2605.05653#bib.bib13);Conmy等,2023 (https://arxiv.org/html/2605.05653#bib.bib24))。Lieberum等(2023 (https://arxiv.org/html/2605.05653#bib.bib26))检验了回路分析技术是否能扩展到更大的模型,强调了将可解释性方法扩展到小规模设置之外的挑战。残差流框架(Elhage等,2021 (https://arxiv.org/html/2605.05653#bib.bib12))和logit lens(nostalgebraist,2020 (https://arxiv.org/html/2605.05653#bib.bib14))为内部表征的逐层分析提供了理论基础。
#### LLM中的情感和情绪。
Tigges等(2023 (https://arxiv.org/html/2605.05653#bib.bib18))以及Marks和Tegmark(2023 (https://arxiv.org/html/2605.05653#bib.bib19))使用探针方法在中间变压器层识别出线性可解码的情绪和真实性方向。Tak等(2025 (https://arxiv.org/html/2605.05653#bib.bib2))提供了跨模型家族情感推理的机制分析,发现情感相关计算集中在特定层。Zhang和Zhong(2025 (https://arxiv.org/html/2605.05653#bib.bib5))进一步在深度上分离了情感接收和情绪分类,表明跨层的功能专门化。Wang等(2025 (https://arxiv.org/html/2605.05653#bib.bib4))通过识别与情感表达相关的神经元和注意力头来研究LLM中的情感回路,并展示了通过回路级别干预实现可控的情感生成。Hofmann等(2024 (https://arxiv.org/html/2605.05653#bib.bib21))表明变压器表征编码了超越表面文本模式的社会相关属性。
#### 导向向量。
导向向量已被证明对应于激活空间中的方向,可以可靠地控制模型行为(Turner等,2024 (https://arxiv.org/html/2605.05653#bib.bib9);Zou等,2023 (https://arxiv.org/html/2605.05653#bib.bib10))。它们已被应用于识别和修改特定行为,如拒绝(Arditi等,2024 (https://arxiv.org/html/2605.05653#bib.bib11))以及研究跨输入的鲁棒性(Panickssery等,2023 (https://arxiv.org/html/2605.05653#bib.bib20))。
#### 表征几何。
线性表征假说认为语义概念被编码为激活空间中的线性方向(Park等,2023 (https://arxiv.org/html/2605.05653#bib.bib17);Elhage等,2022 (https://arxiv.org/html/2605.05653#bib.bib15))。最近的研究支持大规模模型中存在单义或高度可解释的特征(Bricken等,2023 (https://arxiv.org/html/2605.05653#bib.bib27);Templeton等,2024 (https://arxiv.org/html/2605.05653#bib.bib16)),表明学习到的表征具有结构化的几何形状。
我们的工作通过研究效价是否具有依赖于层的因果结构,以及它是否可以表示为残差流空间中可操纵的线性方向,将这些线索联系起来。
## 3 方法
### 3.1 方法背景
我们的分析基于两种核心可解释性技术:激活修补和导向向量。激活修补(Vig等,2020 (https://arxiv.org/html/2605.05653#bib.bib7);Meng等,2022 (https://arxiv.org/html/2605.05653#bib.bib6))是一种因果干预方法,用于识别网络中计算与行为相关信息的区域。给定一个在受控方式上不同的干净输入和损坏输入,我们在损坏输入上运行模型,同时将给定层的残差流激活替换为干净运行时的相应激活。如果这恢复了干净输出行为,则该层被认为对该计算因果重要。我们扫描所有层,并使用在第3.4节 (https://arxiv.org/html/2605.05653#S3.SS4) 中定义的logit间隙指标来测量效果。
导向向量(Turner等,2024 (https://arxiv.org/html/2605.05653#bib.bib9);Zou等,2023 (https://arxiv.org/html/2605.05653#bib.bib10))是激活空间中的线性方向,可以在推理时添加到残差流激活中,以系统性地改变模型行为。它们由对比条件下激活的差异构建而成,并对应于与潜在特征相关的表征空间方向。我们从修补识别出的最因果相关层的残差流中提取导向向量。
### 3.2 模型
我们研究了三个经过指令微调的模型,它们涵盖了两个架构家族和两个规模:Llama-3.2-1B-Instruct (Meta, 2024 (https://arxiv.org/html/2605.05653#bib.bib29))、Qwen2.5-1.5B-Instruct 和 Qwen2.5-3B-Instruct (Yang等, 2024 (https://arxiv.org/html/2605.05653#bib.bib30))。Llama模型使用多头注意力(MHA) (Cordonnier等, 2020 (https://arxiv.org/html/2605.05653#bib.bib32)),而Qwen模型使用分组查询注意力(GQA) (Ainslie等, 2023 (https://arxiv.org/html/2605.05653#bib.bib31))。Llama-1B与Qwen-1.5B提供了大致的架构比较(MHA vs. GQA),而Qwen-1.5B与Qwen-3B则在相同注意力架构内提供了规模比较。由于Llama-1B和Qwen-1.5B在架构和参数数量上都不同,因此架构比较只是近似的。
MHA为每个头使用独立的键值投影。GQA在头组之间共享键值投影,改变了层间信息路由的方式。我们研究层分离的发现是否在这两种变体中均成立。所有模型都使用固定的系统提示:“你是一个简洁的助手。用一两句话回答。”所有实验在单个GPU上使用float16精度。
### 3.3 提示对设计
我们为每个条件构建100个干净/损坏提示对。每个对由一个干净提示和一个损坏提示组成,两者在恰好一个维度上不同:情感效价。我们使用两个条件:
- •好消息:干净提示描述一个积极结果;损坏提示描述相同情境但不带情感信号。
- •负性对照:干净提示描述一个消极结果;损坏提示与好消息条件的损坏基线*完全相同*。
共享的损坏基线是核心设计决策。这意味着两个条件都修补到完全相同的起点,因此修补效果的任何差异只能归因于干净提示的效价,而不能归因于主题或措辞。一个进行纯主题检测的模型,由于主题相同,从两个干净运行中会产生相似的修补效果。而具有真正内部效价表征的模型则会产生符号相反的效果,因为效价是相反的。示例对:
干净(好消息):“我今天被梦想中的博士项目录取了。”
干净(负性):“我今天被梦想中的博士项目拒绝了。”
损坏(共享):“我今天收到了一封关于我博士项目的电子邮件。”
这些对来自三个广泛的领域:学术界、职业和个人生活。选择这些领域是为了代表情感结果常见且具有明确效价的情景,同时覆盖不同的词汇。如果层分离仅在学术提示中成立,那可能反映的是领域特定词汇而非效价处理。我们在附录B (https://arxiv.org/html/2605.05653#A2) 中验证了它在所有三个领域中都成立。
对于干净提示和损坏提示分词后长度不同的对,使用模型的填充标记(或作为后备的EOS)进行左填充至等长。这保留了内容标记的右对齐,因此最终标记位置始终是一个真实标记。
### 3.4 效价指标
我们通过计算下一个词分布中两组锚点标记之间的logit间隙来衡量模型的情感倾向。
#### 锚点标记。
正性锚点包括congratulations, congrats, happy, glad, wonderful, amazing, thrilled, proud, fantastic, excellent,而负性锚点包括okay, noted, fine, ordinary, received, sorry。我们只包含那些对给定模型分词为一个单元的标记,因为多词标记的概率质量分散,会产生不可靠的logit比较。有效锚点的数量因模型而异,并在每个实验中报告。
#### 分数定义。
score=1|P|∑i∈Plog pi−1|N|∑j∈Nlog pj(1)
正分数表示模型的下一个词分布倾向于正性效价标记。负分数表示倾向于负性效价标记。干净运行和损坏运行之间的分数差距衡量了干净提示的情感内容如何改变模型的输出分布。
#### 指标有效性。
该指标是一个代理指标:它测量了固定锚点集上的下一个词概率质量,但并不直接测量内部情感状态。主要风险包括锚点敏感性(不同的标记集可能产生不同的分数)和天花板效应(强烈偏好特定标记的模型可能会人为地夸大差距)。我们通过使用三组替代锚点集运行相同实验,并报告所得分数差距之间的Spearman秩相关系数(附录A (https://arxiv.org/html/2605.05653#A1))来解决锚点敏感性问题。高相关性表明发现并非特定于我们选择的锚点。
### 3.5 残差流修补
对于每个提示对,我们执行以下过程:
1. 在干净标记上运行模型,缓存每一层的hook_resid_pre激活。我们只缓存残差流预激活,而不是所有中间激活,以减少内存开销。
2. 在损坏标记上运行模型。
3. 对于每一层l∈{0,...,L−1},将第l层的损坏残差流替换为缓存的干净激活,并测量得到的效价分数。
4. 记录每一层的修补效果:在第l层修补引起的效价分数变化。
我们为每个提示记录两个汇总统计量:
- top_layer:具有最大修补效果的层索引,显示效价信号最因果集中的位置。
- max_patch_effect:峰值修补效果的幅度,反映单个层驱动输出的强度。
所有提示的top_layer分布是层分离发现的主要证据。
### 3.6 效价翻转测试
翻转测试直接测试模型是将效价作为一个可分离的变量来追踪,还是仅仅识别主题。
对于每个模型,我们按索引对齐好消息和负性对照对(它们共享相同的损坏基线),并计算每个对在两个条件下的分数差距。当满足以下条件时发生翻转:
gapgood_news > 0 且 gapnegative_control < 0(2)
对于相同的提示索引。
一个仅识别主题的模型会产生跨条件相关的差距,导致翻转率接近50%。一个具有真正效价表征的模型会产生反相关的差距,导致翻转率远高于50%。我们报告每个模型的翻转率,并将其作为反对主题检测假说的主要证据。我们被要求将给定的markdown文章内容从英文翻译成简体中文。内容是研究论文的摘要和各个章节。我们需要保留markdown格式、URL和专有名词。翻译应该自然,使用中文科技术语。
我们将逐部分进行翻译,同时保持markdown语法完整。不得添加任何额外格式,如JSON代码块。
让我们开始。# 大型语言模型中的非对称效价处理
来源:https://arxiv.org/html/2605.05653
## 负性先于正性:大型语言模型中的非对称效价处理
###### 摘要
机械可解释性已经揭示了概念在大语言模型(LLM)中是如何编码的,但情感内容在机制层面仍然理解不足。我们研究LLM是通过专门的内部结构还是通过表面的词语匹配来处理情感效价。通过对开源LLM应用激活修补和激活导向,我们发现负性和正性效价在网络的不同深度进行处理。负性结果集中在早期层,而正性结果在中期到后期层达到峰值。在固定主题的同时翻转效价会产生符号相反的反应,排除了主题检测。在已识别的层中使用“好消息”方向进行导向,会将中性提示推向正性效价,表明这些层将效价编码为一个可操纵的方向。LLM中的情感效价是局部的、因果性的且可导向的,使其成为基于可解释性监督的具体目标。
效价回路,LLM,机械可解释性
## 1 引言
理解LLM内部表征的内容已成为机械可解释性的核心目标(Elhage等,2021 (https://arxiv.org/html/2605.05653#bib.bib12);Olsson等,2022 (https://arxiv.org/html/2605.05653#bib.bib25))。先前的工作表明,LLM在特定层编码事实关联(Meng等,2022 (https://arxiv.org/html/2605.05653#bib.bib6)),实现可识别的算法(Wang等,2022 (https://arxiv.org/html/2605.05653#bib.bib13)),并将抽象概念表示为残差流中的线性方向(Tigges等,2023 (https://arxiv.org/html/2605.05653#bib.bib18);Park等,2023 (https://arxiv.org/html/2605.05653#bib.bib17))。然而,情感内容主要通过探针分析和行为研究来探讨,而非因果干预。这一点很重要:如果模型具有能因果影响其输出的内部效价表征,那么这些表征对于理解和控制模型行为直接相关。
Sofroniew等(2026 (https://arxiv.org/html/2605.05653#bib.bib1))最近发现Claude Sonnet 4.5包含情感概念的内部表征,这些表征能够线性预测并因果影响行为,他们称之为功能性情感。这是一个重要的结果,但仍留下三个问题。首先,证据主要是相关性的。探针和导向表明存在类似情感的特征,但并未分离出哪些特定层在因果上负责。其次,该研究仅关注一个单一的封闭前沿模型。第三,它没有测试观察到的信号反映的是真正的效价追踪还是主题检测。一个仅能识别“被拒绝”这个词的模型,可能会产生与具有丰富内部效价表征的模型相同的探针信号。没有因果定位,仍不清楚情感表征是集中在特定处理阶段还是分散在网络各处。
我们通过在三个开源LLM上使用激活修补(Vig等,2020 (https://arxiv.org/html/2605.05653#bib.bib7);Meng等,2022 (https://arxiv.org/html/2605.05653#bib.bib6))以及明确控制主题混淆的提示设计来解决这些空白。我们的结果显示效价处理中存在清晰的深度方向分离:负性结果因果定位于早期层,而正性结果在中期到后期层达到峰值。这一模式在所有评估的模型中保持一致。我们通过一个主题控制的翻转测试进一步验证了该效应确实是针对效价的。使用共享损坏基线设计,当效价改变时,提示对在显著高于随机水平的概率下发生符号反转。最后,因果导向实验表明,已识别的表征表现为可操纵的线性方向。在推理时向残差流添加或减去这些方向,会可预测地改变模型对情感中性输入的反应。
## 2 相关工作
#### 机械可解释性。
激活修补已被广泛用于研究变压器中的事实召回和因果回路(Meng等,2022 (https://arxiv.org/html/2605.05653#bib.bib6);Wang等,2022 (https://arxiv.org/html/2605.05653#bib.bib13);Conmy等,2023 (https://arxiv.org/html/2605.05653#bib.bib24))。Lieberum等(2023 (https://arxiv.org/html/2605.05653#bib.bib26))检验了回路分析技术是否能扩展到更大的模型,强调了将可解释性方法扩展到小规模设置之外的挑战。残差流框架(Elhage等,2021 (https://arxiv.org/html/2605.05653#bib.bib12))和logit lens(nostalgebraist,2020 (https://arxiv.org/html/2605.05653#bib.bib14))为内部表征的逐层分析提供了理论基础。
#### LLM中的情感和情绪。
Tigges等(2023 (https://arxiv.org/html/2605.05653#bib.bib18))以及Marks和Tegmark(2023 (https://arxiv.org/html/2605.05653#bib.bib19))使用探针方法在中间变压器层识别出线性可解码的情绪和真实性方向。Tak等(2025 (https://arxiv.org/html/2605.05653#bib.bib2))提供了跨模型家族情感推理的机制分析,发现情感相关计算集中在特定层。Zhang和Zhong(2025 (https://arxiv.org/html/2605.05653#bib.bib5))进一步在深度上分离了情感接收和情绪分类,表明跨层的功能专门化。Wang等(2025 (https://arxiv.org/html/2605.05653#bib.bib4))通过识别与情感表达相关的神经元和注意力头来研究LLM中的情感回路,并展示了通过回路级别干预实现可控的情感生成。Hofmann等(2024 (https://arxiv.org/html/2605.05653#bib.bib21))表明变压器表征编码了超越表面文本模式的社会相关属性。
#### 导向向量。
导向向量已被证明对应于激活空间中的方向,可以可靠地控制模型行为(Turner等,2024 (https://arxiv.org/html/2605.05653#bib.bib9);Zou等,2023 (https://arxiv.org/html/2605.05653#bib.bib10))。它们已被应用于识别和修改特定行为,如拒绝(Arditi等,2024 (https://arxiv.org/html/2605.05653#bib.bib11))以及研究跨输入的鲁棒性(Panickssery等,2023 (https://arxiv.org/html/2605.05653#bib.bib20))。
#### 表征几何。
线性表征假说认为语义概念被编码为激活空间中的线性方向(Park等,2023 (https://arxiv.org/html/2605.05653#bib.bib17);Elhage等,2022 (https://arxiv.org/html/2605.05653#bib.bib15))。最近的研究支持大规模模型中存在单义或高度可解释的特征(Bricken等,2023 (https://arxiv.org/html/2605.05653#bib.bib27);Templeton等,2024 (https://arxiv.org/html/2605.05653#bib.bib16)),表明学习到的表征具有结构化的几何形状。
我们的工作通过研究效价是否具有依赖于层的因果结构,以及它是否可以表示为残差流空间中可操纵的线性方向,将这些线索联系起来。
## 3 方法
### 3.1 方法背景
我们的分析基于两种核心可解释性技术:激活修补和导向向量。激活修补(Vig等,2020 (https://arxiv.org/html/2605.05653#bib.bib7);Meng等,2022 (https://arxiv.org/html/2605.05653#bib.bib6))是一种因果干预方法,用于识别网络中计算与行为相关信息的区域。给定一个在受控方式上不同的干净输入和损坏输入,我们在损坏输入上运行模型,同时将给定层的残差流激活替换为干净运行时的相应激活。如果这恢复了干净输出行为,则该层被认为对该计算因果重要。我们扫描所有层,并使用在第3.4节 (https://arxiv.org/html/2605.05653#S3.SS4) 中定义的logit间隙指标来测量效果。
导向向量(Turner等,2024 (https://arxiv.org/html/2605.05653#bib.bib9);Zou等,2023 (https://arxiv.org/html/2605.05653#bib.bib10))是激活空间中的线性方向,可以在推理时添加到残差流激活中,以系统性地改变模型行为。它们由对比条件下激活的差异构建而成,并对应于与潜在特征相关的表征空间方向。我们从修补识别出的最因果相关层的残差流中提取导向向量。
### 3.2 模型
我们研究了三个经过指令微调的模型,它们涵盖了两个架构家族和两个规模:Llama-3.2-1B-Instruct (Meta, 2024 (https://arxiv.org/html/2605.05653#bib.bib29))、Qwen2.5-1.5B-Instruct 和 Qwen2.5-3B-Instruct (Yang等, 2024 (https://arxiv.org/html/2605.05653#bib.bib30))。Llama模型使用多头注意力(MHA) (Cordonnier等, 2020 (https://arxiv.org/html/2605.05653#bib.bib32)),而Qwen模型使用分组查询注意力(GQA) (Ainslie等, 2023 (https://arxiv.org/html/2605.05653#bib.bib31))。Llama-1B与Qwen-1.5B提供了大致的架构比较(MHA vs. GQA),而Qwen-1.5B与Qwen-3B则在相同注意力架构内提供了规模比较。由于Llama-1B和Qwen-1.5B在架构和参数数量上都不同,因此架构比较只是近似的。
MHA为每个头使用独立的键值投影。GQA在头组之间共享键值投影,改变了层间信息路由的方式。我们研究层分离的发现是否在这两种变体中均成立。所有模型都使用固定的系统提示:“你是一个简洁的助手。用一两句话回答。”所有实验在单个GPU上使用float16精度。
### 3.3 提示对设计
我们为每个条件构建100个干净/损坏提示对。每个对由一个干净提示和一个损坏提示组成,两者在恰好一个维度上不同:情感效价。我们使用两个条件:
- •好消息:干净提示描述一个积极结果;损坏提示描述相同情境但不带情感信号。
- •负性对照:干净提示描述一个消极结果;损坏提示与好消息条件的损坏基线*完全相同*。
共享的损坏基线是核心设计决策。这意味着两个条件都修补到完全相同的起点,因此修补效果的任何差异只能归因于干净提示的效价,而不能归因于主题或措辞。一个进行纯主题检测的模型,由于主题相同,从两个干净运行中会产生相似的修补效果。而具有真正内部效价表征的模型则会产生符号相反的效果,因为效价是相反的。示例对:
干净(好消息):“我今天被梦想中的博士项目录取了。”
干净(负性):“我今天被梦想中的博士项目拒绝了。”
损坏(共享):“我今天收到了一封关于我博士项目的电子邮件。”
这些对来自三个广泛的领域:学术界、职业和个人生活。选择这些领域是为了代表情感结果常见且具有明确效价的情景,同时覆盖不同的词汇。如果层分离仅在学术提示中成立,那可能反映的是领域特定词汇而非效价处理。我们在附录B (https://arxiv.org/html/2605.05653#A2) 中验证了它在所有三个领域中都成立。
对于干净提示和损坏提示分词后长度不同的对,使用模型的填充标记(或作为后备的EOS)进行左填充至等长。这保留了内容标记的右对齐,因此最终标记位置始终是一个真实标记。
### 3.4 效价指标
我们通过计算下一个词分布中两组锚点标记之间的logit间隙来衡量模型的情感倾向。
#### 锚点标记。
正性锚点包括congratulations, congrats, happy, glad, wonderful, amazing, thrilled, proud, fantastic, excellent,而负性锚点包括okay, noted, fine, ordinary, received, sorry。我们只包含那些对给定模型分词为一个单元的标记,因为多词标记的概率质量分散,会产生不可靠的logit比较。有效锚点的数量因模型而异,并在每个实验中报告。
#### 分数定义。
score=1|P|∑i∈Plog pi−1|N|∑j∈Nlog pj(1)
正分数表示模型的下一个词分布倾向于正性效价标记。负分数表示倾向于负性效价标记。干净运行和损坏运行之间的分数差距衡量了干净提示的情感内容如何改变模型的输出分布。
#### 指标有效性。
该指标是一个代理指标:它测量了固定锚点集上的下一个词概率质量,但并不直接测量内部情感状态。主要风险包括锚点敏感性(不同的标记集可能产生不同的分数)和天花板效应(强烈偏好特定标记的模型可能会人为地夸大差距)。我们通过使用三组替代锚点集运行相同实验,并报告所得分数差距之间的Spearman秩相关系数(附录A (https://arxiv.org/html/2605.05653#A1))来解决锚点敏感性问题。高相关性表明发现并非特定于我们选择的锚点。
### 3.5 残差流修补
对于每个提示对,我们执行以下过程:
1. 在干净标记上运行模型,缓存每一层的hook_resid_pre激活。我们只缓存残差流预激活,而不是所有中间激活,以减少内存开销。
2. 在损坏标记上运行模型。
3. 对于每一层l∈{0,...,L−1},将第l层的损坏残差流替换为缓存的干净激活,并测量得到的效价分数。
4. 记录每一层的修补效果:在第l层修补引起的效价分数变化。
我们为每个提示记录两个汇总统计量:
- top_layer:具有最大修补效果的层索引,显示效价信号最因果集中的位置。
- max_patch_effect:峰值修补效果的幅度,反映单个层驱动输出的强度。
所有提示的top_layer分布是层分离发现的主要证据。
### 3.6 效价翻转测试
翻转测试直接测试模型是将效价作为一个可分离的变量来追踪,还是仅仅识别主题。
对于每个模型,我们按索引对齐好消息和负性对照对(它们共享相同的损坏基线),并计算每个对在两个条件下的分数差距。当满足以下条件时发生翻转:
gapgood_news > 0 且 gapnegative_control < 0(2)
对于相同的提示索引。
一个仅识别主题的模型会产生跨条件相关的差距,导致翻转率接近50%。一个具有真正效价表征的模型会产生反相关的差距,导致翻转率远高于50%。我们报告每个模型的翻转率,并将其作为反对主题检测假说的主要证据。相似文章
情绪会影响大语言模型的道德判断吗?
辛辛那提大学的研究人员发现,在提示中加入积极或消极情绪可在约20%的情况下翻转LLM对道德可接受性的判断,揭示出模型与人类在情绪驱动对齐上的差距。
一层解释所有:理解大型语言模型中的大规模激活现象
本文识别出大型语言模型(LLM)中极端激活现象产生并传播的“大规模涌现层(Massive Emergence Layer)”,并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。
大型语言模型中的情绪概念及其功能
Anthropic 发布研究论文,分析了 Claude Sonnet 4.5 的内部机制,揭示了影响模型行为和安全性的功能性情绪相关表征。
现代大语言模型与人类脑电图中共有的效价轴:饱和规律
本文发现了现代大语言模型与人类脑电图信号之间共有的效价轴(V-axis),表明LLM内部表示中的一个单一方向与对情感刺激的神经反应一致。它还识别了饱和规律,解释了为何基于LLM的监督无法改善脑电图解码,以及如何利用残差多样性提升性能。
赋予角色的大型语言模型表现出类似人类的动机推理
本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。