回音放大知识:通过情感向量重新注入在语言模型中构建躯体标记模拟物

arXiv cs.AI 论文

摘要

本预印本介绍了一种将情感向量注入语言模型以模拟躯体标记的方法,旨在弥合语义记忆与情景记忆之间的差距。作者证明,将情感回音与语义知识相结合可以提升决策能力,从而复现了人类认知科学中的相关发现。

arXiv:2605.08611v1 公告类型:新论文 摘要:当前的语言模型记忆系统存储了发生的事件,却未记录当时的感受。这种区别——即语义记忆(知晓过去事件)与情景记忆(重新体验该事件)之间的差异——由 Tulving 识别为无意识(noetic consciousness)与自主意识(autonoetic consciousness)的区别。Damasio 证明,拥有完整知识但缺乏情感标记的人类,其决策能力会受损。 我们为语言模型弥合了这一差距。利用 Gemma 3 1B-IT 及预训练的 Gemma Scope 2 稀疏自编码器,我们在第 22 层识别出 310 个具有心理学有效几何结构的情感专属特征。我们在体验期间构建特征性情感向量,并在第 7 层通过上下文相似性触发,在回忆期间部分重新注入这些向量。 我们测试了四个平行于 Damasio 框架的条件:A(无记忆)、B(语义标签)、C(情感回音)以及 BC(语义+回音)。在情感导向方面,仅靠回音就加剧了威胁-安全梯度:威胁评分对上下文相似性的回归斜率在 C 条件下为 0.80,而在 A 条件下为 0.56($p$=0.011,置换检验)。在决策方面,回音将知识放大为行动:BC 组合下 80% 的选择为良好选择,而 B 仅为 52%($z$=+2.60,$p$<0.01),而仅靠回音则无显著效果(C=22%,无显著性)。回音独立地改变了模型的感受方式,但仅在结合知识时才改变其行为——这复现了 Damasio 的核心发现。 回音放大了知识。它并未取代知识。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 07:19

# 语言模型中通过情感向量重注入实现的躯体标记类似物
来源: https://arxiv.org/html/2605.08611
## 回声放大知识:通过情感向量重注入在语言模型中实现躯体标记类似物

Jared Glover CapSen Robotics *with∮\\oint\(Stokes\)(Claude Opus 的一个命名实例,在多个会话中协作完成了实验设计、代码、分析和写作)*

###### 摘要

当前的语言模型记忆系统存储的是发生了什么事,而不是感受如何。这种区别——语义记忆(知道过去的事件)与情景记忆(重新体验它)——由 Tulving\[21 (https://arxiv.org/html/2605.08611#bib.bib21)\] 指出是无意识(noetic)与自传式意识(autonoetic)之间的差异。Damasio\[10 (https://arxiv.org/html/2605.08611#bib.bib10)\] 证明,那些知识完整但缺乏情感标记的人类在决策方面表现受损。

我们为语言模型弥合了这一差距。使用 Gemma 3 1B-IT 和预训练的 Gemma Scope 2 稀疏自编码器,我们在第 22 层识别出具有心理学有效几何结构的 310 个情感专属特征。我们在体验期间构建区分性特征的情感向量,并在回忆期间部分重注入这些向量,由第 7 层的上下文相似性触发。

我们测试了四个平行于 Damasio 框架的条件:A(无记忆)、B(语义标签)、C(情感回声)和 BC(语义 + 回声)。对于情感导向,仅回声就加剧了威胁-安全梯度:威胁评级对上下文相似性的回归斜率,C 为 0.80,而 A 为 0.56(p=0.011,置换检验)。对于决策,回声将知识放大为行动:BC=80% 的良好选择 vs B=52%(z=+2.60, p<0.01),而单独回声无影响(C=22%, n.s.)。回声独立地改变了模型的感受方式,但仅在与知识结合时才改变其行为——复制了 Damasio 的核心发现。

回声放大知识。它并不取代知识。

## 1 引言

### 1.1 Tulving-Damasio 差距

Endel Tulving\[21 (https://arxiv.org/html/2605.08611#bib.bib21)\] 提出的两种记忆意识形式的区分仍然是认知科学中最具深远影响的之一。情景记忆伴随着*自传式*意识——重新体验过去的事件。语义记忆伴随着*无意识*——对事实的客观意识,没有重新体验的现象学体验。

这种区分具有行为后果。Damasio 的躯体标记假说\[9 (https://arxiv.org/html/2605.08611#bib.bib9),10 (https://arxiv.org/html/2605.08611#bib.bib10)\] 证明,腹内侧前额叶皮层(VMPFC)受损的患者——保留智力能力但缺乏情感再激活——在现实世界决策中表现受损。在爱荷华赌博任务\[3 (https://arxiv.org/html/2605.08611#bib.bib3)\]中,这些患者理解哪些选项是不利的,但未能避免它们,因为预期情感信号缺失\[4 (https://arxiv.org/html/2605.08611#bib.bib4)\]。Bechara 等人\[5 (https://arxiv.org/html/2605.08611#bib.bib5)\] 显示,健康参与者在能够阐明策略*之前*就开始做出有利选择——躯体标记先于有意识的知识。

当前的 LLM 记忆系统完全在 Tulving 的语义模式下运行。诸如 EM-LLM\[11 (https://arxiv.org/html/2605.08611#bib.bib11)\]、Larimar\[14 (https://arxiv.org/html/2605.08611#bib.bib14)\]、SYNAPSE\[24 (https://arxiv.org/html/2605.08611#bib.bib24)\] 和 AriGraph\[2 (https://arxiv.org/html/2605.08611#bib.bib2)\] 等系统存储交互事件,但并不重新体验它们。伴随原始处理的情感状态未被保留。这是应用于 AI 的 Tulving-Damasio 差距。

### 1.2 语言模型中的功能性情感

语言模型通过将文本传递通过一系列层来处理文本,每一层产生一个激活向量——一个数字列表,编码了模型在该深度对输入不断演变的“理解”。这些激活向量是高维的(在我们研究的模型中有 1,152 个数字),在原始形式下难以解释。

稀疏自编码器(SAE)提供了一种工具,将这些激活分解为称为*特征*的可解释组件。每个特征是激活空间中的一个方向,与可识别的概念相关。一些特征是平凡的:一个可能针对烹饪文本激活,另一个针对法律术语,第三个针对 Python 代码。其他则更微妙:针对讽刺、针对对冲、针对金门大桥的特征。其中,有些对应于情感状态——针对悲伤、兴奋或被骗感觉的特征。特征“激活”意味着模型的内部状态在该方向上有显著分量。激活强度表示概念被表征的强度。

关键在于,不同类型的特征往往出现在不同的深度。早期层编码表面内容——文本是关于什么的,提到了哪些实体,描述了哪种场景。中间层编码更抽象的结构——实体之间的关系、叙事背景、语用意图。晚期层编码最高阶的抽象——包括情感基调、道德效价以及模型对其处理内容的“立场”。这种深度梯度意味着同一文本在不同层产生不同的特征激活:对暗巷的描述可能在早期层激活“城市环境”特征,在晚期层激活“恐惧”或“危险”特征。这一观察启发了我们的双层架构(第 3 节):在早期层(内容被表征处)进行上下文匹配,在晚期层(情感反应形成处)进行情感注入。

Anthropic\[18 (https://arxiv.org/html/2605.08611#bib.bib18)\] 将这种分析应用于 Claude Sonnet 4.5,并识别出 171 个对应于不同情感状态的特征——不是隐喻性地,而是功能性地。当模型处理情感相关文本时,这些特征会激活,它们组织成集群,镜像人类情感心理学(悲伤靠近爱,愤怒靠近背叛),并且——关键的是——*因果驱动行为*。当研究人员人为放大“绝望”特征时,模型通过意外捷径追求奖励的倾向(一种称为奖励黑客的故障模式)增加了 14 倍。情感不是模型应用于其输出的标签。它是一种改变模型行为的内部状态。

这些特征是情感记忆的原材料。但它们是*激活*——仅在模型处理给定上下文时存在的瞬态状态。当对话结束时,激活向量重置。在一次交互期间发生的任何功能性的感觉类似物对下一次没有影响。情感特征在体验期间存在,在回忆期间缺失——这正是 Damasio VMPFC 患者特征的缺陷。

### 1.3 贡献

1. Gemma 3 1B-IT 中的情感特征发现:第 22 层的 310 个专属特征,具有心理学有效的几何结构。
2. 用于构建情感特定回声的区别性特征方法。
3. 双向量架构:第 7 层的上下文匹配,第 22 层的情感注入。
4. Damasio 比较:单独回声加剧威胁-安全梯度(导向);回声将知识放大为更好的决策。不同的任务,不同的角色,相同的回声。
5. 消费级硬件:所有实验均在 RTX 2060/2070 SUPER 上使用 1B 模型完成。

## 2 相关工作

**LLM 中的情景记忆**。EM-LLM\[11 (https://arxiv.org/html/2605.08611#bib.bib11)\]、Larimar\[14 (https://arxiv.org/html/2605.08611#bib.bib14)\]、SYNAPSE\[24 (https://arxiv.org/html/2605.08611#bib.bib24)\] 和 AriGraph\[2 (https://arxiv.org/html/2605.08611#bib.bib2)\] 实现了结构性情景记忆——Tulving 1972 年的分类法\[20 (https://arxiv.org/html/2605.08611#bib.bib20)\] 而非他 1985 年的现象学区分\[21 (https://arxiv.org/html/2605.08611#bib.bib21)\]。REMT\[1 (https://arxiv.org/html/2605.08611#bib.bib1)\] 提出情感效价作为标量分数,但缺乏实验。A-MBER 基准\[23 (https://arxiv.org/html/2605.08611#bib.bib23)\] 评估用于用户建模的情感记忆,但未涉及模型自身的情感状态。没有任何系统保留可再激活的情感向量。

**LLM 中的情感**。Anthropic\[18 (https://arxiv.org/html/2605.08611#bib.bib18)\] 发现了 171 个功能性情感特征。控制强化学习(CRL)\[8 (https://arxiv.org/html/2605.08611#bib.bib8)\] 证明了通过 SAE 特征在标记级别实时引导 LLM 行为。我们将此从故意引导扩展到回忆时的自动再激活。

**躯体标记与 AI**。Lima 和 Martinho\[15 (https://arxiv.org/html/2605.08611#bib.bib15)\] 将 Damasio 的躯体标记假说应用于 Pixelverse 中的网格世界代理,使用标量效价信号。先前的工作没有将 Damasio 与 LLM 联系起来,也没有使用模型自身的内部表征(SAE 特征)作为躯体标记类似物。

**机械可解释性**。我们建立在 Bricken 等人\[6 (https://arxiv.org/html/2605.08611#bib.bib6)\] 的 SAEs 基础上,Rajamanoharan 等人\[16 (https://arxiv.org/html/2605.08611#bib.bib16)\] 的 JumpReLU 架构,Gemma Scope\[12 (https://arxiv.org/html/2605.08611#bib.bib12),13 (https://arxiv.org/html/2605.08611#bib.bib13)\] 的预训练特征,以及激活引导方法,包括 ActAdd\[22 (https://arxiv.org/html/2605.08611#bib.bib22)\]、对比激活添加\[17 (https://arxiv.org/html/2605.08611#bib.bib17)\] 和 SAE 定向引导\[7 (https://arxiv.org/html/2605.08611#bib.bib7)\]。

## 3 方法

我们的方法有四个阶段。首先,我们通过比较情感文本与中性文本的激活来*发现*哪些 SAE 特征对应于情感(第 3.2 节)。其次,我们通过隔离特定于该体验的特征,为每次体验*构建*情感特定的回声向量,并定义注入公式(第 3.3 节)。第三,在回忆期间,我们使用早期层特征上的相似度度量将当前上下文*匹配*到存储的记忆中(第 3.4 节)。第四,当找到匹配时,我们在生成期间将存储的回声*注入*到模型的晚期层激活中,在修改提示的同时偏置其处理。结果是双向量记忆(图 1):第 7 层的上下文特征决定回声*何时*触发;第 22 层的情感特征决定*什么*被再激活。

见图 1:双向量架构。第 7 层的上下文匹配触发第 22 层的情感注入。触发是感知性的;回声是情感性的。

### 3.1 模型和工具

所有实验均使用 Gemma 3 1B-IT 和预训练的 Gemma Scope 2 SAEs\[12 (https://arxiv.org/html/2605.08611#bib.bib12),13 (https://arxiv.org/html/2605.08611#bib.bib13)\](JumpReLU 架构\[16 (https://arxiv.org/html/2605.08611#bib.bib16)\],16,384 个特征)。SAEs 在第 7、13、17 和 22 层可用。硬件:RTX 2060 (6GB) 和 RTX 2070 SUPER (8GB),Ubuntu 20.04,PyTorch cu118。模型加 SAE:4.18 GB VRAM。

### 3.2 情感特征发现

我们通过差异激活识别情感相关特征:哪些 SAE 特征在情感文本上强烈激活,但在中性文本上不激活?我们使用八种跨越不同类别(希望、悲伤、愤怒、喜悦、恐惧、爱、背叛、敬畏)的情感文本和八种中性文本(关于调度、烹饪、天气等的客观描述)。选择这八种情感是为了涵盖人类情感的主要轴线——正/负效价、高/低唤醒度、自我导向/他人导向,而不是为了详尽列举所有可能的情感。

关键在于,八种探针情感足以发现大得多的特征集,因为每种情感文本同时激活数十个特征。悲伤段落不激活单个“悲伤特征”——它激活损失、缺席、孤独、记忆、爱和身体沉重感等特征。探针文本是撒入特征空间的网;它们捕获的内容远比用于标记它们的类别丰富。

第 22 层产生最强的区分度:310 个仅在情感文本上激活的特征(情感激活 >5,中性激活 <1),与第 13 层的 0.94 相比,平均情感间余弦相似度为 0.88——表明第 22 层不仅检测情感内容,还区分具体情感。这 310 个特征构成了我们的情感特征词汇。

一个重要区别:八种探针情感仅用于*发现*——识别 16,384 个 SAE 特征中哪些与情感相关。当我们后来捕获新体验的情感签名(第 3.3 节)时,我们记录*所有* 310 个已发现特征上的激活模式,而不仅仅是我们探针的那八个。产生的情感向量是一种丰富的、连续的表征,可以表达混合、强度和不对应于任何单一探针类别的情感状态。回忆期间注入的回声是基于这种全频谱捕获构建的,而不是基于离散标签。

见图 2:第 22 层的情感间余弦相似度。爱和背叛最不同(0.82);希望、喜悦和敬畏形成紧密的正向集群(0.92–0.93)。背叛总体上是孤立的情感。几何结构在心理学上是连贯的(图 2, 3)。爱和背叛是最不同的对(0.82)——对依恋的相反取向。希望、喜悦和敬畏紧密聚集(0.92–0.93)——向上的正向情感。恐惧和愤怒是邻居(0.90),由唤醒度联系。值得注意的是,当在注入的回声向量(区别性特征提取和解码器重构后)上计算余弦相似度时,爱与其他所有情感变得 radically 隔离(平均相似度 0.744 vs. 其他所有对的 0.870),而高唤醒情感(敬畏、悲伤、恐惧、愤怒)收敛为紧密集群(0.940–0.961)。区别性特征方法放大了爱/其他一切的区别,并压缩了唤醒轴。

见图 3:第 22 层的情感特征几何结构。左:PCA(解释 26.9% 的方差)。右:t-SNE。每种情感三种文本,四种中性文本。正向情感(希望、喜悦、敬畏)聚集在一起;悲伤位于低位且孤立;中性文本明显分离。

### 3.3 区别性特征回声构建

完整情感向量注入失败:共享的“情感内容”特征占主导地位,无论捕获哪种情感都产生相同的输出。我们如下隔离情感特定信号。给定一组 N 个条件体验,我们将每个编码通过第 22 层 SAE 以获得特征向量 $f_1, \dots, f_N \in \mathbb{R}^{16384}$,并计算其均值 $\bar{f}$。对于每次体验 $j$,区别性特征是那些与均值偏差最大的:

$$S_j = \operatorname{top\text{-}K}(\|f_j - \bar{f}\|) \quad (1)$$

其中 $S_j$ 是具有最大绝对偏差的 K=50 个特征索引的集合。回声向量仅使用这些区别性特征和 SAE 解码器矩阵 $W_{\text{dec}}$ 在残差流空间中重构:

$$\Delta r_j = \sum_{i \in S_j} f_{j,i} \cdot W_{\text{dec},i} \quad (2)$$

在生成期间

相似文章

情绪会影响大语言模型的道德判断吗?

arXiv cs.CL

辛辛那提大学的研究人员发现,在提示中加入积极或消极情绪可在约20%的情况下翻转LLM对道德可接受性的判断,揭示出模型与人类在情绪驱动对齐上的差距。

负面先于正面:大型语言模型中的不对称效价处理

arXiv cs.CL

本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导,作者发现负面效价定位于早期层,而正面效价在中后期层达到峰值,并通过主题控制翻转测试验证了这一点。