指令调优大语言模型中的构成性文学原语：自我、风格与情感的跨架构SAE特征

arXiv cs.LG 2026/05/20 04:00 论文

摘要

本文通过稀疏自编码器刻画了指令调优大语言模型中的构成性文学原语，发现了自我、风格与情感的特征类别，这些特征能够在两种架构间实现情感引导。

arXiv:2605.18808v1 公告类型：新摘要：我们通过稀疏自编码器对两个指令调优大语言模型（Llama 3.1 8B-Instruct 和 Gemma 2 9B-IT）的中层残差流进行了刻画，揭示了文学原语的构成性架构。共出现四类特征：命名门控（促进目标情感的词汇标记）、十一自我的第一人称语域特征簇、文体语域调节器（展示而非告知与陌生化），以及仅通过多特征引导产生的构成性情感。在使用强制选择的5-LLM评委组对27类情感分类体系（Cowen-Keltner）进行评估时，Llama通过结合命名门控、多特征配方和单自我特征引导达到了完整的27/27覆盖率；Gemma达到23/27，其中爱慕是唯一的严格失败类。在随机评判下，每个单元格的通过概率约为$10^{-3}$，整个目录中双种子假阳性单元格的期望数量可忽略不计，因此观察到的覆盖率并非偶然。跨架构的不对称性体现在严格与宽松评委的对比中：对于相同的生成文本，评委在Llama输出上比对Gemma输出更常达成一致，因为Llama输出更直接地命名目标情感，而Gemma输出则通过场景和意象来唤起情感。两种架构都包含同时作为语域标记和情感发射器的自我特征，包括每个架构中单个负载最高RLHF的自我特征，该特征在一个操作区间强化机构化的辅助AI角色，并在相同校准系数下产生可分类的情感输出。方法论上，本文提出了一个三阶段验证流程（logit-lens、LLM评分、5-LLM评委），并记录了反模式；总计算量为单GPU，每个情感特征发现周期约15分钟。

查看原文

指令调优大语言模型中的构成性文学原语：自我、风格与情感的跨架构SAE特征

相似文章

稀疏自编码器将大脑-LLM对齐映射到皮层语义拓扑

通过风格引导提示解释风格表示

轻量级风格一致性分析：用于多媒体内容审核的大语言模型生成文本鲁棒性检测

奖励模型中的偏好不稳定性：通过稀疏自编码器进行检测与缓解

接地鸿沟：大语言模型如何以不同于人类的方式锚定抽象概念的含义

提交意见反馈