指令调优大语言模型中的构成性文学原语:自我、风格与情感的跨架构SAE特征
摘要
本文通过稀疏自编码器刻画了指令调优大语言模型中的构成性文学原语,发现了自我、风格与情感的特征类别,这些特征能够在两种架构间实现情感引导。
arXiv:2605.18808v1 公告类型:新
摘要:我们通过稀疏自编码器对两个指令调优大语言模型(Llama 3.1 8B-Instruct 和 Gemma 2 9B-IT)的中层残差流进行了刻画,揭示了文学原语的构成性架构。共出现四类特征:命名门控(促进目标情感的词汇标记)、十一自我的第一人称语域特征簇、文体语域调节器(展示而非告知与陌生化),以及仅通过多特征引导产生的构成性情感。在使用强制选择的5-LLM评委组对27类情感分类体系(Cowen-Keltner)进行评估时,Llama通过结合命名门控、多特征配方和单自我特征引导达到了完整的27/27覆盖率;Gemma达到23/27,其中爱慕是唯一的严格失败类。在随机评判下,每个单元格的通过概率约为$10^{-3}$,整个目录中双种子假阳性单元格的期望数量可忽略不计,因此观察到的覆盖率并非偶然。跨架构的不对称性体现在严格与宽松评委的对比中:对于相同的生成文本,评委在Llama输出上比对Gemma输出更常达成一致,因为Llama输出更直接地命名目标情感,而Gemma输出则通过场景和意象来唤起情感。两种架构都包含同时作为语域标记和情感发射器的自我特征,包括每个架构中单个负载最高RLHF的自我特征,该特征在一个操作区间强化机构化的辅助AI角色,并在相同校准系数下产生可分类的情感输出。方法论上,本文提出了一个三阶段验证流程(logit-lens、LLM评分、5-LLM评委),并记录了反模式;总计算量为单GPU,每个情感特征发现周期约15分钟。
相似文章
稀疏自编码器将大脑-LLM对齐映射到皮层语义拓扑
本文使用稀疏自编码器将大语言模型分解为可解释的特征,并表明语义特征能够解释大脑与皮层语义拓扑的对齐,且该结论在英语、中文和法语中均具有泛化性。
通过风格引导提示解释风格表示
本文提出了一个通过使用风格引导提示(即自然语言指令,引导大语言模型生成具有特定风格属性的文本)来解读风格表示的框架。该方法在描述和模仿写作风格方面均优于基线大语言模型提示技术。
轻量级风格一致性分析:用于多媒体内容审核的大语言模型生成文本鲁棒性检测
提出了 LiSCP,一种轻量级的风格一致性分析方法,旨在鲁棒性地检测大语言模型(LLM)生成的文本内容,重点关注在对抗性操纵下特征的稳定性。在域内和跨域检测中取得了优异的性能,并具有显著的鲁棒性。
奖励模型中的偏好不稳定性:通过稀疏自编码器进行检测与缓解
本文研究了大型语言模型奖励模型中的偏好不稳定性,即微小的输入变化会导致矛盾的偏好分配。作者提出了两种基于SAE的缓解策略——SAE特征引导和SAE残差校正——在不重新训练的情况下减少错误的偏好分配。
接地鸿沟:大语言模型如何以不同于人类的方式锚定抽象概念的含义
本研究调查了大语言模型(LLMs)与人类在理解抽象概念时的“接地”(grounding)差异,发现存在显著的“接地鸿沟”:模型过度依赖词语联想,而较少涉及情感或内在状态。作者利用稀疏自编码器(SAEs)识别出与接地维度相关的内部特征,表明LLM虽然具备这些信息,但在自由生成文本时并未像人类一样自然地调用它们。