多语言设计导向的调控:多语言稀疏自编码器与原则性层选择
摘要
本文介绍了一种基于原则的多语言语言调控方法,该方法使用在多语言数据上训练的稀疏自编码器(SAEs)以及一种基于多语言对齐与语言可分性交集的新型层选择规则,并在LLaMA-3.1-8B和Gemma-2-9B上针对机器翻译和跨语言摘要进行了评估。
arXiv:2605.23036v1 公告类型:新 \n 摘要:稀疏自编码器(SAEs)使得大型语言模型(LLMs)中的特征级机械可解释性和激活调控成为可能,但基于SAE的语言控制在多语言设置中仍然不可靠:大多数SAE仅在英语数据上训练,且调控层的选择是启发式的。我们通过推进一种基于原则的、机制性的多语言语言调控描述来解决这些限制。首先,我们证明在多语言数据上训练SAE能够持续增强跨语言表示,并在不同层和模型家族中产生更可靠、保持质量的语言控制。其次,我们引入了一种基于多语言对齐与语言可分性交集的\emph{先验}调控层选择规则,该规则无需逐层穷举搜索即可预测有效的干预深度。我们在LLaMA-3.1-8B和Gemma-2-9B上,使用SpBLEU、ROUGE-L、COMET和LaSE评估了我们的方法,涵盖机器翻译和跨语言摘要(CrossSumm)。我们的结果表明,结合交集选择层的多语言SAE稳定了语言识别准确性与生成质量之间的权衡,提供了一种基于原则的、可预测的、表示级别的多语言SAE调控描述。
查看缓存全文
缓存时间: 2026/05/25 08:57
# 多语言设计导向的操控:多语言稀疏自编码器与原则性层选择 来源:https://arxiv.org/html/2605.23036 Yusser Al Ghussin¹,² Daniil Gurgurov¹,² Tanja Bäumel¹,²,⁵ Josef van Genabith¹,² Patrick Schramowski²,³,⁴,⁵ Simon Ostermann¹,²,⁵ ¹萨尔大学 ²德国人工智能研究中心 (DFKI) ³达姆施塔特工业大学 ⁴hessian.AI ⁵欧洲可信赖人工智能中心 (CERTAIN) [email protected] ###### 摘要 稀疏自编码器(SAEs)能够实现大语言模型(LLMs)的特征级可解释机制与激活操控,但在多语言环境中,基于SAE的语言控制仍不可靠:大多数SAEs仅在英语数据上训练,且操控层的选择依赖启发式方法。针对这些局限,我们提出了一种原则性的、基于机制的多语言语言操控方法。首先,我们证明,在多语言数据上训练SAE能持续增强跨语言表征,并在不同层和模型家族中实现更可靠、更保质的语言控制。其次,我们引入一种基于多语言对齐与语言可分离性交集的*先验*操控层选择规则,无需穷尽逐层搜索即可预测有效的干预深度。我们在LLaMA-3.1-8B和Gemma-2-9B上,通过机器翻译和跨语言摘要(CrossSumm)任务进行评估,使用SpBLEU、ROUGE-L、COMET和LaSE等指标。结果表明,多语言SAE结合交集选择的层能稳定语言识别准确率与生成质量之间的权衡,为多语言SAE操控提供了原则性、可预测、表征层面的解释。我们已公开所有代码和模型以确保可复现性。¹¹¹https://github.com/Yusser96/Multilingual-Steering-by-Design/²²²https://huggingface.co/collections/Yusser/multilingual-steering-by-design ## 1 引言  图1:我们的语言控制流水线概览。构建一个语言特定的向量,用于层选择和生成操控。 大语言模型(LLMs)能够生成多种语言的文本,但可靠地*控制*输出语言仍然具有挑战性。尽管稀疏自编码器(SAEs)已成为解释内部激活和构建因果影响模型行为的操控向量的有前景工具 [Cunningham 等 (2023)](https://arxiv.org/html/2605.23036#bib.bib54);[Templeton (2024)](https://arxiv.org/html/2605.23036#bib.bib93),但基于SAE的多语言语言操控仍然脆弱且难以复现,操控成功性因模型和层而异,且不可预测:干预深度通常凭启发式选择(例如“中后层”),需要昂贵的逐层扫描,结果不一致 [Bayat 等 (2025)](https://arxiv.org/html/2605.23036#bib.bib35);[Chou 等 (2025)](https://arxiv.org/html/2605.23036#bib.bib85)。因此,尽管SAE操控有时有效,但缺乏关于*在哪里*以及*为什么*语言控制应应用于模型内部的预测性、机制性解释 [Tang 等 (2024)](https://arxiv.org/html/2605.23036#bib.bib50);[Deng 等 (2025)](https://arxiv.org/html/2605.23036#bib.bib45)。我们认为,这种随意性源于缺乏对多语言信息如何跨模型深度组织的机制性视角。我们证明,有效的语言操控需要访问两个互补信号:支持跨语言流畅生成的共享跨语言结构,以及区分不同语言的语言特定信息。先前工作已表明,多语言预训练模型学习跨语言的共享潜在表征,即使在缺乏共享词汇或平行数据的情况下也能促进跨语言迁移 [Conneau 等 (2020)](https://arxiv.org/html/2605.23036#bib.bib4)。同时,语言身份和语言特定特征在不同层上的编码方式不同,并随着深度增加可能向共享抽象过渡 [Riemenschneider and Frank (2025)](https://arxiv.org/html/2605.23036#bib.bib2);[Zhang 等 (2025)](https://arxiv.org/html/2605.23036#bib.bib3)。如果干预针对的是以共享结构为主的层,则操控缺乏特异性;如果针对的是以语言特定信号为主的层,则模型通常难以恢复生成质量。我们的假设将语言操控重新定义为识别表征平衡点的问题,而非像以往工作那样孤立地放大语言特定特征 [Tang 等 (2024)](https://arxiv.org/html/2605.23036#bib.bib50);[Deng 等 (2025)](https://arxiv.org/html/2605.23036#bib.bib45);[Gurgurov 等 (2025)](https://arxiv.org/html/2605.23036#bib.bib37)。 在本文中,我们通过两个互补贡献来实现这一机制假设。首先,我们直接在LLaMA-3.1-8B [Grattafiori 等 (2024)](https://arxiv.org/html/2605.23036#bib.bib52) 和Gemma-2-9B [Team 等 (2024)](https://arxiv.org/html/2605.23036#bib.bib75) 的多语言数据上训练SAE,证明多语言训练能在稀疏表征空间中保留可预测、可解释操控所需的共享跨语言结构和语言特定区分。与开源SAE [He 等 (2024)](https://arxiv.org/html/2605.23036#bib.bib21);[Lieberum 等 (2024)](https://arxiv.org/html/2605.23036#bib.bib22) 相比,这些多语言SAE在跨层和跨模型家族上产生了更稳定、更保质的语言操控。其次,我们引入了一个基于多语言对齐与语言可分离性交集的*先验*原则性层选择规则,无需穷尽逐层搜索即可预测有效的干预深度。图1 (https://arxiv.org/html/2605.23036#S1.F1) 展示了所提议的语言操控框架概览。 我们在LLaMA-3.1-8B和Gemma-2-9B上,通过机器翻译和跨语言摘要任务验证了这一机制框架,明确测试了平衡层能产生语言识别准确率和生成质量最优权衡的预测。在两个基准测试中,我们发现多语言SAE结合交集选择的层能持续稳定语言控制并提高可解释性,支持了有效操控深度是模型内部多语言组织属性的观点,而非启发式调优选择。 我们的贡献有三点: - **语言跨深度的机制性刻画**。我们证明,有效的语言操控出现在跨语言对齐与语言可分离性共存的层上。 - **原则性的*先验*层选择**。我们引入一个基于交集的标准,无需层扫描即可预测有效的操控深度。 - **多语言SAE作为语言操控的可解释性推动者**。我们证明,多语言SAE训练能保留可靠、可解释语言控制所需的表征结构。  图2:Gemma-2-9B(第23层)各语言对比(DiffMean)向量的相关矩阵。 ## 2 相关工作 #### 基于SAE的激活与语言操控 稀疏自编码器(SAEs)已被广泛用于解释和操控大语言模型的内部激活 [Templeton, 2024 (https://arxiv.org/html/2605.23036#bib.bib93); Zhao 等, 2024 (https://arxiv.org/html/2605.23036#bib.bib14); O’Brien 等, 2024 (https://arxiv.org/html/2605.23036#bib.bib16); Wang 等, 2025 (https://arxiv.org/html/2605.23036#bib.bib15); Zhao 等, 2026 (https://arxiv.org/html/2605.23036#bib.bib17)]。诸如稀疏激活操控(SAS)[Bayat 等, 2025 (https://arxiv.org/html/2605.23036#bib.bib35)]、特征引导激活添加(FGAA)[Soo 等, 2025 (https://arxiv.org/html/2605.23036#bib.bib26)] 和SAE目标操控(SAE-TS)[Chalnev 等, 2024 (https://arxiv.org/html/2605.23036#bib.bib25)] 等方法表明,操控少量稀疏特征可以因果性地影响模型行为。应用于语言控制时,先前工作表明编辑单个SAE特征可以翻转Gemma-2-9B和LLaMA-3.1-8B等模型的输出语言 [Chou 等, 2025 (https://arxiv.org/html/2605.23036#bib.bib85); Deng 等, 2025 (https://arxiv.org/html/2605.23036#bib.bib45); Gurgurov 等, 2026 (https://arxiv.org/html/2605.23036#bib.bib1)]。然而,有效的操控深度通常通过手动探索或固定启发式方法(例如中后层)确定,且许多现有方法依赖于主要在英语数据上训练的SAE。因此,这些方法无法提供预测性、机制性的解释来说明语言操控应应用于哪个深度,也无法解释多语言结构在稀疏表征中如何保留。 #### SAE的评估与训练 最近的基准测试如SAE-Bench [Karvonen 等, 2025 (https://arxiv.org/html/2605.23036#bib.bib19)] 和AxBench [Wu 等, 2025 (https://arxiv.org/html/2605.23036#bib.bib88)] 评估了SAE的保真度、可解释性和干预质量,报告了基于SAE的操控与更简单的基线相比结果不一。其他工作强调重构保真度对因果干预至关重要:Gemma-Scope [Lieberum 等, 2024 (https://arxiv.org/html/2605.23036#bib.bib22)] 和LLaMA-Scope [He 等, 2024 (https://arxiv.org/html/2605.23036#bib.bib21)] 报告高重构误差会降低操控有效性,而JumpReLU SAEs [Rajamanoharan 等, 2024 (https://arxiv.org/html/2605.23036#bib.bib20)] 通过直通训练改善了保真度-稀疏性权衡。这些发现表明,SAE保真度不足可能对低频或多语言特征的影响尤为严重,这促使我们使用高保真度的JumpReLU SAEs进行多语言语言操控。 #### 模型内部的语言特征 除SAE外,先前的分析指出多语言模型中存在强烈的与层相关的语言信号。[Tang 等 (2024)](https://arxiv.org/html/2605.23036#bib.bib50) 在BLOOM和LLaMA-2中识别出语言特定的神经元,并证明切换它们可以改变输出语言。[Chang 等 (2022)](https://arxiv.org/html/2605.23036#bib.bib24) 研究了XLM-R中的多语言几何结构,发现语言占据近似平行的子空间,由线性的“语言向量”分隔,尤其是在中间层;沿这些方向移动隐藏状态可以翻转预测。我们的发现与这些关于多语言结构深度分布的趋势一致,并支持将语言视为表征空间中可操控的方向 [Gurgurov 等 (2026)](https://arxiv.org/html/2605.23036#bib.bib1),同时进一步揭示了语言家族之间的相关性 [Gurgurov 等 (2025)](https://arxiv.org/html/2605.23036#bib.bib37)。这些工作共同推动了需要一种表征层面的多语言语言操控解释,这种解释既能说明语言信息如何跨深度组织,又能说明如何利用这种组织来预测性地指导干预。 ## 3 语言表征与原则性操控 我们的目标不仅仅是改进语言控制,而是解释*在哪里*以及*为什么*语言操控在多语言LLM内部是可能的,并利用这一解释*先验*地指导干预。我们将**语言向量**定义为表征空间中的方向,这些方向既捕捉了单个语言的存在,也捕捉了可以沿着它们因果操控语言的方向,基于先前证据表明语言身份被线性编码为模型表征中的一个方向或低维子空间 [Park 等, 2024 (https://arxiv.org/html/2605.23036#bib.bib7); Deng 等, 2025 (https://arxiv.org/html/2605.23036#bib.bib45)]。我们的层选择标准基于这样一个观察:可靠的语言控制需要访问两个互补信号:(i) **对齐**,对应于支持跨语言生成的共享跨语言结构;(ii) **可分离性**,对应于区分不同语言的语言特定信息。只有在这些信号平衡的深度,小规模干预才能可靠地操控输出语言。 ### 3.1 语言向量 在每一层,我们使用从模型激活中构建的对比性**语言向量**来表示语言,这些向量可以来自密集残差流,也可以来自SAE诱导的稀疏空间。给定目标语言和其他语言集合的激活,我们使用DiffMean方法构建语言操控向量 [Wu 等, 2025 (https://arxiv.org/html/2605.23036#bib.bib88)]。对于第 $\ell$ 层的给定目标语言,令 $\mathcal{Z}^+$ 表示目标语言示例对应的稀疏编码集合,$\mathcal{Z}^-$ 表示所有其他语言对应的集合。我们通过平均该语言中所有非特殊token的SAE编码来计算均值稀疏表征: $$\bar{z}^+_\ell = \frac{1}{|\mathcal{Z}^+|} \sum_{z \in \mathcal{Z}^+} z, \qquad \bar{z}^-_\ell = \frac{1}{|\mathcal{Z}^-|} \sum_{z \in \mathcal{Z}^-} z,$$ 并将操控向量定义为: $$w_{\mathrm{DiffMean}}(\ell) = \bar{z}^+_\ell - \bar{z}^-_\ell.$$ 这些向量随后以加法方式在SAE空间中使用,以影响模型输出。SAE表征、DiffMean操控向量以及推理时操控过程的完整数学定义见附录C (https://arxiv.org/html/2605.23036#A3)。 除了作为操控方向外,这些语言向量还表现出有意义的语言结构。特别地,在由我们的交集标准选择的层上,每个语言向量之间的成对相关性揭示了清晰的语言家族分组。如图2 (https://arxiv.org/html/2605.23036#S1.F2) 所示,来自同一家族(例如罗曼语族或日耳曼语族)的语言表现出高度的相互相似性,而跨家族的相关性较低。同时,跨家族存在一个共享的多语言成分,反映了共同的跨语言结构。这种共享对齐与家族特定分离的共存与我们的层选择标准的直觉一致,并有助于解释为什么这些深度在语言识别准确率和生成质量之间产生强权衡。 ### 3.2 用于语言操控的多语言SAE 我们框架中的一个核心设计选择是在多语言数据上训练稀疏自编码器,而非仅英语语料。这一选择不仅是实用性的,而且对于可靠和可解释的语言操控具有机制上的重要性。仅英语SAE优先编码单语结构:英语中频繁且显著的特征主导稀疏表征,而跨语言相关性和低频语言特定特征则较弱。
相似文章
SALSA:通过学习的引导激活向量实现语音感知LLM的自适应
SALSA提出了一种轻量级自适应方法,用于语音感知的大语言模型,通过监督目标学习逐层引导向量,在域外语音基准上取得了显著改进(相对提升高达46.8%),并表明引导编码器层(尤其是较深层)比修改LLM主干更有效。
稀疏自编码器将大脑-LLM对齐映射到皮层语义拓扑
本文使用稀疏自编码器将大语言模型分解为可解释的特征,并表明语义特征能够解释大脑与皮层语义拓扑的对齐,且该结论在英语、中文和法语中均具有泛化性。
FineSteer: 大规模语言模型推理时细粒度控制的统一框架
FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。
基于稀疏查询特征梯度优化的导向生成
本文介绍了Prototype-Based Sparse Steering方法,该方法将稀疏自编码器应用于大语言模型的注意力查询激活,然后在推理过程中使用梯度优化来引导生成朝向目标行为。该方法在一个逻辑规划任务和一个风格化教育领域中得到了验证,展示了可解释且解耦的控制能力。
不破坏的引导:基于机制的离散扩散语言模型干预
本文介绍了一种新颖的自适应调度器,用于利用稀疏自编码器引导离散扩散语言模型,结果表明,基于特定属性提交时机进行针对性干预,比均匀方法能提升控制质量和强度。