SLAM：面向语言模型的结构语言激活标记

arXiv cs.CL 2026/05/08 04:00 论文

摘要

SLAM 是一种新颖的白盒水印方案，利用稀疏自编码器将标记嵌入 LLM 残差流的结构几何中，在 Gemma-2 模型上实现了 100% 的检测准确率，且质量损失极小，避免了先前方法对 token 分布的偏置。

arXiv:2605.05443v1 公告类型：新摘要：LLM 水印必须可检测且不损害文本质量，但现有大多数方案会偏置下一个 token 的分布，并用可测量的质量损失换取检测能力。我们提出 SLAM（结构语言激活标记），这是一种新颖的白盒水印方案，通过将标记写入结构几何而非 token 频率来规避这一成本：稀疏自编码器识别编码语言结构（如语态、时态、从句顺序）的残差流方向，并在生成时因果地引导这些方向，从而不约束词汇采样和语义。在 Gemma-2 2B 和 9B 上，SLAM 实现了 100% 的检测准确率，质量成本仅为 1-2 奖励点，相比之下 KGW、EWD 和 Unigram 为 7.5-11.5，且两种模型的自然度和多样性均保持接近无水印水平。其权衡是一种互补的鲁棒性特征：SLAM 能抵抗词级编辑，但容易受到重构句法的释义攻击（以质量成本为代价），这与 token 分布方法相反。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 06:26

# SLAM：面向语言模型的结构化语言激活标记 来源: https://arxiv.org/html/2605.05443 Fabrice Harel-Canada Amit Sahai1 [email protected] [email protected] 1 加州大学洛杉矶分校 ###### 摘要 LLM水印必须在不影响文本质量的前提下可检测，但现有大多数方案会偏置下一个词元的分布，并以可测量的质量损失为代价实现检测。我们提出SLAM（结构语言激活标记），一种新颖的白盒水印方案，通过将标记写入结构几何而非词元频率来规避此代价：稀疏自编码器识别出编码语言结构（如语态、时态、从句顺序）的残差流方向，我们在生成时因果地操纵这些方向，同时保持词汇采样和语义不受约束。在Gemma-2 2B和9B模型上，SLAM实现了100%的检测准确率，而质量代价仅为1-2个奖励点——相比之下，KGW、EWD和Unigram为7.5-11.5个奖励点——在两个模型上，自然度和多样性均保持在接近未加水印的水平。其权衡在于互补的鲁棒性特征：SLAM能够抵抗词级编辑，但易受改变句法的改写攻击（以质量代价为代价），这与词元分布方法恰恰相反。 ## 1 引言 大型语言模型的广泛部署产生了对可靠来源归属的迫切需求：区分AI生成文本与人类创作文本，并将生成内容追溯到其源模型。水印技术，即在生成的文本中嵌入不易察觉但可检测的信号，是一种有前景的方法，但现有方法在可检测性、质量和鲁棒性之间面临根本性矛盾。主流范式（Kirchenbauer et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib20)；Kuditipudi et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib22)；Zhao et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib51)；Google DeepMind, 2024 (https://arxiv.org/html/2605.05443#bib.bib13)）在生成过程中偏置模型的下一个词元分布，并在检测时测试由此产生的统计规律性。这些方案高效且有理论基础，但偏置采样分布会带来可测量的代价：在Gemma-2 PT模型上，KGW、EWD和Unigram相对未加水印基线损失了7.5-11.5个奖励点，其条件困惑度比率降至0.30-0.42（LM发现比其自身自然生成更容易预测的重复输出，这是绿色列表词元重复的标志；见§4.2 (https://arxiv.org/html/2605.05443#S4.SS2)）。SAEMark（Wu et al., 2025 (https://arxiv.org/html/2605.05443#bib.bib47)）使用SAE作为N=50个生成候选的后置评分器，实现了近乎无损的质量，但代价是显著的O(N×M)生成成本。此外，其对语义特征的依赖使其容易受到域偏移和简单文本编辑的破坏。 #### 我们的方法。 SLAM完全绕过了词元分布偏置，通过将水印写入残差流的结构几何而非词元频率来实现。句法结构被编码在LLM残差流的特定局部子空间中（Park et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib34)；Hewitt and Manning, 2019 (https://arxiv.org/html/2605.05443#bib.bib15)），这一事实通过Gemma Scope等公共SAE（Lieberum et al., 2024 (https://arxiv.org/html/2605.05443#bib.bib26)）变得可操作。与语义特征不同，结构特征（被动语态、介词短语前置）通过构造具有域不变性：无论主语是科学家还是银行家，被动语态的SAE方向都会被激活。SLAM在生成时*因果地*操纵这些方向，偏置模型产生*哪个*结构变体（例如，被动语态 vs. 主动语态），而不约束它采样*哪些词元*。其结果是水印本质上不约束词汇表面。在奖励质量上，SLAM在2B/9B上实现了ΔReward=−1.3/−1.9——在2B上所有方法中最佳，在9B上仅次于SynthID（SynthID的−0.2伴随着PPL比率0.72，表明文本重复）。SLAM的PPL比率为1.24/1.36，在2B上最接近1，而distinct-n、Self-BLEU和MAUVE均保持在未加水印基线的紧公差范围内，开销约为1.65倍。其权衡在于互补的鲁棒性特征：词级编辑对SLAM无效（同义词替换、删除和重排序攻击后TPR为100%），而改变句法的改写（如DIPPER）可以移除信号，但代价是攻击者的质量损失，这与词元分布方法相反。因为我们明确针对来源归属而非防篡改加密认证，这种对严重结构重写的脆弱性是计算好的、可接受的质量近乎无损生成代价。 #### 贡献。 1. 1. 一个对比挖掘流水线（46,579个句子对，涵盖104种句法、形态和话语层面现象，每种现象在5个语义域上被引出），通过复合评分（对比度×纯度×跨域一致性）分离出结构SAE方向。 2. 2. PCA-双向结构方向：对对比差异矩阵进行SVD，为每种现象产生k个正交结构模式，允许SLAM在单个SAE潜变量（k=1）或复合子空间（k>1）上操作；双向挖掘捕获每个交替的两个方向，使可操纵方向库翻倍。这处理了更大模型中分布式结构表示的问题，并实现了质量-检测的权衡（图4 (https://arxiv.org/html/2605.05443#A4.F4)）。 3. 3. 一个完整的白盒水印方案，包括HMAC密钥特征选择和早停生成循环（每个提示最多N≤4个候选；返回第一个通过校准的ẑ阈值的候选），LLM调用次数比SAEMark少一个数量级。端到端开销是2B/9B未加水印基线的1.7倍/1.6倍，检测只需一次模型前向传播（约420-640毫秒，而Adaptive约为10.7秒，表8 (https://arxiv.org/html/2605.05443#A5.T8)）。 4. 4. 在Gemma 2 2B和9B（PT）上针对六个基线，在匹配检测率下，对四个质量指标系列（ΔReward、条件PPL比率、语法错误率、distinct-n、Self-BLEU、MAUVE）进行的实证验证：SLAM是唯一在任何指标上都没有灾难性失败的方法，并附有攻击有效性研究，确立了互补的鲁棒性特征（对词级攻击免疫，对句法定向改写易受攻击）。 ## 2 背景 ### 2.1 LLM水印 词元分布水印（Kirchenbauer et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib20)；Kuditipudi et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib22)；Zhao et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib51)；Google DeepMind, 2024 (https://arxiv.org/html/2605.05443#bib.bib13)；Hu et al., 2024 (https://arxiv.org/html/2605.05443#bib.bib17)）偏置下一个词元采样（通过绿色/红色词元列表、指数最小采样或熵感知选择），并在推理时检测由此产生的统计规律性。所有这些都在词元频率空间中产生信号；我们表明这会被中等程度的改写破坏（KGW/EWD/Unigram在DIPPER攻击后TPR为50-64%；图2 (https://arxiv.org/html/2605.05443#S4.F2)）。 #### 非失真作为质量基准。 Google DeepMind (2024 (https://arxiv.org/html/2605.05443#bib.bib13)）将质量保持的金标准形式化为*K序列非失真*：在K个连续响应中，任何单个响应的边际分布等于未加水印的分布。SynthID可证明满足K=1非失真；这种聚合分布保证意味着相等的边际分布，因此我们观察到的可测量奖励差距（§4.2 (https://arxiv.org/html/2605.05443#S4.SS2)）可能反映了有限样本方差或MarkLLM锦标赛采样实现未完美实现N=100个提示时的理论理想。KGW、EWD和Unigram没有这样的保证，并付出了相当大的质量代价。SLAM没有证明非失真（操纵修改的是中间分布而非采样分布），但在我们测量的每个质量轴上经验上接近它。 #### 语言学和句法水印。 早期的工作通过词汇和句法重写嵌入水印：同义词替换（Atallah et al., 2001 (https://arxiv.org/html/2605.05443#bib.bib1)；Chang and Clark, 2010 (https://arxiv.org/html/2605.05443#bib.bib4)）、掩码LM编辑（Ueoka et al., 2021 (https://arxiv.org/html/2605.05443#bib.bib45)）和不变句法特征（Yoo et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib48)）。这些表面形式信号会被任何不强制保留确切措辞的改写器消除。语义不变水印（Liu et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib28)；Hou et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib16)；Ren et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib40)）和后验黑盒标记（Chang et al., 2024 (https://arxiv.org/html/2605.05443#bib.bib5)）寻求无需模型访问的鲁棒性。白盒功能不变标记（Fernandez et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib9)）和无分布方案（Giboulot and Furon, 2024 (https://arxiv.org/html/2605.05443#bib.bib12)）通过权重空间或生成级别的不变性追求鲁棒性。 #### SAEMark。 SAEMark（Wu et al., 2025 (https://arxiv.org/html/2605.05443#bib.bib47)），最接近的先前工作，在*生成期间*使用SAE作为每个候选的水印评分器：在每个M=10个句子步骤中，它采样N=50个候选续写，通过由锚点SAE计算的特征集中度分数（FCS）对每个进行评分，并选择其FCS比率与秘密伪随机目标最匹配的候选。结果是在等效硬件上生成速度比SLAM慢约12倍（表8 (https://arxiv.org/html/2605.05443#A5.T8)）。无论生成模型大小如何，推荐使用Gemma-2 2B SAE作为锚点模型。SLAM在四个轴上形成对比：(a) 因果SAE使用（操纵，而非评分）；(b) 结构特征（通过构造具有域不变性）；(c) O(N)生成成本，N≤4，无需候选选择循环、质量重试或单独的锚点模型；(d) 鲁棒性：SAEMark的FCS依赖于词汇编辑破坏的语义特征激活，在词级攻击上TPR降至2-27%（表2 (https://arxiv.org/html/2605.05443#S4.T2)），而我们的结构方法鲁棒性更强：SLAM在我们研究的两个模型上对所有词级攻击保持100%的TPR。 ### 2.2 稀疏自编码器和激活操纵 LLM中的残差流表示表现出*叠加*：单个神经元代表许多特征的线性组合（Elhage et al., 2022 (https://arxiv.org/html/2605.05443#bib.bib8)）。稀疏自编码器（SAE）通过学习一个稀疏的、过完备的字典Wdec∈Rn×d（n≫d）来解开这一点，使得h≈Wdecφ(h)，其中φ(h)∈R≥0n是稀疏的（Sharkey et al., 2022 (https://arxiv.org/html/2605.05443#bib.bib41)；Bricken et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib3)；Cunningham et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib6)）。个体SAE特征对应于可解释的概念（Bricken et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib3)；Templeton et al., 2024 (https://arxiv.org/html/2605.05443#bib.bib43)；Gao et al., 2024 (https://arxiv.org/html/2605.05443#bib.bib10)）。激活操纵，即向残差流添加一个方向，偏置模型朝向与该方向相关的下游表示（Turner et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib44)；Zou et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib53)；Meng et al., 2022 (https://arxiv.org/html/2605.05443#bib.bib30)）。*对比激活加法*（Panickssery et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib33)），即对比集之间的平均残差激活差异，是我们方向构建的基础，其动机来自*线性表示假设*（Park et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib34), 2024 (https://arxiv.org/html/2605.05443#bib.bib35)）。具体来说，句法现象已被证明占据隐藏状态的可线性解码子空间（Hewitt and Manning, 2019 (https://arxiv.org/html/2605.05443#bib.bib15)）。Gemma Scope（Lieberum et al., 2024 (https://arxiv.org/html/2605.05443#bib.bib26)），针对Gemma 2所有层和宽度的公共SAE，将这些呈现为离散的、稀疏的方向，使得此流水线无需自定义SAE训练。 ## 3 方法 参见图注 图1：SLAM概述。(A) 词元分布水印偏置词元频率，并以可测量的质量损失为代价换取检测（*顶行*）；SLAM沿着结构方向操纵残差流，改变句法形式而不扭曲词元语义（*底行*，几何面板）。(B) 对比句子对分离出句法SAE特征；对差异矩阵进行SVD得到k个正交模式，组合成水印方向vstructure。 ### 3.1 对比数据集构建 我们构建了一个包含46,579个语言学对比句子对的数据集，涵盖104种现象（从一个更大的约8.8万对源池中通过挖掘时的每现象上限筛选而来；完整来源见附录F.1 (https://arxiv.org/html/2605.05443#A6.SS1)）。其中90种现象来自LinguaLens（Jing et al., 2025 (https://arxiv.org/html/2605.05443#bib.bib19)）；其余14种是手动编写的源自BLiMP范式的句法交替（Warstadt et al., 2020 (https://arxiv.org/html/2605.05443#bib.bib46)），针对与水印特别相关的结构，如被动语态、与格交替和分裂句。组合集涵盖句法交替、时-体-语气标记、形态结构和话语层面现象（完整列表和每现象峰值层热力图：附录F.2 (https://arxiv.org/html/2605.05443#A6.SS2)，图5 (https://arxiv.org/html/2605.05443#A6.F5)）。每对(x+, x−)在保持语义内容不变的同时，仅改变目标结构。由于BLiMP最小对对比的是语法形式与不合语法形式，而非结构极性等价物，因此14种手动编写的现象是通过使用Qwen3.5-9B（Qwen Team, 2025 (https://arxiv.org/html/2605.05443#bib.bib37)）在现象特定指令下生成语义等价但结构对比的句子对，并使用BLiMP词汇种子实现词汇多样性来构建的。生成的句子对随后使用AMRLib（Jascob, 2021 (https://arxiv.org/html/2605.05443#bib.bib18)）进行验证，该库应用AMR语义框架（Banarescu et al., 2013 (https://arxiv.org/html/2605.05443#bib.bib2)）来确认x+和x−尽管表面形式不同，但表达相同的底层含义。这些句子对跨越五个语义域（金融、生物学、体育、小说、新闻），防止n-gram单调并

SLAM：面向语言模型的结构语言激活标记

相似文章

通过句法可预测性的语言学感知型LLM水印技术

Chainwash：扩散语言模型水印的多步重写攻击

轻量级风格一致性分析：用于多媒体内容审核的大语言模型生成文本鲁棒性检测

DALM：一种通过三阶段结构化生成的领域代数语言模型

从输入端最小化模态差距：您的语音大语言模型可以成为具备韵律感知能力的文本大语言模型

提交意见反馈