SLAM:面向语言模型的结构语言激活标记

arXiv cs.CL 论文

摘要

SLAM 是一种新颖的白盒水印方案,利用稀疏自编码器将标记嵌入 LLM 残差流的结构几何中,在 Gemma-2 模型上实现了 100% 的检测准确率,且质量损失极小,避免了先前方法对 token 分布的偏置。

arXiv:2605.05443v1 公告类型:新 摘要:LLM 水印必须可检测且不损害文本质量,但现有大多数方案会偏置下一个 token 的分布,并用可测量的质量损失换取检测能力。我们提出 SLAM(结构语言激活标记),这是一种新颖的白盒水印方案,通过将标记写入结构几何而非 token 频率来规避这一成本:稀疏自编码器识别编码语言结构(如语态、时态、从句顺序)的残差流方向,并在生成时因果地引导这些方向,从而不约束词汇采样和语义。在 Gemma-2 2B 和 9B 上,SLAM 实现了 100% 的检测准确率,质量成本仅为 1-2 奖励点,相比之下 KGW、EWD 和 Unigram 为 7.5-11.5,且两种模型的自然度和多样性均保持接近无水印水平。其权衡是一种互补的鲁棒性特征:SLAM 能抵抗词级编辑,但容易受到重构句法的释义攻击(以质量成本为代价),这与 token 分布方法相反。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 06:26

# SLAM:面向语言模型的结构化语言激活标记 来源: https://arxiv.org/html/2605.05443 Fabrice Harel-Canada Amit Sahai1 [email protected] [email protected] 1 加州大学洛杉矶分校 ###### 摘要 LLM水印必须在不影响文本质量的前提下可检测,但现有大多数方案会偏置下一个词元的分布,并以可测量的质量损失为代价实现检测。我们提出SLAM(结构语言激活标记),一种新颖的白盒水印方案,通过将标记写入结构几何而非词元频率来规避此代价:稀疏自编码器识别出编码语言结构(如语态、时态、从句顺序)的残差流方向,我们在生成时因果地操纵这些方向,同时保持词汇采样和语义不受约束。在Gemma-2 2B和9B模型上,SLAM实现了100%的检测准确率,而质量代价仅为1-2个奖励点——相比之下,KGW、EWD和Unigram为7.5-11.5个奖励点——在两个模型上,自然度和多样性均保持在接近未加水印的水平。其权衡在于互补的鲁棒性特征:SLAM能够抵抗词级编辑,但易受改变句法的改写攻击(以质量代价为代价),这与词元分布方法恰恰相反。 ## 1 引言 大型语言模型的广泛部署产生了对可靠来源归属的迫切需求:区分AI生成文本与人类创作文本,并将生成内容追溯到其源模型。水印技术,即在生成的文本中嵌入不易察觉但可检测的信号,是一种有前景的方法,但现有方法在可检测性、质量和鲁棒性之间面临根本性矛盾。主流范式(Kirchenbauer et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib20);Kuditipudi et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib22);Zhao et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib51);Google DeepMind, 2024 (https://arxiv.org/html/2605.05443#bib.bib13))在生成过程中偏置模型的下一个词元分布,并在检测时测试由此产生的统计规律性。这些方案高效且有理论基础,但偏置采样分布会带来可测量的代价:在Gemma-2 PT模型上,KGW、EWD和Unigram相对未加水印基线损失了7.5-11.5个奖励点,其条件困惑度比率降至0.30-0.42(LM发现比其自身自然生成更容易预测的重复输出,这是绿色列表词元重复的标志;见§4.2 (https://arxiv.org/html/2605.05443#S4.SS2))。SAEMark(Wu et al., 2025 (https://arxiv.org/html/2605.05443#bib.bib47))使用SAE作为N=50个生成候选的后置评分器,实现了近乎无损的质量,但代价是显著的O(N×M)生成成本。此外,其对语义特征的依赖使其容易受到域偏移和简单文本编辑的破坏。 #### 我们的方法。 SLAM完全绕过了词元分布偏置,通过将水印写入残差流的结构几何而非词元频率来实现。句法结构被编码在LLM残差流的特定局部子空间中(Park et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib34);Hewitt and Manning, 2019 (https://arxiv.org/html/2605.05443#bib.bib15)),这一事实通过Gemma Scope等公共SAE(Lieberum et al., 2024 (https://arxiv.org/html/2605.05443#bib.bib26))变得可操作。与语义特征不同,结构特征(被动语态、介词短语前置)通过构造具有域不变性:无论主语是科学家还是银行家,被动语态的SAE方向都会被激活。SLAM在生成时*因果地*操纵这些方向,偏置模型产生*哪个*结构变体(例如,被动语态 vs. 主动语态),而不约束它采样*哪些词元*。其结果是水印本质上不约束词汇表面。在奖励质量上,SLAM在2B/9B上实现了ΔReward=−1.3/−1.9——在2B上所有方法中最佳,在9B上仅次于SynthID(SynthID的−0.2伴随着PPL比率0.72,表明文本重复)。SLAM的PPL比率为1.24/1.36,在2B上最接近1,而distinct-n、Self-BLEU和MAUVE均保持在未加水印基线的紧公差范围内,开销约为1.65倍。其权衡在于互补的鲁棒性特征:词级编辑对SLAM无效(同义词替换、删除和重排序攻击后TPR为100%),而改变句法的改写(如DIPPER)可以移除信号,但代价是攻击者的质量损失,这与词元分布方法相反。因为我们明确针对来源归属而非防篡改加密认证,这种对严重结构重写的脆弱性是计算好的、可接受的质量近乎无损生成代价。 #### 贡献。 1. 1. 一个对比挖掘流水线(46,579个句子对,涵盖104种句法、形态和话语层面现象,每种现象在5个语义域上被引出),通过复合评分(对比度×纯度×跨域一致性)分离出结构SAE方向。 2. 2. PCA-双向结构方向:对对比差异矩阵进行SVD,为每种现象产生k个正交结构模式,允许SLAM在单个SAE潜变量(k=1)或复合子空间(k>1)上操作;双向挖掘捕获每个交替的两个方向,使可操纵方向库翻倍。这处理了更大模型中分布式结构表示的问题,并实现了质量-检测的权衡(图4 (https://arxiv.org/html/2605.05443#A4.F4))。 3. 3. 一个完整的白盒水印方案,包括HMAC密钥特征选择和早停生成循环(每个提示最多N≤4个候选;返回第一个通过校准的ẑ阈值的候选),LLM调用次数比SAEMark少一个数量级。端到端开销是2B/9B未加水印基线的1.7倍/1.6倍,检测只需一次模型前向传播(约420-640毫秒,而Adaptive约为10.7秒,表8 (https://arxiv.org/html/2605.05443#A5.T8))。 4. 4. 在Gemma 2 2B和9B(PT)上针对六个基线,在匹配检测率下,对四个质量指标系列(ΔReward、条件PPL比率、语法错误率、distinct-n、Self-BLEU、MAUVE)进行的实证验证:SLAM是唯一在任何指标上都没有灾难性失败的方法,并附有攻击有效性研究,确立了互补的鲁棒性特征(对词级攻击免疫,对句法定向改写易受攻击)。 ## 2 背景 ### 2.1 LLM水印 词元分布水印(Kirchenbauer et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib20);Kuditipudi et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib22);Zhao et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib51);Google DeepMind, 2024 (https://arxiv.org/html/2605.05443#bib.bib13);Hu et al., 2024 (https://arxiv.org/html/2605.05443#bib.bib17))偏置下一个词元采样(通过绿色/红色词元列表、指数最小采样或熵感知选择),并在推理时检测由此产生的统计规律性。所有这些都在词元频率空间中产生信号;我们表明这会被中等程度的改写破坏(KGW/EWD/Unigram在DIPPER攻击后TPR为50-64%;图2 (https://arxiv.org/html/2605.05443#S4.F2))。 #### 非失真作为质量基准。 Google DeepMind (2024 (https://arxiv.org/html/2605.05443#bib.bib13))将质量保持的金标准形式化为*K序列非失真*:在K个连续响应中,任何单个响应的边际分布等于未加水印的分布。SynthID可证明满足K=1非失真;这种聚合分布保证意味着相等的边际分布,因此我们观察到的可测量奖励差距(§4.2 (https://arxiv.org/html/2605.05443#S4.SS2))可能反映了有限样本方差或MarkLLM锦标赛采样实现未完美实现N=100个提示时的理论理想。KGW、EWD和Unigram没有这样的保证,并付出了相当大的质量代价。SLAM没有证明非失真(操纵修改的是中间分布而非采样分布),但在我们测量的每个质量轴上经验上接近它。 #### 语言学和句法水印。 早期的工作通过词汇和句法重写嵌入水印:同义词替换(Atallah et al., 2001 (https://arxiv.org/html/2605.05443#bib.bib1);Chang and Clark, 2010 (https://arxiv.org/html/2605.05443#bib.bib4))、掩码LM编辑(Ueoka et al., 2021 (https://arxiv.org/html/2605.05443#bib.bib45))和不变句法特征(Yoo et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib48))。这些表面形式信号会被任何不强制保留确切措辞的改写器消除。语义不变水印(Liu et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib28);Hou et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib16);Ren et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib40))和后验黑盒标记(Chang et al., 2024 (https://arxiv.org/html/2605.05443#bib.bib5))寻求无需模型访问的鲁棒性。白盒功能不变标记(Fernandez et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib9))和无分布方案(Giboulot and Furon, 2024 (https://arxiv.org/html/2605.05443#bib.bib12))通过权重空间或生成级别的不变性追求鲁棒性。 #### SAEMark。 SAEMark(Wu et al., 2025 (https://arxiv.org/html/2605.05443#bib.bib47)),最接近的先前工作,在*生成期间*使用SAE作为每个候选的水印评分器:在每个M=10个句子步骤中,它采样N=50个候选续写,通过由锚点SAE计算的特征集中度分数(FCS)对每个进行评分,并选择其FCS比率与秘密伪随机目标最匹配的候选。结果是在等效硬件上生成速度比SLAM慢约12倍(表8 (https://arxiv.org/html/2605.05443#A5.T8))。无论生成模型大小如何,推荐使用Gemma-2 2B SAE作为锚点模型。SLAM在四个轴上形成对比:(a) 因果SAE使用(操纵,而非评分);(b) 结构特征(通过构造具有域不变性);(c) O(N)生成成本,N≤4,无需候选选择循环、质量重试或单独的锚点模型;(d) 鲁棒性:SAEMark的FCS依赖于词汇编辑破坏的语义特征激活,在词级攻击上TPR降至2-27%(表2 (https://arxiv.org/html/2605.05443#S4.T2)),而我们的结构方法鲁棒性更强:SLAM在我们研究的两个模型上对所有词级攻击保持100%的TPR。 ### 2.2 稀疏自编码器和激活操纵 LLM中的残差流表示表现出*叠加*:单个神经元代表许多特征的线性组合(Elhage et al., 2022 (https://arxiv.org/html/2605.05443#bib.bib8))。稀疏自编码器(SAE)通过学习一个稀疏的、过完备的字典Wdec∈Rn×d(n≫d)来解开这一点,使得h≈Wdecφ(h),其中φ(h)∈R≥0n是稀疏的(Sharkey et al., 2022 (https://arxiv.org/html/2605.05443#bib.bib41);Bricken et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib3);Cunningham et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib6))。个体SAE特征对应于可解释的概念(Bricken et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib3);Templeton et al., 2024 (https://arxiv.org/html/2605.05443#bib.bib43);Gao et al., 2024 (https://arxiv.org/html/2605.05443#bib.bib10))。激活操纵,即向残差流添加一个方向,偏置模型朝向与该方向相关的下游表示(Turner et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib44);Zou et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib53);Meng et al., 2022 (https://arxiv.org/html/2605.05443#bib.bib30))。*对比激活加法*(Panickssery et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib33)),即对比集之间的平均残差激活差异,是我们方向构建的基础,其动机来自*线性表示假设*(Park et al., 2023 (https://arxiv.org/html/2605.05443#bib.bib34), 2024 (https://arxiv.org/html/2605.05443#bib.bib35))。具体来说,句法现象已被证明占据隐藏状态的可线性解码子空间(Hewitt and Manning, 2019 (https://arxiv.org/html/2605.05443#bib.bib15))。Gemma Scope(Lieberum et al., 2024 (https://arxiv.org/html/2605.05443#bib.bib26)),针对Gemma 2所有层和宽度的公共SAE,将这些呈现为离散的、稀疏的方向,使得此流水线无需自定义SAE训练。 ## 3 方法 参见图注 图1:SLAM概述。(A) 词元分布水印偏置词元频率,并以可测量的质量损失为代价换取检测(*顶行*);SLAM沿着结构方向操纵残差流,改变句法形式而不扭曲词元语义(*底行*,几何面板)。(B) 对比句子对分离出句法SAE特征;对差异矩阵进行SVD得到k个正交模式,组合成水印方向vstructure。 ### 3.1 对比数据集构建 我们构建了一个包含46,579个语言学对比句子对的数据集,涵盖104种现象(从一个更大的约8.8万对源池中通过挖掘时的每现象上限筛选而来;完整来源见附录F.1 (https://arxiv.org/html/2605.05443#A6.SS1))。其中90种现象来自LinguaLens(Jing et al., 2025 (https://arxiv.org/html/2605.05443#bib.bib19));其余14种是手动编写的源自BLiMP范式的句法交替(Warstadt et al., 2020 (https://arxiv.org/html/2605.05443#bib.bib46)),针对与水印特别相关的结构,如被动语态、与格交替和分裂句。组合集涵盖句法交替、时-体-语气标记、形态结构和话语层面现象(完整列表和每现象峰值层热力图:附录F.2 (https://arxiv.org/html/2605.05443#A6.SS2),图5 (https://arxiv.org/html/2605.05443#A6.F5))。每对(x+, x−)在保持语义内容不变的同时,仅改变目标结构。由于BLiMP最小对对比的是语法形式与不合语法形式,而非结构极性等价物,因此14种手动编写的现象是通过使用Qwen3.5-9B(Qwen Team, 2025 (https://arxiv.org/html/2605.05443#bib.bib37))在现象特定指令下生成语义等价但结构对比的句子对,并使用BLiMP词汇种子实现词汇多样性来构建的。生成的句子对随后使用AMRLib(Jascob, 2021 (https://arxiv.org/html/2605.05443#bib.bib18))进行验证,该库应用AMR语义框架(Banarescu et al., 2013 (https://arxiv.org/html/2605.05443#bib.bib2))来确认x+和x−尽管表面形式不同,但表达相同的底层含义。这些句子对跨越五个语义域(金融、生物学、体育、小说、新闻),防止n-gram单调并

相似文章

通过句法可预测性的语言学感知型LLM水印技术

arXiv cs.CL

本文介绍了STELA,一个语言学感知的LLM水印框架,通过POS n-gram的句法可预测性来平衡文本质量和检测鲁棒性。该方法无需访问模型logits即可实现公开可验证的水印检测,在类型学多样化的语言(英语、中文、韩语)上展示了优异性能。

DALM:一种通过三阶段结构化生成的领域代数语言模型

arXiv cs.CL

DALM提出了一种领域代数语言模型,在由领域格导出的精确结构约束下生成文本,通过将知识组织到具有代数保证的独立领域纤维中来解决幻觉问题。该模型使用三阶段结构化去噪(领域→关系→概念),并使用领域标注的训练数据防止跨领域污染。