当新生成器到来:基于岭特征迁移的终身机器生成文本归因

arXiv cs.CL 论文

摘要

本文提出RidgeFT,一个轻量级的分析更新框架,用于终身机器生成文本归因,能够适应新的文本生成器而不遗忘旧的,在多个评估设置中取得了强劲性能。

arXiv:2606.05626v1 公告类型: 新 摘要:机器生成文本(MGT)归因旨在识别给定文本的具体生成器,从而为模型问责和滥用调查提供细粒度证据。随着新的大型语言模型不断涌现,归因模型必须持续纳入新生成器,同时保持识别先前见过的生成器的能力。先前的工作表明,这种终身MGT归因设置具有挑战性,现有方法往往难以在适应新类别和保留旧类别之间取得稳定平衡。为解决此问题,我们提出RidgeFT,一个轻量级的分析更新框架,不依赖示例回放。RidgeFT在初始生成器集上训练任务感知编码器,在首次观察到每个生成器类别时存储紧凑的逐类充分统计量,然后冻结编码器以进行无回放的闭式更新。接着,它通过协方差校准抑制与生成器无关的变异,利用固定随机特征提升表示能力,并基于类别级充分统计量通过闭式岭回归更新新类别。在具有不同初始生成器设置的跨主题评估中,RidgeFT始终优于基线。它在域、骨干网络和增量协议上均取得了最佳宏平均F1,同时改进了旧类别保留和新类别适应。这些结果表明,特征稳定的分析更新为终身MGT归因提供了一种简单而有效的方法。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:07

# 当新生成器到来:通过岭回归特征迁移实现终身机器生成文本归因
来源:https://arxiv.org/html/2606.05626
孙真¹,²,³廖一帆³黄志聪²贾恒伟³程鸿²岳玉涛³,⁴何鑫磊¹†\\dagger

¹武汉大学 ²蚂蚁集团 ³香港科技大学(广州) ⁴长三角感知技术创新研究院

在蚂蚁集团实习期间完成的工作。通讯作者:黄志聪([email protected] (https://arxiv.org/html/2606.05626v1/mailto:[email protected])),何鑫磊([email protected] (https://arxiv.org/html/2606.05626v1/mailto:[email protected]))。###### 摘要

机器生成文本(MGT)归因旨在识别给定文本的具体生成器,从而为模型问责和滥用调查提供细粒度证据。随着新的大语言模型不断涌现,归因模型必须持续纳入新生成器,同时保持识别先前已知生成器的能力。已有研究表明,这种终身MGT归因设置具有挑战性,现有方法往往难以在适应新类别和保留旧类别之间取得稳定平衡。为解决此问题,我们提出RidgeFT,一种不依赖示例回放的轻量级解析更新框架。RidgeFT在初始生成器集上训练任务感知编码器,在首次观察到每个生成器类别时存储紧凑的类级充分统计量,然后冻结编码器以进行无回放的闭式更新。它通过协方差校准抑制与生成器无关的变异,利用固定随机特征提升表示能力,并基于类级充分统计量通过闭式岭回归更新新类别。在具有不同初始生成器设置的多主题评估中,RidgeFT始终优于基线方法。它在跨领域、主干网络和增量协议下均达到最佳宏F1,同时改善了旧类别保持和新类别适应。这些结果表明,特征稳定的解析更新为终身MGT归因提供了一种简单而有效的方法。

## 引言

随着大语言模型(LLM)驱动的生成工具日益普及[oyelude2024artificial,openclaw2026docs],用户可以方便地依赖它们进行文本生成和润色。虽然这些能力提高了写作效率,但也引入了潜在的滥用风险[kumarage2024survey]。例如,用户可能利用LLM自动生成大量论文、新闻文章、评论等文本形式,从而扰乱正常的内容生产秩序,削弱人类写作的可信度[DBLP:journals/coling/WuYZYCW25]。在此背景下,有效识别机器生成文本(MGT)已成为一个重要问题。为解决此问题,现有研究主要关注MGT识别的两个方面:二元检测和源归因[DBLP:journals/coling/WuYZYCW25,DBLP:conf/ccs/0001SC0024]。与二元检测相比,MGT归因进一步旨在识别具体源生成器,从而为问责追踪和滥用调查提供更细粒度的证据[DBLP:conf/emnlp/CavaT25]。

参见标题图1:终身MGT归因设置示意图。现有MGT归因方法通常假设固定生成器集,这在现实场景中往往是不现实的假设。由于归因系统在实践中运行于动态且开放的生成器空间,它们不仅应识别新出现的生成器,还应保留区分先前已见生成器的能力。[DBLP:conf/kdd/LiuZL0ZWGT00025]引入了一种更现实的设置,称为类增量MGT归因,我们在本文中称之为终身MGT归因。在此设置下,随着新生成器类别随时间到来,归因模型需要持续更新。然而,由于计算成本、数据许可限制或历史数据不可用等因素,重新收集所有历史数据并从头训练模型通常不切实际[verwimp2023continual,huang2024mitigating]。同时,仅使用新类别数据直接更新模型往往导致灾难性遗忘[mccloskey1989catastrophic,french1999catastrophic]。因此,终身MGT归因的核心挑战是在有限数据下高效地纳入新生成器类别,同时保持对先前学习生成器的稳定识别。

在此挑战下,我们认为终身MGT归因的困难不一定需要通过持续更新整个文本编码器来解决。相反,在初始生成器集上训练的任务调优编码器已经能够捕获与生成器相关的强表示。如果在增量阶段继续微调该编码器,表示空间将随着新类别的到来而持续偏移,从而使旧类别的决策边界不稳定[caccia2021new,yu2020semantic]。因此,我们寻求将新生成器的学习与深度表示更新解耦,确保在不改变或破坏稳定表示空间的前提下吸收增量知识。受此启发,我们提出RidgeFT,一种用于终身MGT归因的无示例解析更新框架。我们考虑一个实际部署场景,其中归因系统从初始阶段开始训练和维护。在初始化阶段,RidgeFT使用初始类别数据训练任务感知编码器,并构建紧凑的类级充分统计量;之后,旧类别的原始文本被丢弃,不再回放。当新生成器到来时,RidgeFT保持编码器冻结,通过协方差校准和固定随机特征映射新数据,累积相应的统计量,并通过闭式岭回归更新分类器。通过这种方式,增量学习通过统计记忆而非历史文本回放或重复编码器微调来实现。我们在多主题设置下评估RidgeFT[DBLP:conf/kdd/LiuZL0ZWGT00025,DBLP:conf/acl/0001Z0ZL0Z025],使用P3、P4和P5协议,分别从3、4和5个初始类别开始,逐步添加3、2和1个新生成器类别。在标准P5协议下,RidgeFT达到0.886全类F1、0.902旧类F1和0.804新类F1,全类F1比最强持续学习基线提高0.037。

我们的贡献总结如下:

- •我们将终身MGT归因识别为一个生成器不断演化的归因问题,其中模型必须在无示例更新约束下,保留特定于生成器的决策边界,同时抑制由主题、领域和提示引起的噪声变异。
- •我们提出RidgeFT,一个无示例的解析更新框架,结合分数协方差校准、各向同性随机特征提升和类平衡闭式岭回归,仅使用紧凑的类级充分统计量即可实现增量更新。
- •我们跨多个主题、多个目标生成器和两个主干网络进行了广泛实验。结果表明,RidgeFT的主要优势在于显著提高新生成器适应能力,同时保持有竞争力的旧生成器保留能力。

## 相关工作

建立有效的MGT监管机制对于维护内容可信度和支持平台治理至关重要[DBLP:journals/coling/WuYZYCW25]。最近的研究将MGT检测从理想化的二元分类推向更复杂的现实场景。研究不仅开发了考虑多语言设置和模型演化的动态基准[DBLP:conf/acl/MackoKMS25,DBLP:conf/acl/YuYLC0YS25],还提高了检测器对未见生成器和领域的泛化能力[DBLP:conf/acl/HaoLZYM25,DBLP:conf/acl/Jiao0ZG025,DBLP:conf/emnlp/ChenHHZF25],同时增强了对对抗攻击的鲁棒性[DBLP:conf/acl/LiZLSL25,DBLP:conf/naacl/LiYTJSCSS25,DBLP:conf/acl/PedrottiPCM0DE25]。此外,边界模糊的现象,如人机协作写作,也已纳入平台监控范围[DBLP:conf/acl/SuWWZL25,DBLP:conf/acl/SahaF25,DBLP:conf/acl/0001Z0ZL0Z025]。然而,尽管MGT检测技术在应对现实挑战方面取得了进展,但仅判断文本是否为机器生成已不再足以满足日益增长的责任追踪和版权归属需求。

参见标题图2:RidgeFT概述。与二元检测相比,MGT归因进一步要求识别文本的具体生成器,为模型问责和取证分析提供关键证据[DBLP:conf/ccs/0001SC0024,fang2025could],并已成为作者归因的重要分支[huang2025authorship]。虽然已有研究探索了实用的归因设置[sarvazyan2023overview,la2025authorship,najjar2025leveraging],但它们大多考虑静态场景,其中候选生成器集是固定的。在实际部署中,LLM的快速更新要求归因模型相应演化以识别新生成器。同时,数据隐私和许可限制通常阻止对历史数据进行完整重训练。为应对此问题,[DBLP:conf/kdd/LiuZL0ZWGT00025]开创了类增量MGT归因,并评估了主流的持续学习方法。尽管如此,现有方法仍在学习新生成器特征的同时努力保持对先前已见生成器的识别性能。在终身MGT归因中打破新类别适应与旧类别保持之间的权衡仍然是一个未解决的挑战,这也是本文研究的核心问题。

## 方法

在终身MGT归因中,对新生成器持续微调文本编码器会改变旧类别的表示几何结构,从而降低先前的决策边界。为解决此问题,我们提出RidgeFT,将终身归因重新表述为基于充分统计量的解析岭回归问题。RidgeFT设计用于从初始阶段开始训练和维护的归因系统,因此初始类别所需的统计量可以在这些类别首次可用时记录。通过冻结基础文本编码器,RidgeFT保留先验知识,并仅对提取的特征进行解析更新。给定输入文本xx,其冻结表示h=fθ(x)h=f_{\\theta}(x)通过一个新颖的顺序流水线映射到最终预测:协方差校准、各向同性随机特征提升和类平衡岭回归(h→h~→z(x)→y^h\\rightarrow\\tilde{h}\\rightarrow z(x)\\rightarrow\\hat{y})。校准变换和初始充分统计量从基础阶段训练数据中一次性计算并存储。在后续增量阶段,RidgeFT仅处理新到达的类别数据,不重新访问旧的原始文本。

协方差校准。基础表示通常捕获与生成器无关的变异(例如主题、长度、领域)作为高方差方向,这会损害后续的内积分类器。为缓解此问题,RidgeFT应用分数白化变换来抑制类内噪声,同时保留原始判别几何结构。此变换仅从基础阶段训练表示中估计,并在初始化后保持固定,因此增量更新不需要回放先前的原始文本。

首先,我们计算类内散射矩阵SwS_{w}:

Sw=1N−C0∑c=1C0∑i:yi=c(hi−μc)(hi−μc)⊤,S_{w}=\\frac{1}{N-C_{0}}\\sum_{c=1}^{C_{0}}\\sum_{i:y_{i}=c}(h_{i}-\\mu_{c})(h_{i}-\\mu_{c})^{\\top},(1)其中NN是基础样本总数,C0C_{0}是基础类别数,hih_{i}是第ii个样本的表示,μc\\mu_{c}是类别cc的特征均值。为解决高维协方差估计的不稳定性,我们应用迹缩放收缩:

Swshrink=(1−α)Sw+αtr(Sw)dhIdh,S_{w}^{\\text{shrink}}=(1-\\alpha)S_{w}+\\alpha\\frac{\\operatorname{tr}(S_{w})}{d_{h}}I_{d_{h}},(2)其中α\\alpha是收缩参数,tr(⋅)\\operatorname{tr}(\\cdot)表示矩阵迹,dhd_{h}是特征维度,IdhI_{d_{h}}是单位矩阵。最后,我们通过SwshrinkS_{w}^{\\text{shrink}}的特征值分解计算分数白化表示h~\\tilde{h}:

Swshrink=UΛU⊤,Λ=diag(σ1,...,σdh),S_{w}^{\\text{shrink}}=U\\Lambda U^{\\top},\\Lambda=\\operatorname{diag}(\\sigma_{1},\\ldots,\\sigma_{d_{h}}),(3)给定SwshrinkS_{w}^{\\mathrm{shrink}}的特征分解,我们根据估计的类内方差校准每个主方向:

Pδ=U(Λ+εIdh)−δU⊤,h~=Pδ(h−μ).P_{\\delta}=U(\\Lambda+\\varepsilon I_{d_{h}})^{-\\delta}U^{\\top},\\tilde{h}=P_{\\delta}(h-\\mu).(4)
这里,UU和Λ\\Lambda分别表示SwshrinkS_{w}^{\\text{shrink}}的特征向量和特征值,σj\\sigma_{j}表示第jj个特征值。参数δ∈[0,1]\\delta\\in[0,1]控制白化强度,μ\\mu是全局特征均值,ε\\varepsilon是确保数值稳定性的小常数。通过应用分数指数而非完全白化,我们在不过度扭曲原始特征空间的情况下衰减主要的类内变异。这为下游解析分类器提供了稳定的输入。如图2 (https://arxiv.org/html/2606.05626#S2.F2)所示,此校准旨在减少与主题、长度和领域相关的噪声方向,同时保留用于归因的生成器相关线索。

各向同性随机特征提升。协方差校准后,RidgeFT进一步将校准后的表示提升到固定非线性随机特征空间,以增强解析分类器的表达能力,同时不牺牲闭式增量更新。通过采用不可训练的随机映射[rahimi2007random]而非可学习的投影层,我们确保特征基在新生成器到来时严格保持不变。

令h~∈Rdh\\tilde{h}\\in\\mathbb{R}^{d_{h}}表示校准后的编码器表示,其中dhd_{h}是特征维度。RidgeFT在增量学习开始前一次性采样高斯随机矩阵R∈Rdφ×dhR\\in\\mathbb{R}^{d_{\\phi}\\times d_{h}},每个条目独立抽取为Rij∼i.i.d.N(0,1/dh)R_{ij}\\overset{\\mathrm{i.i.d.}}{\\sim}\\mathcal{N}(0,1/d_{h})。提升后的特征计算为

z(x)=LN(ReLU(Rh~))∈Rdφ,z(x)=\\operatorname{LN}\\left(\\operatorname{ReLU}(R\\tilde{h})\\right)\\in\\mathbb{R}^{d_{\\phi}},(5)其中dφd_{\\phi}是随机特征维度,LN(⋅)\\operatorname{LN}(\\cdot)表示层归一化。矩阵RR在所有增量阶段都保持固定,因此只需要更新岭分类器的充分统计量。

我们使用各向同性高斯投影,而非从基础类别学习的数据相关投影。

相似文章

上下文优化下的检索增强生成:从梯度下降视角

arXiv cs.CL

本文研究检索增强生成作为上下文优化过程,表明线性自注意力可以在统一的RAG目标上实现梯度下降。它提出了一种轻量级方法,适用于冻结的RAG大语言模型,通过预测上下文条件的更新,在多个问答基准上提升了性能。

归因合同:生成式语言模型中的特征归因

arXiv cs.LG

本文介绍了归因合同(Attribution Contract),这是生成式语言模型中特征归因声明的一种规范,解决了特征定义不清以及归因方法评估方式模糊的问题。论文以自回归模型和扩散模型为例,展示了归因何时具有信息量,何时可能产生误导。

AEyeDE:一种基于注意力归因的AI生成文本检测框架

arXiv cs.CL

AEyeDE是一个基于注意力归因的框架,它使用代理Transformer模型从文本中提取注意力图,并训练轻量级CNN来区分人类撰写与AI生成的文本,性能优于纯文本基线,并且在各种设置下表现出鲁棒性。