MELD:用于AI生成文本的多任务均衡学习检测器
摘要
本文介绍了MELD,这是一种用于AI生成文本的检测器,它通过使用辅助头进行多任务学习(涵盖生成器家族、攻击类型和源域)来提高鲁棒性。MELD在RAID基准测试中表现出色,并在对抗攻击下保持低误报率。
arXiv:2605.06903v1 公告类型:新论文
摘要:大型语言模型现已嵌入日常写作工作流,因此可靠的AI生成文本检测对于学术诚信、内容审核和溯源追踪至关重要。然而,在实践中,检测器除了在干净、分布内的人类和AI文本上实现高综合AUROC之外,还必须做到更多:它应对抗攻击和对抗性重写保持鲁棒,能够迁移到未见过的生成器和领域,并在低误报率(FPR)下运行。大多数现有检测器仅优化单一的AI/人类目标,一旦二分类任务饱和,表示层就缺乏学习生成器、攻击或领域结构的激励。我们介绍了MELD(多任务均衡学习检测器),这是一种可用于部署的AI生成文本检测器,它通过辅助监督丰富了二分类检测。MELD在共享编码器上附加了生成器家族、攻击类型和源域头,并使用学习到的同方差不确定性权重来平衡这四个损失。为了提高鲁棒性,EMA教师网络在干净输入上进行预测,而经过攻击增强的学生网络则向教师网络蒸馏学习。MELD还使用硬负样本成对排序损失,以扩大AI生成文本与最易混淆的人类文本之间的分数间隔。在推理阶段,所有辅助头都会被丢弃,使得MELD具有与标准检测器相同的接口和成本。在公开的RAID排行榜上,MELD是最强的开源检测器,与领先的商业模型具有竞争力,尤其是在攻击下和低FPR场景中。在标准的保留基准测试中,MELD匹配或优于监督基线。我们进一步介绍了MELD-eval,这是一个由四大主要LLM提供商最近发布的聊天模型构建的保留评估池。无需额外微调,MELD在MELD-eval上以1%的FPR达到了99.9%的TPR,而许多基线性能则急剧下降。
查看缓存全文
缓存时间: 2026/05/11 06:39
# MELD:用于 AI 生成文本的多任务均衡学习检测器
来源:https://arxiv.org/html/2605.06903
作者:Chenjun Li<sup>1,2</sup>, Cheng Wan<sup>1,2</sup>, Johannes C. Paetzold<sup>1,2,3</sup>
1. 美国纽约州伊萨卡市 14853,康奈尔大学
2. 美国纽约州纽约市 10021,威尔康奈尔医学院
3. 美国纽约州纽约市 10044,康奈尔理工学院
###### 摘要
大型语言模型已深度融入日常写作工作流,因此可靠的 AI 生成文本检测对于维护学术诚信、内容审核和溯源追踪至关重要。然而在实践中,检测器不仅要在此类干净的同分布人类与 AI 文本上实现高聚合 AUROC,还应在面对攻击和对抗性重写时保持鲁棒性,能够迁移到新的、未见过的生成器和写作领域,并在低误报率(FPR)下运行。大多数现有检测器仅优化单一的 AI/人类目标,这使得一旦二元任务饱和,表示层就缺乏学习生成器、攻击或领域结构的激励。我们引入了 **MELD**(Multi-Task Equilibrated Learning Detector,多任务均衡学习检测器),这是一种可部署的 AI 生成文本检测器,通过辅助监督增强了二元检测能力。MELD 在一个共享编码器骨干网络上附加了生成器家族、攻击类型和源领域分类头,并通过学习的同分布不确定性权重平衡这四项损失。为了提高鲁棒性,指数移动平均(EMA)教师模型在干净输入上进行预测,而经过攻击增强训练的则学生模型向教师模型进行蒸馏。MELD 还使用硬负例成对排序损失,以强制在 AI 生成文本与检测器认为最易混淆的人类文本之间保持更大的分数间隔。在推理阶段,所有辅助头均被丢弃,因此 MELD 具有与标准检测器相同的接口和成本。在公开的 RAID 基准排行榜上,MELD 是表现最强的开源检测器,并与领先的商业模型具有竞争力,尤其是在输入受到攻击且必须保持低误报率的情况下。在标准的保留基准测试中,MELD 的表现匹敌或优于有监督的基线模型。我们进一步引入了 MELD-eval,这是一个由四大主要 LLM 提供商最近发布的聊天模型构建的保留评估池。无需额外微调,MELD 在 MELD-eval 上以 1% FPR 实现了 99.9% 的 TPR,而许多基线模型的性能则急剧下降。
代码:https://anonymous.4open.science/r/MELD-4D74
模型与数据:https://huggingface.co/anon-review-meld-2026/meld
> **图 1:MELD 概览。** 共享编码器(学生)通过一个主分类头和三个分别用于生成器家族、攻击类型和源领域的辅助头进行训练。在训练期间,干净输入通过 EMA 教师模型,而学生模型则在干净或攻击增强输入上进行训练。目标函数结合了 (i) 不确定性加权的多任务分类、(ii) 干净视图与攻击视图之间的主头教师-学生蒸馏,以及 (iii) 改善低 FPR 决策阈值附近分离度的硬负例成对排序损失。在推理时,辅助头和教师模型被丢弃,仅保留学生编码器和主 AI/人类头。
## 1 引言
大型语言模型已嵌入日常写作中,从学生作业、法律文件到科学论文撰写及在线交流。因此,可靠的 AI 生成文本检测器正成为学术诚信软件、内容审核管道和溯源工作流中的重要工具。在部署中,低准确率并非唯一的失败模式。误报可能给人类作者带来严重后果,包括被指控学术不端以及对外语非英语写作人员的不公平处罚 [22](https://arxiv.org/html/2605.06903#bib.bib18)。重要的是,简单的释义和重写策略已被证明可以逃避或使现有检测器不稳定 [20](https://arxiv.org/html/2605.06903#bib.bib17), [17](https://arxiv.org/html/2605.06903#bib.bib14), [41](https://arxiv.org/html/2605.06903#bib.bib37)。现有文献分为三类:1) 免训练检测器使用参考语言模型的标记排名、似然曲率或交叉困惑度信号 [10](https://arxiv.org/html/2605.06903#bib.bib8), [24](https://arxiv.org/html/2605.06903#bib.bib21), [4](https://arxiv.org/html/2605.06903#bib.bib2), [14](https://arxiv.org/html/2605.06903#bib.bib12);2) 有监督编码器检测器通过单一二元目标从标注示例中学习二元分类器 [30](https://arxiv.org/html/2605.06903#bib.bib26), [12](https://arxiv.org/html/2605.06903#bib.bib10), [8](https://arxiv.org/html/2605.06903#bib.bib6);3) 较新的方法通过多任务对比学习、由易到难的监督以及解耦或扰动不变表示来结合细粒度的作者身份或生成器结构 [13](https://arxiv.org/html/2605.06903#bib.bib11), [32](https://arxiv.org/html/2605.06903#bib.bib28), [7](https://arxiv.org/html/2605.06903#bib.bib5), [43](https://arxiv.org/html/2605.06903#bib.bib38)。这些进展提高了基准性能,但也留下了三个未解决的部署维度:攻击下的鲁棒性、跨未见生成器和领域的泛化能力,以及在真实部署中所需的低误报率下的运行能力 [9](https://arxiv.org/html/2605.06903#bib.bib7)。
针对这一差距,我们提出了 **MELD**(Multi-Task Equilibrated Learning Detector,多任务均衡学习检测器),这是一种在训练中使用更丰富监督,同时保留与标准二元分类器相同推理接口的检测器。MELD 在共享编码器上为生成器家族、攻击类型和源领域附加了三个辅助头,以增强 AI/人类主头。这些头揭示了通常在二元检测器训练中丢弃的结构,并在推理时移除,因此部署模型的开销和接口与标准单头分类器相同。MELD 将这种辅助监督与学习的同分布不确定性加权 [19](https://arxiv.org/html/2605.06903#bib.bib16) 相结合,将攻击增强示例对齐到干净的指数移动平均(EMA)教师模型 [33](https://arxiv.org/html/2605.06903#bib.bib27),并添加了一个轻量级的成对排序项 [6](https://arxiv.org/html/2605.06903#bib.bib3)(图 1 [1](https://arxiv.org/html/2605.06903#S0.F1))。我们的主要贡献如下:
- **用于 AI 文本检测的显式辅助监督。** MELD 在共享骨干网络上联合训练 AI/人类分类头以及生成器家族、攻击类型和源领域头。据我们所知,MELD 是首个将这一特定显式辅助头组合与基于学习的不确定性损失平衡相结合的 AI 文本检测器。
- **用于鲁棒表示的训练目标。** MELD 结合了不确定性加权的多任务学习、干净视图与攻击视图之间的 EMA 教师-学生蒸馏,以及成对排序项。辅助头仅在训练期间使用。
- **MELD-eval,一个使用当前代模型构建的控制评估池。** 我们引入了 MELD-eval,这是一个由四个当前代聊天模型构建的保留测试池,并与 RAID 风格的英语领域和攻击配对。MELD-eval 测试针对这些生成器的零样本迁移能力,同时保持领域和攻击协议可控。结果显示,MELD-eval 是我们研究中最难的评估设置之一。
- **强大的系统级结果。** 在 RAID [9](https://arxiv.org/html/2605.06903#bib.bib7)(最大且最全面的 AI 生成文本检测公开基准)上,MELD 在开源系统中排名第一,并与领先的商业模型具有竞争力。它还在其他广泛使用的基准上匹敌或优于免训练和有监督的基线。
> **表 1:RAID 公开排行榜**(https://raid-bench.xyz/leaderboard,访问日期 2026-05-03)。官方 RAID 测试集上的 AUROC 以及 5%/1% FPR 下的 TPR(×100)。“所有设置”包括 RAID 的攻击套件。“无攻击”为干净子集。商业行为列为公开产品提交。开源行为列为带有论文和公开模型或代码的排行榜提交。MELD 是最强的开源检测器,并匹敌或超越商业系统。每列的最佳/次优条目加粗/斜体。
## 2 相关工作
#### 免训练检测器
免训练方法通常在一个或多个参考语言模型(LM)下对文本进行评分,并使用标记统计、似然几何或跨模型差异作为生成证据。GLTR [10](https://arxiv.org/html/2605.06903#bib.bib8) 使用标记排名统计。DetectGPT [24](https://arxiv.org/html/2605.06903#bib.bib21) 和 Fast-DetectGPT [4](https://arxiv.org/html/2605.06903#bib.bib2) 依赖似然曲率。Binoculars [14](https://arxiv.org/html/2605.06903#bib.bib12) 比较两个 LM 的交叉困惑度。这些检测器易于部署,因为它们不需要检测器特定的训练,但其行为与参考模型的覆盖率和校准绑定,使其对释义和表面扰动敏感 [20](https://arxiv.org/html/2605.06903#bib.bib17), [9](https://arxiv.org/html/2605.06903#bib.bib7)。
#### 有监督编码器检测器
有监督方法从标注的人类和 AI 文本中训练判别模型。早期研究微调了 RoBERTa 风格的编码器 [30](https://arxiv.org/html/2605.06903#bib.bib26)。后续工作通过结构化特征 [36](https://arxiv.org/html/2605.06903#bib.bib31)、对抗性释义 [17](https://arxiv.org/html/2605.06903#bib.bib14)、更强的编码器骨干 [38](https://arxiv.org/html/2605.06903#bib.bib34), [8](https://arxiv.org/html/2605.06903#bib.bib6)、基于表示的检测 [7](https://arxiv.org/html/2605.06903#bib.bib5) 和单类目标 [43](https://arxiv.org/html/2605.06903#bib.bib38) 改进了这一方案。虽然这些方法在同分布基准上表现良好,但通常使用单一二元头进行训练。这给编码器带来的激励有限,使其难以保留训练分割所需的生成器、攻击或领域信息之外的内容。当检测器在未见过的生成器、领域或攻击上进行评估时,此类信息通常很有用。
#### 二元标签之外的辅助监督
最近的工作已超越纯粹的 AI 对人类目标。DeTeCtive [13](https://arxiv.org/html/2605.06903#bib.bib11) 和 FAID [32](https://arxiv.org/html/2605.06903#bib.bib28) 使用感知生成器的对比监督,而其他方法研究由易到难训练 [40](https://arxiv.org/html/2605.06903#bib.bib36)、解耦表示 [27](https://arxiv.org/html/2605.06903#bib.bib23)、惊异方差特征 [5](https://arxiv.org/html/2605.06903#bib.bib4) 和基于扰动的特征 [34](https://arxiv.org/html/2605.06903#bib.bib25)。这些方法共享一个观点,即检测器的失败往往由单一二元标签未暴露的因素驱动。MELD 遵循这一方向,但使这些因素显式化:生成器家族、攻击类型和源领域作为共享编码器上的预测任务进行训练。至于并发多任务检测器 [13](https://arxiv.org/html/2605.06903#bib.bib11), [32](https://arxiv.org/html/2605.06903#bib.bib28),我们的区别在于将显式辅助头与学习的同分布不确定性平衡配对,而不是固定的对比权重,并将其与 EMA 干净/攻击蒸馏和低 FPR 硬负例排序项相结合。
#### 多任务加权与鲁棒训练
MELD 使用同分布不确定性加权 [19](https://arxiv.org/html/2605.06903#bib.bib16) 来平衡主损失和辅助损失。这种方法在多任务视觉中是标准的,也已用于自然语言处理 [23](https://arxiv.org/html/2605.06903#bib.bib20),但尚未在 AI 文本检测中探索。在我们的设置中,它减少了手动损失调整,并自适应地平衡辅助信号,帮助共享编码器在二元任务开始饱和后保留生成器、攻击和领域结构(附录 B [2](https://arxiv.org/html/2605.06903#A2))。
## 3 MELD
### 3.1 架构
令 $\Phi: \mathcal{X} \to \mathbb{R}^{L \times H}$ 为一个双向编码器,将输入文本 $x$ 映射到标记级隐藏状态(序列长度 $L$,隐藏大小 $H$),注意力掩码 $m(x) \in \{0,1\}^L$ 指示非填充位置。我们使用掩码平均池化,$\bar{h}(x) = (\sum_{\ell} m_{\ell}(x))^{-1} \sum_{\ell=1}^{L} m_{\ell}(x) \, \Phi(x)_{\ell} \in \mathbb{R}^{H}$,并为每个任务 $t$ 附加四个头 $\hat{y}^t(x) = \mathrm{softmax}(f_t(\bar{h}(x)))$,其中
$$ \mathcal{T} = \{\text{main}, \text{gen}, \text{atk}, \text{dom}\} $$
对应于二元 AI/人类标签、生成器家族、攻击类型和源领域。三个辅助头是线性的;主 AI/人类头是两层 MLP。在推理时,仅使用主 AI/人类头。因此,MELD 具有与具有相同骨干的单头编码器检测器相同的推理成本。我们使用 Ettin-400M [39](https://arxiv.org/html/2605.06903#bib.bib35) 实例化 $\Phi$,这是一种 ModernBERT 家族编码器 [38](https://arxiv.org/html/2605.06903#bib.bib34)。
### 3.2 具有每任务掩码的异构标签目标
训练语料库不共享相同的注释。RAID 提供所有四个标签。带有生成器标签的语料库,如 MAGE [21](https://arxiv.org/html/2605.06903#bib.bib19) 和 M4GT [37](https://arxiv.org/html/2605.06903#bib.bib33),提供 $\{\text{main}, \text{gen}, \text{dom}\}$。FineWeb [26](https://arxiv.org/html/2605.06903#bib.bib22) 仅提供 $\{\text{main}, \text{dom}\}$。辅助标签空间由训练源中可用的标签的并集形成,产生 $G=104$ 个生成器类、$A=17$ 个攻击类和 $D=59$ 个领域或子语料库类。因此,我们仅在有标签示例上计算每个辅助损失。令 $\mu^t(x)$ 指示示例 $x$ 是否具有任务 $t$ 的标签。头 $t$ 的损失为
$$ \mathcal{L}_t \;=\; \tfrac{1}{|\mathcal{B}_t|} \sum_{x \in \mathcal{B}_t} \mathrm{CE}\bigl(\hat{y}^t(x), \, y^t(x)\bigr), \qquad \mathcal{B}_t = \{x: \mu^t(x)=1\}, $$
因此缺失标签不会对该头做出贡献。每源标签覆盖率见表 2 [2](https://arxiv.org/html/2605.06903#S4.T2)。
### 3.3 复合训练目标
MELD 结合了三项:不确定性加权的多任务分类损失、干净视图与攻击视图之间的教师-学生蒸馏损失,以及硬人类/AI 对的排序损失。完整训练步骤的紧凑伪代码视图见附录 A [1](https://arxiv.org/html/2605.06903#A1)。
#### 同分布不确定性加权
遵循 Kendall 等人 [19](https://arxiv.org/html/2605.06903#bib.bib16),每个任务都有一个学习的标量 $s_t = \log \sigma_t^2$:
$$ \mathcal{L}_{\text{cls}} \;=\; \sum_{t \in \mathcal{T}} \Bigl( e^{-s_t} \, \mathcal{L}_t + \tfrac{1}{2} s_t \Bigr). $$
精度项 $e^{-s_t}$ 控制任务 $t$ 的权重,而加性项 $s_t$ 防止优化器驱动 $s_t \to \infty$...相似文章
DetectRL-X:面向可靠的多语言及真实世界的LLM生成文本检测
DetectRL-X是一个全面的多语言基准测试,用于评估跨8种语言和6个领域的LLM生成文本检测器,包括针对AI辅助写作操作和扰动的压力测试。它揭示了当前检测器在多语言场景中的优势与局限性。
Counter Turing Test 的发现:AI生成文本检测
本文介绍了 Counter Turing Test 共享任务在AI生成文本检测方面的发现,顶级系统在二分类任务中达到了完美表现,但在模型归因方面性能显著较低,突显了区分不同大语言模型输出的难度。
AI生成文本检测中语言特征的系统性分析:跨领域与跨模型研究
一项大规模实证研究对284个语言特征在27个大语言模型和10个文本领域中的表现进行了分析,以评估哪些特征能够可靠地检测AI生成文本。研究发现,词汇丰富度指标是跨领域和跨模型最稳健的信号,而许多其他已提出的指标则高度依赖具体上下文。
AEyeDE:一种基于注意力归因的AI生成文本检测框架
AEyeDE是一个基于注意力归因的框架,它使用代理Transformer模型从文本中提取注意力图,并训练轻量级CNN来区分人类撰写与AI生成的文本,性能优于纯文本基线,并且在各种设置下表现出鲁棒性。
使用多模态语言模型检测社交媒体上的AI生成内容
来自Meta和卡内基梅隆大学的这篇论文提出了一种多模态视觉-语言模型管道,用于检测社交媒体上的AI生成内容,实现了最先进的性能,并对用户参与度产生了积极的下游影响。