SenFlow: 用于混合文档中AI生成文本检测的句子间流建模

arXiv cs.CL 2026/06/18 04:00 论文

ai-text-detection hybrid-documents sentence-level graph-neural-network crf benchmark

摘要

本文提出了SenFlow，一种用于混合文档中句子级AI生成文本检测的方法，通过建模句子间依赖关系，利用图传播和线性链CRF解码。同时引入了MOSAIC基准测试，包含由DeepSeek-V3.2和Kimi K2生成的16,000篇文档，达到了最先进的性能。

arXiv:2606.18946v1 公告类型：新摘要：针对混合文档（人类和LLM共同撰写同一文本）的句子级AI生成文本检测（S-AGTD）面临两个不足：现有方法孤立地对每个句子进行分类，忽略了句子间的依赖关系；现有基准测试忽略了最新一代的生成器。我们构建了MOSAIC，这是一个包含16,000篇混合文档的基准测试，涵盖PubMed和XSum数据集，由DeepSeek-V3.2和Kimi K2在严格的质量控制下生成，包括先前基准测试中所没有的困惑度一致性过滤器。我们将S-AGTD重新定义为对文档句子序列的结构化预测，并将其实现为SenFlow，通过在句子图上进行单次文档级遍历，将基于图的句子间传播与线性链CRF解码相结合。SenFlow在MOSAIC上达到了最先进的性能，在难度递增的三个协议中最难的跨域迁移上平均Macro-F1提高了4.15个百分点。我们进一步发现，即使在困惑度过滤器平衡了显式线索之后，AI插入仍保留了依赖于生成器的句子长度差异，而句子级检测器仍可利用这一差异。代码和数据：https://github.com/luojingkun22/SenFlow

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:46

# SenFlow: 面向混合文档中AI生成文本检测的句间流建模
来源：https://arxiv.org/html/2606.18946
Jingkun Luo¹  Yifan Sun¹  Da-Tian Peng¹*  Guanxiong Pei²  
¹西北工业大学  ²之江实验室  
{luojingkun, sunyf}@mail.nwpu.edu.cn  [email protected]  [email protected]

###### 摘要

面向混合文档（人类与LLM共同撰写同一文本）的句子级AI生成文本检测（S-AGTD）面临两大差距：现有方法孤立地分类每个句子，忽略了句间依赖关系；现有基准测试未包含最新一代生成器。我们构建了 **MOSAIC** 基准，包含 16,000 份覆盖 PubMed 和 XSum 的混合文档，由 DeepSeek-V3.2 和 Kimi K2 生成，并采用了严格的质控措施——包括先前基准所缺失的困惑度一致性过滤。我们将 S-AGTD 重新定义为文档句子序列上的结构化预测，并实例化为 **SenFlow**，该方法在一个句子图上通过文档级单次处理，将基于图的句间传播与线性链 CRF 解码相结合。SenFlow 在 MOSAIC 上达到了最先进性能，在跨领域迁移（三种难度递增协议中最难的一项）上取得了 +4.15 个百分点的平均 Macro-F1 优势。我们进一步发现，即使在困惑度过滤均衡了显性线索之后，AI 插入内容仍保留了一种与生成器相关的句长差距（DeepSeek-V3.2 的差距大于 Kimi K2），句子级检测器仍可利用这一差距。代码与数据：https://github.com/luojingkun22/SenFlow。

---

## 1 引言

参见图 1说明  
图 1：S-AGTD 在孤立判断时困难，但在上下文中可解。句子 \(s_2\) 单独看含义模糊；其周围上下文通过 AI 生成句子的局部聚类揭示了作者身份。

大型语言模型（LLM）的快速发展使得机器生成文本越来越难以与人类写作区分，引发了学术界、新闻界和专业文档编写领域的担忧（Zhao et al., 2023a；Wu et al., 2025）。虽然文档级 AI 生成文本检测（AGTD）已取得快速进展（Mitchell et al., 2023；Bao et al., 2024；Yang et al., 2024；Kirchenbauer et al., 2023），但这些方法无法处理**混合文档**——其中人类写作和机器生成的句子交错出现在同一文本中。混合写作在实践中日益普遍（Lee et al., 2022；Zhang et al., 2024；Su et al., 2025）：学生可能润色段落，研究人员可能插入 AI 生成的摘要，法律分析师可能用 LLM 起草条款。这些场景要求在**句子级**进行检测，这比文档级分类困难得多，因为单个句子提供的风格线索有限（Sadasivan et al., 2023；Weber-Wulff et al., 2023），如图 1 所示。如 Jiang et al. (2025) 所示，无训练检测器（如 Fast-DetectGPT (Bao et al., 2024)）在句子粒度上性能显著下降，即使在域内数据上 Macro-F1 也跌破 0.85。

句子级 AGTD（S-AGTD）挑战已引起越来越多的关注。SeqXGPT (Wang et al., 2023) 将任务表述为词级序列标注，通过多数投票将预测聚合为句子标签。SenDetEX (Jiang et al., 2025) 引入了一种风格-上下文融合框架，将 token 概率和熵信号与重新生成的上下文嵌入相结合。虽然推动了最先进水平，但这些方法共享一个根本限制：每个句子被孤立地分类，没有建模相邻句子之间的依赖关系。然而在混合文档中，作者身份的转换很少是随机的：AI 生成的段落倾向于聚集在连续块中，风格对比通常在句子边界上逐渐演变，而非在单一点突变。忽略这些句间模式会丢弃对检测有用的结构信号。

除了方法论，评估中也存在平行的差距。当前的 S-AGTD 基准构建于上一代生成器，例如 GPT-4o 和 DeepSeek-V3 等标准聊天模型 (Jiang et al., 2025)。生成器格局此后发生了变化：最新的系统，包括推理模型如 DeepSeek-R1 (Guo et al., 2025) 和 OpenAI o1/o3 (Jaech et al., 2024)，未被纳入这些基准。因此，针对早期聊天模型文本调优的 S-AGTD 方法能否泛化到当前一代输出尚未测试，这一覆盖缺口是现有基准无法弥补的。

我们通过两个互补的成果来解决这两个差距。**SenFlow** 将每个文档视为一个句子图，通过 GCN 在句子间传播上下文信息，并通过 CRF 解码强制标签一致性。**MOSAIC** 将推理模型 DeepSeek-V3.2 与聊天模型 Kimi K2 配对，覆盖 PubMed 和 XSum 领域，通过块级掩码和严格的质控生成 16,000 份混合文档。

**表 1：MOSAIC 统计。** \(\bar{N}\) = 每文档平均句子数。Mask (%) = AI 生成句子的平均比例。PPL\(_{\text{ori}}\) 和 PPL\(_{\text{hyb}}\) = 由 Llama-3.1-8B-Instruct 测量的原始文档和混合文档的平均困惑度。每个子集按文档 ID 分为 2800/600/600 的训练、验证和测试集。子集缩写 PD、PK、XD、XK 在全文通用。

| 子集 | 领域 | 生成器 | 类型 | #文档 | #句子 | #人类 | #AI | \(\bar{N}\) | 掩码 (%) | PPL\(_{\text{ori}}\) | PPL\(_{\text{hyb}}\) |
|------|------|--------|------|-------|-------|-------|-----|---------|-----------|----------------|----------------|
| PD   | PubMed | DeepSeek-V3.2 | 推理型 | 4,000 | 79,926 | 55,951 | 23,975 | 20.0    | 30.0      | 8.45           | 8.69           |
| PK   | PubMed | Kimi K2       | 聊天型 | 4,000 | 79,923 | 55,950 | 23,973 | 20.0    | 30.0      | 8.37           | 8.12           |
| XD   | XSum   | DeepSeek-V3.2 | 推理型 | 4,000 | 60,174 | 42,242 | 17,932 | 15.0    | 29.7      | 9.55           | 9.83           |
| XK   | XSum   | Kimi K2       | 聊天型 | 4,000 | 60,972 | 42,790 | 18,182 | 15.2    | 29.8      | 9.51           | 8.17           |
| 总计 |        |              |        | 16,000 | 280,995 | 196,933 | 84,062 | -       | -         | -              | -              |

我们的贡献有四点：
(1) **MOSAIC**，一个包含 16,000 份混合文档的句子级 S-AGTD 基准，配对推理型与聊天型生成器，覆盖生物医学和新闻领域，并采用了先前 S-AGTD 基准中缺失的困惑度一致性过滤；
(2) 由 MOSAIC 的困惑度一致性过滤所促成的实证发现：一旦显性的困惑度线索被均衡，AI 插入内容在周围人类散文语境中仍保留与生成器相关的句长结构差距（DeepSeek-V3.2 差距大于 Kimi K2），这一差距在句子级仍可被利用——证据表明过滤掉困惑度层面的自然性并不会使插入内容变得不可检测；
(3) **SenFlow**，一种 S-AGTD 的结构化预测公式，将基于图的句间传播与 CRF 解码整合到句子图上的单一文档级处理中；
(4) 在三种难度递增的协议上取得最先进结果，其中在跨领域迁移上获得最大 4.15 个百分点的平均 F1 差距，且所消耗的代理模型推理调用次数约为先前最佳方法的 1/20。

---

## 2 相关工作

**文档级 AGTD。** 文档级方法遵循无训练或基于训练的范式。无训练方法利用模型输出的统计特性，例如对数概率曲率（Mitchell et al., 2023；Bao et al., 2024）、n-gram 散度（Yang et al., 2024）、配对 LLM 对比（Hans et al., 2024）和重写不对称信号（Mao et al., 2024）。基于训练的方法包括微调分类器（Solaiman et al., 2019）、对抗训练（Hu et al., 2023）、抗扰动重建（Huang et al., 2024）和代理-目标对齐（Zeng et al., 2024）。水印（Kirchenbauer et al., 2023；Zhao et al., 2023b）在生成过程中嵌入检测信号，但需要控制生成器。分布外评估表明，检测在未见领域和生成器下会退化（Li et al., 2024）。所有方法均假设文档为单一来源，无法处理混合内容。

**句子级 AGTD。** SeqXGPT (Wang et al., 2023) 开创了 S-AGTD，将其作为 token 对数概率上的词级序列标注。POGER (Shi et al., 2024) 在黑盒设置下通过代理引导重采样估计生成概率。当前最先进方法是 SenDetEX (Jiang et al., 2025)，它结合了代理模型概率与熵特征以及重新生成的上下文嵌入，并贡献了使用 GPT-4o 和 DeepSeek-V3 的 AutoFill-Refine 基准。相关工作测量句子重写相似度（Nguyen-Son et al., 2024）或将任务扩展到词级共同创作归属（Su et al., 2025；Zhang et al., 2024）。后者在其自己的词级标注基准上以更细粒度的词级运行，在未以词级重新标注 MOSAIC 的情况下无法直接比较。

---

## 3 MOSAIC 基准

### 3.1 任务定义

给定一个混合文档 \(D = (s_1, \dots, s_N)\)，包含 \(N\) 个句子且具有混合作者身份，S-AGTD 预测标签序列 \(\mathbf{y} = (y_1, \dots, y_N)\)，其中 \(y_i \in \{0, 1\}\)，\(y_i = 0\) 表示人类写作的句子，\(y_i = 1\) 表示机器生成的句子；该任务要求在单个文档内细粒度识别作者身份的转换。

### 3.2 混合语料构建

我们从两个源语料库构建 MOSAIC：来自 PubMed 的生物医学摘要（Cohan et al., 2018）和来自 XSum 的新闻文章（Narayan et al., 2018），使用代表不同范式的两个生成器：**DeepSeek-V3.2** 在思考模式下的推理模型（deepseek-reasoner API），它在产生输出前进行内部思维链推演；以及 **Kimi K2**（kimi-k2-0905-preview API），一个标准的聊天模型，代表传统的指令遵循范式。这种配对使得在同一评估框架内直接比较推理模型和聊天模型的输出成为可能。构建遵循四阶段流水线，并采用了比先前工作更严格的质控措施。

**流水线。** PubMed 文档使用 NLTK（Bird et al., 2009）进行句子分割，XSum 按换行符分割，按最小句子数过滤，并截断至 20 个句子，每句最多 96 个词。对于每个保留的文档，我们选择 \(\mathrm{round}(N\gamma)\) 个句子进行替换，其中 \(\gamma = 0.3\)，组织成 \(B\) 个连续块，\(B \sim \{1, 2, 3\}\) 概率为 \(\{0.3, 0.5, 0.2\}\)，块之间设置一个句子的缓冲区。与先前工作中使用的单跨度替换（Jiang et al., 2025）不同，这种多块策略产生了更多样化的混合模式，更能反映真实的人机合著情况。被掩码的句子替换为 `[MASK_i]` 占位符，并发送给目标生成器，要求为每个占位符生成一个自然地融入上下文的替换。对于 PubMed，附加格式约束要求生成器匹配源语料库的原生 token 化风格：小写文本，标点符号前后带空格。提示模板、句子选择的随机种子和 API 解码参数随基准代码一同发布。

**质量过滤。** 我们应用了三层比现有 S-AGTD 基准严格得多的过滤：(1) **长度一致性**：每个 AI 生成的句子必须至少包含 4 个词，并且长度落在同一文档中人类平均句子长度的 \([0.25\times, 2.5\times]\) 区间内；(2) **困惑度一致性**：由 Llama-3.1-8B-Instruct（Grattafiori et al., 2024）测量的混合文档困惑度与原始文档的偏差不得超过 15 分，且两者均低于 150；(3) **格式完整性**：生成器输出必须能解析为恰好期望数量的填充句子。任何不符合条件的样本均被丢弃并重新生成。困惑度约束在先前基准中不存在，确保了生成的混合文档在统计上一致，不能通过简单的困惑度检测器轻易区分，迫使模型依赖更深层的风格和结构线索。

**统计。** 表 1 总结了 MOSAIC。原始文档与混合文档之间的总体平均困惑度差距低于 0.4 分，证实质量过滤产生了具有挑战性的混合文档，其 AI 生成句子与周围人类写作上下文的困惑度剖面相匹配。

**基准难度。** 上述质控措施使 MOSAIC 显著难于先前的 S-AGTD 基准。多块替换要求检测每个文档内的多次作者身份转换，而非单一跨度；而包含近似专家人类写作的推理模型输出进一步提高了难度。

---

## 4 SenFlow

图 2 展示了 SenFlow 的概览：代理模型（§4.1）馈送并行编码器，通过交叉注意力融合（§4.2），随后是 GCN + CRF 阶段，建模句间流（§4.3）。整个模型经过有监督训练。

SenFlow: 用于混合文档中AI生成文本检测的句子间流建模

相似文章

STARFlow2：连接语言模型与归一化流以实现统一的多模态生成

@JohnNguyen: 今天我们发布了 CVPR 2026 论文 Flowception 的代码。Flowception 在完全双向序列模型和自回归生成之间架起了桥梁……

随流而动：文本到图像模型中文本词元间的信息流动

掩码语言流模型

机器生成文本中隐藏的类人本质：理论与检测增强

提交意见反馈