基础模型被AI检测器视为人类
摘要
这篇论文揭示,GPTZero和Pangram等商用AI检测器将基础语言模型生成的文本判定为几乎完全是人类撰写,而经过指令微调的模型输出则被标记为AI生成。作者提出了HIP,一种与检测器无关的迭代改写流程,能在保持语义的同时提升文本的类人性。
arXiv:2605.19516v1 公告类型:新
摘要:随着AI生成文本大规模进入现实世界,各机构越来越多地使用商用AI文本检测器,尤其是在教育和学术诚信工作流程中。我们报告了一个关于此类系统的惊人实证发现:当由GPTZero和Pangram评估时,基础模型生成的文本通常被判为几乎完全是人类撰写,而经过指令微调对应的模型生成的文本则不然。基于这一发现,我们提出了通过迭代改写实现人类化(HIP),这是一种与检测器无关的流程,将基础模型微调为改写器并迭代应用。与我们测试的基线相比,HIP在商用检测器上实现了语义保留与规避检测之间更强的平衡。在Llama-3和Qwen-3系列中,涵盖从0.6B到70B的模型规模,HIP持续提升了检测器的类人性。我们的发现表明,当前的检测器追踪的是指令微调和局部上下文的伪影,而非机器生成文本的不变特征。这进而要求检测器设计更明确地对这些因素进行建模。
查看缓存全文
缓存时间: 2026/05/20 08:25
# Base Models Look Human To AI Detectors 来源:https://arxiv.org/html/2605.19516 Yixuan Even Xu Ziqian Zhong Aditi Raghunathan Fei Fang J\. Zico Kolter 卡内基梅隆大学 \{yixuanx,ziqianz,aditirag,feif,zkolter\}@cs\.cmu\.edu ###### 摘要 随着AI生成文本大规模进入现实世界,各机构越来越多地使用商用AI文本检测器,尤其是在教育和学术诚信工作流中。我们报告了一个关于此类系统的令人惊讶的实证发现:当由GPTZero和Pangram评估时,基础模型生成的文本通常被绝大多数判断为人类所写,而经过指令微调的同系列模型生成的文本则不然。基于这一观察,我们提出了**迭代释义人类化(HIP)**,这是一个检测器无关的流水线,它最小程度地微调一个基础模型成为释义器,并迭代地应用它。与我们测试的基线方法相比,HIP在语义保留和商用检测器规避之间实现了更强的权衡。在Llama-3和Qwen-3系列中,涵盖0.6B到70B的模型规模,HIP始终提高了检测器的人类似度。我们的发现表明,当前检测器更多是在追踪指令微调和局部上下文的痕迹,而非任何不变的机器生成文本概念。这进而呼吁检测器的设计更明确地建模这些因素。 ## 1 引言 随着大语言模型(LLM)文本变得普遍,区分人类撰写文本和机器生成文本已从纯学术问题变为实际问题。商用LLM文本检测系统如GPTZero (Adamet al.,2026 (https://arxiv.org/html/2605.19516#bib.bib9)) 和Pangram (Emi and Spero,2024 (https://arxiv.org/html/2605.19516#bib.bib6)) 已经出现,并已部署在现实应用场景中,包括作业筛选和作者审查 (GPTZero,2026 (https://arxiv.org/html/2605.19516#bib.bib27); Pangram,2026 (https://arxiv.org/html/2605.19516#bib.bib28))。与此同时,越来越多的工作研究如何通过将检测器作为优化目标来规避它们。这包括基于释义的重写,以及最近直接针对检测器API优化的基于强化学习的方法 (David and Gervais,2025 (https://arxiv.org/html/2605.19516#bib.bib22); Ranganath and Ramesh,2026 (https://arxiv.org/html/2605.19516#bib.bib23))。我们的工作提前一步:是否存在某些模型,其输出已经被商用检测器判断为人类撰写,而无需检测器感知的优化? 参见图注 图1:在给定人类撰写或AI生成前缀的条件下,由base和instruction-tuned Llama3-8B以及Qwen3-8B模型生成文本的GPTZero和Pangram人类概率分数。误差条显示95%置信区间。在两个模型家族中,基础模型续写被判断为明显比指令模型续写更人类。 答案是肯定的。当前的商用检测器判断基础模型续写远比为指令微调模型续写更人类。为了展示这一点,我们直接在人类撰写和AI生成的单句前缀下评估Llama-3-8B和Qwen3-8B。图1总结了结果。对于带人类前缀的Llama-3-8B,GPTZero和Pangram分别向基础模型的续写赋予96.7%和98.8%的人类概率,而向指令模型的续写分别赋予30.3%和17.1%。在AI前缀和Qwen3-8B上也出现了类似的差距。这些测量提示了两个关于当前检测器认为模型输出看似人类的操作直觉。第一个是**低失真**:更接近基础模型续写行为的输出比指令微调后的输出被判断为更像人类。第二个是**人类上下文**:人类前缀使模型续写比AI前缀略显得更像人类。换句话说,以已经来自人类撰写分布的文本为条件,可以从当前检测器的角度将后续续写推向更似人类的方向。这些观察启发了一个检测器无关的重写流水线。我们将基础模型最小程度地微调成一个释义器,同时使其保持接近基础模型续写行为,从而保留**低失真**。然后我们迭代应用它,使得局部上下文逐步从原始AI文本重写为**人类上下文**。我们将这个流水线称为***迭代释义人类化(HIP)**,并在图2中说明。在多种规模的Llama和Qwen模型上,HIP在我们研究的最先进商用检测器上,比起我们测试的先前方法(包括简单的提示释义、监督释义基线(Krishnaet al.,2023 (https://arxiv.org/html/2605.19516#bib.bib15))、Unicode替换基线(Creo and Pudasaini,2025 (https://arxiv.org/html/2605.19516#bib.bib29))和基于强化学习的检测器规避方法(Ranganath and Ramesh,2026 (https://arxiv.org/html/2605.19516#bib.bib23))),实现了更强的语义保留和规避之间的权衡。而且,与主要评估开源检测器的学术文献不同,我们在最先进商用检测器上进行了本次评估。 人类文本h_i{\color[rgb]{0,0,0.55}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,0.55}h_{i}} AI文本a_i{\color[rgb]{0.75,0.375,0}\definecolor[named]{pgfstrokecolor}{rgb}{0.75,0.375,0}a_{i}} AI释义 阶段1:数据收集 基础模型 释义器 M_para 文本 x^{(0)} ... x^{(N)} 阶段2:最小微调 阶段3:迭代释义 a_i → h_i 保留人类似度 释义 x^{(t)} 用于 x^{(t+1)} 图2:迭代释义人类化(HIP)概览。阶段1(数据收集):一个AI释义器将每个人类段落h_i重写为对应的AI版本a_i,生成配对数据D={(a_i, h_i)}。阶段2(最小微调):一个基础模型在a_i → h_i上轻量适配,得到释义器M_para,同时尽可能保留原生续写行为。阶段3(迭代释义):M_para被重复应用于输入段落,产生x^{(0)}, ..., x^{(N)},其输出对当前检测器来说逐渐变得更像人类。 我们总结贡献如下: - •我们识别出一个用商用检测器观察到的令人惊讶的经验模式:在相同前缀条件下,基础模型续写被判断为远为指令微调续写更像人类,这激发了关于什么使模型输出对当前检测器看似人类的两个直觉:**低失真**和**人类上下文**。 - •我们引入***迭代释义人类化(HIP)**,一个检测器无关的流水线,它最小程度地将基础模型适配成一个释义器并迭代应用,以人类化AI生成文本。经验上,HIP在Llama和Qwen模型家族以及一系列模型规模上有效,实现了比我们测试的先前方法更强的语义-规避权衡。 - •我们指出检测器侧的研究方向,认为未来系统应更明确地关注基础模型行为、后训练失真和局部上下文。 ## 2 相关工作 AI文本检测。随着LLM的进步,检测AI生成文本已成为一个重要实际问题。现有方法包括零样本或统计方法,如DetectGPT (Mitchellet al.,2023 (https://arxiv.org/html/2605.19516#bib.bib11)) 和Binoculars (Hanset al.,2024 (https://arxiv.org/html/2605.19516#bib.bib12)),以及在标记的人类和机器文本上训练的有监督分类器。商用检测器如Pangram (Emi and Spero,2024 (https://arxiv.org/html/2605.19516#bib.bib6)) 和GPTZero (Adamet al.,2026 (https://arxiv.org/html/2605.19516#bib.bib9)) 报告了使用在大规模人类和机器撰写文本语料上训练的有监督神经分类器实现的强大跨域性能。随着LLM越来越多地被用作协作合著者而非唯一生成者,人类与机器文本之间的边界也在模糊。Thai et al. (2025 (https://arxiv.org/html/2605.19516#bib.bib8))通过量化AI编辑的程度超越二元分类,而MixSet (Zhanget al.,2024 (https://arxiv.org/html/2605.19516#bib.bib10)) 在细微修订和混合作者场景中评估检测器。这部分文献主要评估由助手风格或后训练模型直接生成的文本。我们的论文转而研究当前检测器在未经修改的基础模型续写上的表现,特别是当以人类撰写的前缀为上下文时。 后训练期间的行为转移。指令微调和RLHF留下了统计指纹,这些指纹可以被表征,也能部分逆转。在表征方面,Casper et al. (2023 (https://arxiv.org/html/2605.19516#bib.bib18))将分布转移列为后训练的核心问题,具体的痕迹已被记录,包括回复长度 (Singhalet al.,2024 (https://arxiv.org/html/2605.19516#bib.bib5)) 和谄媚 (Sharmaet al.,2024 (https://arxiv.org/html/2605.19516#bib.bib4))。Movva et al. (2026 (https://arxiv.org/html/2605.19516#bib.bib1))使用稀疏自编码器分析偏好数据集,发现LMArena强烈青睐带有标题、列表和粗体文本的Markdown风格格式。在可逆性方面,Jindal et al. (2025 (https://arxiv.org/html/2605.19516#bib.bib2))记录了连续预训练显著降低指令性能,而Morris (2025 (https://arxiv.org/html/2605.19516#bib.bib3))通过低秩微调预训练数据从后训练后的GPT-OSS-20B恢复出类似基础的模型。我们的论文对这两个分支都有贡献:我们将检测器行为作为后训练转移的经验透镜,并发现良性持续暴露于基础风格数据足以恢复检测器人类似度,而无需任何检测器感知的优化。 对抗释义与检测器规避。AI文本检测器的部署伴随着越来越多关于如何规避它们的研究。Sadasivan et al. (2023 (https://arxiv.org/html/2605.19516#bib.bib19))分析释义行为是许多检测器的根本弱点,DAMAGE (Masrouret al.,2025 (https://arxiv.org/html/2605.19516#bib.bib7))研究检测器在人类化AI文本上的表现,并提出更鲁棒的检测器。近期方法包括温度引导释义如TempParaphraser (Huanget al.,2025 (https://arxiv.org/html/2605.19516#bib.bib20))、有监督重写模型如DIPPER (Krishnaet al.,2023 (https://arxiv.org/html/2605.19516#bib.bib15))、基于同形替换的正字法攻击如SilverSpeak (Creo and Pudasaini,2025 (https://arxiv.org/html/2605.19516#bib.bib29))、风格人类化方法如MASH (Guet al.,2026 (https://arxiv.org/html/2605.19516#bib.bib21)),以及基于强化学习的攻击如AuthorMist (David and Gervais,2025 (https://arxiv.org/html/2605.19516#bib.bib22)) 和StealthRL (Ranganath and Ramesh,2026 (https://arxiv.org/html/2605.19516#bib.bib23)),它们针对黑盒检测器API进行优化。除了学术文献,商用AI人类化器现在也被明确作为检测器规避工具销售,最近学术工作已开始系统研究此类系统 (Masrouret al.,2025 (https://arxiv.org/html/2605.19516#bib.bib7))。我们的论文在不同机制下研究检测器规避:我们使用最小适配来利用基础模型生成中已经存在的类人行为,在最先进商用检测器上评估(而不仅仅在开源或研究检测器上),并利用观察到的行为指出检测器的新研究方向。 上下文影响与迭代细化。LLM运行的上下文强烈影响其生成分布,因此迭代重写已成为检测器规避的自然设置。TH-Bench (Zhenget al.,2025 (https://arxiv.org/html/2605.19516#bib.bib24))研究针对检测器的人类化攻击,而PADBen (Zhaet al.,2025 (https://arxiv.org/html/2605.19516#bib.bib25))专门分析迭代释义并基准测试对释义攻击的鲁棒性。除了规避,迭代细化也是现代LLM的一般能力。Self-Refine (Madaanet al.,2023 (https://arxiv.org/html/2605.19516#bib.bib16))展示了一个单一模型可以通过重复反馈-修订循环改进输出。我们的论文将这些线索连接起来,询问迭代释义是否可以逐步将AI来源上下文替换为更似人类的上下文。 ## 3 方法论 我们在第1节中看到,当以人类文本为条件时,基础模型被当前检测器压倒性地检测为人类。如第1节所讨论的,这一现象提示了两个核心直觉:**低失真**和**人类上下文**。HIP通过一个检测器无关的流水线将这些直觉付诸实践:该流水线最小程度地将基础模型适配成一个释义器,然后迭代应用该释义器。该流水线包含三个阶段:数据准备、最小微调和迭代释义。我们在以下小节中描述每个阶段。 ### 3.1 数据准备 第一阶段构建配对样例D={(a_i, h_i)}_{i=1}^M,其中h_i是一个高质量人类段落,a_i是同一段落的AI释义。这里,配对的方向很重要:我们最终将训练一个模型将AI文本映射回人类文本。如算法1所总结,原始语料首先通过应用基本语料过滤器缩小为候选集,例如基于来源、长度或文档完整性。这些候选者随后被归一化为通用文本形式,并在语料级别去重。之后,文本质量筛选去除那些不适合重写的段落。只有在那之后我们才构建配对。对于每个剩余的人类段落h_i,一个外部释义器生成AI风格的重写a_i。配对构建使用有界拒绝和重采样:未通过异常检查或语义保留检查的候选被丢弃并重新生成,如果在一定重试预算内未获得有效释义,则丢弃该样例。本质上,HIP构建并训练于**经过过滤的人类目标**和**保留意义的AI风格源**上,而不是任意的原始文本。 算法1 数据准备 需要一个原始人类语料C_raw和释义重试预算K 输出配对数据集D={(a_i, h_i)} 1: C_cand ← FilterByProvenanceAndLength(C_raw) 2: C_dedup ← Deduplicate(Normalize(C_cand)) ...(后续步骤,原文被截断,但我们就按照现有文本翻译)相似文章
基础模型在AI检测器中像人类
一项研究发现,基础语言模型在AI检测器中看起来像是人类写的,而经过指令微调的模型则不然。作者提出了一种名为HIP的改写管道,该管道能在不同模型规模下提高文本的人类相似度,同时保持语义。
机器生成文本中隐藏的类人本质:理论与检测增强
本文揭示了机器生成文本中隐藏的类人片段的存在,并提出了一种与模型无关的堆叠增强框架,通过减少这些片段的影响来改进现有检测器。
Counter Turing Test 的发现:AI生成文本检测
本文介绍了 Counter Turing Test 共享任务在AI生成文本检测方面的发现,顶级系统在二分类任务中达到了完美表现,但在模型归因方面性能显著较低,突显了区分不同大语言模型输出的难度。
放大而非学习:微调后的AI文本检测器放大预训练方向
本文表明,微调后的AI文本检测器放大了预训练的典型性轴,而非学习AI与人类之间的界限,原始编码器投影通常达到或超过微调后的性能。
更好的语言模型及其影响
OpenAI 推出 GPT-2,这是一个拥有 15 亿参数的基于 Transformer 的语言模型,在 40GB 的互联网文本上进行训练,在语言建模基准上达到了最先进的性能,并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑,仅公开发布了较小的模型和技术论文,而非完整的训练模型。